ACTIVISM:  Plataforma para el análisis de temas de corrupción a partir de información de redes sociales

Speaker 1

INTEGRANTES

Carlos Javier Carvajal Montealegre

SEMESTRE

2019

PALABRAS CLAVE

OBJETIVO GLOBAL

Diseñar e implementar un sistema de información que, a partir de datos provenientes de la red social Twitter, permita analizar los contenidos asociados con noticias de corrupción, para descubrir las relaciones entre los mencionados en los casos, de manera que los ciudadanos puedan encontrar hallazgos que les permitan hacer control social y que puedan tomar decisiones informadas para elegir a sus dirigentes. Para ello, es necesario descubrir relaciones de tipo político, laboral, familiar, comercial, empresarial, académica, entre las entidades nombradas. Ejemplos de estas relaciones son militancia en un partido político, parentesco o cargo ocupado en una empresa.

OBJETIVOS ESPECíFICOS

  • Aplicar el sistema de información propuesto sobre temas de corrupción en Colombia publicados en la red social Twitter.
  • Obtener un modelo entrenado en el contexto político y económico del país, que permita reconocer y extraer entidades mencionadas en los tuits, adaptable a la evolución de contexto.
  • Implementar los componentes necesarios para identificar las relaciones presentes en los tuits y realizar enriquecimiento semántico sobre las entidades reconocidas, mediante el uso de fuentes públicas de datos, con el fin de ofrecer un contexto a los usuarios del sistema.
  • Diseñar e implementar los componentes que permitan detectar las entidades con mayor prominencia en el tema consultado.
  • Definir e implementar la visualización apropiada para presentar a un usuario la información recopilada y los patrones hallados.

RESULTADOS TÉCNICOS

Activism es un sistema escalable y extensible en cuanto a su arquitectura, está diseñado para realizar análisis de texto independientemente de la fuente, el análisis se lleva a cabo sobre la información encontrada a partir de una búsqueda iniciada por el usuario. El flujo de Activism comprende las siguientes fases:

Reconocimiento y unificación de entidades; donde los textos son analizados y se lleva a cabo la labor de Named Entity Recognition, para obtener las entidades sobre las cuales se habla en los textos. Se usan modelos de aprendizaje de maquina entrenados para tal fin. Ademas, dada la posible duplicidad de entidades reconocidas se lleva a cabo un proceso de unificación.

Conteo de entidades; con el fin de determinar la frecuencia de aparición de las entidades en el texto y darle al usuario la posibilidad de entender cuales son los temas mas relevantes sobre la búsqueda realizada.

Clasificación de popularidad de entidades; mediante parámetros del sistema se seleccionan las entidades más populares para que sean enriquecidas semánticamente.

Descubrimiento y extracción de relaciones; tres tipos de relaciones son encontradas por Activism, las que se encuentran por el proceso de enriquecimiento semántico, las denominadas populares, por el hecho de estar reflejadas en un número determinado de textos y las relaciones estáticas, que son encontradas con una heurística mediante el uso de una base de conocimiento ad hoc de relaciones creada a priori.

Los resultados de estas fases se presentan al usuario para que pueda tener un contexto basado en datos sobre la búsqueda realizada. En la implementación actual, Activism obtiene los datos textuales de consultas sobre la red social Twitter, sin embargo, dado su diseño puede tener como entrada, cualquier fuente de datos de texto.

Debido al diseño de Activism, es posible cambiar los componentes para que trabaje en diferentes contextos.

Se obtuvo un conjunto de datos compuesto de tuits escritos por actores políticos y económicos del país, dichos actores fueron escogidos buscando un balance entre la tendencia política que representan (izquierda, centro, derecha). La recolección se dio entre el 27 de septiembre de 2018 hasta el 11 de noviembre del 2018 logrando 2127 tuits.  Sobre este conjunto de tuits, se anotaron 758 para identificar las entidades mencionadas en cada uno; se lograron identificar 2651 entidades entre todo el conjunto. Con los tuits anotados se entrenó un modelo de NER que logró las métricas:

  • Precision: 81%
  • Recall: 55%

Se probó el modelo NER de Stanford con el mismo conjunto de datos, este modelo dio los siguientes resultados:

  • Precision: 48%
  • Recall: 30%

Ambos modelos se usaron de manera híbrida en la implementación final.

Activism se probó con el mismo conjunto de tuits mencionado, con el fin de ajustar los parámetros y medir los resultados al analizar los textos, obteniendo:

  • Entidades descubiertas: 2881
  • Relaciones semánticas: 932
  • Relaciones populares: 84
  • Relaciones estáticas: 14

VALOR PARA EL NEGOCIO

En el contexto propuesto, Activism permite al usuario entender las posiciones de los actores políticos, al hacer evidentes las relaciones entre estos, ademas, invita al usuario a ahondar en la investigación de un tema, mediante nuevas búsquedas o por sus propios medios en otras fuentes.

El uso de Activism para tener un contexto basado en datos, es de utilidad para que los ciudadanos realicen control social y tomen decisiones informadas al votar por sus dirigentes. 

Contáctenos

Dirección

Edificio Mario Laserna Cra 1Este No 19A - 40 | Oficina ML-772 | Bogotá (Colombia)

Teléfono

[571] 3394949 Ext: 2860, 2862