Estudio comparativo de técnicas tradicionales del modelado de tópicos frente a redes neuronales artificiales tomando como contexto el discurso digital del autor en la red social Twitter y otras publicaciones

ORGANIZACIÓN

Investigación

INTEGRANTES

Estudiante:

John Harley Rincón

Asesora:

Haydemar Maria Nuñez Castro

SEMESTRE

2021

PALABRAS CLAVE

Modelamiento de tópicos, LDA, LSA, pLSA, Redes Neuronales, Twitter

OBJETIVO GLOBAL

Minuto a minuto ideas, pensamientos, opiniones, libros, documentos, mensajes entre otros, son plasmados en el mundo a través de diferentes plataformas digitales disponibles para el uso de la humanidad. Este crecimiento exponencial de textos digitales ha traído diferentes desafíos de cara al análisis, comprensión y entendimiento humano, por ejemplo, entender en un año de publicaciones de un periódico cuál fue el tema principal del que se habló en un país, conocer de los tweets disponibles cuál es el discurso real de un personaje político o extraer los detalles ocultos que se encuentran plasmados en los manuscritos de Leonardo Da Vinci.

Realizar cualquiera de estas actividades de parte de un humano podría tomar un tiempo prolongado e indeterminado. Por fortuna, en los últimos años, dentro del campo del aprendizaje automático han surgido diversas técnicas que apoyan esta problemática y delegan este análisis de texto a las máquinas, entre estas se encuentra el modelado de tópicos. Esta propuesta basa su funcionamiento en el marco estadístico buscando apoyar el procesamiento y exploración de grandes volúmenes de textos digitales encontrando en ellos patrones ocultos que a simple vista no son fáciles de encontrar por un humano; es decir, es capaz de procesar colecciones de documentos digitales mostrando el espacio latente de los textos y revelando el significado profundo de la colección, del que se habla realmente.

A hoy, el modelamiento de tópicos cuenta con diversas técnicas tradicionales tales como: el análisis semántico latente (LSA), el análisis semántico latente de índole probabilística (pLSA) y la asignación o “colocación” latente de Dirichlet (LDA). En un camino paralelo, pero no diferente se encuentran las técnicas basadas en redes neuronales (NN) en constante crecimiento y adopción debido a los avances en procesamiento y almacenamiento de datos los cuáles han facilitado su entrenamiento y despliegue, entre las técnicas basadas en redes neuronales se encuentran los autocodificadores y las máquinas restringidas de Boltzmann. Las redes neuronales son versátiles al momento de procesar diferentes tipos de datos, entre ellos el procesamiento de textos digitales, por esta razón son usadas para el modelado de tópicos.

Esta investigación presenta una comparativa de las técnicas tradicionales del modelado de tópicos frente a redes neuronales tomando como contexto el pensamiento plasmado de diferentes autores en documentos digitales cortos y largos tomados de la red social Twitter y blogs de cada autor. La base para el comparativo se tomará a partir de los resultados obtenidos por las diferentes métricas de coherencia disponibles.

Contáctenos

Dirección

Edificio Mario Laserna Cra 1Este No 19A - 40 | Oficina ML-772 | Bogotá (Colombia)

Teléfono

[571] 3394949 Ext: 2860, 2862

Email

mine@uniandes.edu.co