Universidad Complutense de Madrid
E-Prints Complutense

Detección offline de subtemas en Twitter durante eventos

Impacto

Descargas

Último año



Jiménez del Olmo, Beatriz (2018) Detección offline de subtemas en Twitter durante eventos. [Trabajo fin de Máster]

[img]
Vista previa
PDF
14MB


Resumen

Hoy en día las redes sociales juegan un papel muy importante en nuestras vidas, al convertirse en el principal medio para compartir todo tipo de contenidos, desde la opinión de los usuarios sobre programas de televisión favoritos o las experiencias de su día a día, hasta comentarios sobre las noticias de última hora. Su estudio puede revelar aspectos muy interesantes para analistas, si somos capaces de extraer la valiosa información incrustada en sus inmensos flujos de información.
Por ello, en este trabajo se presenta un método de exploración para Twitter que, a partir del conjunto de tweets emitidos durante un evento, permite detectar los temas que, a juicio de los usuarios, han tenido mayor relevancia durante su desarrollo. Permite, por tanto, analizar el evento obteniendo una imagen general de lo más comentado.
El método propuesto presenta un enfoque que parte de la relación temporal entre los tweets, considerando que tweets que se emiten en una misma ventana de tiempo tienen más posibilidades de formar parte de una noticia, para a continuación agrupar los tweets de la misma ventana según su similaridad textual.
Una vez detectados los temas del evento analizado, se proponen dos métodos de agrupación y representación de los resultados, permitiendo al usuario organizar los temas según dos criterios diferentes, ya sea por la proximidad temporal entre ellos o bien por la relación textual entre los temas que debaten. Para probar la capacidad de detección del método, se ha aplicado sobre conjuntos de datos de eventos de diferentes características, que tienen en común su alto seguimiento en Twitter.

Resumen (otros idiomas)

Nowadays Social Media plays an important role in our life. It has become the main way to share all kinds of content, from users’ opinion about their favorites TV shows, their daily experiences, or commenting the breaking news. The study of these messages can reveal very important facts to analysts, but only after extracting the important information that is embedded in the huge flows of data. With this purpose, this work presents a method for Twitter exploration that, starting from a set of tweets published during an event, detects the topics that are more relevant based on the users opinion. Thus, the system analyzes the event, obtaining the highlights of the most commented topics. The proposed method considers first the temporal relation of the tweets, assuming that messages published on the same time window are more likely to be a member of the same topic. Then, those tweets that belong to the same window are clustered by their textual similarity. Once we detect the topics related to the analyzed event, we propose two methods to aggregate and represent the results, allowing the user to organize the topics either by temporal proximity among them or by the textual relation among their opinions. In order to test the detection ability of the method, the system has been tested in several datasets with specific characteristics, which have in common their high popularity in Twitter.

Tipo de documento:Trabajo fin de Máster
Información Adicional:

Máster en Ingeniería Informática, Facultad de Informática, Departamento de Sistemas Informáticos y Computación, curso 2017-2018.

Directores (o tutores):
NombreEmail del director (o tutor)
Caballero Roldán, Rafael
Palabras clave:Detección de temas, Recuperación de información, microblogs, Twitter, Redes sociales, Visualización de datos, TF-IDF, Similaridad textual, Clustering
Palabras clave (otros idiomas):Topic detection, Information retrieval, microblog, Twitter, Social Media, Data visualization, TF-IDF, Textual similarity, Clustering
Materias:Ciencias > Informática > Bases de datos
Ciencias > Informática > Inteligencia artificial
Ciencias > Informática > Redes de ordenadores
Título del Máster:Máster en Ingeniería Informática
Código ID:48808
Depositado:27 Jul 2018 12:21
Última Modificación:27 Jul 2018 12:21

Descargas en el último año

Sólo personal del repositorio: página de control del artículo