Universidad Complutense de Madrid
E-Prints Complutense

Detección offline de subtemas en Twitter durante eventos

Impacto

Downloads

Downloads per month over past year



Jiménez del Olmo, Beatriz (2018) Detección offline de subtemas en Twitter durante eventos. [Trabajo Fin de Máster]

[img]
Preview
PDF
14MB


Abstract

Hoy en día las redes sociales juegan un papel muy importante en nuestras vidas, al convertirse en el principal medio para compartir todo tipo de contenidos, desde la opinión de los usuarios sobre programas de televisión favoritos o las experiencias de su día a día, hasta comentarios sobre las noticias de última hora. Su estudio puede revelar aspectos muy interesantes para analistas, si somos capaces de extraer la valiosa información incrustada en sus inmensos flujos de información.
Por ello, en este trabajo se presenta un método de exploración para Twitter que, a partir del conjunto de tweets emitidos durante un evento, permite detectar los temas que, a juicio de los usuarios, han tenido mayor relevancia durante su desarrollo. Permite, por tanto, analizar el evento obteniendo una imagen general de lo más comentado.
El método propuesto presenta un enfoque que parte de la relación temporal entre los tweets, considerando que tweets que se emiten en una misma ventana de tiempo tienen más posibilidades de formar parte de una noticia, para a continuación agrupar los tweets de la misma ventana según su similaridad textual.
Una vez detectados los temas del evento analizado, se proponen dos métodos de agrupación y representación de los resultados, permitiendo al usuario organizar los temas según dos criterios diferentes, ya sea por la proximidad temporal entre ellos o bien por la relación textual entre los temas que debaten. Para probar la capacidad de detección del método, se ha aplicado sobre conjuntos de datos de eventos de diferentes características, que tienen en común su alto seguimiento en Twitter.

Resumen (otros idiomas)

Nowadays Social Media plays an important role in our life. It has become the main way to share all kinds of content, from users’ opinion about their favorites TV shows, their daily experiences, or commenting the breaking news. The study of these messages can reveal very important facts to analysts, but only after extracting the important information that is embedded in the huge flows of data. With this purpose, this work presents a method for Twitter exploration that, starting from a set of tweets published during an event, detects the topics that are more relevant based on the users opinion. Thus, the system analyzes the event, obtaining the highlights of the most commented topics. The proposed method considers first the temporal relation of the tweets, assuming that messages published on the same time window are more likely to be a member of the same topic. Then, those tweets that belong to the same window are clustered by their textual similarity. Once we detect the topics related to the analyzed event, we propose two methods to aggregate and represent the results, allowing the user to organize the topics either by temporal proximity among them or by the textual relation among their opinions. In order to test the detection ability of the method, the system has been tested in several datasets with specific characteristics, which have in common their high popularity in Twitter.

Item Type:Trabajo Fin de Máster
Additional Information:

Máster en Ingeniería Informática, Facultad de Informática, Departamento de Sistemas Informáticos y Computación, curso 2017-2018.

Directors:
DirectorsDirector email
Caballero Roldán, Rafael
Uncontrolled Keywords:Detección de temas, Recuperación de información, microblogs, Twitter, Redes sociales, Visualización de datos, TF-IDF, Similaridad textual, Clustering
Palabras clave (otros idiomas):Topic detection, Information retrieval, microblog, Twitter, Social Media, Data visualization, TF-IDF, Textual similarity, Clustering
Subjects:Sciences > Computer science > Databases
Sciences > Computer science > Artificial intelligence
Sciences > Computer science > Computer networks
Título del Máster:Máster en Ingeniería Informática
ID Code:48808
Deposited On:27 Jul 2018 12:21
Last Modified:27 Jul 2018 12:21

Origin of downloads

Repository Staff Only: item control page