Universidad Complutense de Madrid
E-Prints Complutense

Clasificación de tweets mediante modelos de aprendizaje supervisado

Impacto

Downloads

Downloads per month over past year



Chamorro Alvarado, Verónica Lucía (2018) Clasificación de tweets mediante modelos de aprendizaje supervisado. [Trabajo Fin de Máster]

[img]
Preview
PDF
1MB


Abstract

En los últimos años las redes sociales han generado una gran cantidad de datos que se emplean como una fuente de información. En muchos casos el análisis de estas fuentes de información nos permite conocer casi al instante situaciones atípicas como por ejemplo accidentes de tráfico, congestión excesiva, el estado de las carreteras, etc. En este trabajo usamos Twitter como fuente datos y nos proponemos desarrollar un método para analizar el texto de un conjunto de tweets. Este método permite clasificar dichos tweets en 2 clases: “Tráfico”, “Contaminación”.
Empleamos varios algoritmos de clasificación supervisada, que fueron previamente entrenados. Se estudiaron los siguientes cuatro algoritmos, Bayes Naive multiclase, arboles de decisión, k-vecinos más cercanos y máquina de vectores de soporte, para obtener la exactitud de cada uno, y analizar cuál es el mejor algoritmo de clasificación para este caso de estudio. En los resultados obtenidos, con el algoritmo máquina de vectores de soporte, se logra un valor de exactitud de 85.22 % para la clasificación de eventos de tráfico y no tráfico. Además, fuimos capaces de realizar la clasificación multiclase, donde se obtuvo un valor de exactitud de 78.84%.

Resumen (otros idiomas)

In recent years social networks have generated a large amount of data, which is used as a source of information for several applications. In many cases analyzing these sources of information allow us to know almost instantly atypical situations, such as traffic accidents, traffic jumps, state of the roads, etc. In this work we use Twitter as source of information, and we propose to develop a method to analize the text of a set of tweets. This method allows classifying those tweets into two classes: “Traffic” , and “Pollution”. We used several supervised classification algorithms, that were previously trained. The following four algorithms, Bayes Naive multiclase, decision trees, k-neighbors nearest and support vector machines, which were studied to obtain their accuracy, and to analyze the best classification algorithm for this case study. The results obtained, with the support vector machine algorithm, show an accuracy value of 85.22 % for the classification of traffic events and non-traffic. In addition, we were able to perform the multiclass classification, where the accuracy value is 78.84%.

Item Type:Trabajo Fin de Máster
Additional Information:

Facultad de Informática. Departamento de Sistemas Informáticos y Computación, curso 2017-2018

Directors:
DirectorsDirector email
García Ruiz, Yolanda
Uncontrolled Keywords:Detección de eventos de tráfico, Detección de eventos de contaminación, SVM, Algoritmos de clasificación
Palabras clave (otros idiomas):Traffic event detection, Pollution event detection, SVM, Algorithms of classification
Subjects:Sciences > Computer science
Título del Máster:Máster en Ingeniería Informática
ID Code:49774
Deposited On:26 Oct 2018 12:46
Last Modified:26 Oct 2018 12:47

Origin of downloads

Repository Staff Only: item control page