Publication:
Clasificación de tweets mediante modelos de aprendizaje supervisado

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2018
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
En los últimos años las redes sociales han generado una gran cantidad de datos que se emplean como una fuente de información. En muchos casos el análisis de estas fuentes de información nos permite conocer casi al instante situaciones atípicas como por ejemplo accidentes de tráfico, congestión excesiva, el estado de las carreteras, etc. En este trabajo usamos Twitter como fuente datos y nos proponemos desarrollar un método para analizar el texto de un conjunto de tweets. Este método permite clasificar dichos tweets en 2 clases: “Tráfico”, “Contaminación”. Empleamos varios algoritmos de clasificación supervisada, que fueron previamente entrenados. Se estudiaron los siguientes cuatro algoritmos, Bayes Naive multiclase, arboles de decisión, k-vecinos más cercanos y máquina de vectores de soporte, para obtener la exactitud de cada uno, y analizar cuál es el mejor algoritmo de clasificación para este caso de estudio. En los resultados obtenidos, con el algoritmo máquina de vectores de soporte, se logra un valor de exactitud de 85.22 % para la clasificación de eventos de tráfico y no tráfico. Además, fuimos capaces de realizar la clasificación multiclase, donde se obtuvo un valor de exactitud de 78.84%.
In recent years social networks have generated a large amount of data, which is used as a source of information for several applications. In many cases analyzing these sources of information allow us to know almost instantly atypical situations, such as traffic accidents, traffic jumps, state of the roads, etc. In this work we use Twitter as source of information, and we propose to develop a method to analize the text of a set of tweets. This method allows classifying those tweets into two classes: “Traffic” , and “Pollution”. We used several supervised classification algorithms, that were previously trained. The following four algorithms, Bayes Naive multiclase, decision trees, k-neighbors nearest and support vector machines, which were studied to obtain their accuracy, and to analyze the best classification algorithm for this case study. The results obtained, with the support vector machine algorithm, show an accuracy value of 85.22 % for the classification of traffic events and non-traffic. In addition, we were able to perform the multiclass classification, where the accuracy value is 78.84%.
Description
Facultad de Informática. Departamento de Sistemas Informáticos y Computación, curso 2017-2018
Unesco subjects
Keywords
Citation