Clasificación de tweets mediante modelos de aprendizaje supervisado

Chamorro Alvarado, Verónica Lucía

Publication:
Clasificación de tweets mediante modelos de aprendizaje supervisado

Files

TFM Veronica Chamorro Alvarado.pdf (1 MB)

Publication Date

2018

Authors

Chamorro Alvarado, Verónica Lucía

Advisors (or tutors)

García Ruiz, Yolanda

Citations

Exportar

Abstract

En los últimos años las redes sociales han generado una gran cantidad de datos que se emplean como una fuente de información. En muchos casos el análisis de estas fuentes de información nos permite conocer casi al instante situaciones atípicas como por ejemplo accidentes de tráfico, congestión excesiva, el estado de las carreteras, etc. En este trabajo usamos Twitter como fuente datos y nos proponemos desarrollar un método para analizar el texto de un conjunto de tweets. Este método permite clasificar dichos tweets en 2 clases: “Tráfico”, “Contaminación”. Empleamos varios algoritmos de clasificación supervisada, que fueron previamente entrenados. Se estudiaron los siguientes cuatro algoritmos, Bayes Naive multiclase, arboles de decisión, k-vecinos más cercanos y máquina de vectores de soporte, para obtener la exactitud de cada uno, y analizar cuál es el mejor algoritmo de clasificación para este caso de estudio. En los resultados obtenidos, con el algoritmo máquina de vectores de soporte, se logra un valor de exactitud de 85.22 % para la clasificación de eventos de tráfico y no tráfico. Además, fuimos capaces de realizar la clasificación multiclase, donde se obtuvo un valor de exactitud de 78.84%.
In recent years social networks have generated a large amount of data, which is used as a source of information for several applications. In many cases analyzing these sources of information allow us to know almost instantly atypical situations, such as traffic accidents, traffic jumps, state of the roads, etc. In this work we use Twitter as source of information, and we propose to develop a method to analize the text of a set of tweets. This method allows classifying those tweets into two classes: “Traffic” , and “Pollution”. We used several supervised classification algorithms, that were previously trained. The following four algorithms, Bayes Naive multiclase, decision trees, k-neighbors nearest and support vector machines, which were studied to obtain their accuracy, and to analyze the best classification algorithm for this case study. The results obtained, with the support vector machine algorithm, show an accuracy value of 85.22 % for the classification of traffic events and non-traffic. In addition, we were able to perform the multiclass classification, where the accuracy value is 78.84%.

Description

Facultad de Informática. Departamento de Sistemas Informáticos y Computación, curso 2017-2018

Publication:
Clasificación de tweets mediante modelos de aprendizaje supervisado

Files

Official URL

Full text at PDC

Publication Date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

Research Projects

Organizational Units

Journal Issue

Abstract

Description

UCM subjects

Unesco subjects

Keywords

Citation

URI

Collections

Publication: Clasificación de tweets mediante modelos de aprendizaje supervisado

Files

Official URL

Full text at PDC

Publication Date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

Research Projects

Organizational Units

Journal Issue

Abstract

Description

UCM subjects

Unesco subjects

Keywords

Citation

URI

Collections

Publication:
Clasificación de tweets mediante modelos de aprendizaje supervisado