Generador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter
Training dataset generation from public messages in Twitter for a gender prediction intelligent system

Impacto

Downloads

Downloads per month over past year



Llamas Do Espíritu Santo, Pedro (2021) Generador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter. [Trabajo Fin de Grado]

[thumbnail of LLAMAS_DO_ESPIRITU_SANTO_Generador_de_un_conjunto_de_datos_de_entrenamiento_de_un_sistema_inteligente_para_prediccion_de_genero_a__1824096020.pdf] PDF
Creative Commons Attribution Non-commercial.

1MB


Abstract

En este trabajo se ha desarrollado una aplicación generadora de conjuntos de datos de entrenamiento (dataset) a partir del texto contenido en los mensajes de un usuario de Twitter, con la finalidad de predecir, mediante el uso de sistemas inteligentes, el género de la persona detrás de un usuario en esa plataforma. Tras obtener el acceso a la información de la plataforma utilizando las APIs de la misma, se identificó con un proceso automático una cantidad igual de usuarios hombres y mujeres cuyos mensajes estuvieran escritos en español además de otras características; y posteriormente se recolectaron los mensajes de los mismos. A partir de estos mensajes se extrajeron y cuantificaron una serie de características lingüísticas, las mismas para cada usuario. Finalmente, a partir de las características cuantificadas, se creó el correspondiente conjunto de datos con la información debidamente diferenciada por género. Para llegar a la conclusión de que el conjunto de datos generado sirve para entrenar sistemas inteligentes, se validó con un clasificador basado en Máquinas de Vectores de Soporte, entrenándolo con dicho conjunto y comparando los resultados con los de estudios previos similares

Resumen (otros idiomas)

In this work, an application has been developed that generates training data sets (dataset) from the text contained in the messages of a Twitter user, in order to predict, through the use of intelligent systems, the gender of the person behind a user on that platform. After gaining access to the information on the platform using its APIs, an equal number of male and female users were identified with an automatic process whose messages were written in Spanish in addition to other characteristics; and later their messages were collected. From these messages, a set of linguistic characteristics were extracted and quantified, the same for each user. Finally, based on the quantified characteristics, the corresponding data set was created with the information duly differentiated by gender. To reach the conclusion that the generated data set is valid for training intelligent systems, it was validated with a classifier based on Support Vector Machines, training it with the generated set and comparing the results with those of previous similar studies.

Item Type:Trabajo Fin de Grado
Additional Information:

Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020/2021

Directors:
Directors
Román Navarro, Sara
Uncontrolled Keywords:Twitter, Género, Sistema inteligente, Máquina de Vectores de Soporte, Entrenamiento, Conjunto de datos
Palabras clave (otros idiomas):Twitter, Gender, Intelligent system, Support Vector Machine, Training, Dataset
Subjects:Sciences > Computer science
Título de Grado:Ingeniería Informática
ID Code:64842
Deposited On:17 May 2021 13:46
Last Modified:17 May 2021 13:46

Origin of downloads

Repository Staff Only: item control page