Generador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter

Llamas Do Espíritu Santo, Pedro

Publication:
Generador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter

Files

LLAMAS_DO_ESPIRITU_SANTO_Generador_de_un_conjunto_de_datos_de_entrenamiento_de_un_sistema_inteligente_para_prediccion_de_genero_a__1824096020.pdf (1.65 MB)

Publication Date

2021

Authors

Llamas Do Espíritu Santo, Pedro

Advisors (or tutors)

Román Navarro, Sara

Citations

Exportar

Abstract

En este trabajo se ha desarrollado una aplicación generadora de conjuntos de datos de entrenamiento (dataset) a partir del texto contenido en los mensajes de un usuario de Twitter, con la finalidad de predecir, mediante el uso de sistemas inteligentes, el género de la persona detrás de un usuario en esa plataforma. Tras obtener el acceso a la información de la plataforma utilizando las APIs de la misma, se identificó con un proceso automático una cantidad igual de usuarios hombres y mujeres cuyos mensajes estuvieran escritos en español además de otras características; y posteriormente se recolectaron los mensajes de los mismos. A partir de estos mensajes se extrajeron y cuantificaron una serie de características lingüísticas, las mismas para cada usuario. Finalmente, a partir de las características cuantificadas, se creó el correspondiente conjunto de datos con la información debidamente diferenciada por género. Para llegar a la conclusión de que el conjunto de datos generado sirve para entrenar sistemas inteligentes, se validó con un clasificador basado en Máquinas de Vectores de Soporte, entrenándolo con dicho conjunto y comparando los resultados con los de estudios previos similares
In this work, an application has been developed that generates training data sets (dataset) from the text contained in the messages of a Twitter user, in order to predict, through the use of intelligent systems, the gender of the person behind a user on that platform. After gaining access to the information on the platform using its APIs, an equal number of male and female users were identified with an automatic process whose messages were written in Spanish in addition to other characteristics; and later their messages were collected. From these messages, a set of linguistic characteristics were extracted and quantified, the same for each user. Finally, based on the quantified characteristics, the corresponding data set was created with the information duly differentiated by gender. To reach the conclusion that the generated data set is valid for training intelligent systems, it was validated with a classifier based on Support Vector Machines, training it with the generated set and comparing the results with those of previous similar studies.

Description

Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020/2021

Publication:
Generador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter

Files

Official URL

Full text at PDC

Publication Date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

Research Projects

Organizational Units

Journal Issue

Abstract

Description

UCM subjects

Unesco subjects

Keywords

Citation

URI

Collections

Publication: Generador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter

Files

Official URL

Full text at PDC

Publication Date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

Research Projects

Organizational Units

Journal Issue

Abstract

Description

UCM subjects

Unesco subjects

Keywords

Citation

URI

Collections

Publication:
Generador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter