Publication:
Relación entre renta per cápita y características del lenguaje utilizado en redes sociales

Research Projects
Organizational Units
Journal Issue
Abstract
Este trabajo pretende comprobar si existe relación entre la renta per cápita de los usuarios de Twitter y el lenguaje que utilizan al escribir sus tweets. Para lograrlo, se ha recopilado una gran cantidad de tweets con coordenadas a fin de obtener una cantidad suficiente de personas para nuestro estudio. Estos se han ido descargando durante varias semanas de lunes a jueves por la noche. Se ha supuesto, por un lado, que los usuarios emiten los tweets desde su domicilio y, por otro, que sus datos de renta coinciden con los de la zona en la que viven. Tras asociarles la renta, se ha realizado una selección de usuarios para reunir únicamente aquellos que consideramos relevantes para el estudio. Hecho esto, se ha llevado a cabo la descarga de sus tweets durante un largo periodo de tiempo. Con los tweets recopilados y sus datos de renta asociados, se inicia un análisis del lenguaje. Buscamos hallar disimilitudes estadísticamente significativas entre aquellos tweets escritos por usuarios con rentas más altas y aquellos cuyos autores poseen rentas menores. Se comprueba que, en efecto, existen ciertas diferencias remarcables. En particular, las personas cuya renta es mayor reflejan un sentimiento más positivo en sus tweets, incluyen más números en sus mensajes y cometen menos errores ortográficos. Sin embargo, hacen uso de una cantidad menor de palabras y su volumen de tweets publicados es más bajo. Los usuarios con menor renta, por su parte, utilizan una mayor cantidad de verbos y menciones, aunque emplean menos emoticonos. Finalmente, se realizan pruebas con algoritmos de machine learning que, a pesar de no permitir predecir la renta a partir de los rasgos del lenguaje, sí confirman la dependencia existente entre la renta y la forma de expresarse en la red social.
This project tries to prove if there is any relationship between Twitter users’ income and language used on their tweets. To reach this, we have gathered together a large amount of tweets containing coordinates so that we can obtain a sufficient amount of people for the study. We have been downloading these tweets for a long time from Monday to Thusrday in the evening. On the one hand, we have assumed that users upload their tweets from their place of residence. On the other hand, we suppose their income is consistent with the area where they live. Once the income is associated with our users, we have selected the users considered relevant for our investigation. Next, we have been downloading their tweets for some months, so that we can carry out a language analysis. We look for statistically significant dissimilarities between those tweets written by higher income users and those written by users whose income is lower. We prove that, in fact, there exist some remarkable differences. In particular, people whose income is higher reflect a more positive feeling on their tweets. Besides, they include more numbers on their messages and fewer spelling mistakes. However, they use fewer words and their level of posts is lower. In contrast, lower income users use more verbs and mentions, although they employ fewer emoticons. Finally, we conduct tests with machine learning algorithms. Despite not being able to make predictions about income on the basis of language features, they confirm a dependency between income and the way users express on the social network.
Description
Trabajo de Fin de Doble Grado en Ingeniería Informática y Matemáticas, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2021/2022.
Unesco subjects
Keywords
Citation