Publication:
Un modelo de análisis estilométrico de correos electrónicos para la redacción personalizada basada en el destinatario

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2020
Advisors (or tutors)
Méndez Pozo, Gonzalo
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
Hoy en día se envían más de 306 mil millones de correos electrónicos diarios tanto en el ámbito profesional como el personal. Sin embargo, a pesar de que el canal sea el mismo, nuestro estilo varía en función del destinatario del mensaje. La estilometría en correos electrónicos es un campo de estudio reciente que trata de parametrizar el estilo de escritura a través de métricas. La mayoría de las investigaciones en este campo se centran en la detección de spam o identificación y autenticación de la autoría de los mensajes. En este trabajo se plantea un nuevo enfoque: estudiar el estilo dependiendo del destinatario del correo electrónico. El avance en esta dirección permitiría personalizar los sistemas de redacción de correos electrónicos de manera que fueran capaces de generar mensajes distintos en función del destinatario. En este trabajo se desarrolla una herramienta de análisis estilométrico de correos electrónicos, para el servicio de Gmail, que permite extraer y calcular distintas métricas de los mensajes de un usuario. Dicho analizador de estilo cuenta con cuatro módulos (extracción, preprocesamiento, corrección tipográfica y medición de estilo) que abordan las distintas fases necesarias para obtener los descriptores de estilo de cada uno de los mensajes. Una vez se cuenta con los resultados al evaluar las distintas métricas sobre cada mensaje, se analizan. Para ello se hace uso de populares técnicas de aprendizaje automático como K-Medias, Análisis de Componentes Principales y Árboles de Decisión. El objetivo es extraer conclusiones que permitan proponer un modelo de análisis estilométrico de correos electrónicos para la redacción personalizada basada en el destinatario. En este análisis de datos se encuentran ocho métricas que distinguen mejor el estilo en función del receptor de la información. Por último, se presenta el diseño de un sistema que utiliza estas ocho métricas para redactar correos electrónicos distintos según el destinatario. Este modelo puede ser de utilidad para personalizar aquellos sistemas de generación de lenguaje natural en función del destinatario, o de la audiencia a la que va dirigida el texto.
Nowadays, more than 306 billion e-mails are sent daily, both in the professional and personal scopes. However, despite the fact that the channel is the same, our style varies depending on the recipient of the message. Stylometry in e-mails is a recent field of study that tries to obtain the definition of writing style through metrics. Nevertheless, most research in this field focuses on spam detection or message author identification and authentication. In this work a new approach is proposed: to study the style depending on the recipient of the e-mail. Moving in this direction would allow us to personalise e-mail writing systems so that they are capable of generating different messages depending on the recipient. In this work we develop a tool for the stylometric analysis of e-mails, for the Gmail service, which allows us to extract and calculate different metrics from the messages of a user. This style analyser has four modules (extraction, preprocessing, typographic correction and style measuring) that deal with the different phases needed to obtain the style descriptors of each of the messages. Once we have the results of evaluating the different metrics on each message, we analyse them. To this end, we use popular machine learning techniques such as K-Means, Principal Component Analysis and Decision Trees. The objective is to draw conclusions that allow us to propose a model of stylometric analysis of e-mails for personalized writing based on the recipient. In this data analysis we find eight metrics that better distinguish style according to the receiver of the information. Finally, we present the design of a system that uses these eight metrics to write different e-mails according to the recipient. This model can be useful to personalise those natural language generation systems depending on the recipient, or on the audience to which the text is addressed.
Description
Trabajo de Fin de Grado en Doble Grado en Ingeniería Informática y Matemáticas, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2019/2020
Unesco subjects
Keywords
Citation