Publication:
Sistema híbrido para el análisis de sentimientos en llamadas

Research Projects
Organizational Units
Journal Issue
Abstract
A lo largo de los últimos años ha existido un incremento considerable en comunicaciones y operaciones llevadas a cabo en la red. Las Redes Sociales (RRSS) y el comercio electrónico han visto crecer su influencia en nuestro entorno de manera exponencial, generándose una ingente cantidad de datos sobre las preferencias de cada usuario. Los vídeos, audios, imágenes y textos que compartimos pueden ser analizados con detalle para extraer información sobre nuestros gustos. Esos sentimientos tienen un gran potencial dentro del comercio, debido al feedback que es transmitido por las opiniones de los usuarios en múltiples plataformas, que son procesadas por tecnologías basadas en análisis de la información: Machine Learning y Deep Learning, cuyo origen es la Inteligencia Artificial. Aplicando estas técnicas al marketing y al comercio online se puede obtener una gran cantidad de valor, algo que conocen bien la mayoría de empresas en la actualidad, que hacen uso de las RRSS y de estudios de mercado con Big Data para ofrecer una experiencia más cercana y personalizada para sus clientes. También existen otras aplicaciones que ofrecen infinidad de posibilidades en campos como la medicina, psicología o sociología. Dos campos, que en cierto modo comparten objetivo aunque sus análisis se centran en medios diferentes, son el Reconocimiento de Emociones en Audio y el Procesamiento de Lenguaje Natural (PLN). Estas tecnologías tienen como objetivo analizar y estimar el connotación subjetiva que alguien plasma en audio y texto con la mayor precisión posible. Dividiendo este proyecto en dichas partes, se han diseñado una serie de experimentos con el fin de estudiar y analizar los sentimientos en audio y el texto extraído gracias a una herramienta de transcripción. Junto a estas aplicaciones, otra herramienta estudiada y desarrollada es la de Speaker Diarization o separación de interlocutores. Este es el proceso que particiona un audio de entrada en segmentos homogéneos, según la actividad de los hablantes. La conjunción de los sistemas desarrollados nos llevaría a un análisis completo de un audio original, ofreciéndonos más detalles sobre el sentimiento y las emociones reflejadas en el mismo.
Over the last few years, there has been a considerable increase in communications and operations carried out through the Internet. Social media and electronic marketing increased their influence in our society exponentially, creating a huge amount of data about our preferences. Videos, audios, images and texts we share online can be analized to extract that kind of information. That sentiment analysis have great potential in the marketing world due to the feedback sent by users in multiple platforms, which is processed by technologies based on data analysis like Machine Learning and Deep Learning. We can use these techniques in online marketing to obtain great valued information, something that companies already know and apply on social media and market studies with the purpose of giving a close experience to the user. There are also some other applications that could offer lots of possibilities in areas like medicine, psychology and sociology. Speech Emotion Recognition and Natural Language Processing are two of these technique families that look for sentiment and emotion on data, but they work on different media. These technologies’ goal is to estimate the subjective connotation inside a speech or a document. Dividing this project into to separated parts, we have designed a set of experiments to study and analize sentiment on audio and the text that is possible to extract from it with a transcription tool. Along with this systems, other tool that has been studied and developed is Speaker Diarization. Speaker Diarization is the process of partitioning an input audio stream into homogeneous segments according to the speaker identity. The conjunction of all the systems developed would make a complete analysis of the original audio, offering more details about the emotions expressed that a single appreciation could ignore.
Description
Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2020/2021.
Unesco subjects
Keywords
Citation