Publication: Online hate speech detection using Machine Learning
Loading...
Official URL
Full text at PDC
Publication Date
2022-09-16
Authors
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Hate speech directed towards marginalized people is a very common problem online, especially in social media such as Twitter or Reddit. Automatically detecting hate speech in such spaces can help mend the Internet and transform it into a safer environment for everybody. Hate speech detection fits into text classification, a series of tasks where text is organized into categories. This project2 proposes using Machine Learning algorithms to detect hate speech in online text in four languages: English, Spanish, Italian and Portuguese. The data to train the models was obtained from online, publicly available datasets. Three different algorithms with varying parameters have been used in order to compare their performance. The experiments show that the best results reach an 82.51% accuracy and around an 83% F1-score, for Italian text. Each language has different results depending on distinct factors.
El discurso de odio dirigido a personas marginadas es un problema muy comĂºn en lĂnea, especialmente en redes sociales como Twitter o Reddit. La detecciĂ³n automĂ¡tica del discurso de odio en dichos espacios puede ayudar a reparar Internet y a transformarlo en un entorno mĂ¡s seguro para todos. La detecciĂ³n del discurso de odio encaja en la clasificaciĂ³n de texto, donde se organiza en categorĂas. Este proyecto1 propone el uso de algoritmos de Machine Learning para localizar discurso de odio en textos online en cuatro idiomas: inglĂ©s, español, italiano y portuguĂ©s. Los datos para entrenar los modelos se obtuvieron de datasets disponibles pĂºblicamente en lĂnea. Se han utilizado tres algoritmos diferentes con distintos parĂ¡metros para comparar su rendimiento. Los experimentos muestran que los mejores resultados alcanzan una precisiĂ³n del 82,51 % y un valor F1 de alrededor del 83 % en italiano. Los resultados para cada idioma varĂan dependiendo de distintos factores.
El discurso de odio dirigido a personas marginadas es un problema muy comĂºn en lĂnea, especialmente en redes sociales como Twitter o Reddit. La detecciĂ³n automĂ¡tica del discurso de odio en dichos espacios puede ayudar a reparar Internet y a transformarlo en un entorno mĂ¡s seguro para todos. La detecciĂ³n del discurso de odio encaja en la clasificaciĂ³n de texto, donde se organiza en categorĂas. Este proyecto1 propone el uso de algoritmos de Machine Learning para localizar discurso de odio en textos online en cuatro idiomas: inglĂ©s, español, italiano y portuguĂ©s. Los datos para entrenar los modelos se obtuvieron de datasets disponibles pĂºblicamente en lĂnea. Se han utilizado tres algoritmos diferentes con distintos parĂ¡metros para comparar su rendimiento. Los experimentos muestran que los mejores resultados alcanzan una precisiĂ³n del 82,51 % y un valor F1 de alrededor del 83 % en italiano. Los resultados para cada idioma varĂan dependiendo de distintos factores.
Description
Trabajo de Fin de Grado en IngenierĂa informĂ¡tica, Facultad de InformĂ¡tica UCM, Departamento de IngenierĂa del Software e Inteligencia Artificial, Curso 2021/2022. Enlace al repositorio pĂºblico del proyecto: https://github.com/NILGroup/TFG-2122HateSpeechDetection