Pict2Text 2.0. Identifying and classifying the pictograms contained in an image
Pict2Text 2.0. Identificando y clasificando los pictogramas contenidos en una imagen

Impacto

Downloads

Downloads per month over past year



Nazer, Gasan Mohamad and Borislavova Yankova, Veronika (2021) Pict2Text 2.0. Identifying and classifying the pictograms contained in an image. [Trabajo Fin de Grado]

[thumbnail of NAZER 84148_GASAN_MOHAMAD_NAZER_Pict2Text_2.0_Identifying_and_classifying_the_pictograms_contained_in_an_image_784051_276542292.pdf]
Preview
PDF
Creative Commons Attribution Non-commercial.

13MB


Abstract

Nowadays, communication is a basic need in our society. However, some people cannot use the typical methods of communication for reasons that don't depend on them. A way of communication for those people is using pictograms. However, for people without specific training, understanding sentences formed by those pictograms is not easy, if not impossible. That's why tools that translate sentences written with pictograms into natural language are essential.
Pict2Text 1.0 is the only existing tool that translates messages written with pictograms to natural language (Spanish). Unfortunately, it still has to be improved. One of the biggest flaws of the tool is the fact that the message with pictograms has to be created manually by looking for each pictogram in the search engine provided by the application. At this current state, the people who most need the tool can't use it because they would not be able to type the words to compound the message to select the pictograms. For that reason, in this final project, we have focused our efforts on improving that feature by giving people the option to upload a picture of a sentence written with pictograms instead of creating the message in the above-mentioned way. To do that, we have implemented and tested two Machine Learning models: one to detect the pictograms in a picture (YOLO) and the other to identify the word associated with each one of the pictograms in an image (One-shot learning algorithm). We trained and tested several versions of each of them. We have managed to recognize more than one pictogram in a zoomed-in picture. The classification algorithm is able to recognize around 70% of the pictograms correctly. Even though there is work left, the results we obtained are encouraging enough to believe that if we increase the training set, the prediction accuracy will be more than satisfactory.

Resumen (otros idiomas)

Hoy en día, la comunicación es una necesidad básica en nuestra sociedad. Sin embargo, algunas personas no pueden utilizar los métodos típicos de comunicación por razones que no dependen de ellos. Una forma de que esas personas se comuniquen es utilizando pictogramas. Sin embargo, para las personas sin formación específica, entender las frases formadas por esos pictogramas no es fácil, y a veces puede llegar a ser imposible. Por eso, las herramientas que traducen al lenguaje natural las frases escritas con pictogramas, son esenciales. Pict2Text 1.0 es la única herramienta existente que traduce mensajes escritos con pictogramas al lenguaje natural (español). Por desgracia, todavía tiene que ser mejorada. Uno de los mayores defectos de la herramienta es el hecho de que el mensaje con pictogramas tiene que crearse manualmente buscando cada pictograma en el buscador que proporciona la aplicación. En este estado actual, las personas que más necesitan la herramienta no pueden utilizarla ya que no son capaces de escribir las palabras que componen el mensaje para seleccionar los pictogramas. Por eso, en este proyecto final, hemos centrado nuestros esfuerzos en mejorar esa función dando a las personas la opción de subir una imagen de una frase escrita con pictogramas en lugar de crear el mensaje de la forma mencionada. Para ello, hemos implementado y probado dos modelos de Machine Learning: uno para detectar los pictogramas de una imagen (YOLO) y otro para identificar la palabra asociada a cada uno de los pictogramas de una imagen (algoritmo One-shot learning). Hemos entrenado y probado varias versiones de cada uno de ellos. Hemos conseguido reconocer más de un pictograma en una imagen ampliada. El algoritmo de clasificación es capaz de reconocer correctamente alrededor del 70% de los pictogramas. Aunque queda trabajo por hacer, los resultados que hemos obtenido son lo suficientemente alentadores como para creer que si aumentamos el conjunto de entrenamiento, la precisión de la predicción será más que satisfactoria.

Item Type:Trabajo Fin de Grado
Additional Information:

Trabajo de Fin de Grado en Ingeniería del Software , Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligecia Artificial, Curso 2022-21.

Directors:
Directors
Francisco Gilmartín, Virginia
Bautista Blasco, Susana
Uncontrolled Keywords:Pictogram, ARAASAC, Machine Learning, Computer visión, One-shot learning, YOLO.
Palabras clave (otros idiomas):Pictogramas, ARAASAC, Machine Learning, Visión artificial, One-shot learning, YOLO
Subjects:Sciences > Computer science
Título de Grado:Grado en Ingeniería del Software
ID Code:67426
Deposited On:30 Aug 2021 15:52
Last Modified:30 Aug 2021 15:52

Origin of downloads

Repository Staff Only: item control page