Universidad Complutense de Madrid
E-Prints Complutense

A deep learning approach for automatically generating descriptions of images containing people

Impacto

Downloads

Downloads per month over past year



Aracil Muñoz, Marta (2018) A deep learning approach for automatically generating descriptions of images containing people. [Trabajo fin de Grado]

[img]
Preview
PDF
3MB


Abstract

Generating image descriptions is a challenging Artificial Intelligence problem with many interesting applications such as robots’ communication or helping visually impaired people. However, it is a complex task for computers: it requires Computer Vision algorithms, to understand what the image depicts, and Natural Language Processing algorithms, to generate a well-formed sentence. Nowadays, deep neural networks are the state-of-the-art in these two Artificial Intelligence fields.
Furthermore, we believe that images that contain people are described in a slightly different manner and that restricting an image description generator model to these images may produce better descriptions. Therefore, the main objective of this project is to develop a Deep Learning model that automatically produces descriptions of images containing people and to conclude if it is a good practice the restriction to this kind of images. For this purpose, we have reviewed and studied the literature in the field and we have built, trained and compared four different models using Deep Learning techniques and a GPU to speed-up the computation, as well as a big and complete dataset.

Resumen (otros idiomas)

Generar descripciones de imágenes es un problema de Inteligencia Artificial con muchas aplicaciones interesantes como la comunicación de robots o ayudar a personas con discapacidad visual. Sin embargo, es una tarea compleja para un ordenador: requiere algoritmos de visión por computador para entender lo que la imagen representa y algoritmos de procesamiento de lenguaje natural para generar una frase bien formada. Hoy en día, las redes neuronales profundas son el estado del arte en estos dos campos de la Inteligencia Artificial. Por otra parte, creemos que las imágenes que contienen personas se describen de manera ligeramente diferente y que restringir un modelo de generación de descripciones de imágenes a imágenes de este tipo puede producir mejores descripciones. Por lo tanto, el principal objetivo de este proyecto es desarrollar un modelo de aprendizaje profundo que produce automáticamente descripciones de imágenes que contienen personas y concluir si es una buena práctica la restricción a esta clase de imágenes. Para ello, hemos revisado y estudiado la literatura y hemos construido, entrenado y comparado cuatro modelos diferentes usando técnicas de aprendizaje profundo y una GPU para acelerar los cálculos, así como un dataset grande y completo.

Item Type:Trabajo fin de Grado
Additional Information:

Universidad Complutense, Facultad de Informática. Departamento de Ingeniería del Software e Inteligencia Artificial, curso 2017/2018

Directors:
DirectorsDirector email
Méndez Pozo, Gonzalo
Hervás Ballesteros, Raquel
Uncontrolled Keywords:Deep Learning, Computer Vision, Natural Language Processing,Iimage description generation, Keras, GPU, Dataset
Palabras clave (otros idiomas):Aprendizaje profundo, Visión por computador, Procesamiento de lenguaje natural, Generación de descripciones de imágenes, Keras, GPU, Dataset
Subjects:Sciences > Computer science
Título de Grado:Grado en Ingeniería Informática
ID Code:50248
Deposited On:26 Nov 2018 13:48
Last Modified:26 Nov 2018 13:48

Origin of downloads

Repository Staff Only: item control page