Universidad Complutense de Madrid
E-Prints Complutense

A deep learning approach for automatically generating descriptions of images containing people

Impacto

Descargas

Último año



Aracil Muñoz, Marta (2018) A deep learning approach for automatically generating descriptions of images containing people. [Trabajo fin de Grado]

[img]
Vista previa
PDF
3MB


Resumen

Generating image descriptions is a challenging Artificial Intelligence problem with many interesting applications such as robots’ communication or helping visually impaired people. However, it is a complex task for computers: it requires Computer Vision algorithms, to understand what the image depicts, and Natural Language Processing algorithms, to generate a well-formed sentence. Nowadays, deep neural networks are the state-of-the-art in these two Artificial Intelligence fields.
Furthermore, we believe that images that contain people are described in a slightly different manner and that restricting an image description generator model to these images may produce better descriptions. Therefore, the main objective of this project is to develop a Deep Learning model that automatically produces descriptions of images containing people and to conclude if it is a good practice the restriction to this kind of images. For this purpose, we have reviewed and studied the literature in the field and we have built, trained and compared four different models using Deep Learning techniques and a GPU to speed-up the computation, as well as a big and complete dataset.

Resumen (otros idiomas)

Generar descripciones de imágenes es un problema de Inteligencia Artificial con muchas aplicaciones interesantes como la comunicación de robots o ayudar a personas con discapacidad visual. Sin embargo, es una tarea compleja para un ordenador: requiere algoritmos de visión por computador para entender lo que la imagen representa y algoritmos de procesamiento de lenguaje natural para generar una frase bien formada. Hoy en día, las redes neuronales profundas son el estado del arte en estos dos campos de la Inteligencia Artificial. Por otra parte, creemos que las imágenes que contienen personas se describen de manera ligeramente diferente y que restringir un modelo de generación de descripciones de imágenes a imágenes de este tipo puede producir mejores descripciones. Por lo tanto, el principal objetivo de este proyecto es desarrollar un modelo de aprendizaje profundo que produce automáticamente descripciones de imágenes que contienen personas y concluir si es una buena práctica la restricción a esta clase de imágenes. Para ello, hemos revisado y estudiado la literatura y hemos construido, entrenado y comparado cuatro modelos diferentes usando técnicas de aprendizaje profundo y una GPU para acelerar los cálculos, así como un dataset grande y completo.

Tipo de documento:Trabajo fin de Grado
Información Adicional:

Universidad Complutense, Facultad de Informática. Departamento de Ingeniería del Software e Inteligencia Artificial, curso 2017/2018

Directores (o tutores):
NombreEmail del director (o tutor)
Méndez Pozo, Gonzalo
Hervás Ballesteros, Raquel
Palabras clave:Deep Learning, Computer Vision, Natural Language Processing,Iimage description generation, Keras, GPU, Dataset
Palabras clave (otros idiomas):Aprendizaje profundo, Visión por computador, Procesamiento de lenguaje natural, Generación de descripciones de imágenes, Keras, GPU, Dataset
Materias:Ciencias > Informática
Título de Grado:Grado en Ingeniería Informática
Código ID:50248
Depositado:26 Nov 2018 13:48
Última Modificación:26 Nov 2018 13:48

Descargas en el último año

Sólo personal del repositorio: página de control del artículo