Aplicación de técnicas de Aprendizaje Profundo en imágenes para el reconocimiento de objetos

Guerrero Moñús, Manuel

Publication:
Aplicación de técnicas de Aprendizaje Profundo en imágenes para el reconocimiento de objetos

Files

GUERRERO_MONUS_Application_of_Deep_Learnin_Techniques_for_Object_Recognition_in_Images.pdf (5 MB)

Publication Date

2022-06

Authors

Guerrero Moñús, Manuel

Advisors (or tutors)

Pajares Martínsanz, Gonzalo

Citations

Exportar

Abstract

El presente trabajo se engloba dentro del ámbito del Aprendizaje Profundo, donde los modelos de Redes Neuronales Artificiales se han convertido a lo largo del tiempo en una pieza clave para resolver problemas tan complejos como el reconocimiento de imágenes, voz, movimientos corporales, o el procesamiento del lenguaje natural. En este trabajo en particular, la atención se ha puesto en aquellos modelos de Red Neuronal Artificial, dentro de los denominados convolucionales, que se han diseñado para reconocer, ubicar, e incluso en algunos casos, segmentar objetos en imágenes, pues son de gran interés de cara a su aplicación en diferentes ámbitos. Sin embargo, la configuración y puesta a punto de los modelos para la detección de objetos mediante técnicas de aprendizaje profundo no resultan tarea fácil, pues se necesitan una serie de requerimientos hardware para poder trabajar con ellas, en particular, durante la fase de entrenamiento. Destaca en este sentido la necesidad de disponer de una amplia memoria RAM, discos duros rápidos con un espacio considerable, e incluso potentes GPU’s o TPU’s, económicamente costosas. Por esta razón, se han creado una serie de programas que, apoyándose en la tecnología de Google, FiftyOne, y TensorFlow, solventan los anteriores requisitos con un mínimo coste, y proporcionan al usuario las siguientes funcionalidades: • Generación, análisis y exportación automática de sets de imágenes para los procesos de entrenamiento y validación de los modelos. • Configuración, entrenamiento, validación y exportación de modelos. • Prueba de modelos para evaluar su rendimiento y desempeño real en cuanto a clasificación, ubicación y segmentación de objetos. Finalmente, en lo que al marco teórico de este trabajo respecta, se ha realizado un estudio de la arquitectura, capas y operaciones de los siguientes detectores de objetos: SSD, R-CNN, FAST R-CNN, FASTER R-CNN, MASK R-CNN y YOLO.
The current work is under the Deep Learning field, where Artificial Neural Network models have become a key element to solve complex problems such as image recognition, voice, body movements, or natural language processing. In this case, attention has been paid on those Artificial Neural Network models, within the convolutional models, that have been designed to recognize, locate, and even in some cases, segment objects in images. They are of great interest for its applications in scientific-engineering projects. However, their configuration and set-up aren’t easy tasks, it is necessary a series of hardware requirements to work with them, particularly during the training phase. In this sense, is important the need of a large RAM memory, fast hard disks with considerable space, and even powerful GPU’s or TPU’s, which are expensive. For this reason, a series of programs have been created, that relying on Google technology, Voxel51, and TensorFlow, they solve the above requirements with a minimum cost, and provide its users the following functionalities: • Automatic generation, analysis and export of image sets for processes of training and validation of models. • Configuration, training, validation and export of models. • Testing of models to evaluate their actual performance in terms of classification, location and segmentation of objects. Finally, with respect to the theoretical framework of this work, a study of the architecture, layers and operations of certain models designed to detect objects has been carried out: SSD, R-CNN, FAST R-CNN, FASTER R-CNN, MASK R-CNN and YOLO.

Description

Trabajo de Fin de Máster en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2021/2022. El proyecto aquí planteado puede ser descargado a través del siguiente enlace a su repositorio de GitHub: https://github.com/ManuelGMS/ObjectRecognition

Publication:
Aplicación de técnicas de Aprendizaje Profundo en imágenes para el reconocimiento de objetos

Files

Official URL

Full text at PDC

Publication Date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

Research Projects

Organizational Units

Journal Issue

Abstract

Description

UCM subjects

Unesco subjects

Keywords

Citation

URI

Collections

Publication: Aplicación de técnicas de Aprendizaje Profundo en imágenes para el reconocimiento de objetos

Files

Official URL

Full text at PDC

Publication Date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

Research Projects

Organizational Units

Journal Issue

Abstract

Description

UCM subjects

Unesco subjects

Keywords

Citation

URI

Collections

Publication:
Aplicación de técnicas de Aprendizaje Profundo en imágenes para el reconocimiento de objetos