Publication:
Aplicación de técnicas de Aprendizaje Profundo en imágenes para el reconocimiento de objetos

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2022-06
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
El presente trabajo se engloba dentro del ámbito del Aprendizaje Profundo, donde los modelos de Redes Neuronales Artificiales se han convertido a lo largo del tiempo en una pieza clave para resolver problemas tan complejos como el reconocimiento de imágenes, voz, movimientos corporales, o el procesamiento del lenguaje natural. En este trabajo en particular, la atención se ha puesto en aquellos modelos de Red Neuronal Artificial, dentro de los denominados convolucionales, que se han diseñado para reconocer, ubicar, e incluso en algunos casos, segmentar objetos en imágenes, pues son de gran interés de cara a su aplicación en diferentes ámbitos. Sin embargo, la configuración y puesta a punto de los modelos para la detección de objetos mediante técnicas de aprendizaje profundo no resultan tarea fácil, pues se necesitan una serie de requerimientos hardware para poder trabajar con ellas, en particular, durante la fase de entrenamiento. Destaca en este sentido la necesidad de disponer de una amplia memoria RAM, discos duros rápidos con un espacio considerable, e incluso potentes GPU’s o TPU’s, económicamente costosas. Por esta razón, se han creado una serie de programas que, apoyándose en la tecnología de Google, FiftyOne, y TensorFlow, solventan los anteriores requisitos con un mínimo coste, y proporcionan al usuario las siguientes funcionalidades: • Generación, análisis y exportación automática de sets de imágenes para los procesos de entrenamiento y validación de los modelos. • Configuración, entrenamiento, validación y exportación de modelos. • Prueba de modelos para evaluar su rendimiento y desempeño real en cuanto a clasificación, ubicación y segmentación de objetos. Finalmente, en lo que al marco teórico de este trabajo respecta, se ha realizado un estudio de la arquitectura, capas y operaciones de los siguientes detectores de objetos: SSD, R-CNN, FAST R-CNN, FASTER R-CNN, MASK R-CNN y YOLO.
The current work is under the Deep Learning field, where Artificial Neural Network models have become a key element to solve complex problems such as image recognition, voice, body movements, or natural language processing. In this case, attention has been paid on those Artificial Neural Network models, within the convolutional models, that have been designed to recognize, locate, and even in some cases, segment objects in images. They are of great interest for its applications in scientific-engineering projects. However, their configuration and set-up aren’t easy tasks, it is necessary a series of hardware requirements to work with them, particularly during the training phase. In this sense, is important the need of a large RAM memory, fast hard disks with considerable space, and even powerful GPU’s or TPU’s, which are expensive. For this reason, a series of programs have been created, that relying on Google technology, Voxel51, and TensorFlow, they solve the above requirements with a minimum cost, and provide its users the following functionalities: • Automatic generation, analysis and export of image sets for processes of training and validation of models. • Configuration, training, validation and export of models. • Testing of models to evaluate their actual performance in terms of classification, location and segmentation of objects. Finally, with respect to the theoretical framework of this work, a study of the architecture, layers and operations of certain models designed to detect objects has been carried out: SSD, R-CNN, FAST R-CNN, FASTER R-CNN, MASK R-CNN and YOLO.
Description
Trabajo de Fin de Máster en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2021/2022. El proyecto aquí planteado puede ser descargado a través del siguiente enlace a su repositorio de GitHub: https://github.com/ManuelGMS/ObjectRecognition
Unesco subjects
Keywords
Citation