Universidad Complutense de Madrid
E-Prints Complutense

Comparativa y análisis de algoritmos de aprendizaje automático para la predicción del tipo predominante de cubierta arbórea

Impacto

Downloads

Downloads per month over past year



Zamorano Ruiz, Juan (2018) Comparativa y análisis de algoritmos de aprendizaje automático para la predicción del tipo predominante de cubierta arbórea. [Trabajo Fin de Máster]

[img]
Preview
PDF
3MB


Abstract

Podríamos decir que vivimos en el día de hoy rodeados de la generación de gran cantidad de datos. Los humanos no somos capaces de procesar por nosotros mismos muchos de ellos y es por ello que nos vemos en la necesidad de buscar herramientas que nos permitan almacenar, procesar y extraer la información que, tratada y evaluada según nuestras necesidades, nos de la capacidad de obtener el beneficio necesario para un objetivo concreto.
Para el tratamiento de esta información podemos enfocarnos en la rama de la Inteligencia Artificial denominada “Machine Learning” o aprendizaje automático que permite a las máquinas aprender y tomar decisiones con futuros datos proporcionados de forma automática.
Podríamos decir que el aprendizaje se realiza gracias a la detección de patrones dentro de un conjunto de datos de forma que el mismo algoritmo es capaz de predecir qué tipo de situaciones podrían darse. Lo que pretendemos es dar uso al histórico de datos para que, organizados adecuadamente y tratados en bloque, genere una base de datos que puede ser usada para predecir futuros comportamientos, o, por ejemplo, podamos clasificar un nuevo conjunto de datos no observados previamente. Un ejemplo de este tipo de problema podemos encontrarlo en la técnica de reconocimiento facial.
Para este proyecto se hace uso de la biblioteca Scikit-learn para machine learning en el lenguaje de programación Python. Ésta posee gran cantidad de algoritmos para clasificación y que se comportan de distinta forma dependiendo de la cantidad y distribución de los datos proporcionados. De estos algoritmos se pueden extraer métricas y uso de recursos de la máquina, que pueden ser usadas para poder llevar a cabo una comparación y análisis.
Se realizará una comparación y análisis del comportamiento de cada algoritmo en la predicción de 7 tipos de cubiertas forestales con el uso de variables cartográficas a través de valores tomados en 4 áreas distintas del parque nacional de Roosevelt en el norte del estado de Colorado.

Resumen (otros idiomas)

We could say that we live today surrounded by the generation of large amount of data. The majority of that data is too much huge. We need to give to humans the proper tools where to store, process and extract the information that, treated and made available to us could give the right information where we can extract a benefit for a specific goal. For the treatment of this information we can focus on the branch of Artificial Intelligence called machine learning which allows machines to learn and make decisions automatically with future data provided. We could say that learning is done thanks to the detection of patterns within a set of data where the algorithm is able to predict what kind of situations could occur. What we intend to do is to use the historical data which, properly sorted and treated in blocks, it generates a database that can be used to predict future behaviors, or, for example, we can classify a new data set not previously observed. An example of this could be the facial recognition technique. For this project, we will use the library for Python programming language scikit-learn, which is used for machine learning. It has a large number of algorithms for classification where we will find different behaviour depending on the quantity and distribution of the data provided. From these algorithms we can extract some metrics, such as the use of resources from the machine, which can be used to carry out a comparison and analysis. A comparison and analysis of the behavior of each algorithm will be made in the prediction of 7 forest cover types with the use of cartographic variables through values taken in 4 different areas of the Roosevelt National Park in the north of the state of Colorado.

Item Type:Trabajo Fin de Máster
Additional Information:

Máster en Ingeniería Informática, Facultad de Informática, Departamento de Sistemas Informáticos y Computación, curso 2017-2018.

Directors:
DirectorsDirector email
Martín Martín, Enrique
Uncontrolled Keywords:Scikit-learn, Aprendizaje automático, Big Data, Python, Inteligencia Artificial, Comparativa, Análisis
Palabras clave (otros idiomas):Scikit-learn, Machine learning, Big Data, Python, Artificial intelligence, Comparative, Review
Subjects:Sciences > Computer science > Databases
Sciences > Computer science > Artificial intelligence
Sciences > Computer science > Computer programming
Sciences > Computer science > Expert systems (Computer science)
Título del Máster:Máster en Ingeniería Informática
ID Code:48800
Deposited On:27 Jul 2018 11:10
Last Modified:27 Jul 2018 11:10

Origin of downloads

Repository Staff Only: item control page