easyMahout : entorno de ejecución de algoritmos inteligentes de Mahour para Hadoop y Big Data

Sánchez González, Javier; Laurentiu Dulceanu, Anghel; San Gabino Moreno, Daniel

Publication:
easyMahout : entorno de ejecución de algoritmos inteligentes de Mahour para Hadoop y Big Data

Files

Memoria easyMahout - Sistemas Informáticos.pdf (4.51 MB)

Publication Date

2014

Authors

Sánchez González, Javier

Laurentiu Dulceanu, Anghel

San Gabino Moreno, Daniel

Advisors (or tutors)

Garmendia Salvador, Luis

Alcaraz Calero, José María

Citations

Exportar

Abstract

"easyMahout" es un proyecto que tiene como objetivo hacer fácil lo difícil. Nos referimos a la utilización de algoritmos de minería de datos a través de Apache Mahout y Apache Hadoop. Hasta este momento, para utilizar las herramientas que nos ofrecían tanto Mahout como Hadoop necesitábamos de un conocimiento alto en lo referente al sistema operativo GNU/Linux, al uso de comando Shell y una gran inversión de tiempo en aprendizaje y configuración. El objetivo de este proyecto es ofrecer al usuario una interfaz gráfica fácil, simple y sencilla, es decir, intuitiva. Aunque a primera vista podría parecer una interfaz demasiado simple, easyMahout esconde en sus entrañas una completísima funcionalidad y configuración de sus algoritmos, permitiéndonos hacer fácilmente, lo que hasta ahora era una serie interminable de comandos para construir sistemas de recomendación, agrupamiento o clasificación. El modo de empleo es directo, el usuario ofrecerá los datos de entrada a la aplicación, así como una serie de parámetros necesarios para la correcta ejecución de los mismos, y obtendrá los resultados. El usuario podrá cambiar ciertos parámetros desde la interfaz, ajustando los algoritmos a sus necesidades y podrá observar la variación de los resultados hasta encontrar la configuración óptima para sus datos. La aplicación tiene la posibilidad de generar sistemas de recomendación, clustering y clasificación de datos genéricos de cualquier tipo, siempre y cuando tengan una estructura homogénea. El software “easyMahout” está dirigido a usuarios con cierto conocimiento en el uso de estos algoritmos de minería de datos, pudiendo así explotar el 100% de la funcionalidad que ofrece nuestra aplicación. Sin embargo, el funcionamiento es tan sencillo que cualquier persona será capaz de utilizarla con la ayuda de la lectura de esta memoria. Una vez entendida la utilidad de la aplicación, también es importante explicar el ámbito en el que se encuentra. Hasta ahora, el lector podría pensar que no ofrecemos nada nuevo con respecto a otras aplicaciones de minería de datos. Esto es porque todavía no hemos introducido Apache Hadoop, ni el concepto de Big Data. Apache Hadoop es un framework para trabajar con aplicaciones altamente distribuidas, es decir, trabajar con miles de nodos y petabytes de datos usando un relativamente nuevo paradigma de programación: MapReduce. ¿Qué ofrece nuestra aplicación que no ofrece ninguna otra? La posibilidad de ejecutar estos algoritmos escritos en MapReduce, con todos los beneficios que ello conlleva, a través de una aplicación fácil como la propuesta en este proyecto.
"easyMahout" aims to make the use of distributed data mining algorithms available in Apache Mahout and Apache Hadoop easier. Currently, in order to use the algorithms offered by both Mahout and Hadoop, it is required a high knowledge of the GNU/Linux operating system, Shell command and a large investment in time discovering how to run and set up the framework. The main aim of this project is to offer the user an intuitive, easy and simple graphical user interface. At first glance, it might seem too simple; easyMahout hides in her womb a very complete functionality and configuration of its algorithms, allowing easily for new functionalities which right now entails an endless series of commands to build recommender, clustering or classification systems. The usage of easyMohout is straightforward, the user provides the input data to the application as well as a number of parameters required for the proper execution of the same, and he gets the results.The user is able to change certain parameters adjusting the algorithms to better suits his needs and he will see the variation in the results to find the proper configuration for his data. The application has the ability to generate recommender, clustering and classification systems of generic data of any kind, with the only restriction that they have to have a homogeneous structure. The "easyMahout" software is intended for users with some knowledge in the use of these data mining algorithms in order to exploit 100% of the functionality offered in easyMahout. However, the operation is so simple that anyone will be able to use it with the help of reading this document. Once the utility of the application has been presented to the reader, it is also important to explain the context in which it is developed. The reader might think that this project does not offer something new to those other data mining applications. The reason is because we have not introduced Apache Hadoop, and Big Data concepts yet. Apache Hadoop is a framework to work with highly distributed applications, like for instance, works with thousands of nodes and petabytes of data using a relatively new programming paradigm: MapReduce. What makes our application unique? The ability to run these algorithms written in MapReduce language, with all its benefits, through an easy application like ours.

Description

Proyecto de Sistemas Informáticos (Facultad de Informática, Curso 2013-2014)

Publication:
easyMahout : entorno de ejecución de algoritmos inteligentes de Mahour para Hadoop y Big Data

Files

Official URL

Full text at PDC

Publication Date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

Research Projects

Organizational Units

Journal Issue

Abstract

Description

UCM subjects

Unesco subjects

Keywords

Citation

URI

Collections

Publication: easyMahout : entorno de ejecución de algoritmos inteligentes de Mahour para Hadoop y Big Data

Files

Official URL

Full text at PDC

Publication Date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

Research Projects

Organizational Units

Journal Issue

Abstract

Description

UCM subjects

Unesco subjects

Keywords

Citation

URI

Collections

Publication:
easyMahout : entorno de ejecución de algoritmos inteligentes de Mahour para Hadoop y Big Data