Publication:
easyMahout : entorno de ejecución de algoritmos inteligentes de Mahour para Hadoop y Big Data

Research Projects
Organizational Units
Journal Issue
Abstract
"easyMahout" es un proyecto que tiene como objetivo hacer fácil lo difícil. Nos referimos a la utilización de algoritmos de minería de datos a través de Apache Mahout y Apache Hadoop. Hasta este momento, para utilizar las herramientas que nos ofrecían tanto Mahout como Hadoop necesitábamos de un conocimiento alto en lo referente al sistema operativo GNU/Linux, al uso de comando Shell y una gran inversión de tiempo en aprendizaje y configuración. El objetivo de este proyecto es ofrecer al usuario una interfaz gráfica fácil, simple y sencilla, es decir, intuitiva. Aunque a primera vista podría parecer una interfaz demasiado simple, easyMahout esconde en sus entrañas una completísima funcionalidad y configuración de sus algoritmos, permitiéndonos hacer fácilmente, lo que hasta ahora era una serie interminable de comandos para construir sistemas de recomendación, agrupamiento o clasificación. El modo de empleo es directo, el usuario ofrecerá los datos de entrada a la aplicación, así como una serie de parámetros necesarios para la correcta ejecución de los mismos, y obtendrá los resultados. El usuario podrá cambiar ciertos parámetros desde la interfaz, ajustando los algoritmos a sus necesidades y podrá observar la variación de los resultados hasta encontrar la configuración óptima para sus datos. La aplicación tiene la posibilidad de generar sistemas de recomendación, clustering y clasificación de datos genéricos de cualquier tipo, siempre y cuando tengan una estructura homogénea. El software “easyMahout” está dirigido a usuarios con cierto conocimiento en el uso de estos algoritmos de minería de datos, pudiendo así explotar el 100% de la funcionalidad que ofrece nuestra aplicación. Sin embargo, el funcionamiento es tan sencillo que cualquier persona será capaz de utilizarla con la ayuda de la lectura de esta memoria. Una vez entendida la utilidad de la aplicación, también es importante explicar el ámbito en el que se encuentra. Hasta ahora, el lector podría pensar que no ofrecemos nada nuevo con respecto a otras aplicaciones de minería de datos. Esto es porque todavía no hemos introducido Apache Hadoop, ni el concepto de Big Data. Apache Hadoop es un framework para trabajar con aplicaciones altamente distribuidas, es decir, trabajar con miles de nodos y petabytes de datos usando un relativamente nuevo paradigma de programación: MapReduce. ¿Qué ofrece nuestra aplicación que no ofrece ninguna otra? La posibilidad de ejecutar estos algoritmos escritos en MapReduce, con todos los beneficios que ello conlleva, a través de una aplicación fácil como la propuesta en este proyecto.
"easyMahout" aims to make the use of distributed data mining algorithms available in Apache Mahout and Apache Hadoop easier. Currently, in order to use the algorithms offered by both Mahout and Hadoop, it is required a high knowledge of the GNU/Linux operating system, Shell command and a large investment in time discovering how to run and set up the framework. The main aim of this project is to offer the user an intuitive, easy and simple graphical user interface. At first glance, it might seem too simple; easyMahout hides in her womb a very complete functionality and configuration of its algorithms, allowing easily for new functionalities which right now entails an endless series of commands to build recommender, clustering or classification systems. The usage of easyMohout is straightforward, the user provides the input data to the application as well as a number of parameters required for the proper execution of the same, and he gets the results.The user is able to change certain parameters adjusting the algorithms to better suits his needs and he will see the variation in the results to find the proper configuration for his data. The application has the ability to generate recommender, clustering and classification systems of generic data of any kind, with the only restriction that they have to have a homogeneous structure. The "easyMahout" software is intended for users with some knowledge in the use of these data mining algorithms in order to exploit 100% of the functionality offered in easyMahout. However, the operation is so simple that anyone will be able to use it with the help of reading this document. Once the utility of the application has been presented to the reader, it is also important to explain the context in which it is developed. The reader might think that this project does not offer something new to those other data mining applications. The reason is because we have not introduced Apache Hadoop, and Big Data concepts yet. Apache Hadoop is a framework to work with highly distributed applications, like for instance, works with thousands of nodes and petabytes of data using a relatively new programming paradigm: MapReduce. What makes our application unique? The ability to run these algorithms written in MapReduce language, with all its benefits, through an easy application like ours.
Description
Proyecto de Sistemas Informáticos (Facultad de Informática, Curso 2013-2014)
Keywords
Citation