Publication:
Integración de datos y análisis predictivo en tratamiento de drogodependencia

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2016
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
El análisis de datos actual se enfrenta a problemas derivados de la combinación de datos procedentes de diversas fuentes de información. El valor de la información puede enriquecerse enormemente facilitando la integración de nuevas fuentes de datos y la industria es muy consciente de ello en la actualidad. Sin embargo, no solo el volumen sino también la gran diversidad de los datos constituye un problema previo al análisis. Una buena integración de los datos garantiza unos resultados fiables y por ello merece la pena detenerse en la mejora de procesos de especificación, recolección, limpieza e integración de los datos. Este trabajo está dedicado a la fase de limpieza e integración de datos analizando los procedimientos existentes y proponiendo una solución que se aplica a datos médicos, centrándose así en los proyectos de predicción (con finalidad de prevención) en ciencias de la salud. Además de la implementación de los procesos de limpieza, se desarrollan algoritmos de detección de outliers que permiten mejorar la calidad del conjunto de datos tras su eliminación. El trabajo también incluye la implementación de un proceso de predicción que sirva de ayuda a la toma de decisiones. Concretamente este trabajo realiza un análisis predictivo de los datos de pacientes drogodependientes de la Clínica Nuestra Señora de la Paz, con la finalidad de poder brindar un apoyo en la toma de decisiones del médico a cargo de admitir el internamiento de pacientes en dicha clínica. En la mayoría de los casos el estudio de los datos facilitados requiere un pre-procesado adecuado para que los resultados de los análisis estadísticos tradicionales sean fiables. En tal sentido en este trabajo se implementan varias formas de detectar los outliers: un algoritmo propio (Detección de Outliers con Cadenas No Monótonas), que utiliza las ventajas del algoritmo Knuth-Morris-Pratt para reconocimiento de patrones, y las librerías outliers y Rcmdr de R. La aplicación de procedimientos de cleaning e integración de datos, así como de eliminación de datos atípicos proporciona una base de datos limpia y fiable sobre la que se implementarán procedimientos de predicción de los datos con el algoritmo de clasificación Naive Bayes en R.
The current data analysis faces problems arising from the combination of data from various sources. The value of information can be enhanced greatly facilitating the integration of new data sources and industry is well aware of it today. However, not only the volume but also the great diversity of data is a problem prior to analysis. A good integration of data ensures reliable results and therefore worth stopping in the specification process improvement, collecting, cleaning and data integration. This work is dedicated to the cleaning phase and data integration analyzing existing procedures and proposing a solution that applies to medical data, thus focusing on projects prediction (with purpose of prevention) in health sciences. In addition to the implementation of cleaning processes, develop algorithms of detection of outliers that allow improving the quality of the data set after being eliminated. The work also includes the implementation of a process of prediction that serve as an aid to decision-making. Specifically this work performs a predictive analysis of the data of patients drug addicts of the clinic Nuestra Señora de la Paz, in order to be able to offer support in decisions of the physician in charge admit the internment of patients in the clinic In the majority of cases the study of data provided requires a proper pre-procesado to traditional statistical analysis results to be reliable. So in this paper are implemented various ways to detect the outliers: an own algorithm (Detection of Outliers not monotonous chains), that uses the advantages of the algorithm Knuth-Morris-Pratt for pattern recognition, and the bookshops outliers and Rcmdr of R. The application of cleaning procedures and data integration and elimination of outliers provides a clean and reliable base data on which prediction procedures be implemented data with Naive Bayes classification algorithm in R.
Description
Máster en Ingeniería Informática, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática, curso 2015-2016
Keywords
Citation