Publication:
Análisis predictivo de datos mediante técnicas de regresión estadística

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2010
Advisors (or tutors)
Vega Sánchez, Jesús A.
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
La regresión estadística es una de las técnicas mas empleadas cuando se busca determinar una variable respuesta en función de una o más variables explicativas; sin embargo, tradicionalmente se emplea la técnica de mínimos cuadrados ordinarios (MCO), la cual enfrenta problemas cuando las variables explicativas presentan multicolinealidad (relación lineal entre ellas). En este trabajo se describe el problema de la colinealidad, sus efectos en los modelos generados y se discuten las principales técnicas de diagnóstico y prevención. Las variantes de regresión sesgada ('Ridge Regression' y 'Kernel Ridge Regression') son los procedimientos más empleados para mitigar dicho efecto. Éstas pueden ser aplicadas mediante diferentes modalidades de cómputo, permitiéndonos cuantificar y ajustar los resultados en las predicciones a partir de las condiciones iniciales de los datos de entrada (número de observaciones y número de dimensiones de las variables a tratar). Finalmente se muestran y aportan resultados experimentales mediante la aplicación de las técnicas analizadas, comparando las precisiones en las predicciones para diferentes conjuntos de datos. [ABSTRACT] Statistical regression is one of the most widely used technique to find a variable that is function of one or more explanatory variables; however, usually it's used the 'Ordinary Least Square' technique (OLS), but it faces problems when the variables have multicollinearity (linear relation between them). This work describes the troubles of collinearity, the effects on the models achieved and discusses the main diagnostic techniques to solving them and preventing them. 'Ridge Regression' and 'Kernel Ridge Regression' are the most commonly used procedures to mitigate its effects. These can be implemented through different modes of computation, allowing us to quantify and to adjust the results in predictions from the initial conditions of the input data (number of observations and number of dimensions of the variables to be treated). Finally, experimental results are provided by applying the previous techniques and by comparing the accurate on the predictions for different data sets.
Description
Máster en Investigación en Informática, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática, curso 2009-2010
Unesco subjects
Keywords
Citation