Imputación de datos mediante Random Forest

Impacto

Downloads

Downloads per month over past year



Barreñada Taleb, Lasai Alai (2021) Imputación de datos mediante Random Forest. [Trabajo Fin de Máster]

[thumbnail of TFM.pdf]
Preview
PDF
4MB


Abstract

La información disponible es cada vez mayor y los institutos de estadística oficiales deben hacer uso de esta información para crear procesos innovadores y eficaces. El statistical lear­ning es el conjunto de técnicas usadas para la mejor comprensión de los datos. Los random forests, basados en un ensemble de árboles de decisión, son una de las técnicas mas utilizadas de aprendizaje supervisado. En este trabajo se han usado random forests para la imputación de datos en encuestas económicas coyunturales y mas concretamente en los Índices de Cifras de Negocios de la Industria. La imputación se trata del proceso mediante el cual se asigna un valor a un ítem para el que previamente no se tenia información. En este estudio se elabora la metodología para la imputación después de analizar los criterios de calidad necesarios para la producción de una estadística oficial. En primer lugar se realiza la selección de variables o feature selection más interesante para el cálculo de las cifras de negocios. Posteriormente, se aborda el proceso de selección de parámetros para la obtención del modelo óptimo de bos­ques aleatorios para el conjunto de datos seleccionado. Finalmente se realiza una aplicación práctica del bosque aleatorio para las imputaciones y se evalúan obteniendo un resultado satisfactorio.

Resumen (otros idiomas)

The amount of available information in National Statistical lnstitutes is increasing ra­pidly and they shall make use of it to develop innovative and effective processes. Statistical learning is the set of techniques used for better understanding of data. Random Forests, ba­sed on decision tree ensembles, are one of the most used techniques of supervised learning. In this thesis Random Forest have been used to impute data in short term business statistics. Imputation is defined as the method to give value to an item that previously was missing. In this study a new methodology is developed after analysing the quality requirements for of­ficial statistics. Firstly, the feature selection is carried out in order to get the set of variables that will be included in the model. After this, the tuning of the forests is carried out to get the optimum forest. Finally, this model is used to impute the missing values and the assessment of the accuracy of the estimation is carried out having satisfactory results.

Item Type:Trabajo Fin de Máster
Additional Information:

Calificación: 10

Directors:
Directors
Director email
Salgado Fernández, David
davsalga@ucm.es
Rosa Pérez, Elena
elerosa@ucm.es
Alonso Sanz, Rosa
ralonsos@mat.ucm.es
Uncontrolled Keywords:Imputación estadística; Bosques aleatorios; Aprendizaje supervisado; Aprendizaje estadístico; Estadísticas oficiales; Índices de cifras de negocios
Subjects:Sciences > Mathematics > Mathematical statistics
Título del Máster:Estadísticas Oficiales e Indicadores Sociales y Económicos
ID Code:68072
Deposited On:01 Oct 2021 15:16
Last Modified:18 Oct 2021 16:12

Origin of downloads

Repository Staff Only: item control page