Publication:
Estandarización de la Imputación en la Encuesta de Transporte de Viajeros

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2021-07-14
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
La imputación consiste en estimar los valores perdidos o missings recurriendo a otros datos aportados por la unidad o a datos de otras unidades semejantes. Su importancia radica en el hecho de que aumenta la calidad de las estimaciones y se confirma por ser una fase incluida en el estándar de estadística oficial Generic Statistical Business Process Model (GSBPM). Este estándar nace con la necesidad de estandarizar los procesos estadísticos entre organismos del mismo país y de diferentes países. Teniendo esto en cuenta, el objetivo de este Trabajo de Fin de Máster (TFM) es usar la Encuesta de Transporte de Viajeros (publicada mensualmente por el Instituto Nacional de Estadística) para desarrollar un sistema estandarizado de imputación que sustituya al que se emplea actualmente y que pueda ser aplicable a otras operaciones estadísticas. Para ello, se ha recurrido a dos fases: una de clasificación de unidades en imputables y no imputables mediante el paquete ranger del software libre R y otra de imputación propiamente dicha con el paquete simputation del mismo software.
The imputation process consists on estimating missing values using other data provided by the unit or data by other similar units. Its importance lies in the fact that it improves the quality of the estimations and is confirmed due to the inclusion into the official statistical standard Generic Statistical Business Process Model (GSBPM). This standard was born because of the need of standardize statistical processes among agencies in the same country and in different countries. Taking this into account, the goal of this project is to use the Traveler’s Transport Survey (published monthly by INE Spain) to develop an imputation system to replace the current one and that can be applicable to other statistical operations. Two phases have been used for this purpose: a classification of imputable and non-imputable units by means of the ranger package of the free software R and another phase of imputation with the simputation package of the mentioned software.
Description
Calificación: 9.5
Unesco subjects
Keywords
Citation
Comisión europea (2014). Automatic Editing. Recuperado el 8 de junio de 2021 de: https://ec.europa.eu/eurostat/cros/content/automatic-editing-method_en Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society: Series B (Methodological), 39(1), 1-22. Eurostat. (2017). Código de buenas prácticas de las estadísticas europeas. Recuperado el 8 de junio de 2021 de: https://ec.europa.eu/eurostat/documents/4031688/9394048/KS-02-18-142-ES-N.pdf/e792b761-6f09-42a9-a1e0-3a3356a0de1c#:~:text=El%20C%C3%B3digo%20de%20Buenas%20Pr%C3%A1cticas%20de%20las%20Estad%C3%ADsticas%20Europeas%20es,estad%C3%ADsticos%20y%20la%20producci%C3%B3n%20estad%C3%ADstica. Gower, J. C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 857-871. Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55-67. Kowarik, A. (6 de noviembre de 2019). Use of R in Official Statistics - uRos2020 - CROS - European commission. Recuperado el 23 de mayo de 2021 de: https://ec.europa.eu/eurostat/cros/content/use-r-official-statistics-uros2020_en Muñoz Pichardo, J. M. & del Valle Benvides, A. R. (junio de 2020). Curvas ROC (Receiver-Operating-Characteristic) y sus aplicaciones. Recuperado el 1 de junio de https://idus.us.es/bitstream/handle/11441/63201/Valle%20Benavides%20Ana%20Roc%C3%ADo%20del%20TFG.pdf?sequence=1 Naciones Unidas. (2014). Principios Fundamentales de las Estadísticas Oficiales. Recuperado el 25 de abril de https://unstats.un.org/unsd/dnss/hb/S-fundamental%20principles_A4-WEB.pdf O’connor, L. (20 de enero de 2015). Step 4: Imputation of missing data. Recuperado el 31 de mayo de 2021 de: https://ec.europa.eu/jrc/en/coin/10-step-guide/step-4 Olsen, M., & Schafer, J. (2001). A Two-Part Random-Effects Model for Semicontinuous Longitudinal Data. Journal of the American Statistical Association, 96(454), 730-745. Recuperado el 17 de junio de 2021 de: http://www.jstor.org/stable/2670310 Pepe, M. S. (2003). The statistical evaluation of medical tests for classification and prediction. Medicine. Scholtus, S. (2013). Imputation - Main Module (Theme) - CROS - European Commission. Recuperado el 23 de mayo de 2021 de: https://ec.europa.eu/eurostat/cros/content/imputation-main-module-theme_en Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288. Van der Loo, M. (2021). Simple Imputation [R package simputation version 0.2.6]. Recuperado el 28 de marzo de: https://cran.r-project.org/web/packages/simputation/ De Waal, T., Pannekoek, J., & Scholtus, S. (2011). Handbook of statistical data editing and imputation (Vol. 563). John Wiley & Sons.