Publication:
Regresión Logística Con Datos Asimétricos: Aplicación a la detección de Fraude en el momento de la suscripción en seguros multi-riesgo (Hogar)

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2019-09
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
En este trabajo se construye un modelo de regresión logística para hallar la probabilidad de fraude de una póliza nueva, en el ramo de hogar, a través de los datos que se obtienen en el momento de la suscripción de la misma. Los datos utilizados fueron proporcionados por una importante entidad aseguradora y corresponden a una muestra de 20 variables categóricas y 38.240 pólizas nuevas de los años 2017 y 2018, en donde el 4.7% ha sido identificado como pólizas con fraude (es decir, pólizas que han comunicado algún siniestro con intensión de fraude1). Es importante resaltar que este porcentaje de fraude sobre el total de la muestra puede considerarse alto si se tiene como referencia el 1.88%, que corresponde a la media del total de fraude (en todos los ramos), a nivel nacional (AXA España, 2019). Antes de comenzar con el modelo, se realiza una leve introducción de las implicaciones del fraude en los seguros y se muestran algunas cifras correspondientes al año 2018. Esto con el fin de dar una idea de la importancia de este tipo de modelos en las compañías aseguradoras. El desarrollo del modelo comienza con un análisis descriptivo de los datos y la evaluación de la relación de cada variable predictora con la variable respuesta (Fraude). Luego se realiza un muestreo estratificado para dividir el conjunto de datos en dos subconjuntos, uno para entrenamiento del modelo y el otro para su validación. Sobre el conjunto de datos de entrenamiento, se realizan dos pruebas para la selección de las variables significativas (Algoritmo Boruta (Miron B. & Witold R. , 2010) y Método de extracción AIC (R Core Team, 2019)) y después de determinar estas variables, se ejecuta el modelo GLM de regresión logística. Los resultados de este modelo se implementan, inicialmente, sobre los datos de entrenamiento para identificar si se requieren ajustes antes de evaluarlo en el conjunto de validación. Por ser un conjunto de datos asimétrico, no es conveniente determinar el nivel de probabilidad de pertenencia a la categoría Fraude como el 50% (como generalmente se hace), es por esto que se realiza una prueba de optimización de costos, utilizando un caso base como referencia, con la que se busca minimizar la pérdida monetaria (en la que incurriría la empresa por utilizar el modelo), en función de los errores y aciertos que comete el modelo en la clasificación. El resultado de esta optimización es el valor de la probabilidad de fraude con la que se minimizan los costos por mala clasificación del modelo, y a partir de ésta se construye la matriz de confusión con sus respectivas métricas, la curva ROC con el valor del AUC (área bajo la curva), y se calcula el efecto monetario (pérdidas/ganancias) sobre el caso base. Cuando el modelo se acepta como buena herramienta de clasificación, se procede a implementarlo en el conjunto de validación utilizando el mismo procedimiento (teniendo como referencia el valor de probabilidad determinado en el entrenamiento del modelo), esto es, se construye la matriz de confusión con sus métricas, la curva ROC con el cálculo del AUC y el efecto monetario (pérdidas/ganancias) sobre el caso base. Al final se comparan los resultados de ambos conjuntos para demostrar que es un buen modelo de clasificación. Después de aceptar el modelo como buen clasificador, se procede a construir la función logit que servirá para la clasificación, en función del fraude, de las pólizas nuevas que vaya teniendo la compañía y se presentan 4 ejemplos de clasificación para explicar cómo funciona: 2 de pólizas que son fraude y 2 que no lo son. Para finalizar, se propone otra forma de determinar el valor de la probabilidad que puede ser más fácil de entender e implementar. Esta prueba consiste en evaluar los histogramas de las distribuciones de probabilidad de cada categoría de la variable respuesta. El objetivo de esta prueba no es proponer un único valor de probabilidad, sino una serie de rangos en los que la decisión del valor de la probabilidad a tomar como referencia depende de los objetivos del análisis que se realice (recomendado principalmente para objetivos de análisis generales de clasificación y validación, no recomendado para acciones puntuales que impliquen inversión económica).
Description
UCM subjects
Unesco subjects
Keywords
Citation