Regresi´ on log´ıstica basada en distancias

4. Modelos de regresi´ on

4.4. Regresi´ on log´ıstica basada en distancias

los datos que ´este posea, con lo que la correcta construcci´on de esta matriz es de vital importancia, ya que repercute directamente sobre los resultados obtenidos en el modelo.

A continuaci´on, nos centramos en el modelo en concreto utilizado, el modelo de regresi´on log´ıstica basada en distancias.

4.4. Regresi´on log´ıstica basada en distancias.

El modelo de regresión log´ıstica basado en distancias [10] es una versión del modelo de regresión log´ıstica clásico [47], que hemos visto en la sección anterior, aplicada en el ámbito de las distancias. Este modelo se trata de un caso particular del MLGBD (Modelo Lineal Generalizado basado en distancias) [13] [15] [17], cuando se asume una distribución del error Binomial y una función de enlace. Por tanto, el modelo está construido suponiendo que es un MLG en el sentido de la familia exponencial de McCullagh y Nelder [58], que se caracterizan por tener una función de probabilidad en un punto de la forma

f(y_i;θ_i;φ_i) =exp y_iθ_i−b(θ_i) a(φ_i) +c(yi, φi) , (26)

para unas funciones espec´ıficas a, b, c, un determinado θ_i denominado parámetro canónico y un parámetro φ_i denominado parámetro de dispersión.

Este modelo se trata de un modelo no paramétrico [24], ya que la única informa- ción requerida para el espacio de predictores es una matriz de distancias al cuadrado, que se calcula en base a las variables predictoras originales.

La variable respuesta en estos modelos se construye codificando con un 1 los individuos que presentan una determinada caracter´ıstica y con un 0 los que no. As´ı, en el caso que nos ocupa, de detección de fraude en la Agencia Tributaria, codificar´ıamos con un 1 a los individuos sospechosos de haber cometido fraude y con un 0 a los sospechosos en principio no fraudulentos.

Los datos contenidos en las variables predictoras, datos que suelen ser de tipo mixto (mezcla entre datos cuantitativos, cualitativos, etc.), se incorpora al modelo a partir de una matriz de distancias Δ que cumpla la propiedad eucl´ıdea, ya que más adelante se calculará una configuración Eucl´ıdea mediante cálculos métricos multi- dimensionales. Todos los cálculos se realizarán a partir de esta matriz de distancias, razón por la que se considera este modelo como no paramétrico. La citada configu- ración asume en el modelo el rol de un predictor lineal. A partir, de ah´ı, se realizan los mismos procedimientos y suposiciones que en la regresión log´ıstica clásica.

La principal diferencia con respecto a la regresión log´ıstica clásica es que en el proceso iterativo de estimación de los parámetros por m´ınimos cuadrados, se usa el modelo de regresión basada en distancias en vez del modelo de regresión lineal clásico.

Este modelo de regresión basada en distancias fue introducido por primera vez en [25], desarrollado más adelante en [26] y [27] y estudiado posteriormente en [9] [10] [11] [12], [32] y [33]. Todos estos trabajos presentan detalles teóricos interesantes

36 4 Modelos de regresi´on

sobre estos modelos. Además, este modelo ha sido aplicado en una cierta cantidad de problemas prácticos, como la selección de factores de riesgo a priori en el campo de los seguros de no vida [6] [7] [8], con una primera versión con aplicación a datos funcionales en [10] o la selección de factores de riesgo en datos de crédito de Australia y Alemania [24].

Con respecto a su funcionamiento, se puede apreciar que es bastante similar al algoritmo clásico de regresión log´ıstica, con la pequeña salvedad que hemos comentado. A continuación, se describe más a fondo los fundamentos de este algoritmo, as´ı como su funcionamiento.

Sea Ω =O₁, . . . , O_nun conjunto denindividuos, o casos, extra´ıdos aleatoriamen- te de una población. Para el individuoO_i se ha observadoy_i, el valor de una variable binaria de respuesta. Se define una función de distancia δ entre los individuos de Ω, de la forma que se ha descrito en el apartado anterior.

Se asume entonces que toda la información relevante respecto a la relación entre la variable dependiente y_i y las otras caracter´ısticas del individuo O_i, i = 1, . . . , n, queda resumida como la relación entre vector de variables dependientes

y = (y1, . . . , yn) y la matriz cuadrada de distancias Δ, que contiene las distancias entre los individuos de Ω. Dado un nuevo individuo O_n₊₁ del mismo conjunto de individuos, el objetivo es entonces predecir la variabley_n+1, usando para ello las dis-

tancias cuadráticas entre el individuo O_n+1 como la única información disponible.

Se puede observar as´ı que nos estamos enfrentando a un problema de regresión binaria basado en distancias. Para poder adaptarse a este modelo, se puede asumir que los datos están siguiendo un modelo log´ıstico de la forma que veremos a continuación.

Sea la matriz X, de dimensiónn×r, una configuración Eucl´ıdea de Δ, y sea x_i

la fila i-ésima de X. Entonces se puede asumir que y_i es una observación de

Y_i ∼Bern(p_i), logit(p_i) = x_iβ, (27) para un β ∈Rr _{desconocido, donde} _logit₍_p_{) =}_logit₍ p

1−p).

Se puede observar que esta asunción no depende de la elección en particular de la configuración Eucl´ıdea X: sea V una configuraciónr-dimensional de Δ diferente a X, entoncesV =X·T, donde T es una matriz ortogonal de tamaño r×r, y por consecuente

Xβ = (X·T ·T)β =V γ, (28) y logit(p_i) = x_iβ = v_iγ, con γ = Tβ ∈ Rr. Se concluye por tanto que solamente la relaci´on entre el vector de variables respuesta y, y la matriz de distancias entre individuos Δ determina si el modelo log´ıstico es adecuado o no.

As´ı, el algoritmo de regresi´on log´ıstica basada en distancias [10], para obtener los valores ajustados y, y una predicci´ˆ on y_n+1 en el modelo de regresi´on log´ıstica,

no necesita una declaración expl´ıcita en la configuración eucl´ıdea X, ya que, como se ha demostrado, estos valores son independientes de la elección que hagamos de X.

4.4 Regresi´on log´ıstica basada en distancias. 37

Este modelo es una adaptación delReweighted Least Squares Algorithm [58] usa- do para ajustar la regresión log´ıstica clásica. Como hemos mencionado, la principal diferencia de este modelo con el modelo de regresión log´ıstica clásico es que en la estimación por m´ınimos cuadrados usaremos el modelo de regresión basado en distancias en lugar del modelo de regresión lineal.

As´ı, al algoritmo para llevar a cabo este proceso ser´ıa el siguiente:

Escoger unos valores de inicio p0 = (p0₁, . . . , p0₁) (por ejemplo, los valores ini- ciales para p0 pueden ser los valores ajustados de y, dados por una regresión basada en distancias estándar, si todos los ˆy_i están en el intervalo (0,1)). Hacer s= 0 e iterar hasta convergencia:

1. Hacer z_is =logit(ps_i) + yi−p s i ps i(1−psi) , i= 1, ..., n. (29) 2. Establecer el vector de pesos vs = (vs₁, . . . , vs_n), conv_is∝ps_i(1−ps_i). 3. Ajustar la regresi´on basada en distancias ponderada (Weighted DBR [10],

usando la matriz de distancias Δ, el vector de respuestazs_{= (}_zs

1, . . . , zsn) y el vector de pesosvs_{. Sean ˆ}_zs _{= (ˆ}_zs

1, . . . ,zˆns) los valores ajustados. Deﬁnir

ps_i+1 = exp(ˆz s i) 1 +exp(ˆzs i) , (30) y ps+1 _{= (}_ps+1 1 , ..., psn+1).

4. Hacer s=s+ 1 y volver al paso 1. Los valores ajustados ˆy son

y=ps+1, (31)

donde s es la ´ultima iteraci´on del algoritmo, en la que se alcanza la convergencia.

Este algoritmo permite establecer una predicci´on ˆp_n+1 sobre el valor esperado

de la variable de respuesta para un nuevo individuo O_n+1, con unas distancias a los

otros individuos dadas por un vector d_n+1. En la ´ultima iteraci´on del algoritmo se

usa una ecuación de predicción para nuevos casos en el paso de la regresión basada en distancias ponderada (Weighted DBR) para obtener el valor predicción dez para un nuevo individuo ˆzs n+1, y luego se calcula ˆ p_n+1 = exp(ˆz s i) 1 +exp(ˆzs i) . (32)

38 4 Modelos de regresi´on

Se puede considerar que las dos ´ultimas ecuaciones mencionadas, las que deﬁnen ˆ

y, y ˆp_n₊₁, son el n´ucleo, el elemento principal, del algoritmo de regresi´on log´ıstica basada en distancias.

El hecho de que este modelo sea no paramétrico (solamente, sumado al hecho de que, como hemos comentado previamente, los modelos basados en distancias permiten realizar de manera natural una mezcla entre variables cuantitativas y ca- tegóricas), hace que sea una técnica a tener en cuenta para la situación que nos atañe, y hace de ésta la principal razón de interés para comprobar el comportamien- to y rendimiento del modelo en este caso. Este análisis se realizará en los siguientes cap´ıtulos.

In document Regresión logística basada en distancias para detección de fraude en el IRPF (página 47-51)