4. Modelos de regresi´ on
4.4. Regresi´ on log´ıstica basada en distancias
los datos que ´este posea, con lo que la correcta construcci´on de esta matriz es de vital importancia, ya que repercute directamente sobre los resultados obtenidos en el modelo.
A continuaci´on, nos centramos en el modelo en concreto utilizado, el modelo de regresi´on log´ıstica basada en distancias.
4.4.
Regresi´on log´ıstica basada en distancias.
El modelo de regresi´on log´ıstica basado en distancias [10] es una versi´on del modelo de regresi´on log´ıstica cl´asico [47], que hemos visto en la secci´on anterior, aplicada en el ´ambito de las distancias. Este modelo se trata de un caso particular del MLGBD (Modelo Lineal Generalizado basado en distancias) [13] [15] [17], cuando se asume una distribuci´on del error Binomial y una funci´on de enlace. Por tanto, el modelo est´a construido suponiendo que es un MLG en el sentido de la familia exponencial de McCullagh y Nelder [58], que se caracterizan por tener una funci´on de probabilidad en un punto de la forma
f(yi;θi;φi) =exp yiθi−b(θi) a(φi) +c(yi, φi) , (26)
para unas funciones espec´ıficas a, b, c, un determinado θi denominado par´ametro can´onico y un par´ametro φi denominado par´ametro de dispersi´on.
Este modelo se trata de un modelo no param´etrico [24], ya que la ´unica informa- ci´on requerida para el espacio de predictores es una matriz de distancias al cuadrado, que se calcula en base a las variables predictoras originales.
La variable respuesta en estos modelos se construye codificando con un 1 los individuos que presentan una determinada caracter´ıstica y con un 0 los que no. As´ı, en el caso que nos ocupa, de detecci´on de fraude en la Agencia Tributaria, codificar´ıamos con un 1 a los individuos sospechosos de haber cometido fraude y con un 0 a los sospechosos en principio no fraudulentos.
Los datos contenidos en las variables predictoras, datos que suelen ser de tipo mixto (mezcla entre datos cuantitativos, cualitativos, etc.), se incorpora al modelo a partir de una matriz de distancias Δ que cumpla la propiedad eucl´ıdea, ya que m´as adelante se calcular´a una configuraci´on Eucl´ıdea mediante c´alculos m´etricos multi- dimensionales. Todos los c´alculos se realizar´an a partir de esta matriz de distancias, raz´on por la que se considera este modelo como no param´etrico. La citada configu- raci´on asume en el modelo el rol de un predictor lineal. A partir, de ah´ı, se realizan los mismos procedimientos y suposiciones que en la regresi´on log´ıstica cl´asica.
La principal diferencia con respecto a la regresi´on log´ıstica cl´asica es que en el proceso iterativo de estimaci´on de los par´ametros por m´ınimos cuadrados, se usa el modelo de regresi´on basada en distancias en vez del modelo de regresi´on lineal cl´asico.
Este modelo de regresi´on basada en distancias fue introducido por primera vez en [25], desarrollado m´as adelante en [26] y [27] y estudiado posteriormente en [9] [10] [11] [12], [32] y [33]. Todos estos trabajos presentan detalles te´oricos interesantes
36 4 Modelos de regresi´on
sobre estos modelos. Adem´as, este modelo ha sido aplicado en una cierta cantidad de problemas pr´acticos, como la selecci´on de factores de riesgo a priori en el campo de los seguros de no vida [6] [7] [8], con una primera versi´on con aplicaci´on a datos funcionales en [10] o la selecci´on de factores de riesgo en datos de cr´edito de Australia y Alemania [24].
Con respecto a su funcionamiento, se puede apreciar que es bastante similar al algoritmo cl´asico de regresi´on log´ıstica, con la peque˜na salvedad que hemos comen- tado. A continuaci´on, se describe m´as a fondo los fundamentos de este algoritmo, as´ı como su funcionamiento.
Sea Ω =O1, . . . , Onun conjunto denindividuos, o casos, extra´ıdos aleatoriamen- te de una poblaci´on. Para el individuoOi se ha observadoyi, el valor de una variable binaria de respuesta. Se define una funci´on de distancia δ entre los individuos de Ω, de la forma que se ha descrito en el apartado anterior.
Se asume entonces que toda la informaci´on relevante respecto a la relaci´on entre la variable dependiente yi y las otras caracter´ısticas del individuo Oi, i = 1, . . . , n, queda resumida como la relaci´on entre vector de variables dependientes
y = (y1, . . . , yn) y la matriz cuadrada de distancias Δ, que contiene las distancias entre los individuos de Ω. Dado un nuevo individuo On+1 del mismo conjunto de individuos, el objetivo es entonces predecir la variableyn+1, usando para ello las dis-
tancias cuadr´aticas entre el individuo On+1 como la ´unica informaci´on disponible.
Se puede observar as´ı que nos estamos enfrentando a un problema de regresi´on binaria basado en distancias. Para poder adaptarse a este modelo, se puede asu- mir que los datos est´an siguiendo un modelo log´ıstico de la forma que veremos a continuaci´on.
Sea la matriz X, de dimensi´onn×r, una configuraci´on Eucl´ıdea de Δ, y sea xi
la fila i-´esima de X. Entonces se puede asumir que yi es una observaci´on de
Yi ∼Bern(pi), logit(pi) = xiβ, (27) para un β ∈Rr desconocido, donde logit(p) =logit( p
1−p).
Se puede observar que esta asunci´on no depende de la elecci´on en particular de la configuraci´on Eucl´ıdea X: sea V una configuraci´onr-dimensional de Δ diferente a X, entoncesV =X·T, donde T es una matriz ortogonal de tama˜no r×r, y por consecuente
Xβ = (X·T ·T)β =V γ, (28) y logit(pi) = xiβ = viγ, con γ = Tβ ∈ Rr. Se concluye por tanto que solamente la relaci´on entre el vector de variables respuesta y, y la matriz de distancias entre individuos Δ determina si el modelo log´ıstico es adecuado o no.
As´ı, el algoritmo de regresi´on log´ıstica basada en distancias [10], para obtener los valores ajustados y, y una predicci´ˆ on yn+1 en el modelo de regresi´on log´ıstica,
no necesita una declaraci´on expl´ıcita en la configuraci´on eucl´ıdea X, ya que, como se ha demostrado, estos valores son independientes de la elecci´on que hagamos de X.
4.4 Regresi´on log´ıstica basada en distancias. 37
Este modelo es una adaptaci´on delReweighted Least Squares Algorithm [58] usa- do para ajustar la regresi´on log´ıstica cl´asica. Como hemos mencionado, la principal diferencia de este modelo con el modelo de regresi´on log´ıstica cl´asico es que en la estimaci´on por m´ınimos cuadrados usaremos el modelo de regresi´on basado en distancias en lugar del modelo de regresi´on lineal.
As´ı, al algoritmo para llevar a cabo este proceso ser´ıa el siguiente:
Escoger unos valores de inicio p0 = (p01, . . . , p01) (por ejemplo, los valores ini- ciales para p0 pueden ser los valores ajustados de y, dados por una regresi´on basada en distancias est´andar, si todos los ˆyi est´an en el intervalo (0,1)). Hacer s= 0 e iterar hasta convergencia:
1. Hacer zis =logit(psi) + yi−p s i ps i(1−psi) , i= 1, ..., n. (29) 2. Establecer el vector de pesos vs = (vs1, . . . , vsn), convis∝psi(1−psi). 3. Ajustar la regresi´on basada en distancias ponderada (Weighted DBR [10],
usando la matriz de distancias Δ, el vector de respuestazs= (zs
1, . . . , zsn) y el vector de pesosvs. Sean ˆzs = (ˆzs
1, . . . ,zˆns) los valores ajustados. Definir
psi+1 = exp(ˆz s i) 1 +exp(ˆzs i) , (30) y ps+1 = (ps+1 1 , ..., psn+1).
4. Hacer s=s+ 1 y volver al paso 1. Los valores ajustados ˆy son
ˆ
y=ps+1, (31)
donde s es la ´ultima iteraci´on del algoritmo, en la que se alcanza la conver- gencia.
Este algoritmo permite establecer una predicci´on ˆpn+1 sobre el valor esperado
de la variable de respuesta para un nuevo individuo On+1, con unas distancias a los
otros individuos dadas por un vector dn+1. En la ´ultima iteraci´on del algoritmo se
usa una ecuaci´on de predicci´on para nuevos casos en el paso de la regresi´on basada en distancias ponderada (Weighted DBR) para obtener el valor predicci´on dez para un nuevo individuo ˆzs n+1, y luego se calcula ˆ pn+1 = exp(ˆz s i) 1 +exp(ˆzs i) . (32)
38 4 Modelos de regresi´on
Se puede considerar que las dos ´ultimas ecuaciones mencionadas, las que definen ˆ
y, y ˆpn+1, son el n´ucleo, el elemento principal, del algoritmo de regresi´on log´ıstica basada en distancias.
El hecho de que este modelo sea no param´etrico (solamente, sumado al hecho de que, como hemos comentado previamente, los modelos basados en distancias permiten realizar de manera natural una mezcla entre variables cuantitativas y ca- teg´oricas), hace que sea una t´ecnica a tener en cuenta para la situaci´on que nos ata˜ne, y hace de ´esta la principal raz´on de inter´es para comprobar el comportamien- to y rendimiento del modelo en este caso. Este an´alisis se realizar´a en los siguientes cap´ıtulos.
39