• No se han encontrado resultados

Regresi´ on log´ıstica basada en distancias

4. Modelos de regresi´ on

4.4. Regresi´ on log´ıstica basada en distancias

los datos que ´este posea, con lo que la correcta construcci´on de esta matriz es de vital importancia, ya que repercute directamente sobre los resultados obtenidos en el modelo.

A continuaci´on, nos centramos en el modelo en concreto utilizado, el modelo de regresi´on log´ıstica basada en distancias.

4.4.

Regresi´on log´ıstica basada en distancias.

El modelo de regresi´on log´ıstica basado en distancias [10] es una versi´on del modelo de regresi´on log´ıstica cl´asico [47], que hemos visto en la secci´on anterior, aplicada en el ´ambito de las distancias. Este modelo se trata de un caso particular del MLGBD (Modelo Lineal Generalizado basado en distancias) [13] [15] [17], cuando se asume una distribuci´on del error Binomial y una funci´on de enlace. Por tanto, el modelo est´a construido suponiendo que es un MLG en el sentido de la familia exponencial de McCullagh y Nelder [58], que se caracterizan por tener una funci´on de probabilidad en un punto de la forma

f(yi;θi;φi) =exp yiθi−b(θi) a(φi) +c(yi, φi) , (26)

para unas funciones espec´ıficas a, b, c, un determinado θi denominado par´ametro can´onico y un par´ametro φi denominado par´ametro de dispersi´on.

Este modelo se trata de un modelo no param´etrico [24], ya que la ´unica informa- ci´on requerida para el espacio de predictores es una matriz de distancias al cuadrado, que se calcula en base a las variables predictoras originales.

La variable respuesta en estos modelos se construye codificando con un 1 los individuos que presentan una determinada caracter´ıstica y con un 0 los que no. As´ı, en el caso que nos ocupa, de detecci´on de fraude en la Agencia Tributaria, codificar´ıamos con un 1 a los individuos sospechosos de haber cometido fraude y con un 0 a los sospechosos en principio no fraudulentos.

Los datos contenidos en las variables predictoras, datos que suelen ser de tipo mixto (mezcla entre datos cuantitativos, cualitativos, etc.), se incorpora al modelo a partir de una matriz de distancias Δ que cumpla la propiedad eucl´ıdea, ya que m´as adelante se calcular´a una configuraci´on Eucl´ıdea mediante c´alculos m´etricos multi- dimensionales. Todos los c´alculos se realizar´an a partir de esta matriz de distancias, raz´on por la que se considera este modelo como no param´etrico. La citada configu- raci´on asume en el modelo el rol de un predictor lineal. A partir, de ah´ı, se realizan los mismos procedimientos y suposiciones que en la regresi´on log´ıstica cl´asica.

La principal diferencia con respecto a la regresi´on log´ıstica cl´asica es que en el proceso iterativo de estimaci´on de los par´ametros por m´ınimos cuadrados, se usa el modelo de regresi´on basada en distancias en vez del modelo de regresi´on lineal cl´asico.

Este modelo de regresi´on basada en distancias fue introducido por primera vez en [25], desarrollado m´as adelante en [26] y [27] y estudiado posteriormente en [9] [10] [11] [12], [32] y [33]. Todos estos trabajos presentan detalles te´oricos interesantes

36 4 Modelos de regresi´on

sobre estos modelos. Adem´as, este modelo ha sido aplicado en una cierta cantidad de problemas pr´acticos, como la selecci´on de factores de riesgo a priori en el campo de los seguros de no vida [6] [7] [8], con una primera versi´on con aplicaci´on a datos funcionales en [10] o la selecci´on de factores de riesgo en datos de cr´edito de Australia y Alemania [24].

Con respecto a su funcionamiento, se puede apreciar que es bastante similar al algoritmo cl´asico de regresi´on log´ıstica, con la peque˜na salvedad que hemos comen- tado. A continuaci´on, se describe m´as a fondo los fundamentos de este algoritmo, as´ı como su funcionamiento.

Sea Ω =O1, . . . , Onun conjunto denindividuos, o casos, extra´ıdos aleatoriamen- te de una poblaci´on. Para el individuoOi se ha observadoyi, el valor de una variable binaria de respuesta. Se define una funci´on de distancia δ entre los individuos de Ω, de la forma que se ha descrito en el apartado anterior.

Se asume entonces que toda la informaci´on relevante respecto a la relaci´on entre la variable dependiente yi y las otras caracter´ısticas del individuo Oi, i = 1, . . . , n, queda resumida como la relaci´on entre vector de variables dependientes

y = (y1, . . . , yn) y la matriz cuadrada de distancias Δ, que contiene las distancias entre los individuos de Ω. Dado un nuevo individuo On+1 del mismo conjunto de individuos, el objetivo es entonces predecir la variableyn+1, usando para ello las dis-

tancias cuadr´aticas entre el individuo On+1 como la ´unica informaci´on disponible.

Se puede observar as´ı que nos estamos enfrentando a un problema de regresi´on binaria basado en distancias. Para poder adaptarse a este modelo, se puede asu- mir que los datos est´an siguiendo un modelo log´ıstico de la forma que veremos a continuaci´on.

Sea la matriz X, de dimensi´onn×r, una configuraci´on Eucl´ıdea de Δ, y sea xi

la fila i-´esima de X. Entonces se puede asumir que yi es una observaci´on de

Yi ∼Bern(pi), logit(pi) = xiβ, (27) para un β Rr desconocido, donde logit(p) =logit( p

1−p).

Se puede observar que esta asunci´on no depende de la elecci´on en particular de la configuraci´on Eucl´ıdea X: sea V una configuraci´onr-dimensional de Δ diferente a X, entoncesV =X·T, donde T es una matriz ortogonal de tama˜no r×r, y por consecuente

= (X·T ·T)β =V γ, (28) y logit(pi) = xiβ = viγ, con γ = Rr. Se concluye por tanto que solamente la relaci´on entre el vector de variables respuesta y, y la matriz de distancias entre individuos Δ determina si el modelo log´ıstico es adecuado o no.

As´ı, el algoritmo de regresi´on log´ıstica basada en distancias [10], para obtener los valores ajustados y, y una predicci´ˆ on yn+1 en el modelo de regresi´on log´ıstica,

no necesita una declaraci´on expl´ıcita en la configuraci´on eucl´ıdea X, ya que, como se ha demostrado, estos valores son independientes de la elecci´on que hagamos de X.

4.4 Regresi´on log´ıstica basada en distancias. 37

Este modelo es una adaptaci´on delReweighted Least Squares Algorithm [58] usa- do para ajustar la regresi´on log´ıstica cl´asica. Como hemos mencionado, la principal diferencia de este modelo con el modelo de regresi´on log´ıstica cl´asico es que en la estimaci´on por m´ınimos cuadrados usaremos el modelo de regresi´on basado en distancias en lugar del modelo de regresi´on lineal.

As´ı, al algoritmo para llevar a cabo este proceso ser´ıa el siguiente:

Escoger unos valores de inicio p0 = (p01, . . . , p01) (por ejemplo, los valores ini- ciales para p0 pueden ser los valores ajustados de y, dados por una regresi´on basada en distancias est´andar, si todos los ˆyi est´an en el intervalo (0,1)). Hacer s= 0 e iterar hasta convergencia:

1. Hacer zis =logit(psi) + yi−p s i ps i(1−psi) , i= 1, ..., n. (29) 2. Establecer el vector de pesos vs = (vs1, . . . , vsn), convis∝psi(1−psi). 3. Ajustar la regresi´on basada en distancias ponderada (Weighted DBR [10],

usando la matriz de distancias Δ, el vector de respuestazs= (zs

1, . . . , zsn) y el vector de pesosvs. Sean ˆzs = (ˆzs

1, . . . ,zˆns) los valores ajustados. Definir

psi+1 = expz s i) 1 +expzs i) , (30) y ps+1 = (ps+1 1 , ..., psn+1).

4. Hacer s=s+ 1 y volver al paso 1. Los valores ajustados ˆy son

ˆ

y=ps+1, (31)

donde s es la ´ultima iteraci´on del algoritmo, en la que se alcanza la conver- gencia.

Este algoritmo permite establecer una predicci´on ˆpn+1 sobre el valor esperado

de la variable de respuesta para un nuevo individuo On+1, con unas distancias a los

otros individuos dadas por un vector dn+1. En la ´ultima iteraci´on del algoritmo se

usa una ecuaci´on de predicci´on para nuevos casos en el paso de la regresi´on basada en distancias ponderada (Weighted DBR) para obtener el valor predicci´on dez para un nuevo individuo ˆzs n+1, y luego se calcula ˆ pn+1 = expz s i) 1 +expzs i) . (32)

38 4 Modelos de regresi´on

Se puede considerar que las dos ´ultimas ecuaciones mencionadas, las que definen ˆ

y, y ˆpn+1, son el n´ucleo, el elemento principal, del algoritmo de regresi´on log´ıstica basada en distancias.

El hecho de que este modelo sea no param´etrico (solamente, sumado al hecho de que, como hemos comentado previamente, los modelos basados en distancias permiten realizar de manera natural una mezcla entre variables cuantitativas y ca- teg´oricas), hace que sea una t´ecnica a tener en cuenta para la situaci´on que nos ata˜ne, y hace de ´esta la principal raz´on de inter´es para comprobar el comportamien- to y rendimiento del modelo en este caso. Este an´alisis se realizar´a en los siguientes cap´ıtulos.

39