Modelos de suavizado, aditivos y mixtos
Tema 1: Modelos aditivos
Carmen Armero
26 de mayo de 2011
Modelos aditivos con varias variables predictoras
Modelos aditivos
Funciones suaves
Regresi´ on polin´ omica Splines de regresi´ on
Control del grado de suavizaci´ on a trav´ es de splines penalizados.
Estimaci´ on del par´ ametro de suavizaci´ on
Modelos aditivos con varias variables predictoras
Modelos aditivos, I
I Un modelo aditivo es un modelo lineal con un predictor lineal definido a trav´es de una suma de funciones suaves de las covariables.
(Y | X, U, V , W , Z , . . .) ∼ Normal(µ, σ2) µ = E(Y | X, U, V , W , Z , . . .)
µ = Xβ + f1(U) + f2(V ) + f3(W , Z ) + . . .
siendo:
I Y : variable respuesta
I X: matriz de dise˜no correspondiente a las covariables que definen las componentes param´etricas del modelo.
I β: vector de los coeficientes de regresi´on.
I U, V , W , Z , . . .: covariables
I fj(.): funciones suaves de las covariables, j = 1, 2, 3, . . .
Modelos aditivos con varias variables predictoras
Modelos aditivos, II
I Ventajas: modelos muy flexibles que permiten modelizar, a trav´es de funciones suaves, relaciones de tipo no lineal entre la variable respuesta y las predictoras.
I Precio que tenemos que pagar:
I Estudio y representaci´on de funciones suaves.
I Procedimientos de selecci´on del grado de suavizaci´on de las funciones consideradas.
Funciones suaves univariantes
A lo largo de casi todo el tema trabajaremos con la situaci´on m´as sencilla:
I Una ´unica covariable, X , que supondremos que toma valores en el intervalo [0, 1].
I La distribuci´on de la variable respuesta es (Yi| Xi) ∼ N(f (xi), σ2), con lo que:
Yi= f (xi) + i, i = 1, . . . , n
siendo f una funci´on suave y i variables aleatorias i .i .d . distribuidas seg´un N(0, σ2).
Modelos aditivos con varias variables predictoras
Splines de regresi´ on
I Para poder estimar la funci´on f de la forma m´as sencilla posible deber´ıamos poder representar f de forma que
Yi= f (xi) + i, i = 1, . . . , n se convirtiera en un modelo lineal.
I Y ´esto se puede hacer eligiendo una base de funciones de dimensi´on q que genere un subespacio de funciones que incluya a f como elemento y que pueda expresarse como:
f (x ) =
q
X
j =1
βjbj(x )
siendo βjel par´ametro, desconocido, asociado al elemento j , bj(x ), de dicha base de funciones.
I De esa forma:
Yi=
q
X
j =1
βjbj(x ) + i, i = 1, . . . , n
se convierte en un modelo lineal de dimensi´on q.
I La propuesta m´as sencilla: bases de polinomios.
Ejemplo 1: Una base de polinomios, I
I Supongamos que f es un polinomio de grado 4 de forma que el espacio de polinomios de grado 4 contiene a f . Una base de este subespacio es:
I b1(x ) = 1
I b2(x ) = x
I b3(x ) = x2
I b4(x ) = x3
I b5(x ) = x4 I Con lo que el modelo:
Yi =Pq
j =1βjbj(xi) + i, i = 1, . . . , n se convierte en el modelo lineal de dimensi´on q = 5:
Yi = β1+ β2xi+ β3xi2+ β4xi3+ β5xi4+ i, i = 1, . . . , n
Modelos aditivos con varias variables predictoras
Ejemplo 1: Una base de polinomios, II
f (x ) = 1 + x − x2− x3+ x40.0 0.4 0.8
0.00.51.01.52.0
x b1(x)=1
0.0 0.4 0.8
0.00.20.40.60.81.0
x b2(x)=x
0.0 0.4 0.8
0.00.20.40.60.81.0
x b3(x)=x2
0.00.20.40.60.81.0
b4(x)=x3 0.00.20.40.60.81.0
b5(x)=x4 1.001.051.101.151.20
f(x)
Ejemplo 1: Una base de polinomios, III
f (x ) = −3 − 2x + x2+ x3+ x40.0 0.4 0.8
0.00.51.01.52.0
x b1(x)=1
0.0 0.4 0.8
0.00.20.40.60.81.0
x b2(x)=x
0.0 0.4 0.8
0.00.20.40.60.81.0
x b3(x)=x2
0.0 0.4 0.8
0.00.20.40.60.81.0
x b4(x)=x3
0.0 0.4 0.8
0.00.20.40.60.81.0
x b5(x)=x4
0.0 0.4 0.8
−1012345
x
f(x)
Modelos aditivos con varias variables predictoras
Bases de polinomios
I Las bases de polinomios son muy ´utiles en aquellas situaciones en las que el objetivo se centra en las propiedades de f en la vecindad de una localizaci´on concreta.
I Pero cuando el objetivo es estudiar la funci´on f en un dominio amplio no son adecuadas debido a su falta de robustez.
I Tienen muchos problemas de multicolinealidad.
Ejemplo 2: Regresi´ on polin´ omica
Modelo: Yi =Pqj =1βjxij −1 + i, i = 1, . . . , n, con q = 2, 6, 9, 10, 11, 16
0.5 1.5 2.5
0.700.800.901.00
x
y
0.5 1.5 2.5
0.700.800.901.00
x
y
0.5 1.5 2.5
0.700.800.901.00
x
y
0.5 1.5 2.5
0.700.800.901.00
y
0.5 1.5 2.5
0.700.800.901.00
y
0.5 1.5 2.5
0.700.800.901.00
y
Modelos aditivos con varias variables predictoras
Recapitulemos...
I Regresi´on polin´omica?No, gracias (en general, claro).
I Existen otro tipo de bases de funciones que funcionen mejor?Si, un mont´on.
I Vale, pues seguimos....
Splines
I Un spline es una curva definida a trozos mediante polinomios.
I Los splines se utilizan para aproximar curvas con formas complicadas.
I Tienen una representaci´on sencilla y son f´aciles de implementar.
I Tienen buenas propiedades matem´aticas.
I Producen buenos resultados con polinomios de grado bajo evitando as´ı las oscilaciones, indeseables en la mayor´ıa de las aplicaciones, que se producen con polinomios de grado elevado.
Modelos aditivos con varias variables predictoras
Bases de splines
I Muchas bases de splines y de muy diferente tipo I Las m´as populares:
I Bases de polinomios truncados.
I Bases de splines c´ubicos.
I Bases de B-splines.
I Bases de thin plate splines.
I En este tema s´olo trabajaremos splines c´ubicos, concretamente con una base que definiremos en las siguientes transparencias.
Splines c´ ubicos, I
I Un spline c´ubico es una curva construida a partir de trozos de polinomios de grado 3 que se ensamblan perfectamente de forma que la curva que forman es continua hasta la segunda derivada.
I A las abcisas de los puntos en los que se unen las distintas bases (los trozos) se les llama nodos.
I Spline c´ubico generado por 11 bases (trozos) y 12 nodos (10 de ellos interiores).
Modelos aditivos con varias variables predictoras
Splines c´ ubicos II: por qu´ e splines c´ ubicos?
I Los elementos de una base de splines c´ubicos son polinomios de grado 3.
I Se utilizan mucho porque tienen muy buenas propiedades matem´aticas: son los polinomios de grado m´as peque˜no que tienen segundas derivadas cont´ınuas y puntos de inflexi´on.
I f (x ) = x3− x2− 5x + 6; f0(x ) = 3x2− 2x − 5; f00(x ) = 6x − 2
−6 −2 2 4 6
−200−1000100
x
y1
−6 −2 2 4 6
020406080100
x
y2
−6 −2 2 4 6
−40−200102030
x
y3
Splines c´ ubicos, III
I Una de las bases de splines c´ubicos m´as utilizadas basadas en q − 2 nodos interiores, xj∗, j = 1, 2, . . . , q − 2, es:
I b1(x ) = 1
I b2(x ) = x
I bj +2(x ) = R(x , xj∗), j = 1, . . . , q − 2 siendo : R(x , z) =h
(z − 1/2)2− 1/12i h
(x − 1/2)2− 1/12i /4
−
| x − z | −1/2)4− 1/2(| x − z | −1/2)2+ 7/240i /24 I La dimensi´on de la base, q, est´a determinada por el n´umero, q − 2, de nodos
interiores que seleccionamos.
I Los dos primeros elementos de la base b1(x ) = 1 y b2(x ) = x no dependen de los nodos elegidos y ...modelo de regresi´on lineal simple!
I Con esta base de splines definimos f a trav´es de un modelo lineal con matriz de dise˜no X con q columnas cuya i -´esima fila es:
Xi = [1, xi, R(xi, x1∗), R(xi, x2∗), . . . , R(xi, xq−2∗ )]
Modelos aditivos con varias variables predictoras
Splines c´ ubicos, IV: Ejemplo 3, I
I Base de splines c´ubicos basada en 2 nodos interiores, x1∗= 1/3 y x2∗= 2/3, es:
I b1(x ) = 1, b2(x ) = x
I b3(x ) = R(x , 1/3), b4(x ) = R(x , 2/3)
0.0 0.2 0.4 0.6 0.8 1.0
0.60.81.01.21.4
x
1
0.0 0.2 0.4 0.6 0.8 1.0
0.00.40.8
x
x
0.0 0.2 0.4 0.6 0.8 1.0
−0.0030.0000.002
rk1
0.0 0.2 0.4 0.6 0.8 1.0
−0.0030.0000.002
rk2
Splines c´ ubicos, V: Ejemplo 3, II
I Base de splines c´ubicos basada en 3 nodos interiores, x1∗= 1/4, x2∗= 2/4 y x3∗= 3/4, es:
I b1(x ) = 1, b2(x ) = x
I b3(x ) = R(x , 1/4), b4(x ) = R(x , 2/4), b5(x ) = R(x , 3/4)
0.0 0.4 0.8
0.60.81.01.21.4
x
1
0.0 0.4 0.8
0.00.20.40.60.81.0
x
x
0.0 0.4 0.8
−0.00100.00000.0010
x
rk1
0.0 0.4 0.8
−0.0040.0000.002
x
rk2
0.0 0.4 0.8
−0.00100.00000.0010
x
rk3
Modelos aditivos con varias variables predictoras
Splines c´ ubicos, VI: Ejemplo 3, III
I Base de splines c´ubicos basada en 4 nodos interiores, x1∗= 1/5, x2∗= 2/5, x3∗= 3/5 y x4∗= 4/5, es:
I b1(x ) = 1, b2(x ) = x
I b3(x ) = R(x , 1/5), b4(x ) = R(x , 2/5), b5(x ) = R(x , 3/5), b6(x ) = R(x , 4/5)
0.0 0.4 0.8
0.60.81.01.21.4
x
1
0.0 0.4 0.8
0.00.20.40.60.81.0
x
x
0.0 0.4 0.8
−0.00100.00000.0010
x
rk1
−0.0020.0000.002
rk2 −0.0020.0000.002
rk3 0.00000.0010
rk4
Ejemplo de juguete, I
Vamos a utilizar un ejemplo de jugueta para ilustrar los conceptos que estamos introduciendo.
I Datos:
x<-c(0.1,0.2,0.4,0.5,0.7,0.9) y<-c(2,4,5,3,2,6)
I plot(x,y, pch=16, col=red”, ylim=c(0,8))”
●
●
●
●
●
●
0.2 0.4 0.6 0.8
02468
x
y
Modelos aditivos con varias variables predictoras
Ejemplo de juguete, II
I Vamos a utilizar un modelo de regresi´on con splines c´ubicos basados en los nodos interiores x1∗= 1/3 y x2∗= 2/3.
I Con lo que el modelo lineal ser´a:
Y = β1+ β2x + β3R(x , x1∗= 1/3) + β4R(x , x2∗= 2/3) + I La expresi´on general de la matriz de dise˜no ser´a:
X
|{z}
6×4
=
1 0.1 R(0.1, 1/3) R(0.1, 2/3) 1 0.2 R(0.2, 1/3) R(0.2, 2/3) 1 0.4 R(0.4, 1/3) R(0.4, 2/3) 1 0.5 R(0.5, 1/3) R(0.5, 2/3) 1 0.7 R(0.7, 1/3) R(0.7, 2/3) 1 0.9 R(0.9, 1/3) R(0.9, 2/3)
,
I Y operando:
X
|{z}
6×4
=
1 0.1 −0.0010093107 −0.0021883230 1 0.2 0.0007399177 −0.0012847737 1 0.4 0.0022460905 0.0008139918 1 0.5 0.0017425412 0.0017425412 1 0.7 −0.0002562243 0.0019474794 1 0.9 −0.0021883230 −0.0010093107
,
Ejemplo de juguete, III
I mod.1 <- lm(y ∼ X-1), modelo de regresi´on ajustado summary(mod.1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
X1 -1.2844 0.4631 -2.773 0.10914
X2 9.9210 0.8906 11.140 0.00796**
X3 1541.8645 168.4361 9.154 0.01172*
X4 -1745.4710 171.1229 -10.200 0.00948**
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.32 on 2 degrees of freedom Multiple R-squared: 0.9978,
Adjusted R-squared: 0.9935
F-statistic: 228.9 on 4 and 2 DF, p-value: 0.004354
Modelos aditivos con varias variables predictoras
Ejemplo de juguete, IV
La funci´on de regresi´on estimada es:●
●
●
●
●
●
0.2 0.4 0.6 0.8
02468
x
y
Ejemplo: Volvo, I
I Ejemplo: Volvo 1
Se piensa que los coches con grandes cilindradas se deterioran menos r´apidamente que los que tienen peque˜nas cilindradas. En un estudio sobre el tema se analizaron 19 motores Volvo 19 y se obtuvieron los siguientes datos:
tama~no<-c(1.42,1.58,1.78,1.99,1.99,1.99,2.13,2.13,2.13,2.32,2.32, 2.32,2.32,2.32, 2.43,2.43,2.78,2.98,2.98)
desgaste<-c(4.0,4.2,2.5,2.6,2.8,2.4,3.2,2.4,2.6,4.8,2.9,3.8,3.0, 2.7,3.1,3.3,3.0,2.8,1.7)
I Modelo:
desgastei= f (tama˜noi) + i, i i.i.d. ∼ N(0, σ2) i = 1, . . . , n = 19 y vamos a modelizar f a trav´es de una base de splines c´ubicos.
I Trabajamos ahora con el script SVolvo1 para ilustrar el tratamiento del problema a trav´es de un modelo de regresi´on con splines. Utilizaremos dos bases de distinta dimensi´on para entender un poco m´as el papel de los distintos elementos en el modelo.
Modelos aditivos con varias variables predictoras
Control del grado de suavizaci´ on, I
I La elecci´on del grado de suavizaci´on est´a controlada por la dimensi´on de la base de splines. Este es un tema importante. Necesitamos introducir criterios que nos permitan seleccionar de forma adecuada el grado de suavizaci´on del modelo.
I Antes de empezar a estudiar este tema vamos a recordar el m´etodo de m´ınimos cuadrados ...que introdujimos en la asignatura de modelos lineales.
I La siguiente transparencia es un quasicopy-paste de la transparencia del tema 1 de la asignatura de Modelos lineales para el modelo de regresi´on lineal simple en la que introduc´ıamos el m´etodo de m´ınimos cuadrados.
Control del grado de suavizaci´ on, II
Quasi-copy-paste de Estimaci´ on: m´ etodo de m´ınimos cuadrados, I
I A partir de la informaci´on proporcionada por n observaciones emparejadas {(Xi, Yi), i = 1, . . . , n} el m´etodo de los m´ınimos cuadrados considera la diferencia entre cada observaci´on Yi de la variable respuesta y su correspondiente media, β1+ β2Xi, a trav´es del estad´ıstico:
Q(β1, β2) =Pn
i =1(Yi− (β1+ β2Xi))2
y elige como estimadores de β1y β2aquellos valores que minimizan el valor de Q(β1, β2).
I Dicho proceso de minimizaci´on (funci´on de dos variables) proporciona como estimadores de ambos par´ametros aquellos valores que cumplen las ecuaciones:
Pn
i =1Yi = nβ1+ β2Pn i =1 Xi
Pn
i =1XiYi= β1Pn
i =1Xi+ β2Pn i =1 Xi2 que son conocidas comoecuaciones normales.
Modelos aditivos con varias variables predictoras
Control del grado de suavizaci´ on, III
I Pero nosotros ahora no estamos trabajando con el modelo de regresi´on lineal simple sino con un modelo de regresi´on lineal m´ultiple en el que la matriz de dise˜no est´a definida por los elementos de una base de splines.
I Con lo que ahora deber´ıamos modificar la descripci´on anterior como: A partir de la informaci´on proporcionada por n observaciones emparejadas
{(Xi, Yi), i = 1, . . . , n} el m´etodo de los m´ınimos cuadrados considera la diferencia entre cada observaci´on Yi de la variable respuesta y su correspondiente media (o funci´on de regresi´on),
β1b1(xi) + β2b2(xi) + . . . + βqbq(xi), a trav´es del estad´ıstico:
Q(β1, . . . , βq) =Pn
i =1(Yi− (β1b1(xi) + β2b2(xi) + . . . + βqbq(xi))2 y elige como estimadores de β1, . . ., βq, aquellos valores que minimizan el valor de Q(β1, . . . , βq).
I Para aligerar un poco la notaci´on a partir de ahora la expresi´on anterior la representaremos como:
Q(β) =|| Y − Xβ ||2
siendo β = (β1, β2, . . . , βq)T, Y = (Y1, . . . , Yn)T y X la matriz de dise˜no definida por la base de splines cuyas fila i -´esima es de la forma:
Control del grado de suavizaci´ on: Criterio 1
I Criterio 1: Reducir la base de splines.
I Una posibilidad que tenemos para elegir el grado de suavizaci´on es a trav´es de contrastes de hip´otesis en los que se valoren modelos con mayor o menor grado de suavizaci´on, es decir, con mayor o menor n´umero de nodos.
I Pero esta propuesta es problem´atica porque, por ejemplo, un modelo basado en q − 1 nodos igualmente espaciados no est´a encajado en un modelo basado en q nodos.
Modelo 1: Y = β1+ β2x + β3R(x , x1∗= 1/2) +
Modelo 2: Y = β1+ β2x + β3R(x , x1∗= 1/3) + β4R(x , x1∗= 2/3) + I Podr´ıamos pensar en un proceso de selecci´on de variables backward, empezando
con un grid amplio de nodos e ir eliminando nodos. No es un proceso
recomendable porque el modelo resultante es, en general, bastante pobre ya que el ajuse en estos modelos depende fuertemente de la localizaci´on elegida para los nodos.
I Por lo tanto el criterio 1 NO parece adecuado.
Modelos aditivos con varias variables predictoras
Control del grado de suavizaci´ on: Splines penalizados, I.
I Criterio 2: Utilizar splines penalizados.
I Mantenemos fija la base de splines y controlamos el grado de suavizaci´on del modelo a˜nadiendo una penalizaci´on a la funci´on objetivo del m´etodo de m´ınimos cuadrados:
Q(β) =|| Y − Xβ ||2
Q(β) =|| Y − Xβ ||2 + λ Penalizaci´on
I λ es el par´ametro de suavizaci´on. Cuando λ = 0 estamos en el caso particular en el que no hay penalizaci´on y a medida que λ aumenta aumentamos la intensidad de la penalizaci´on. Cuando λ tiende a ∞ el modelo se convierte pr´acticamente en un modelo de regresi´on lineal simple.
I Penalizaci´on =R1
0 f00(x ) d(x ). ¿Cual ser´ıa la penalizaci´on si
f (x ) = β1+ β2x ?, ¿y si f (x ) = β1+ β2x + β3x2+ β4x4?, Modelos muy
”monta˜nosos-inestables”, modelos muy penalizados.
Control del grado de suavizaci´ on: Splines penalizados, II.
I Penalizaci´on =R1
0 f00(x ) d(x ).
I Felizmente puede expresarse como:
Penalizaci´on =R1
0 f00(x ) d(x ) = βTS β siendo S una matriz de orden q × q con coeficientes conocidos que dependen de la base elegida y a la que se conoce como matriz de penalizaci´on.
I M´ınimos cuadrados penalizados:
Q(β) =|| Y − Xβ ||2+λ βTS β
I Estimador penalizado de β:
βˆpenal = (XTX + λS)−1XTY
I Matriz de proyecci´on del modelo penalizado:
Hpenal = X(XTX + λS)−1XT
I Estimaci´on de la funci´on de regresi´on:
X ˆβpenal= HpenalY
Modelos aditivos con varias variables predictoras
Control del grado de suavizaci´ on: Splines penalizados, III.
I Modelo lineal: Y = Xβ +
siendo X la matriz de dise˜no definida por una base de splines.
I Comparamos:
Splines de regresi´on Splines de regresi´on no penalizados penalizados
Q(β) =|| Y − Xβ ||2 Q(β) =|| Y − Xβ ||2+λ βTS β β = (Xˆ TX)−1XTY βˆpenal= (XTX + λS)−1XTY H = X(XTX)−1XT Hpenal= X(XTX + λS)−1XT
siendo λ el par´ametro de suavizado y S la matriz de penalizaci´on.
Control del grado de suavizaci´ on: Splines penalizados, IV.
I Modelo: Y = Xβ +
siendo X la matriz de dise˜no definida por una base de splines.
I La expresi´on de la matriz de penalizaci´on, S, depende de la base de splines que consideremos.
I Si trabajamos con la base de splines c´ubica de dimensi´on q introducida anteriormente, la matriz de penalizaci´on S es de orden q × q y se define como:
I Las dos primeras columnas y filas est´an todas ellas formadas por ceros (no hay penalizaci´on al t´ermino param´etrico de la base).
I Sj +2,k+2= R(xj∗, xk∗), j , k = 1, . . . , q − 2
Modelos aditivos con varias variables predictoras
Ejemplo de juguete, V
I Estamos trabajando un modelo de regresi´on con splines c´ubicos basados en los nodos interiores x1∗= 1/3 y x2∗= 2/3.
I Datos:
x<-c(0.1,0.2,0.4,0.5,0.7,0.9) y<-c(2,4,5,3,2,6)
I Vamos a calcular la matriz de penalizaci´on S. Se trata de una matriz de orden 4 × 4 con elementos
S
|{z}
4×4
=
0 0 0 0
0 0 0 0
0 0 R(1/3, 1/3) R(1/3, 2/3) 0 0 R(2/3, 1/3) R(3/3, 2/3)
,
I Y operando:
S
|{z}
4×4
=
0 0 0 0
0 0 0 0
0 0 0.0021604938 0.0001028807 0 0 0.0001028807 0.0021604938
,
Control del grado de suavizaci´ on: Splines penalizados, V.
I El modelo de regresi´on lineal penalizado Y = Xβ + ,
siendo X la matriz de dise˜no definida por una base de splines y penalizaci´on λβTSβ.
I Es equivalente al modelo de splines de regresi´on lineal no penalizados
Y0 = X0β + , siendo:
I Y0= (Y, 0, 0, . . . , 0
| {z }
q
)Tvector de dimensi´on (n + q) × 1,
I X0=
X
B√ λ
matriz de dise˜no de orden (n + q) × q
I B es una matriz que cumple BTB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.
I λ es el par´ametro de penalizaci´on.
Modelos aditivos con varias variables predictoras
Ejemplo de juguete, VI
El modelo de regresi´on penalizado que hemos escrito en la transparenciaEjemplo de juguete, Ves equivalente al modelo de splines de regresesi´on no penalizados:
Y0= X0β + , siendo:
Y0
|{z}
10×1
=
Y1 Y2 Y3 Y4 Y5 Y6 0 0 0 0
, X0
|{z}
10×4
=
1 0.1 R(0.1, 1/3) R(0.1, 2/3) 1 0.2 R(0.2, 1/3) R(0.2, 2/3) 1 0.4 R(0.4, 1/3) R(0.4, 2/3) 1 0.5 R(0.5, 1/3) R(0.5, 2/3) 1 0.7 R(0.7, 1/3) R(0.7, 2/3) 1 0.9 R(0.9, 1/3) R(0.9, 2/3)
0 0 0 0
0 0 0 0
0 0 √
λ B(1/3, 1/3) √
λ B(1/3, 2/3)
0 0 √
λ B(2/3, 1/3) √
λ B(3/3, 2/3)
Ejemplo de juguete, VII
El modelo de regresi´on penalizado que hemos escrito en la transparenciaEjemplo de juguete, Ves equivalente al modelo de regresi´on con splines:
Y0= X0β + , siendo:
Y0
|{z}
10×1
=
Y1 Y2 Y3 Y4 Y5 Y6 0 0 0 0
, X0
|{z}
10×4
=
1 0.1 −0.0010093107 −0.0021883230 1 0.2 0.0007399177 −0.0012847737 1 0.4 0.0022460905 0.0008139918 1 0.5 0.0017425412 0.0017425412 1 0.7 −0.0002562243 0.0019474794 1 0.9 −0.0021883230 −0.0010093107
0 0 0 0
0 0 0 0
0 0 √
λ 0.0021604938 √
λ 0.0001028807
0 0 √
λ 0.0001028807 √
λ 0.0021604938
,
Modelos aditivos con varias variables predictoras
Ejemplo de juguete, VIII
El modelo de regresi´on penalizado delEjemplo de juguete con λ = 0.1, 0.01, 0.001, 0.0001, 0.00001, 0.000001
●
●
●
●
●
●
0.2 0.4 0.6 0.8
02468
x
y
●
●
●
●
●
●
0.2 0.4 0.6 0.8
02468
x
y
●
●
●
●
●
●
0.2 0.4 0.6 0.8
02468
x
y
●
●
●
●
●
●
02468
y
●
●
●
●
●
●
02468
y
●
●
●
●
●
●
02468
y
Control del grado de suavizaci´ on: Splines penalizados, V, otra vez.
I El modelo de regresi´on lineal penalizado Y = Xβ + ,
siendo X la matriz de dise˜no definida por una base de splines y penalizaci´on λβTSβ.
I Es equivalente al modelo de regresi´on lineal no penalizado
Y0 = X0β + , siendo:
I Y0= (Y, 0, 0, . . . , 0
| {z }
q
)Tvector de dimensi´on (n + q) × 1,
I X0=
X
B√ λ
matriz de dise˜no de orden (n + q) × q
I B una matriz que cumple BTB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.
I λ el par´ametro de suavizaci´on.
Modelos aditivos con varias variables predictoras
Estimaci´ on del par´ ametro de suavizaci´ on, I
I El par´ametro de suavizaci´on, λ, juega un papel muy importante en el grado de suavizaci´on del modelo.
I Es un par´ametro desconocido que deberemos estimar adecuadamente.
I Recordamos que si λ es grande el modelo suaviza los datos en exceso mientras que si λ es peque˜no los datos estar´an muy poco suavizados. En ambos casos, la funci´on de regresi´on estimada, que representaremos ahora como ˆf (x ),
estar´a lejos de la verdadera funci´on f (x ).
I Un criterio sensato para estimar el par´ametro de penalizaci´on ser´ıa elegir aquel valor de λ que minimizase:
M = 1nPn
i =1(f (xi) − ˆf (xi))2,
pero como f (x ) es desconocida no podemos utilizarlo.
I Pero esta es una buena idea que puede aprovecharse, y a partir de ella, introduciendo algunas hip´otesis y aproximaciones, se obtiene el estad´ıstico general de validaci´on cruzada:
Vg=nPn
i =1(yi− ˆf (xi))2
| traza(I − H) |
que elige como mejor estimador de el valor que minimiza Vg, siendo H la
Ejemplo de juguete, IX
I Estimaci´on del par´ametro de suavizado, ˆλ=24512.31 (ojo)
I Estad´ıstico GVC y estimaci´on de la funci´on de regresi´on del modelo de splines penalizados.
0 10 20 30 40 50 60
8101214161820
Estadístico GVC
i
V
●
●
●
●
●
●
0.2 0.4 0.6 0.8
23456
x
y
Modelos aditivos con varias variables predictoras
Ejemplo: Volvo, II.
I Ejemplo: Volvo 2
Se piensa que los coches de grandes cilindradas se deterioran menos r`apidamente que los que tienen peque˜nas cilindradas. En un estudio sobre el tema se analizaron 19 motores Volvo 19 y se obtuvieron los siguientes datos:
tama~no<-c(1.42,1.58,1.78,1.99,1.99,1.99,2.13,2.13,2.13,2.32,2.32, 2.32,2.32,2.32, 2.43,2.43,2.78,2.98,2.98)
desgaste<-c(4.0,4.2,2.5,2.6,2.8,2.4,3.2,2.4,2.6,4.8,2.9,3.8,3.0, 2.7,3.1,3.3,3.0,2.8,1.7)
I Modelo:
desgastei= f (tama˜noi) + i, i i.i.d. ∼ N(0, σ2) i = 1, . . . , n = 19 y vamos a modelizar f a trav´es de una base de splines c´ubicos.
I Trabajamos ahora con el script SVolvo2 para ilustrar el tratamiento del problema a trav´es de un modelo de regresi´on con splines penalizados.
Utilizaremos dos bases de distinta dimensi´on para entender un poco m´as el papel de los distintos elementos en el modelo.
Modelos aditivos con varias variables predictoras, I
I Para no hacerlo todo mucho m´as complicado a nivel formal suponemos que el modelo aditivo con varias variables explicativas incluye s´olo dos variables predictoras. En concreto, estudiaremos el comportamiento de una variable respuesta Y a trav´es de las variables predictoras X y Z seg´un el modelo de estructura aditiva:
Yi = f1(xi) + f2(zi) + i
siendo:
I f1y f2son funciones suaves.
I i: variables i .i .d con distribuci´on N(0, σ2)
I Suponemos por simplicidad que todos los valores de X y Z pertenecen al intervalo [0, 1]
I Nota 1 sobre la hip´otesis de efectos aditivos de X y Z : f1(x ) + f2(z) es un caso especial, bastante restrictivo, de la funci´on general f (x , z).
I Nota 2: como el modelo contiene m´as de una funci´on aparece un problema de identificabilidad ya que, por ejemplo, si a˜nadimos una constante a f1y sustraemos la misma constante a f2el modelo no cambia.
Modelos aditivos con varias variables predictoras
Modelos aditivos con variables predictoras, II
I Despues de resolver el problema de la identificabilidad del mpdelo, el modelo aditivo con varias variables explicativas puede estudiarse a trav´es del mismo tipo de an´alisis que hemos aprendido en el tema anterior cuando trabaj´abamos con una ´unica variable predictiva:
I Representaci´on de las funciones suaves a trav´es de bases de funciones, en particular, splines.
I Estimaci´on a trav´es del m´etodo de m´ınimos cuadrados penalizados.
I Selecci´on del grado de suavizaci´on del modelo a trav´es de procedimientos de validaci´on cruzada.
I El siguiente material profundiza en estos temas.
Modelos aditivos con variables predictoras, III
I Utilizamos dos variables explicativas, X y Z , para analizar una variable respuesta Y a trav´es del modelo aditivo:
Yi = f1(xi) + f2(zi) + i
siendo (Yi| X1i, X2i) ∼ N(f1(xi) + f2(zi), σ2), i = 1, . . . , n.
I Podemos representar cada una de estas dos funciones a trav´es de una base de splines penalizados. Si utilizamos la base c´ubica que conocemos del tema anterior:
f1(x ) = δ1+ δ2x +
q1−2
X
j =1
δj +2R(x , xj∗)
f2(z) = γ1+ γ2z +
q2−2
X
j =1
γj +2R(z, zj∗)
siendo γjy δjlos par´ametros desconocidos de la funci´on f1y f2y xj∗y zj∗los nodos interiores para cada una de las dos bases consideradas.
Modelos aditivos con varias variables predictoras
Modelos aditivos con variables predictoras, IV
I El problema de la falta de identificabilidad en el modelo aditivo se genera porque δ1y γ1est´an confundidos. La forma m´as sencilla de resolver este problema es considerar que uno de ellos es cero, por ejemplo γ1.
I Con esta condici´on el modelo aditivo anterior puede escribirse como un modelo lineal Y = X β + con:
I Matriz de dise˜no X de orden n × (q1+ q2− 1) cuya fila i -´esima es de la forma:
Xi= [1, xi, R(xi, x1∗), R(xi, x2∗), . . . , R(xi, xq∗1−2), zi, R(zi, z1∗), . . . , R(xi, xq∗2−2)]
I Vector de par´ametros β = (δ1, δ2, . . . , δq1, γ2, γ3, . . . , γq2)T I La suavizaci´on de cada una de las funciones f1y f2viene dada por la
penalizaci´on:
Z1 0
f100(x )2dx = βTS1β, Z1
0
f100(x )2dx = βTS2β
siendo S1y S2matrices de orden (q1+ q2− 1) × (q1+ q2− 1) cuyos elementos son todos cero excepto para S1(j + 2, k + 2) = R(xj∗, xk∗), j , k = 1, . . . , q1− 2 y S2(j + q1+ 1, k + q1+ 1) = R(z∗, z∗), j , k = 1, . . . , q2− 2
Modelos aditivos con variables predictoras, IV
I La estimaci´on de los par´ametros del modelo, β, la obtenemos minimizando:
|| Y − X β ||2 + λ1βTS1β + λ2βTS2β
siendo λ1y λ2los par´ametros de suavizado que controlan el peso que debe asignarse para que f1y f2sean suaves, en relaci´on al objetivo general que es acercarse lo m´as posible a los datos. Por el momento supondremos que ambos par´ametros son conocidos.
I Si definimos S = λ1S1+ λ1S1el modelo penalizado anterior es equivalente al modelo lineal no penalizado:
Y0 = X0β + , siendo:
I Y0= (Y, 0, 0, . . . , 0
| {z }
q1+q2−1
)Tvector de dimensi´on (n + q1+ q2− 1) × 1,
I X0=
X B
matriz de dise˜no de orden (n + q1+ q2− 1) × (q1+ q2− 1)
I B una matriz de orden (q1+ q2− 1) × (q1+ q2− 1) que cumple BTB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.
Modelos aditivos con varias variables predictoras
Ejemplo: Arbres, I
I Los siguientes datos corresponden a observaciones de la altura, circunferencia y volumen de 31 cerezos que han sido talados previamente.
Circun Altura Volumen Circun Altura Volumen
8.3 70 10.3 8.6 65 10.3
8.8 63 10.2 10.5 72 16.4
10.7 81 18.8 10.8 83 19.7
11.0 66 15.6 11.0 75 18.2
11.1 80 22.6 11.2 75 19.9
11.3 79 24.2 11.4 76 21.0
11.4 76 21.4 11.7 69 21.3
12.0 75 19.1 12.9 74 22.2
12.9 85 33.8 13.3 86 27.4
13.7 71 25.7 13.8 64 24.9
14.0 78 34.5 14.2 80 31.7
14.5 74 36.3 16.0 72 38.3
16.3 77 42.6 17.3 81 55.4
17.5 82 55.7 17.9 80 58.3
18.0 80 51.5 18.0 80 51.0
20.6 87 77.0
Ejemplo: Arbres, II
I Modelo:
Volumeni= f1(Circuni) + f2(Alturai) + i, i i.i.d. ∼ N(0, σ2i = 1, . . . , n = 31 I Trabajamos ahora con el script Arbres para para ilustrar el tratamiento del
problema a trav´es de un modelo de regresi´on con splines penalizados. El documento con todo el script y los resultados tambien se llama Arbres pero est´a en formato doc.