• No se han encontrado resultados

Modelos de suavizado, aditivos y mixtos

N/A
N/A
Protected

Academic year: 2022

Share "Modelos de suavizado, aditivos y mixtos"

Copied!
49
0
0

Texto completo

(1)

Modelos de suavizado, aditivos y mixtos

Tema 1: Modelos aditivos

Carmen Armero

26 de mayo de 2011

(2)

Modelos aditivos con varias variables predictoras

Modelos aditivos

Funciones suaves

Regresi´ on polin´ omica Splines de regresi´ on

Control del grado de suavizaci´ on a trav´ es de splines penalizados.

Estimaci´ on del par´ ametro de suavizaci´ on

Modelos aditivos con varias variables predictoras

(3)

Modelos aditivos, I

I Un modelo aditivo es un modelo lineal con un predictor lineal definido a trav´es de una suma de funciones suaves de las covariables.

(Y | X, U, V , W , Z , . . .) ∼ Normal(µ, σ2) µ = E(Y | X, U, V , W , Z , . . .)

µ = Xβ + f1(U) + f2(V ) + f3(W , Z ) + . . .

siendo:

I Y : variable respuesta

I X: matriz de dise˜no correspondiente a las covariables que definen las componentes param´etricas del modelo.

I β: vector de los coeficientes de regresi´on.

I U, V , W , Z , . . .: covariables

I fj(.): funciones suaves de las covariables, j = 1, 2, 3, . . .

(4)

Modelos aditivos con varias variables predictoras

Modelos aditivos, II

I Ventajas: modelos muy flexibles que permiten modelizar, a trav´es de funciones suaves, relaciones de tipo no lineal entre la variable respuesta y las predictoras.

I Precio que tenemos que pagar:

I Estudio y representaci´on de funciones suaves.

I Procedimientos de selecci´on del grado de suavizaci´on de las funciones consideradas.

(5)

Funciones suaves univariantes

A lo largo de casi todo el tema trabajaremos con la situaci´on m´as sencilla:

I Una ´unica covariable, X , que supondremos que toma valores en el intervalo [0, 1].

I La distribuci´on de la variable respuesta es (Yi| Xi) ∼ N(f (xi), σ2), con lo que:

Yi= f (xi) + i, i = 1, . . . , n

siendo f una funci´on suave y i variables aleatorias i .i .d . distribuidas seg´un N(0, σ2).

(6)

Modelos aditivos con varias variables predictoras

Splines de regresi´ on

I Para poder estimar la funci´on f de la forma m´as sencilla posible deber´ıamos poder representar f de forma que

Yi= f (xi) + i, i = 1, . . . , n se convirtiera en un modelo lineal.

I Y ´esto se puede hacer eligiendo una base de funciones de dimensi´on q que genere un subespacio de funciones que incluya a f como elemento y que pueda expresarse como:

f (x ) =

q

X

j =1

βjbj(x )

siendo βjel par´ametro, desconocido, asociado al elemento j , bj(x ), de dicha base de funciones.

I De esa forma:

Yi=

q

X

j =1

βjbj(x ) + i, i = 1, . . . , n

se convierte en un modelo lineal de dimensi´on q.

I La propuesta m´as sencilla: bases de polinomios.

(7)

Ejemplo 1: Una base de polinomios, I

I Supongamos que f es un polinomio de grado 4 de forma que el espacio de polinomios de grado 4 contiene a f . Una base de este subespacio es:

I b1(x ) = 1

I b2(x ) = x

I b3(x ) = x2

I b4(x ) = x3

I b5(x ) = x4 I Con lo que el modelo:

Yi =Pq

j =1βjbj(xi) + i, i = 1, . . . , n se convierte en el modelo lineal de dimensi´on q = 5:

Yi = β1+ β2xi+ β3xi2+ β4xi3+ β5xi4+ i, i = 1, . . . , n

(8)

Modelos aditivos con varias variables predictoras

Ejemplo 1: Una base de polinomios, II

f (x ) = 1 + x − x2− x3+ x4

0.0 0.4 0.8

0.00.51.01.52.0

x b1(x)=1

0.0 0.4 0.8

0.00.20.40.60.81.0

x b2(x)=x

0.0 0.4 0.8

0.00.20.40.60.81.0

x b3(x)=x2

0.00.20.40.60.81.0

b4(x)=x3 0.00.20.40.60.81.0

b5(x)=x4 1.001.051.101.151.20

f(x)

(9)

Ejemplo 1: Una base de polinomios, III

f (x ) = −3 − 2x + x2+ x3+ x4

0.0 0.4 0.8

0.00.51.01.52.0

x b1(x)=1

0.0 0.4 0.8

0.00.20.40.60.81.0

x b2(x)=x

0.0 0.4 0.8

0.00.20.40.60.81.0

x b3(x)=x2

0.0 0.4 0.8

0.00.20.40.60.81.0

x b4(x)=x3

0.0 0.4 0.8

0.00.20.40.60.81.0

x b5(x)=x4

0.0 0.4 0.8

−1012345

x

f(x)

(10)

Modelos aditivos con varias variables predictoras

Bases de polinomios

I Las bases de polinomios son muy ´utiles en aquellas situaciones en las que el objetivo se centra en las propiedades de f en la vecindad de una localizaci´on concreta.

I Pero cuando el objetivo es estudiar la funci´on f en un dominio amplio no son adecuadas debido a su falta de robustez.

I Tienen muchos problemas de multicolinealidad.

(11)

Ejemplo 2: Regresi´ on polin´ omica

Modelo: Yi =Pq

j =1βjxij −1 + i, i = 1, . . . , n, con q = 2, 6, 9, 10, 11, 16

0.5 1.5 2.5

0.700.800.901.00

x

y

0.5 1.5 2.5

0.700.800.901.00

x

y

0.5 1.5 2.5

0.700.800.901.00

x

y

0.5 1.5 2.5

0.700.800.901.00

y

0.5 1.5 2.5

0.700.800.901.00

y

0.5 1.5 2.5

0.700.800.901.00

y

(12)

Modelos aditivos con varias variables predictoras

Recapitulemos...

I Regresi´on polin´omica?No, gracias (en general, claro).

I Existen otro tipo de bases de funciones que funcionen mejor?Si, un mont´on.

I Vale, pues seguimos....

(13)

Splines

I Un spline es una curva definida a trozos mediante polinomios.

I Los splines se utilizan para aproximar curvas con formas complicadas.

I Tienen una representaci´on sencilla y son f´aciles de implementar.

I Tienen buenas propiedades matem´aticas.

I Producen buenos resultados con polinomios de grado bajo evitando as´ı las oscilaciones, indeseables en la mayor´ıa de las aplicaciones, que se producen con polinomios de grado elevado.

(14)

Modelos aditivos con varias variables predictoras

Bases de splines

I Muchas bases de splines y de muy diferente tipo I Las m´as populares:

I Bases de polinomios truncados.

I Bases de splines c´ubicos.

I Bases de B-splines.

I Bases de thin plate splines.

I En este tema s´olo trabajaremos splines c´ubicos, concretamente con una base que definiremos en las siguientes transparencias.

(15)

Splines c´ ubicos, I

I Un spline c´ubico es una curva construida a partir de trozos de polinomios de grado 3 que se ensamblan perfectamente de forma que la curva que forman es continua hasta la segunda derivada.

I A las abcisas de los puntos en los que se unen las distintas bases (los trozos) se les llama nodos.

I Spline c´ubico generado por 11 bases (trozos) y 12 nodos (10 de ellos interiores).

(16)

Modelos aditivos con varias variables predictoras

Splines c´ ubicos II: por qu´ e splines c´ ubicos?

I Los elementos de una base de splines c´ubicos son polinomios de grado 3.

I Se utilizan mucho porque tienen muy buenas propiedades matem´aticas: son los polinomios de grado m´as peque˜no que tienen segundas derivadas cont´ınuas y puntos de inflexi´on.

I f (x ) = x3− x2− 5x + 6; f0(x ) = 3x2− 2x − 5; f00(x ) = 6x − 2

−6 −2 2 4 6

−200−1000100

x

y1

−6 −2 2 4 6

020406080100

x

y2

−6 −2 2 4 6

−40−200102030

x

y3

(17)

Splines c´ ubicos, III

I Una de las bases de splines c´ubicos m´as utilizadas basadas en q − 2 nodos interiores, xj, j = 1, 2, . . . , q − 2, es:

I b1(x ) = 1

I b2(x ) = x

I bj +2(x ) = R(x , xj), j = 1, . . . , q − 2 siendo : R(x , z) =h

(z − 1/2)2− 1/12i h

(x − 1/2)2− 1/12i /4

−

| x − z | −1/2)4− 1/2(| x − z | −1/2)2+ 7/240i /24 I La dimensi´on de la base, q, est´a determinada por el n´umero, q − 2, de nodos

interiores que seleccionamos.

I Los dos primeros elementos de la base b1(x ) = 1 y b2(x ) = x no dependen de los nodos elegidos y ...modelo de regresi´on lineal simple!

I Con esta base de splines definimos f a trav´es de un modelo lineal con matriz de dise˜no X con q columnas cuya i -´esima fila es:

Xi = [1, xi, R(xi, x1), R(xi, x2), . . . , R(xi, xq−2 )]

(18)

Modelos aditivos con varias variables predictoras

Splines c´ ubicos, IV: Ejemplo 3, I

I Base de splines c´ubicos basada en 2 nodos interiores, x1= 1/3 y x2= 2/3, es:

I b1(x ) = 1, b2(x ) = x

I b3(x ) = R(x , 1/3), b4(x ) = R(x , 2/3)

0.0 0.2 0.4 0.6 0.8 1.0

0.60.81.01.21.4

x

1

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

x

0.0 0.2 0.4 0.6 0.8 1.0

−0.0030.0000.002

rk1

0.0 0.2 0.4 0.6 0.8 1.0

−0.0030.0000.002

rk2

(19)

Splines c´ ubicos, V: Ejemplo 3, II

I Base de splines c´ubicos basada en 3 nodos interiores, x1= 1/4, x2= 2/4 y x3= 3/4, es:

I b1(x ) = 1, b2(x ) = x

I b3(x ) = R(x , 1/4), b4(x ) = R(x , 2/4), b5(x ) = R(x , 3/4)

0.0 0.4 0.8

0.60.81.01.21.4

x

1

0.0 0.4 0.8

0.00.20.40.60.81.0

x

x

0.0 0.4 0.8

−0.00100.00000.0010

x

rk1

0.0 0.4 0.8

−0.0040.0000.002

x

rk2

0.0 0.4 0.8

−0.00100.00000.0010

x

rk3

(20)

Modelos aditivos con varias variables predictoras

Splines c´ ubicos, VI: Ejemplo 3, III

I Base de splines c´ubicos basada en 4 nodos interiores, x1= 1/5, x2= 2/5, x3= 3/5 y x4= 4/5, es:

I b1(x ) = 1, b2(x ) = x

I b3(x ) = R(x , 1/5), b4(x ) = R(x , 2/5), b5(x ) = R(x , 3/5), b6(x ) = R(x , 4/5)

0.0 0.4 0.8

0.60.81.01.21.4

x

1

0.0 0.4 0.8

0.00.20.40.60.81.0

x

x

0.0 0.4 0.8

−0.00100.00000.0010

x

rk1

−0.0020.0000.002

rk2 −0.0020.0000.002

rk3 0.00000.0010

rk4

(21)

Ejemplo de juguete, I

Vamos a utilizar un ejemplo de jugueta para ilustrar los conceptos que estamos introduciendo.

I Datos:

x<-c(0.1,0.2,0.4,0.5,0.7,0.9) y<-c(2,4,5,3,2,6)

I plot(x,y, pch=16, col=red”, ylim=c(0,8))”

0.2 0.4 0.6 0.8

02468

x

y

(22)

Modelos aditivos con varias variables predictoras

Ejemplo de juguete, II

I Vamos a utilizar un modelo de regresi´on con splines c´ubicos basados en los nodos interiores x1= 1/3 y x2= 2/3.

I Con lo que el modelo lineal ser´a:

Y = β1+ β2x + β3R(x , x1= 1/3) + β4R(x , x2= 2/3) +  I La expresi´on general de la matriz de dise˜no ser´a:

X

|{z}

6×4

=

1 0.1 R(0.1, 1/3) R(0.1, 2/3) 1 0.2 R(0.2, 1/3) R(0.2, 2/3) 1 0.4 R(0.4, 1/3) R(0.4, 2/3) 1 0.5 R(0.5, 1/3) R(0.5, 2/3) 1 0.7 R(0.7, 1/3) R(0.7, 2/3) 1 0.9 R(0.9, 1/3) R(0.9, 2/3)

 ,

I Y operando:

X

|{z}

6×4

=

1 0.1 −0.0010093107 −0.0021883230 1 0.2 0.0007399177 −0.0012847737 1 0.4 0.0022460905 0.0008139918 1 0.5 0.0017425412 0.0017425412 1 0.7 −0.0002562243 0.0019474794 1 0.9 −0.0021883230 −0.0010093107

 ,

(23)

Ejemplo de juguete, III

I mod.1 <- lm(y ∼ X-1), modelo de regresi´on ajustado summary(mod.1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

X1 -1.2844 0.4631 -2.773 0.10914

X2 9.9210 0.8906 11.140 0.00796**

X3 1541.8645 168.4361 9.154 0.01172*

X4 -1745.4710 171.1229 -10.200 0.00948**

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.32 on 2 degrees of freedom Multiple R-squared: 0.9978,

Adjusted R-squared: 0.9935

F-statistic: 228.9 on 4 and 2 DF, p-value: 0.004354

(24)

Modelos aditivos con varias variables predictoras

Ejemplo de juguete, IV

La funci´on de regresi´on estimada es:

0.2 0.4 0.6 0.8

02468

x

y

(25)

Ejemplo: Volvo, I

I Ejemplo: Volvo 1

Se piensa que los coches con grandes cilindradas se deterioran menos r´apidamente que los que tienen peque˜nas cilindradas. En un estudio sobre el tema se analizaron 19 motores Volvo 19 y se obtuvieron los siguientes datos:

tama~no<-c(1.42,1.58,1.78,1.99,1.99,1.99,2.13,2.13,2.13,2.32,2.32, 2.32,2.32,2.32, 2.43,2.43,2.78,2.98,2.98)

desgaste<-c(4.0,4.2,2.5,2.6,2.8,2.4,3.2,2.4,2.6,4.8,2.9,3.8,3.0, 2.7,3.1,3.3,3.0,2.8,1.7)

I Modelo:

desgastei= f (tama˜noi) + i, i i.i.d. ∼ N(0, σ2) i = 1, . . . , n = 19 y vamos a modelizar f a trav´es de una base de splines c´ubicos.

I Trabajamos ahora con el script SVolvo1 para ilustrar el tratamiento del problema a trav´es de un modelo de regresi´on con splines. Utilizaremos dos bases de distinta dimensi´on para entender un poco m´as el papel de los distintos elementos en el modelo.

(26)

Modelos aditivos con varias variables predictoras

Control del grado de suavizaci´ on, I

I La elecci´on del grado de suavizaci´on est´a controlada por la dimensi´on de la base de splines. Este es un tema importante. Necesitamos introducir criterios que nos permitan seleccionar de forma adecuada el grado de suavizaci´on del modelo.

I Antes de empezar a estudiar este tema vamos a recordar el m´etodo de m´ınimos cuadrados ...que introdujimos en la asignatura de modelos lineales.

I La siguiente transparencia es un quasicopy-paste de la transparencia del tema 1 de la asignatura de Modelos lineales para el modelo de regresi´on lineal simple en la que introduc´ıamos el m´etodo de m´ınimos cuadrados.

(27)

Control del grado de suavizaci´ on, II

Quasi-copy-paste de Estimaci´ on: m´ etodo de m´ınimos cuadrados, I

I A partir de la informaci´on proporcionada por n observaciones emparejadas {(Xi, Yi), i = 1, . . . , n} el m´etodo de los m´ınimos cuadrados considera la diferencia entre cada observaci´on Yi de la variable respuesta y su correspondiente media, β1+ β2Xi, a trav´es del estad´ıstico:

Q(β1, β2) =Pn

i =1(Yi− (β1+ β2Xi))2

y elige como estimadores de β1y β2aquellos valores que minimizan el valor de Q(β1, β2).

I Dicho proceso de minimizaci´on (funci´on de dos variables) proporciona como estimadores de ambos par´ametros aquellos valores que cumplen las ecuaciones:

Pn

i =1Yi = nβ1+ β2Pn i =1 Xi

Pn

i =1XiYi= β1Pn

i =1Xi+ β2Pn i =1 Xi2 que son conocidas comoecuaciones normales.

(28)

Modelos aditivos con varias variables predictoras

Control del grado de suavizaci´ on, III

I Pero nosotros ahora no estamos trabajando con el modelo de regresi´on lineal simple sino con un modelo de regresi´on lineal m´ultiple en el que la matriz de dise˜no est´a definida por los elementos de una base de splines.

I Con lo que ahora deber´ıamos modificar la descripci´on anterior como: A partir de la informaci´on proporcionada por n observaciones emparejadas

{(Xi, Yi), i = 1, . . . , n} el m´etodo de los m´ınimos cuadrados considera la diferencia entre cada observaci´on Yi de la variable respuesta y su correspondiente media (o funci´on de regresi´on),

β1b1(xi) + β2b2(xi) + . . . + βqbq(xi), a trav´es del estad´ıstico:

Q(β1, . . . , βq) =Pn

i =1(Yi− (β1b1(xi) + β2b2(xi) + . . . + βqbq(xi))2 y elige como estimadores de β1, . . ., βq, aquellos valores que minimizan el valor de Q(β1, . . . , βq).

I Para aligerar un poco la notaci´on a partir de ahora la expresi´on anterior la representaremos como:

Q(β) =|| Y − Xβ ||2

siendo β = (β1, β2, . . . , βq)T, Y = (Y1, . . . , Yn)T y X la matriz de dise˜no definida por la base de splines cuyas fila i -´esima es de la forma:

(29)

Control del grado de suavizaci´ on: Criterio 1

I Criterio 1: Reducir la base de splines.

I Una posibilidad que tenemos para elegir el grado de suavizaci´on es a trav´es de contrastes de hip´otesis en los que se valoren modelos con mayor o menor grado de suavizaci´on, es decir, con mayor o menor n´umero de nodos.

I Pero esta propuesta es problem´atica porque, por ejemplo, un modelo basado en q − 1 nodos igualmente espaciados no est´a encajado en un modelo basado en q nodos.

Modelo 1: Y = β1+ β2x + β3R(x , x1= 1/2) + 

Modelo 2: Y = β1+ β2x + β3R(x , x1= 1/3) + β4R(x , x1= 2/3) +  I Podr´ıamos pensar en un proceso de selecci´on de variables backward, empezando

con un grid amplio de nodos e ir eliminando nodos. No es un proceso

recomendable porque el modelo resultante es, en general, bastante pobre ya que el ajuse en estos modelos depende fuertemente de la localizaci´on elegida para los nodos.

I Por lo tanto el criterio 1 NO parece adecuado.

(30)

Modelos aditivos con varias variables predictoras

Control del grado de suavizaci´ on: Splines penalizados, I.

I Criterio 2: Utilizar splines penalizados.

I Mantenemos fija la base de splines y controlamos el grado de suavizaci´on del modelo a˜nadiendo una penalizaci´on a la funci´on objetivo del m´etodo de m´ınimos cuadrados:

Q(β) =|| Y − Xβ ||2

Q(β) =|| Y − Xβ ||2 + λ Penalizaci´on

I λ es el par´ametro de suavizaci´on. Cuando λ = 0 estamos en el caso particular en el que no hay penalizaci´on y a medida que λ aumenta aumentamos la intensidad de la penalizaci´on. Cuando λ tiende a ∞ el modelo se convierte pr´acticamente en un modelo de regresi´on lineal simple.

I Penalizaci´on =R1

0 f00(x ) d(x ). ¿Cual ser´ıa la penalizaci´on si

f (x ) = β1+ β2x ?, ¿y si f (x ) = β1+ β2x + β3x2+ β4x4?, Modelos muy

”monta˜nosos-inestables”, modelos muy penalizados.

(31)

Control del grado de suavizaci´ on: Splines penalizados, II.

I Penalizaci´on =R1

0 f00(x ) d(x ).

I Felizmente puede expresarse como:

Penalizaci´on =R1

0 f00(x ) d(x ) = βTS β siendo S una matriz de orden q × q con coeficientes conocidos que dependen de la base elegida y a la que se conoce como matriz de penalizaci´on.

I M´ınimos cuadrados penalizados:

Q(β) =|| Y − Xβ ||2+λ βTS β

I Estimador penalizado de β:

βˆpenal = (XTX + λS)−1XTY

I Matriz de proyecci´on del modelo penalizado:

Hpenal = X(XTX + λS)−1XT

I Estimaci´on de la funci´on de regresi´on:

X ˆβpenal= HpenalY

(32)

Modelos aditivos con varias variables predictoras

Control del grado de suavizaci´ on: Splines penalizados, III.

I Modelo lineal: Y = Xβ + 

siendo X la matriz de dise˜no definida por una base de splines.

I Comparamos:

Splines de regresi´on Splines de regresi´on no penalizados penalizados

Q(β) =|| Y − Xβ ||2 Q(β) =|| Y − Xβ ||2+λ βTS β β = (Xˆ TX)−1XTY βˆpenal= (XTX + λS)−1XTY H = X(XTX)−1XT Hpenal= X(XTX + λS)−1XT

siendo λ el par´ametro de suavizado y S la matriz de penalizaci´on.

(33)

Control del grado de suavizaci´ on: Splines penalizados, IV.

I Modelo: Y = Xβ + 

siendo X la matriz de dise˜no definida por una base de splines.

I La expresi´on de la matriz de penalizaci´on, S, depende de la base de splines que consideremos.

I Si trabajamos con la base de splines c´ubica de dimensi´on q introducida anteriormente, la matriz de penalizaci´on S es de orden q × q y se define como:

I Las dos primeras columnas y filas est´an todas ellas formadas por ceros (no hay penalizaci´on al t´ermino param´etrico de la base).

I Sj +2,k+2= R(xj, xk), j , k = 1, . . . , q − 2

(34)

Modelos aditivos con varias variables predictoras

Ejemplo de juguete, V

I Estamos trabajando un modelo de regresi´on con splines c´ubicos basados en los nodos interiores x1= 1/3 y x2= 2/3.

I Datos:

x<-c(0.1,0.2,0.4,0.5,0.7,0.9) y<-c(2,4,5,3,2,6)

I Vamos a calcular la matriz de penalizaci´on S. Se trata de una matriz de orden 4 × 4 con elementos

S

|{z}

4×4

=

0 0 0 0

0 0 0 0

0 0 R(1/3, 1/3) R(1/3, 2/3) 0 0 R(2/3, 1/3) R(3/3, 2/3)

 ,

I Y operando:

S

|{z}

4×4

=

0 0 0 0

0 0 0 0

0 0 0.0021604938 0.0001028807 0 0 0.0001028807 0.0021604938

 ,

(35)

Control del grado de suavizaci´ on: Splines penalizados, V.

I El modelo de regresi´on lineal penalizado Y = Xβ + ,

siendo X la matriz de dise˜no definida por una base de splines y penalizaci´on λβTSβ.

I Es equivalente al modelo de splines de regresi´on lineal no penalizados

Y0 = X0β + , siendo:

I Y0= (Y, 0, 0, . . . , 0

| {z }

q

)Tvector de dimensi´on (n + q) × 1,

I X0=

 X

B√ λ



matriz de dise˜no de orden (n + q) × q

I B es una matriz que cumple BTB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.

I λ es el par´ametro de penalizaci´on.

(36)

Modelos aditivos con varias variables predictoras

Ejemplo de juguete, VI

El modelo de regresi´on penalizado que hemos escrito en la transparenciaEjemplo de juguete, Ves equivalente al modelo de splines de regresesi´on no penalizados:

Y0= X0β + , siendo:

Y0

|{z}

10×1

=

Y1 Y2 Y3 Y4 Y5 Y6 0 0 0 0

, X0

|{z}

10×4

=

1 0.1 R(0.1, 1/3) R(0.1, 2/3) 1 0.2 R(0.2, 1/3) R(0.2, 2/3) 1 0.4 R(0.4, 1/3) R(0.4, 2/3) 1 0.5 R(0.5, 1/3) R(0.5, 2/3) 1 0.7 R(0.7, 1/3) R(0.7, 2/3) 1 0.9 R(0.9, 1/3) R(0.9, 2/3)

0 0 0 0

0 0 0 0

0 0

λ B(1/3, 1/3)

λ B(1/3, 2/3)

0 0

λ B(2/3, 1/3)

λ B(3/3, 2/3)

(37)

Ejemplo de juguete, VII

El modelo de regresi´on penalizado que hemos escrito en la transparenciaEjemplo de juguete, Ves equivalente al modelo de regresi´on con splines:

Y0= X0β + , siendo:

Y0

|{z}

10×1

=

Y1 Y2 Y3 Y4 Y5 Y6 0 0 0 0

, X0

|{z}

10×4

=

1 0.1 −0.0010093107 −0.0021883230 1 0.2 0.0007399177 −0.0012847737 1 0.4 0.0022460905 0.0008139918 1 0.5 0.0017425412 0.0017425412 1 0.7 −0.0002562243 0.0019474794 1 0.9 −0.0021883230 −0.0010093107

0 0 0 0

0 0 0 0

0 0

λ 0.0021604938

λ 0.0001028807

0 0

λ 0.0001028807

λ 0.0021604938

,

(38)

Modelos aditivos con varias variables predictoras

Ejemplo de juguete, VIII

El modelo de regresi´on penalizado delEjemplo de juguete con λ = 0.1, 0.01, 0.001, 0.0001, 0.00001, 0.000001

0.2 0.4 0.6 0.8

02468

x

y

0.2 0.4 0.6 0.8

02468

x

y

0.2 0.4 0.6 0.8

02468

x

y

02468

y

02468

y

02468

y

(39)

Control del grado de suavizaci´ on: Splines penalizados, V, otra vez.

I El modelo de regresi´on lineal penalizado Y = Xβ + ,

siendo X la matriz de dise˜no definida por una base de splines y penalizaci´on λβTSβ.

I Es equivalente al modelo de regresi´on lineal no penalizado

Y0 = X0β + , siendo:

I Y0= (Y, 0, 0, . . . , 0

| {z }

q

)Tvector de dimensi´on (n + q) × 1,

I X0=

 X

B√ λ



matriz de dise˜no de orden (n + q) × q

I B una matriz que cumple BTB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.

I λ el par´ametro de suavizaci´on.

(40)

Modelos aditivos con varias variables predictoras

Estimaci´ on del par´ ametro de suavizaci´ on, I

I El par´ametro de suavizaci´on, λ, juega un papel muy importante en el grado de suavizaci´on del modelo.

I Es un par´ametro desconocido que deberemos estimar adecuadamente.

I Recordamos que si λ es grande el modelo suaviza los datos en exceso mientras que si λ es peque˜no los datos estar´an muy poco suavizados. En ambos casos, la funci´on de regresi´on estimada, que representaremos ahora como ˆf (x ),

estar´a lejos de la verdadera funci´on f (x ).

I Un criterio sensato para estimar el par´ametro de penalizaci´on ser´ıa elegir aquel valor de λ que minimizase:

M = 1nPn

i =1(f (xi) − ˆf (xi))2,

pero como f (x ) es desconocida no podemos utilizarlo.

I Pero esta es una buena idea que puede aprovecharse, y a partir de ella, introduciendo algunas hip´otesis y aproximaciones, se obtiene el estad´ıstico general de validaci´on cruzada:

Vg=nPn

i =1(yi− ˆf (xi))2

| traza(I − H) |

que elige como mejor estimador de el valor que minimiza Vg, siendo H la

(41)

Ejemplo de juguete, IX

I Estimaci´on del par´ametro de suavizado, ˆλ=24512.31 (ojo)

I Estad´ıstico GVC y estimaci´on de la funci´on de regresi´on del modelo de splines penalizados.

0 10 20 30 40 50 60

8101214161820

Estadístico GVC

i

V

0.2 0.4 0.6 0.8

23456

x

y

(42)

Modelos aditivos con varias variables predictoras

Ejemplo: Volvo, II.

I Ejemplo: Volvo 2

Se piensa que los coches de grandes cilindradas se deterioran menos r`apidamente que los que tienen peque˜nas cilindradas. En un estudio sobre el tema se analizaron 19 motores Volvo 19 y se obtuvieron los siguientes datos:

tama~no<-c(1.42,1.58,1.78,1.99,1.99,1.99,2.13,2.13,2.13,2.32,2.32, 2.32,2.32,2.32, 2.43,2.43,2.78,2.98,2.98)

desgaste<-c(4.0,4.2,2.5,2.6,2.8,2.4,3.2,2.4,2.6,4.8,2.9,3.8,3.0, 2.7,3.1,3.3,3.0,2.8,1.7)

I Modelo:

desgastei= f (tama˜noi) + i, i i.i.d. ∼ N(0, σ2) i = 1, . . . , n = 19 y vamos a modelizar f a trav´es de una base de splines c´ubicos.

I Trabajamos ahora con el script SVolvo2 para ilustrar el tratamiento del problema a trav´es de un modelo de regresi´on con splines penalizados.

Utilizaremos dos bases de distinta dimensi´on para entender un poco m´as el papel de los distintos elementos en el modelo.

(43)

Modelos aditivos con varias variables predictoras, I

I Para no hacerlo todo mucho m´as complicado a nivel formal suponemos que el modelo aditivo con varias variables explicativas incluye s´olo dos variables predictoras. En concreto, estudiaremos el comportamiento de una variable respuesta Y a trav´es de las variables predictoras X y Z seg´un el modelo de estructura aditiva:

Yi = f1(xi) + f2(zi) + i

siendo:

I f1y f2son funciones suaves.

I i: variables i .i .d con distribuci´on N(0, σ2)

I Suponemos por simplicidad que todos los valores de X y Z pertenecen al intervalo [0, 1]

I Nota 1 sobre la hip´otesis de efectos aditivos de X y Z : f1(x ) + f2(z) es un caso especial, bastante restrictivo, de la funci´on general f (x , z).

I Nota 2: como el modelo contiene m´as de una funci´on aparece un problema de identificabilidad ya que, por ejemplo, si a˜nadimos una constante a f1y sustraemos la misma constante a f2el modelo no cambia.

(44)

Modelos aditivos con varias variables predictoras

Modelos aditivos con variables predictoras, II

I Despues de resolver el problema de la identificabilidad del mpdelo, el modelo aditivo con varias variables explicativas puede estudiarse a trav´es del mismo tipo de an´alisis que hemos aprendido en el tema anterior cuando trabaj´abamos con una ´unica variable predictiva:

I Representaci´on de las funciones suaves a trav´es de bases de funciones, en particular, splines.

I Estimaci´on a trav´es del m´etodo de m´ınimos cuadrados penalizados.

I Selecci´on del grado de suavizaci´on del modelo a trav´es de procedimientos de validaci´on cruzada.

I El siguiente material profundiza en estos temas.

(45)

Modelos aditivos con variables predictoras, III

I Utilizamos dos variables explicativas, X y Z , para analizar una variable respuesta Y a trav´es del modelo aditivo:

Yi = f1(xi) + f2(zi) + i

siendo (Yi| X1i, X2i) ∼ N(f1(xi) + f2(zi), σ2), i = 1, . . . , n.

I Podemos representar cada una de estas dos funciones a trav´es de una base de splines penalizados. Si utilizamos la base c´ubica que conocemos del tema anterior:

f1(x ) = δ1+ δ2x +

q1−2

X

j =1

δj +2R(x , xj)

f2(z) = γ1+ γ2z +

q2−2

X

j =1

γj +2R(z, zj)

siendo γjy δjlos par´ametros desconocidos de la funci´on f1y f2y xjy zjlos nodos interiores para cada una de las dos bases consideradas.

(46)

Modelos aditivos con varias variables predictoras

Modelos aditivos con variables predictoras, IV

I El problema de la falta de identificabilidad en el modelo aditivo se genera porque δ1y γ1est´an confundidos. La forma m´as sencilla de resolver este problema es considerar que uno de ellos es cero, por ejemplo γ1.

I Con esta condici´on el modelo aditivo anterior puede escribirse como un modelo lineal Y = X β +  con:

I Matriz de dise˜no X de orden n × (q1+ q2− 1) cuya fila i -´esima es de la forma:

Xi= [1, xi, R(xi, x1), R(xi, x2), . . . , R(xi, xq1−2), zi, R(zi, z1), . . . , R(xi, xq2−2)]

I Vector de par´ametros β = (δ1, δ2, . . . , δq1, γ2, γ3, . . . , γq2)T I La suavizaci´on de cada una de las funciones f1y f2viene dada por la

penalizaci´on:

Z1 0

f100(x )2dx = βTS1β, Z1

0

f100(x )2dx = βTS2β

siendo S1y S2matrices de orden (q1+ q2− 1) × (q1+ q2− 1) cuyos elementos son todos cero excepto para S1(j + 2, k + 2) = R(xj, xk), j , k = 1, . . . , q1− 2 y S2(j + q1+ 1, k + q1+ 1) = R(z, z), j , k = 1, . . . , q2− 2

(47)

Modelos aditivos con variables predictoras, IV

I La estimaci´on de los par´ametros del modelo, β, la obtenemos minimizando:

|| Y − X β ||2 + λ1βTS1β + λ2βTS2β

siendo λ1y λ2los par´ametros de suavizado que controlan el peso que debe asignarse para que f1y f2sean suaves, en relaci´on al objetivo general que es acercarse lo m´as posible a los datos. Por el momento supondremos que ambos par´ametros son conocidos.

I Si definimos S = λ1S1+ λ1S1el modelo penalizado anterior es equivalente al modelo lineal no penalizado:

Y0 = X0β + , siendo:

I Y0= (Y, 0, 0, . . . , 0

| {z }

q1+q2−1

)Tvector de dimensi´on (n + q1+ q2− 1) × 1,

I X0=

 X B



matriz de dise˜no de orden (n + q1+ q2− 1) × (q1+ q2− 1)

I B una matriz de orden (q1+ q2− 1) × (q1+ q2− 1) que cumple BTB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.

(48)

Modelos aditivos con varias variables predictoras

Ejemplo: Arbres, I

I Los siguientes datos corresponden a observaciones de la altura, circunferencia y volumen de 31 cerezos que han sido talados previamente.

Circun Altura Volumen Circun Altura Volumen

8.3 70 10.3 8.6 65 10.3

8.8 63 10.2 10.5 72 16.4

10.7 81 18.8 10.8 83 19.7

11.0 66 15.6 11.0 75 18.2

11.1 80 22.6 11.2 75 19.9

11.3 79 24.2 11.4 76 21.0

11.4 76 21.4 11.7 69 21.3

12.0 75 19.1 12.9 74 22.2

12.9 85 33.8 13.3 86 27.4

13.7 71 25.7 13.8 64 24.9

14.0 78 34.5 14.2 80 31.7

14.5 74 36.3 16.0 72 38.3

16.3 77 42.6 17.3 81 55.4

17.5 82 55.7 17.9 80 58.3

18.0 80 51.5 18.0 80 51.0

20.6 87 77.0

(49)

Ejemplo: Arbres, II

I Modelo:

Volumeni= f1(Circuni) + f2(Alturai) + i, i i.i.d. ∼ N(0, σ2i = 1, . . . , n = 31 I Trabajamos ahora con el script Arbres para para ilustrar el tratamiento del

problema a trav´es de un modelo de regresi´on con splines penalizados. El documento con todo el script y los resultados tambien se llama Arbres pero est´a en formato doc.

Referencias

Documento similar

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

En junio de 1980, el Departamento de Literatura Española de la Universi- dad de Sevilla, tras consultar con diversos estudiosos del poeta, decidió propo- ner al Claustro de la

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

[r]

SVP, EXECUTIVE CREATIVE DIRECTOR JACK MORTON

Social Media, Email Marketing, Workflows, Smart CTA’s, Video Marketing. Blog, Social Media, SEO, SEM, Mobile Marketing,

Missing estimates for total domestic participant spend were estimated using a similar approach of that used to calculate missing international estimates, with average shares applied

[r]