Modelos de suavizado, aditivos y mixtos

(1)

Modelos de suavizado, aditivos y mixtos

Tema 1: Modelos aditivos

Carmen Armero

26 de mayo de 2011

(2)

Modelos aditivos con varias variables predictoras

Modelos aditivos

Funciones suaves

Regresi´ on polin´ omica Splines de regresi´ on

Control del grado de suavizaci´ on a trav´ es de splines penalizados.

Estimaci´ on del par´ ametro de suavizaci´ on

Modelos aditivos con varias variables predictoras

(3)

Modelos aditivos, I

I Un modelo aditivo es un modelo lineal con un predictor lineal definido a trav´es de una suma de funciones suaves de las covariables.

(Y | X, U, V , W , Z , . . .) ∼ Normal(µ, σ²) µ = E(Y | X, U, V , W , Z , . . .)

µ = Xβ + f1(U) + f2(V ) + f3(W , Z ) + . . .

siendo:

I Y : variable respuesta

I X: matriz de dise˜no correspondiente a las covariables que definen las componentes param´etricas del modelo.

I β: vector de los coeficientes de regresi´on.

I U, V , W , Z , . . .: covariables

I f_j(.): funciones suaves de las covariables, j = 1, 2, 3, . . .

(4)

Modelos aditivos, II

I Ventajas: modelos muy flexibles que permiten modelizar, a trav´es de funciones suaves, relaciones de tipo no lineal entre la variable respuesta y las predictoras.

I Precio que tenemos que pagar:

I Estudio y representaci´on de funciones suaves.

I Procedimientos de selecci´on del grado de suavizaci´on de las funciones consideradas.

(5)

Funciones suaves univariantes

A lo largo de casi todo el tema trabajaremos con la situaci´on m´as sencilla:

I Una ´unica covariable, X , que supondremos que toma valores en el intervalo [0, 1].

I La distribuci´on de la variable respuesta es (Yi| X_i) ∼ N(f (xi), σ²), con lo que:

Yi= f (xi) + i, i = 1, . . . , n

siendo f una funci´on suave y i variables aleatorias i .i .d . distribuidas seg´un N(0, σ²).

(6)

Splines de regresi´ on

I Para poder estimar la funci´on f de la forma m´as sencilla posible deber´ıamos poder representar f de forma que

Yi= f (xi) + i, i = 1, . . . , n se convirtiera en un modelo lineal.

I Y ´esto se puede hacer eligiendo una base de funciones de dimensi´on q que genere un subespacio de funciones que incluya a f como elemento y que pueda expresarse como:

f (x ) =

q

X

j =1

βjbj(x )

siendo β_jel par´ametro, desconocido, asociado al elemento j , b_j(x ), de dicha base de funciones.

I De esa forma:

Yi=

q

X

j =1

βjbj(x ) + i, i = 1, . . . , n

se convierte en un modelo lineal de dimensi´on q.

I La propuesta m´as sencilla: bases de polinomios.

(7)

Ejemplo 1: Una base de polinomios, I

I Supongamos que f es un polinomio de grado 4 de forma que el espacio de polinomios de grado 4 contiene a f . Una base de este subespacio es:

I b1(x ) = 1

I b2(x ) = x

I b3(x ) = x²

I b4(x ) = x³

I b5(x ) = x⁴ I Con lo que el modelo:

Yi =Pq

j =1βjbj(xi) + i, i = 1, . . . , n se convierte en el modelo lineal de dimensi´on q = 5:

Yi = β1+ β2xi+ β3x_i²+ β4x_i³+ β5x_i⁴+ i, i = 1, . . . , n

(8)

Ejemplo 1: Una base de polinomios, II

f (x ) = 1 + x − x²− x³+ x⁴

0.0 0.4 0.8

0.00.51.01.52.0

x b1(x)=1

0.0 0.4 0.8

0.00.20.40.60.81.0

x b2(x)=x

0.0 0.4 0.8

0.00.20.40.60.81.0

x b3(x)=x2

0.00.20.40.60.81.0

b4(x)=x3 0.00.20.40.60.81.0

b5(x)=x4 1.001.051.101.151.20

f(x)

(9)

Ejemplo 1: Una base de polinomios, III

f (x ) = −3 − 2x + x²+ x³+ x⁴

0.0 0.4 0.8

0.00.51.01.52.0

x b1(x)=1

0.0 0.4 0.8

0.00.20.40.60.81.0

x b2(x)=x

0.0 0.4 0.8

0.00.20.40.60.81.0

x b3(x)=x2

0.0 0.4 0.8

0.00.20.40.60.81.0

x b4(x)=x3

0.0 0.4 0.8

0.00.20.40.60.81.0

x b5(x)=x4

0.0 0.4 0.8

−1012345

x

f(x)

(10)

Bases de polinomios

I Las bases de polinomios son muy ´utiles en aquellas situaciones en las que el objetivo se centra en las propiedades de f en la vecindad de una localizaci´on concreta.

I Pero cuando el objetivo es estudiar la funci´on f en un dominio amplio no son adecuadas debido a su falta de robustez.

I Tienen muchos problemas de multicolinealidad.

(11)

Ejemplo 2: Regresi´ on polin´ omica

Modelo: Yi =Pq

j =1βjx_i^{j −1} + i, i = 1, . . . , n, con q = 2, 6, 9, 10, 11, 16

0.5 1.5 2.5

0.700.800.901.00

x

y

0.5 1.5 2.5

0.700.800.901.00

x

y

0.5 1.5 2.5

0.700.800.901.00

x

y

0.5 1.5 2.5

0.700.800.901.00

y

0.5 1.5 2.5

0.700.800.901.00

y

0.5 1.5 2.5

0.700.800.901.00

y

(12)

Recapitulemos...

I Regresi´on polin´omica?No, gracias (en general, claro).

I Existen otro tipo de bases de funciones que funcionen mejor?Si, un mont´on.

I Vale, pues seguimos....

(13)

Splines

I Un spline es una curva definida a trozos mediante polinomios.

I Los splines se utilizan para aproximar curvas con formas complicadas.

I Tienen una representaci´on sencilla y son f´aciles de implementar.

I Tienen buenas propiedades matem´aticas.

I Producen buenos resultados con polinomios de grado bajo evitando as´ı las oscilaciones, indeseables en la mayor´ıa de las aplicaciones, que se producen con polinomios de grado elevado.

(14)

Bases de splines

I Muchas bases de splines y de muy diferente tipo I Las m´as populares:

I Bases de polinomios truncados.

I Bases de splines c´ubicos.

I Bases de B-splines.

I Bases de thin plate splines.

I En este tema s´olo trabajaremos splines c´ubicos, concretamente con una base que definiremos en las siguientes transparencias.

(15)

Splines c´ ubicos, I

I Un spline c´ubico es una curva construida a partir de trozos de polinomios de grado 3 que se ensamblan perfectamente de forma que la curva que forman es continua hasta la segunda derivada.

I A las abcisas de los puntos en los que se unen las distintas bases (los trozos) se les llama nodos.

I Spline c´ubico generado por 11 bases (trozos) y 12 nodos (10 de ellos interiores).

(16)

Splines c´ ubicos II: por qu´ e splines c´ ubicos?

I Los elementos de una base de splines c´ubicos son polinomios de grado 3.

I Se utilizan mucho porque tienen muy buenas propiedades matemáticas: son los polinomios de grado más pequeño que tienen segundas derivadas cont´ınuas y puntos de inflexión.

I f (x ) = x³− x²− 5x + 6; f⁰(x ) = 3x²− 2x − 5; f⁰⁰(x ) = 6x − 2

−6 −2 2 4 6

−200−1000100

x

y1

−6 −2 2 4 6

020406080100

x

y2

−6 −2 2 4 6

−40−200102030

x

y3

(17)

Splines c´ ubicos, III

I Una de las bases de splines c´ubicos m´as utilizadas basadas en q − 2 nodos interiores, x_j^∗, j = 1, 2, . . . , q − 2, es:

I b1(x ) = 1

I b2(x ) = x

I bj +2(x ) = R(x , x_j^∗), j = 1, . . . , q − 2 siendo : R(x , z) =h

(z − 1/2)²− 1/12i h

(x − 1/2)²− 1/12i /4

−

| x − z | −1/2)⁴− 1/2(| x − z | −1/2)²+ 7/240i /24 I La dimensión de la base, q, está determinada por el número, q − 2, de nodos

interiores que seleccionamos.

I Los dos primeros elementos de la base b1(x ) = 1 y b2(x ) = x no dependen de los nodos elegidos y ...modelo de regresi´on lineal simple!

I Con esta base de splines definimos f a través de un modelo lineal con matriz de diseño X con q columnas cuya i -ésima fila es:

Xi = [1, xi, R(xi, x₁^∗), R(xi, x₂^∗), . . . , R(xi, x_q−2^∗ )]

(18)

Splines c´ ubicos, IV: Ejemplo 3, I

I Base de splines c´ubicos basada en 2 nodos interiores, x₁^∗= 1/3 y x₂^∗= 2/3, es:

I b1(x ) = 1, b2(x ) = x

I b3(x ) = R(x , 1/3), b4(x ) = R(x , 2/3)

0.0 0.2 0.4 0.6 0.8 1.0

0.60.81.01.21.4

x

1

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

0.0 0.2 0.4 0.6 0.8 1.0

−0.0030.0000.002

rk1

0.0 0.2 0.4 0.6 0.8 1.0

−0.0030.0000.002

rk2

(19)

Splines c´ ubicos, V: Ejemplo 3, II

I Base de splines c´ubicos basada en 3 nodos interiores, x₁^∗= 1/4, x₂^∗= 2/4 y x₃^∗= 3/4, es:

I b1(x ) = 1, b2(x ) = x

I b3(x ) = R(x , 1/4), b4(x ) = R(x , 2/4), b5(x ) = R(x , 3/4)

0.0 0.4 0.8

0.60.81.01.21.4

x

1

0.0 0.4 0.8

0.00.20.40.60.81.0

x

0.0 0.4 0.8

−0.00100.00000.0010

x

rk1

0.0 0.4 0.8

−0.0040.0000.002

x

rk2

0.0 0.4 0.8

−0.00100.00000.0010

x

rk3

(20)

Splines c´ ubicos, VI: Ejemplo 3, III

I Base de splines c´ubicos basada en 4 nodos interiores, x₁^∗= 1/5, x₂^∗= 2/5, x₃^∗= 3/5 y x₄^∗= 4/5, es:

I b1(x ) = 1, b2(x ) = x

I b3(x ) = R(x , 1/5), b4(x ) = R(x , 2/5), b5(x ) = R(x , 3/5), b6(x ) = R(x , 4/5)

0.0 0.4 0.8

0.60.81.01.21.4

x

1

0.0 0.4 0.8

0.00.20.40.60.81.0

x

0.0 0.4 0.8

−0.00100.00000.0010

x

rk1

−0.0020.0000.002

rk2 −0.0020.0000.002

rk3 0.00000.0010

rk4

(21)

Ejemplo de juguete, I

Vamos a utilizar un ejemplo de jugueta para ilustrar los conceptos que estamos introduciendo.

I Datos:

x<-c(0.1,0.2,0.4,0.5,0.7,0.9) y<-c(2,4,5,3,2,6)

I plot(x,y, pch=16, col=red”, ylim=c(0,8))”

●

0.2 0.4 0.6 0.8

02468

x

y

(22)

Ejemplo de juguete, II

I Vamos a utilizar un modelo de regresi´on con splines c´ubicos basados en los nodos interiores x₁^∗= 1/3 y x₂^∗= 2/3.

I Con lo que el modelo lineal ser´a:

Y = β1+ β2x + β3R(x , x₁^∗= 1/3) + β4R(x , x₂^∗= 2/3) + I La expresión general de la matriz de diseño será:

X

|{z}

6×4

=







1 0.1 R(0.1, 1/3) R(0.1, 2/3) 1 0.2 R(0.2, 1/3) R(0.2, 2/3) 1 0.4 R(0.4, 1/3) R(0.4, 2/3) 1 0.5 R(0.5, 1/3) R(0.5, 2/3) 1 0.7 R(0.7, 1/3) R(0.7, 2/3) 1 0.9 R(0.9, 1/3) R(0.9, 2/3)





 ,

I Y operando:

X

|{z}

6×4

=







1 0.1 −0.0010093107 −0.0021883230 1 0.2 0.0007399177 −0.0012847737 1 0.4 0.0022460905 0.0008139918 1 0.5 0.0017425412 0.0017425412 1 0.7 −0.0002562243 0.0019474794 1 0.9 −0.0021883230 −0.0010093107





 ,

(23)

Ejemplo de juguete, III

I mod.1 <- lm(y ∼ X-1), modelo de regresi´on ajustado summary(mod.1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

X1 -1.2844 0.4631 -2.773 0.10914

X2 9.9210 0.8906 11.140 0.00796**

X3 1541.8645 168.4361 9.154 0.01172*

X4 -1745.4710 171.1229 -10.200 0.00948**

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.32 on 2 degrees of freedom Multiple R-squared: 0.9978,

Adjusted R-squared: 0.9935

F-statistic: 228.9 on 4 and 2 DF, p-value: 0.004354

(24)

Ejemplo de juguete, IV

La funci´on de regresi´on estimada es:

●

0.2 0.4 0.6 0.8

02468

x

y

(25)

Ejemplo: Volvo, I

I Ejemplo: Volvo 1

Se piensa que los coches con grandes cilindradas se deterioran menos r´apidamente que los que tienen peque˜nas cilindradas. En un estudio sobre el tema se analizaron 19 motores Volvo 19 y se obtuvieron los siguientes datos:

tama~no<-c(1.42,1.58,1.78,1.99,1.99,1.99,2.13,2.13,2.13,2.32,2.32, 2.32,2.32,2.32, 2.43,2.43,2.78,2.98,2.98)

desgaste<-c(4.0,4.2,2.5,2.6,2.8,2.4,3.2,2.4,2.6,4.8,2.9,3.8,3.0, 2.7,3.1,3.3,3.0,2.8,1.7)

I Modelo:

desgaste_i= f (tamañoi) + i, i i.i.d. ∼ N(0, σ²) i = 1, . . . , n = 19 y vamos a modelizar f a través de una base de splines cúbicos.

I Trabajamos ahora con el script SVolvo1 para ilustrar el tratamiento del problema a través de un modelo de regresión con splines. Utilizaremos dos bases de distinta dimensión para entender un poco más el papel de los distintos elementos en el modelo.

(26)

Control del grado de suavizaci´ on, I

I La elección del grado de suavización está controlada por la dimensión de la base de splines. Este es un tema importante. Necesitamos introducir criterios que nos permitan seleccionar de forma adecuada el grado de suavización del modelo.

I Antes de empezar a estudiar este tema vamos a recordar el m´etodo de m´ınimos cuadrados ...que introdujimos en la asignatura de modelos lineales.

I La siguiente transparencia es un quasicopy-paste de la transparencia del tema 1 de la asignatura de Modelos lineales para el modelo de regresi´on lineal simple en la que introduc´ıamos el m´etodo de m´ınimos cuadrados.

(27)

Control del grado de suavizaci´ on, II

Quasi-copy-paste de Estimaci´ on: m´ etodo de m´ınimos cuadrados, I

I A partir de la información proporcionada por n observaciones emparejadas {(Xi, Yi), i = 1, . . . , n} el método de los m´ınimos cuadrados considera la diferencia entre cada observación Yi de la variable respuesta y su correspondiente media, β1+ β2Xi, a través del estad´ıstico:

Q(β1, β2) =Pn

i =1(Y_i− (β1+ β2X_i))²

y elige como estimadores de β1y β2aquellos valores que minimizan el valor de Q(β1, β2).

I Dicho proceso de minimización (función de dos variables) proporciona como estimadores de ambos parámetros aquellos valores que cumplen las ecuaciones:

Pn

i =1Yi = nβ1+ β2Pn i =1 Xi

Pn

i =1X_iY_i= β1Pn

i =1X_i+ β2Pn i =1 X_i² que son conocidas comoecuaciones normales.

(28)

Control del grado de suavizaci´ on, III

I Pero nosotros ahora no estamos trabajando con el modelo de regresión lineal simple sino con un modelo de regresión lineal múltiple en el que la matriz de diseño está definida por los elementos de una base de splines.

I Con lo que ahora deber´ıamos modificar la descripci´on anterior como: A partir de la informaci´on proporcionada por n observaciones emparejadas

{(X_i, Yi), i = 1, . . . , n} el método de los m´ınimos cuadrados considera la diferencia entre cada observación Yi de la variable respuesta y su correspondiente media (o función de regresión),

β1b1(xi) + β2b2(xi) + . . . + βqbq(xi), a trav´es del estad´ıstico:

Q(β1, . . . , βq) =Pn

i =1(Yi− (β₁b1(xi) + β2b2(xi) + . . . + βqbq(xi))² y elige como estimadores de β1, . . ., βq, aquellos valores que minimizan el valor de Q(β1, . . . , βq).

I Para aligerar un poco la notaci´on a partir de ahora la expresi´on anterior la representaremos como:

Q(β) =|| Y − Xβ ||²

siendo β = (β1, β2, . . . , βq)^T, Y = (Y1, . . . , Yn)^T y X la matriz de dise˜no definida por la base de splines cuyas fila i -´esima es de la forma:

(29)

Control del grado de suavizaci´ on: Criterio 1

I Criterio 1: Reducir la base de splines.

I Una posibilidad que tenemos para elegir el grado de suavización es a través de contrastes de hipótesis en los que se valoren modelos con mayor o menor grado de suavización, es decir, con mayor o menor número de nodos.

I Pero esta propuesta es problem´atica porque, por ejemplo, un modelo basado en q − 1 nodos igualmente espaciados no est´a encajado en un modelo basado en q nodos.

Modelo 1: Y = β1+ β2x + β3R(x , x₁^∗= 1/2) +

Modelo 2: Y = β1+ β2x + β3R(x , x₁^∗= 1/3) + β4R(x , x₁^∗= 2/3) + I Podr´ıamos pensar en un proceso de selecci´on de variables backward, empezando

con un grid amplio de nodos e ir eliminando nodos. No es un proceso

recomendable porque el modelo resultante es, en general, bastante pobre ya que el ajuse en estos modelos depende fuertemente de la localizaci´on elegida para los nodos.

I Por lo tanto el criterio 1 NO parece adecuado.

(30)

Control del grado de suavizaci´ on: Splines penalizados, I.

I Criterio 2: Utilizar splines penalizados.

I Mantenemos fija la base de splines y controlamos el grado de suavización del modelo añadiendo una penalización a la función objetivo del método de m´ınimos cuadrados:

Q(β) =|| Y − Xβ ||²

Q(β) =|| Y − Xβ ||² + λ Penalizaci´on

I λ es el parámetro de suavización. Cuando λ = 0 estamos en el caso particular en el que no hay penalización y a medida que λ aumenta aumentamos la intensidad de la penalización. Cuando λ tiende a ∞ el modelo se convierte prácticamente en un modelo de regresión lineal simple.

I Penalizaci´on =R1

0 f⁰⁰(x ) d(x ). ¿Cual ser´ıa la penalizaci´on si

f (x ) = β1+ β2x ?, ¿y si f (x ) = β1+ β2x + β3x²+ β4x⁴?, Modelos muy

”monta˜nosos-inestables”, modelos muy penalizados.

(31)

Control del grado de suavizaci´ on: Splines penalizados, II.

I Penalizaci´on =R1

0 f⁰⁰(x ) d(x ).

I Felizmente puede expresarse como:

Penalizaci´on =R1

0 f⁰⁰(x ) d(x ) = β^TS β siendo S una matriz de orden q × q con coeficientes conocidos que dependen de la base elegida y a la que se conoce como matriz de penalizaci´on.

I M´ınimos cuadrados penalizados:

Q(β) =|| Y − Xβ ||²+λ β^TS β

I Estimador penalizado de β:

βˆ_penal = (X^TX + λS)⁻¹X^TY

I Matriz de proyecci´on del modelo penalizado:

Hpenal = X(X^TX + λS)⁻¹X^T

I Estimación de la función de regresión:

X ˆβ_penal= HpenalY

(32)

Control del grado de suavizaci´ on: Splines penalizados, III.

I Modelo lineal: Y = Xβ +

siendo X la matriz de dise˜no definida por una base de splines.

I Comparamos:

Splines de regresi´on Splines de regresi´on no penalizados penalizados

Q(β) =|| Y − Xβ ||² Q(β) =|| Y − Xβ ||²+λ β^TS β β = (Xˆ ^TX)⁻¹X^TY βˆ_penal= (X^TX + λS)⁻¹X^TY H = X(X^TX)⁻¹X^T Hpenal= X(X^TX + λS)⁻¹X^T

siendo λ el par´ametro de suavizado y S la matriz de penalizaci´on.

(33)

Control del grado de suavizaci´ on: Splines penalizados, IV.

I Modelo: Y = Xβ +

siendo X la matriz de dise˜no definida por una base de splines.

I La expresi´on de la matriz de penalizaci´on, S, depende de la base de splines que consideremos.

I Si trabajamos con la base de splines cúbica de dimensión q introducida anteriormente, la matriz de penalización S es de orden q × q y se define como:

I Las dos primeras columnas y filas están todas ellas formadas por ceros (no hay penalización al término paramétrico de la base).

I Sj +2,k+2= R(x_j^∗, x_k^∗), j , k = 1, . . . , q − 2

(34)

Ejemplo de juguete, V

I Estamos trabajando un modelo de regresi´on con splines c´ubicos basados en los nodos interiores x₁^∗= 1/3 y x₂^∗= 2/3.

I Datos:

x<-c(0.1,0.2,0.4,0.5,0.7,0.9) y<-c(2,4,5,3,2,6)

I Vamos a calcular la matriz de penalizaci´on S. Se trata de una matriz de orden 4 × 4 con elementos

S

|{z}

4×4

=







0 0 0 0

0 0 R(1/3, 1/3) R(1/3, 2/3) 0 0 R(2/3, 1/3) R(3/3, 2/3)





 ,

I Y operando:

S

|{z}

4×4

=







0 0 0 0

0 0 0.0021604938 0.0001028807 0 0 0.0001028807 0.0021604938





 ,

(35)

Control del grado de suavizaci´ on: Splines penalizados, V.

I El modelo de regresi´on lineal penalizado Y = Xβ + ,

siendo X la matriz de dise˜no definida por una base de splines y penalizaci´on λβ^TSβ.

I Es equivalente al modelo de splines de regresi´on lineal no penalizados

Y⁰ = X⁰β + , siendo:

I Y⁰= (Y, 0, 0, . . . , 0

| {z }

q

)^Tvector de dimensi´on (n + q) × 1,

I X⁰=

X

B√ λ

matriz de dise˜no de orden (n + q) × q

I B es una matriz que cumple B^TB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.

I λ es el par´ametro de penalizaci´on.

(36)

Ejemplo de juguete, VI

El modelo de regresi´on penalizado que hemos escrito en la transparenciaEjemplo de juguete, Ves equivalente al modelo de splines de regresesi´on no penalizados:

Y⁰= X⁰β + , siendo:

Y⁰

|{z}

10×1

=





 Y₁ Y₂ Y₃ Y₄ Y5 Y₆ 0 0 0 0





 , X⁰

|{z}

10×4

=







1 0.1 R(0.1, 1/3) R(0.1, 2/3) 1 0.2 R(0.2, 1/3) R(0.2, 2/3) 1 0.4 R(0.4, 1/3) R(0.4, 2/3) 1 0.5 R(0.5, 1/3) R(0.5, 2/3) 1 0.7 R(0.7, 1/3) R(0.7, 2/3) 1 0.9 R(0.9, 1/3) R(0.9, 2/3)

0 0 0 0

0 0 √

λ B(1/3, 1/3) √

λ B(1/3, 2/3)

0 0 √

λ B(2/3, 1/3) √

λ B(3/3, 2/3)







(37)

Ejemplo de juguete, VII

El modelo de regresi´on penalizado que hemos escrito en la transparenciaEjemplo de juguete, Ves equivalente al modelo de regresi´on con splines:

Y⁰= X⁰β + , siendo:

Y⁰

|{z}

10×1

=





 Y1 Y₂ Y3 Y₄ Y₅ Y₆ 0 0 0 0







, X⁰

|{z}

10×4

=







1 0.1 −0.0010093107 −0.0021883230 1 0.2 0.0007399177 −0.0012847737 1 0.4 0.0022460905 0.0008139918 1 0.5 0.0017425412 0.0017425412 1 0.7 −0.0002562243 0.0019474794 1 0.9 −0.0021883230 −0.0010093107

0 0 0 0

0 0 √

λ 0.0021604938 √

λ 0.0001028807

0 0 √

λ 0.0001028807 √

λ 0.0021604938





 ,

(38)

Ejemplo de juguete, VIII

El modelo de regresi´on penalizado delEjemplo de juguete con λ = 0.1, 0.01, 0.001, 0.0001, 0.00001, 0.000001

●

0.2 0.4 0.6 0.8

02468

x

y

●

0.2 0.4 0.6 0.8

02468

x

y

●

0.2 0.4 0.6 0.8

02468

x

y

●

02468

y

●

02468

y

●

02468

y

(39)

Control del grado de suavizaci´ on: Splines penalizados, V, otra vez.

I El modelo de regresi´on lineal penalizado Y = Xβ + ,

siendo X la matriz de dise˜no definida por una base de splines y penalizaci´on λβ^TSβ.

I Es equivalente al modelo de regresi´on lineal no penalizado

I Y⁰= (Y, 0, 0, . . . , 0

| {z }

q

)^Tvector de dimensi´on (n + q) × 1,

I X⁰=

X

B√ λ

matriz de dise˜no de orden (n + q) × q

I B una matriz que cumple B^TB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.

I λ el par´ametro de suavizaci´on.

(40)

Estimaci´ on del par´ ametro de suavizaci´ on, I

I El parámetro de suavización, λ, juega un papel muy importante en el grado de suavización del modelo.

I Es un par´ametro desconocido que deberemos estimar adecuadamente.

I Recordamos que si λ es grande el modelo suaviza los datos en exceso mientras que si λ es pequeño los datos estarán muy poco suavizados. En ambos casos, la función de regresión estimada, que representaremos ahora como ˆf (x ),

estar´a lejos de la verdadera funci´on f (x ).

I Un criterio sensato para estimar el par´ametro de penalizaci´on ser´ıa elegir aquel valor de λ que minimizase:

M = ¹_nPn

i =1(f (x_i) − ˆf (x_i))²,

pero como f (x ) es desconocida no podemos utilizarlo.

I Pero esta es una buena idea que puede aprovecharse, y a partir de ella, introduciendo algunas hip´otesis y aproximaciones, se obtiene el estad´ıstico general de validaci´on cruzada:

V_g=nPn

i =1(yi− ˆf (xi))²

| traza(I − H) |

que elige como mejor estimador de el valor que minimiza Vg, siendo H la

(41)

Ejemplo de juguete, IX

I Estimaci´on del par´ametro de suavizado, ˆλ=24512.31 (ojo)

I Estad´ıstico GVC y estimación de la función de regresión del modelo de splines penalizados.

0 10 20 30 40 50 60

8101214161820

Estadístico GVC

i

V

●

0.2 0.4 0.6 0.8

23456

x

y

(42)

Ejemplo: Volvo, II.

I Ejemplo: Volvo 2

Se piensa que los coches de grandes cilindradas se deterioran menos r`apidamente que los que tienen peque˜nas cilindradas. En un estudio sobre el tema se analizaron 19 motores Volvo 19 y se obtuvieron los siguientes datos:

tama~no<-c(1.42,1.58,1.78,1.99,1.99,1.99,2.13,2.13,2.13,2.32,2.32, 2.32,2.32,2.32, 2.43,2.43,2.78,2.98,2.98)

desgaste<-c(4.0,4.2,2.5,2.6,2.8,2.4,3.2,2.4,2.6,4.8,2.9,3.8,3.0, 2.7,3.1,3.3,3.0,2.8,1.7)

I Modelo:

desgaste_i= f (tamañoi) + i, i i.i.d. ∼ N(0, σ²) i = 1, . . . , n = 19 y vamos a modelizar f a través de una base de splines cúbicos.

I Trabajamos ahora con el script SVolvo2 para ilustrar el tratamiento del problema a trav´es de un modelo de regresi´on con splines penalizados.

Utilizaremos dos bases de distinta dimensi´on para entender un poco m´as el papel de los distintos elementos en el modelo.

(43)

Modelos aditivos con varias variables predictoras, I

I Para no hacerlo todo mucho más complicado a nivel formal suponemos que el modelo aditivo con varias variables explicativas incluye sólo dos variables predictoras. En concreto, estudiaremos el comportamiento de una variable respuesta Y a través de las variables predictoras X y Z según el modelo de estructura aditiva:

Yi = f1(xi) + f2(zi) + i

siendo:

I f1y f2son funciones suaves.

I i: variables i .i .d con distribuci´on N(0, σ²)

I Suponemos por simplicidad que todos los valores de X y Z pertenecen al intervalo [0, 1]

I Nota 1 sobre la hip´otesis de efectos aditivos de X y Z : f1(x ) + f2(z) es un caso especial, bastante restrictivo, de la funci´on general f (x , z).

I Nota 2: como el modelo contiene más de una función aparece un problema de identificabilidad ya que, por ejemplo, si añadimos una constante a f1y sustraemos la misma constante a f2el modelo no cambia.

(44)

Modelos aditivos con variables predictoras, II

I Despues de resolver el problema de la identificabilidad del mpdelo, el modelo aditivo con varias variables explicativas puede estudiarse a través del mismo tipo de análisis que hemos aprendido en el tema anterior cuando trabajábamos con una única variable predictiva:

I Representaci´on de las funciones suaves a trav´es de bases de funciones, en particular, splines.

I Estimación a través del método de m´ınimos cuadrados penalizados.

I Selección del grado de suavización del modelo a través de procedimientos de validación cruzada.

I El siguiente material profundiza en estos temas.

(45)

Modelos aditivos con variables predictoras, III

I Utilizamos dos variables explicativas, X y Z , para analizar una variable respuesta Y a trav´es del modelo aditivo:

Yi = f1(xi) + f2(zi) + i

siendo (Yi| X_1i, X2i) ∼ N(f1(xi) + f2(zi), σ²), i = 1, . . . , n.

I Podemos representar cada una de estas dos funciones a trav´es de una base de splines penalizados. Si utilizamos la base c´ubica que conocemos del tema anterior:

f1(x ) = δ1+ δ2x +

q₁−2

X

j =1

δ_{j +2}R(x , x_j^∗)

f2(z) = γ1+ γ2z +

q₂−2

X

j =1

γ_{j +2}R(z, z_j^∗)

siendo γjy δjlos par´ametros desconocidos de la funci´on f1y f2y x_j^∗y z_j^∗los nodos interiores para cada una de las dos bases consideradas.

(46)

Modelos aditivos con variables predictoras, IV

I El problema de la falta de identificabilidad en el modelo aditivo se genera porque δ1y γ1est´an confundidos. La forma m´as sencilla de resolver este problema es considerar que uno de ellos es cero, por ejemplo γ1.

I Con esta condici´on el modelo aditivo anterior puede escribirse como un modelo lineal Y = X β + con:

I Matriz de dise˜no X de orden n × (q1+ q2− 1) cuya fila i -´esima es de la forma:

Xi= [1, xi, R(xi, x₁^∗), R(xi, x₂^∗), . . . , R(xi, x_q^∗₁−2), zi, R(zi, z₁^∗), . . . , R(xi, x_q^∗₂−2)]

I Vector de par´ametros β = (δ1, δ2, . . . , δq₁, γ2, γ3, . . . , γq₂)^T I La suavizaci´on de cada una de las funciones f1y f2viene dada por la

penalizaci´on:

Z1 0

f₁⁰⁰(x )²dx = β^TS1β, Z1

0

f₁⁰⁰(x )²dx = β^TS2β

siendo S1y S2matrices de orden (q1+ q2− 1) × (q1+ q2− 1) cuyos elementos son todos cero excepto para S1(j + 2, k + 2) = R(x_j^∗, x_k^∗), j , k = 1, . . . , q1− 2 y S2(j + q1+ 1, k + q1+ 1) = R(z^∗, z^∗), j , k = 1, . . . , q2− 2

(47)

Modelos aditivos con variables predictoras, IV

I La estimaci´on de los par´ametros del modelo, β, la obtenemos minimizando:

|| Y − X β ||² + λ1β^TS1β + λ2β^TS2β

siendo λ1y λ2los parámetros de suavizado que controlan el peso que debe asignarse para que f1y f2sean suaves, en relación al objetivo general que es acercarse lo más posible a los datos. Por el momento supondremos que ambos parámetros son conocidos.

I Si definimos S = λ1S1+ λ1S1el modelo penalizado anterior es equivalente al modelo lineal no penalizado:

I Y⁰= (Y, 0, 0, . . . , 0

| {z }

q1+q2−1

)^Tvector de dimensi´on (n + q1+ q2− 1) × 1,

I X⁰=

X B

matriz de dise˜no de orden (n + q1+ q2− 1) × (q₁+ q2− 1)

I B una matriz de orden (q1+ q2− 1) × (q1+ q2− 1) que cumple B^TB = S y que puede obtenerse a trav´es de la descomposici´on de Cholesky.

(48)

Ejemplo: Arbres, I

I Los siguientes datos corresponden a observaciones de la altura, circunferencia y volumen de 31 cerezos que han sido talados previamente.

Circun Altura Volumen Circun Altura Volumen

8.3 70 10.3 8.6 65 10.3

8.8 63 10.2 10.5 72 16.4

10.7 81 18.8 10.8 83 19.7

11.0 66 15.6 11.0 75 18.2

11.1 80 22.6 11.2 75 19.9

11.3 79 24.2 11.4 76 21.0

11.4 76 21.4 11.7 69 21.3

12.0 75 19.1 12.9 74 22.2

12.9 85 33.8 13.3 86 27.4

13.7 71 25.7 13.8 64 24.9

14.0 78 34.5 14.2 80 31.7

14.5 74 36.3 16.0 72 38.3

16.3 77 42.6 17.3 81 55.4

17.5 82 55.7 17.9 80 58.3

18.0 80 51.5 18.0 80 51.0

20.6 87 77.0

(49)

Ejemplo: Arbres, II

I Modelo:

Volumeni= f1(Circuni) + f2(Alturai) + i, i i.i.d. ∼ N(0, σ²i = 1, . . . , n = 31 I Trabajamos ahora con el script Arbres para para ilustrar el tratamiento del

problema a través de un modelo de regresión con splines penalizados. El documento con todo el script y los resultados tambien se llama Arbres pero está en formato doc.