Modelos Aditivos Generalizados con P-splines. Universidad Carlos III de Madrid

(1)

Modelos Aditivos Generalizados con P-splines

Mar´ıa Durb´ an

Universidad Carlos III de Madrid

(2)

´ Indice general

1. Introducci´on 3

1. Modelos lineales generalizados . . . 4

1.1. La familia exponencial . . . 7

1.2. Estimaci´on de Modelos Lineales Generalizados . . . 8

2. M´etodos de suavizado 9 1. Regresi´on polinomial local: Lowess . . . 9

2. Suavizado con kernels . . . 12

3. Splines . . . 12

3.1. N´umero y posici´on de los nodos . . . 13

3.2. Splines de suavizado (smoothing splines) . . . 14

3. Splines con penalizaciones (P-splines) 18 1. Bases y Penalizaciones . . . 18

1.1. Bases y nodos . . . 20

1.2. Penalizaciones y coeficientes . . . 23

1.3. Estimaci´on de par´ametros y grados de libertad . . . 27

1.4. Selecci´on del par´ametro de suavizado . . . 27

2. P-splines Bayesianos . . . 28

3. P-splines como modelos mixtos . . . 29

3.1. Intervalos de confianza en modelos de suavizado . . . 31

3.2. Datos correlados . . . 32

4. P-splines para datos multidimensionales . . . 33

4.1. P-splines multidimensionales como modelos mixtos . . . 35

5. Modelos additivos generalizados . . . 36

5.1. Modelos aditivos generalizados con P-splines . . . 37

5.2. GLMM para datos de Poisson . . . 38

4. Software 39 5. Aplicaciones 46 1. Modelos Semiparam´etricos . . . 46

2. Modelos Aditivos . . . 50

2.1. Ejemplo 1: Mortalidad por enfermedades respiratorias . . . 50

3. P-splines para datos longitudinales . . . 51

(3)

3.1. Modelo con ordenada en el origen aleatoria . . . 53

3.2. Modelo aditivo mixto . . . 54

3.3. Modelo con diferencias individuales lineales . . . 56

3.4. Interacci´on de curva por factor . . . 58

3.5. Curvas espec´ıficas para cada individuo . . . 58

4. Datos correlados . . . 64

5. Datos multidimensionales . . . 66

5.1. Ejemplo 1: Tendencias espaciales en experimentos de campo . . . 66

5.2. Ejemplo 2: An´alisis de datos de mortalidad . . . 67

5.3. Ejercicio: Modelos aditivos para datos con respuesta binaria . . . 71

5.4. Ejemplo 3: Aplicaciones en disease mapping . . . 72

(4)

Cap´ıtulo 1 Introducci´ on

Un modelo lineal es deseable porque es simple de ajustar, se entiende fácilmente, y existen muchas técnicas disponibles para contrastar las hipótesis del modelo. Sin embargo, en muchos casos, los datos no están relacionados de forma lineal, por lo que no tiene sentido utilizar los modelos de regresión lineal.

Un modelo de regresi´on no-lineal cl´asico tendr´ıa la siguiente forma:

y = f (Xβ) +

donde β = (β₁, . . . β_p)⁰ es un vector de parámetros, que han de ser estimados, y X es la matriz que contiene las variables predictoras. La función f (.), relaciona el valor medio de la variable respuesta y con las variables predictoras, y su forma está especificada a priori . Por ejemplo, en muchos modelos biológicos, existe una dependencia de tipo exponencial:

f (Xβ) = e^β⁰^+β¹^x.

Pero en algunas situaciones, la estructura de los datos es tan complicada que es muy dif´ıcil encontrar una funci´on que estime la relaci´on existente de forma correcta (ver por ejemplo la siguiente figura):

Una posible solución es: regressión no-paramétrica. El modelo general de regresión no-paramétrica ise escribe de forma similar al anterior, pero f no tiene una forma expl´ıcita:

y = f (X) + = f (x₁, . . . x_p) +

La mayor´ıa de los métodos de regresión no-paramétrica asumen que f (.) es una función continua y suave, y que _i ∼ NID(0, σ²) (aunque esto último puede relajarse de forma sencilla).

Un caso importante de el modelo general, es la regresión no-paramétrica simple, donde sólo hay una variable predictora

y = f (x) +

A la regresión no-paramétrica simple también se le llama Nonparametric simple regression is often called scatterplot smoothing, porque una aplicación importante es dibujar una curva an un diagrama de y sobre x.

(5)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−1

−0.5 0 0.5 1

Fixed weights of differences

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−1

−0.5 0 0.5 1

Exponentially varying weights of differences

Figure 13: Smoothing of simulated data (dots) with and without exponentially varying weights on the differences in the penalty. Upper: uniform weights; lower:

varying weights. Parameters optimized with grid search and leave-one-out cross- validation. Full line: fitted curve (100 cubic B-splines, second order penalty); broken line: true curve.

position k. It follows, for large λ, ˆα will be a smooth series, except for a kink at position k. If both v

_k

and v

_k₋₁

are zero, ˆα will be smooth, except for a jump at α

_k

. Depending on the number of knots, the kink or jump will show up in a more or less smoothed way in the fitted curve. Of course, combinations of multiple kinks and jumps can be introduced this way.

In some application a gradually changing smoothness may be sufficient. This can be accomplished by taking v

_k

= e

^γk

. Both λ and γ are optimized by cross-validation or AIC. Of course, this applies equally well to TPF. An example of smoothing with an exponential change of the weights in the penalty is shown in Figure 13, using simulated data: a sine function with changing frequency and amplitude. If we use uniform weights and optimize λ with leave-one-out cross-validation (which gives optimal λ

^?

= 0.1), we get a result that gives rather strong fluctuations of the fitted curve in the low-frequency part and misses the data in the high-frequency part. If we introduce weights e

^γk

and optimize both γ and λ, we get a more reasonable result.

A grid search gave (approximate) optimal values γ

^?

= 0.2 and λ

^?

= 3 × 10

⁻⁴

. This means that, with the 100 knots used here, the largest weight is about 5 × 10

⁸

times larger than the smallest.

Sometimes it is fruitful to have multiple difference penalties, of different orders, or to add an extra ridge penalty. Marx and Eilers (2002) found, in the context of multivariate calibration by penalized signal regression, markedly improved cross- validation behavior. Aldrin (2006) investigated the use of both first and second order penalties in additive models based on P-splines, and found improved prediction.

Figura 1: Figura cortes´ıa de Paul Eilers (Splines, knots and penalties, 2011) Ejemplo: datos de pretigio

El siguiente conjunto de datos contiene datos sobre el nivel de prestigio que tienen 102 profesiones en Canada en los a˜nos 70. Las variables son:

prestige: prestigio medio, con rango de 0 a 100 income: salario medio de cada profesi´on, en d´olares.

education: Número medio de años de educación.

type: Una variable categ´orica con tres niveles:

• bc (directivos)

• wc (obreros)

• prof (profesionales liberales)

Al ajustar un modelo lineal entre el salario y el pretigio, obtendr´ıa los resultados que se pre- sentan en la Figura 1. Un modelo lineal es claramente inapropiado para estos datos, adem´as, ser´ıa complicado encontrar un modelo no-lineal que ajustara los datos correctamente.

1. Modelos lineales generalizados

Los modelos lineales generalizados (GLMs) extienden el modelo lineal para acomodar las variables respuestas que no siguen una distribución Normal, bajo un enfoque unificado. Es bastante común encontrarse en siatuaciones en las que la variable resuesta no cumple las hipótesis estándar del modelo lineal (datos Normales, varianza constante, etc.), por ejemplo:

datos de conteo, datos dicot´omicos, datos truncados, etc. Los GLMs se basan en la teor´ıa de Nelder and Wedderburn (1972) y McCullagh and Nelder (1989), desde entonces, con los

4

(6)

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

0 5000 10000 15000 20000 25000

20406080100

Average Income

Prestige

Figura 2: Modelo lineal para datos de prestigio

avances del software estad´ıstico, estos modelos se han convertido en una herramienta b´asica para muchos investigadores.

Hay dos temas fundamentales en la noción de los modelos lineales generalizados: la distri- bución de la variable respuesta, y cómo el modelo establece la relación entre la media de la variable respuesta y las variables explicativas. variables.

Ejemplo de motivaci´on: Experimento de toxicidad

El experimento intenta establecer la relación entre la concentración de un agente tóxico (nicotina) y el número de insectos (mosca de la fruta) que mueren: Los datos siguen una

x

Concentraci´on n y

(g/100cc) N´umero de insectos N´umero de muertos Porcentaje de muertos

0.1 47 8 17.0

0.15 53 14 26.4

0.20 55 24 43.6

0.30 52 32 61.5

0.50 46 38 82.6

0.70 54 50 92.6

0.95 52 50 96.2

Cuadro 1: Datos del experimento de toxicidad distribuci´on Binomial

y_i ∼ B(nⁱ, p_i) E[y_i] = n_ip_i(x_i) V ar[y_i] = n_ip_i(1− pⁱ)

Claramente, la varianza y la media están relacionadas entre s´ı, y también con las variables predictoras. Usando regresión lineal ordinaria para predecir el procentaje de moscas que

(7)

mueren, estar´ıamos asumiendo que los datos vienen de una distribución Normal, lo que es falso, y además, con este tipo de datos tenemos la siguiente restricción: 0 ≤ pⁱ ≤ 1, la cual no es tenida en cuenta en el modelo de regresión. Ajustando el modelo p_i = β₀+ β₁x_i + ε_i obtenemos

(lm(perc~Concentration))$fitted

1 2 3 4 5 6

0.3066231 0.3532890 0.3999550 0.4932869 0.6799507 0.8666145 7

1.0999442

El valor ajustado del ´ultimo punto es mayor que 1!!!. Adem´as, como se ve en la Figura 1, el modelo es claramente no-lineal

●

0.2 0.4 0.6 0.8

0.20.40.60.8

x

perc

Figura 3: Gr´afico de la concentraci´on de nicotina frente al procentaje de animales muertos y la recta ajustada.

Aqu´ı hemos usado un modelo de regresi´on ordinario:

y(= π) = Xβ + ε E[y|x] = Xβ

Dado que la probabilidad sólo toma valores en el intervalo (0, 1). Podemos buscar una nueva forma de representar E[y—x], de modo que la probabilidad esté en (0, 1). Una forma de conseguirlo es utilizar la función log´ıstica:

π = e^Xβ

1 + e^Xβ = 1 1 + e^−Xβ y

Xβ = log

π

1− π

Es decir, Xβ = g(E[y|x]) 6= E[y|x]. La idea es relacionar una transformaci´on de la media de los datos, µ = E[y|x] con las variables explicatibas X.

(8)

1.1. La familia exponencial

Un concepto importante que unifica todos los GLms es la familia exponencial de distribuciones . Todas las distribuciones pertenecientes a la familia exponencial tiene una funci´on de densidad (o de probabilidad) que se puede expresar de la siguiente forma:

f (y; θ, φ) = exp yθ− b(θ)

a(φ) + c(y, φ)

(1.1) donde, en cada caso, a(.), b(.) y c(.) serán funciones espec´ıficas. El parámetro θ es lo que se llama parámetro canónico de localización y φ es un parámetro de dispersión. La distribucion Binomial, Poisson y Normal (entre otras) son miembros de la familia exponencial.

Componentes de un modelo lineal generalizado En un modelo de regresi´on est´andar:

y = Xβ + ε ε∼ N(0, σ²I) E(y) = µ = Xβ

donde Xβ es una combinación lineal de las variables predictoras llamada predictor lineal (el cual se representa como η), en este caso la media µ está directamente relacionada con el predictor lineal, ya que en este caso µ = η. Usando este modelo sencillo, podemos ver que hay dos componentes en el modelo: la función de probabilidad de la variable respuesta y la estructura lineal del modelo. En general, un modelo lineal generalizado tendra los siguientes componentes:

1. Componente aleatorio: y es un vector aleatorio procedente de una distribuci´on que pertenece a la familia exponencial y cuya media es µ.

2. Componente sistem´atico: es el predictor lineal η = Xβ. D

3. La función link : es una función monótona, derivable que establece la relación entre la media y el predictor lineal

η = g(µ) E(y) = µ = g⁻¹(η) (1.2)

En el caso del modelo de regresión ordinaria, µ = η, por lo tanto la función link es la identidad. Hay muchas opciones par la función link. La función link canonica es una función que transforma la media en el parámetro canónico θ

η = g(µ) = θ⇒ g es una función link canónica Hay muchas opciones par la función link.

(9)

Distribuci´on Link

Normal η = µ (identidad) Binomial η = ln ₁^P

−P (logist´ıstica) Poisson η = ln(µ) (logar´ıtmica) Exponential η = µ (rec´ıproca)¹ Gamma η = µ (rec´ıproca)¹

Cuadro 2: Funciones link m´as usadas en los GLMs

1.2. Estimaci´ on de Modelos Lineales Generalizados

En el caso de la familia exponencial, dado un vector de observaciones y = (y_i, y₂, . . . , y_n)⁰. El logaritmo de la verosimilitud es

l(θ|y) =

n

X

i=1

((y_iθ_i− b(θi)/a(φ) + c(y_i, φ)) (1.3)

Cuando usamos el link canónico: θ = η = Xβ, de modo que podemos estimar los parámetros de interés β: Por lo tanto, la función score:

∂l

∂β = ∂l

∂θ_i

∂β Es posible probar que:

∂l

∂β =

n

X

i=1

(y_i− µⁱ) g⁰(µ_i)V_i x_i donde V_i = V ar(y_i) = a(φ)b⁰⁰(θ_i).

Necesitamos igualar esa ecuación a cero, pero no existe una solución exacta, y utlizamos una versión de algoritmo de Newton-Rapson, llamado Fisher Scoring Algorithm. Es un algoritmo iterativo cuya solución es:

β_new= (X⁰W X)⁻¹X⁰W z

donde z = Xβ_old+ (y− µold)g⁰(µ_old) (llamado working vector ), y W es una matriz diagonal cuyos elementos wii = 1/g⁰(µ_i).

En la p´agina web: http://halweb.uc3m.es/esp/Personal/personas/durban/esp/web/

GLM/GLM.html se encuentra el material de mi curso sobre GLM.

(10)

Cap´ıtulo 2

M´ etodos de suavizado

Un suavizador o smoother es una herramienta que representa la tendencia de la variable respuesta y como función de uno o más predictores lineales x. Ya que es una estimación de la tendencia, tendrá menos variabilidad que y, por eso se le llama suavizador (en este sentido, incluso la regresión lineal es una suavizador llevado al extremo).

Hay diversas formas de realizar la regresión no paramétrica, pero todas ellas tienen en común que se basan en los propios datos para especificar la forma que tiene el modelo: la curva en un punto dado sólo depende de las observaciones en ese punto y de las observaciones vecinas.

Estás son algunas de las técnicas de regresión no-paramétrica existentes 1. Regresión polinomial local con pesos, lowess.

2. Kernels 3. Splines

4. Splines con penalizaciones (Psplines)

1. Regresi´ on polinomial local: Lowess

La idea de regresi´on local fue propuesta por Cleveland (1979). Intentamos ajustar el modelo,

y_i = f (x_i) + _i siguiendo los siguientes pasos:

1. definimos el ancho de ventana (m): Incluye a los vecinos m´as cercanos. En este ejemplo utilizamos m = 50, es decir, para cada punto selecionamos los 50 vecinos m´as cercanos (una ventana que incluye a los 50 vecinos de x₍₈₀₎ se muestra en la Figura 2(a)).

2. Asignar pesos a los datos: Se utiliza una función kernel para dar más peso a los puntos más cercanos a la observación de interés x₀. En la práctica se utiliza normalmente la

(11)

0 5000 15000 25000

20406080

(a)

Average Income

Prestige

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

● ●

●

● ●

●

●●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

0 5000 15000 25000

0.00.40.8

(b)

Average Income

Tricube Weight

●●●●●●●●●

●●●●

●●●●●

●●●●●●●●●●●●●●●●●●●●●

●

0 5000 15000 25000

20406080

(c)

Average Income

Prestige ^●●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

● ●

●

● ●

●

●●

● ●

●

● ●

●

● ●

●

●● ●

● ●●

●●

●

● ●

●●● ●

●

● ● ●

●

●●

●

●●●

●

● ●

●

●●

●

● ●

●●

●

●●

●

0 5000 15000 25000

20406080

(d)

Average Income

Prestige

Figura 1: Lowess smoother funci´on de pesos tric´ubica:

W (z) = (1 − |z|³)³ for |z| < 1

0 for |z| ≥ 1

donde z_i = (x_i − x⁰)/h, y h es la mitad de la longitud de la ventana. Observaciones que están más lejos de la distancia h de x₀ reciben peso 0. Lo normal es elegir h de modo que cada regresión local incluya a una proporción fija de puntos, s, y a esto se le llama el span del suavizador. La Figura 2(b) muestra los pesos de la función tricúbica para observaciones en una vecidad.

3. M´ınimos cuadrados poderados locales: Ahora, ajustamos una regresión polinomial usando m´ınimos cuadrados ponderados (con pesos) sobre x₀, pero sólo utilizando las observaciones más cercanas para minimizar la suma de residuos al cuadrados ponderados.

Normalmente se utiliza regresión polinómica de grado 1 (lineal) ó 2 (cuadrática), pero se puede utilizar polinomios de cualquier orden.

y_i+ b_i(x_i− x0) + b₂(x_i− x0)²+ . . . + b_p(x_i− x0)^p+ e_i

A partir de esta regresi´on, calculamos el valos ajustado correspondiente a x₀ y lo dibujamos en el diagrama. La Figura 2 (c) muestra el ajuste lineal local para los datos en la vecindad de x₀, el valor ajustado ˆy|x(80) se representa en el gr´afico por un punto en negrita.

4. Curva no-paramétrica:Los pasos 1-3 se repiten para cada observación de los datos. Por lo que estamos haciendo un regresión local para cada valor de x, y los valores ajustados

(12)

de cada una de ellas se dibuja y se une (ver Figura 2 (d)).

En R podemos hacer esto de forma sencilla:

library(car) data(Prestige) attach(Prestige)

plot(income, prestige, xlab="Average Income", ylab="Prestige", main="(d)")

lines(lowess(income, prestige, f=0.5, iter=0), lwd=2)

En regresión no-paramétrica no tenemos parámetros estimados, el interés está en la curva, por lo que el énfasis está en cómo de bien la curva ajustada representa la curva poblacional.

Las hipótesis bajo el modelo lowess son mucho menos restrictivas que las del modelo de regresión lineal, no hay ninguna hipótesis restrictiva sobre model µ, sin embargo, asumimos que alrededor de cada punto x₀, µ debe ser, aproximadamente, una función local. Los errores

_i se suponen independientes y con media 0. Finalmente, un cierto número de decisiones han de ser tomadas: el span, el grado del polinomio, el tipo de función de ponderación; estas opciones afectarán el equilibrio entre el sesgo y la varianza de la curva.

Ventana-span

Recordamos que el span s es el porcentaje de observaciones utilizadas dentro del rango de x. El valor de s tiene un efecto importante en la curva. Un span demasiado pequeño (esto significa que muy pocas observaciones caen dentro de la ventana) da lugar a una curva con mucho ruido, y por lo tanto con mucha varianza. Si el span es muy grande la curva estará sobre-suavizada, por lo que puede que no ajuste bien los datos y haya una pérdida de información y por lo tanto, el sesgo será alto.

Podemos elegir la ventana de diferentes formas:

1. Constante: h es constante, por lo tanto una parte de rango de x es utilizado para elegir las observaciones para la regresión local. Este es un método apropiado si la distribución de x es aproximadamente uniforme y/o el tamaño muestral el grande. Sin embargo, si x tiene una distribución no-uniforme, este método puede fallar, ya que habrá casos en los que puede no haber vecinos o muy pocos. Esto es particularmente relevante en la frontera del rango de x.

2. Vecinos más próximos: Este método resuelve el problema anterior. El span s se elige de modo que cada vez se esté utilizadon una determinada proporción del total de los valores de x. La proporción se elige probando hasta que eliminamos el ruido de la curva. El span s = 0,5 el siempre el punto inicial. En la función lowess(), el span por defecto es s = 0,75.

La Figura 3 muestra el efecto de 4 valores distintos del span en el ajuste de la curva para los datos de pretigio.

(13)

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

0 5000 10000 15000 20000 25000

20406080

Average Income

Prestige

s=0.1 s=0.37 s=0.63 s=0.9

Figura 2: Efecto del span en la curva ajustada

2. Suavizado con kernels

Un suavizador tipo kernel utiliza pesos que decrecen de forma suave cuando la l´ınea se aleja del punto de interés x₀. El peso para la observación j − th utilizada para el punto de interés x₀ viene dado por:

S_0j = c₀ λd

x₀− xj

λ

donde d(t) es una funci´on decreciente en|t|, λ es el ancho de ventana , y c⁰ es una constante elegida de modo que la suma de los pesos sea 1. T´ıpicamente d(.) es la funci´on de densidad de una Normal para el llamado kernel Gaussiano.

Estos suavizadores, en general, se comportan peor que el lowess en los puntos de frontera (ver Figura 3).

plot(income, prestige, xlab="Average Income", ylab="Prestige")

lines(ksmooth(income[ord], prestige[ord],x.points=unique(income[ord]),

"normal", bandwidth=6000))

3. Splines

Los splines son funciones polin´omicas a trozos sobre las que se imponen restricciones en los puntos de uni´on llamados nodos, estos puntos dividen el rango de x en regiones. Los splines dependen de tres elementos:

1. Grado del polinimio

(14)

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

0 5000 10000 15000 20000 25000

20406080

Average Income

Prestige

Figura 3: Curva ajustada utilizando un kernel Gaussiano 2. N´umero de nodos

3. Localizaci´on de los nodos

Aunque hay muchas combinaciones posibles, una elecci´on popular consiste en polinomios a trozos de grado tres, continuos y con primera y segunda derivada continua en los nodos (esto fuerza a los polinimios a unirse de forma suave en estos puntos, ver Figura 4).

Un spline c´ubico con dos nodos c₁ y c₂ tiene la siguiente forma:

y = β₀+ β₁x + β₂x²+ β₃x³+ β₄(x− c¹)³₊+ β₅(x− c¹)³₊,

donde (u)₊ = u si u > 0 y 0 en otro caso. Si hay k nodos, la función necesitará k + 4 coeficientes de regresión.

Splines cúbicos naturales Restringen el spline de modo que es lineal más allá de los nodos que están en la frontera, por lo tanto, necesita k + 2 parámetros, esto es debido a que ahora no se impone que la derivada se a continua en c₁ y c_k , por lo que se eliminan 2 parámetros al final de los datos

y = β₀+ β₁x + β₂(x− c1)³₊+ β₃(x− c1)³₊,

3.1. N´ umero y posici´ on de los nodos

Los splines cúbicos dependen de los nodos, por lo que es necesario seleccionar cuántos y dónde estarán situados. Es más importante la elección del número que de la posición.

(15)

Figura 4: Una series de polinomios a trozos de orden 3, con ´ordenes de continuidad creciente

Siempre se pueden colocar en los cuantiles de x.

Una elección t´ıpica es 3 ≤ k ≤ 7. En los casos en los que el tamaño muestral es grande (n ≥ 100) y la variable respuesta es continua, k = 5 es un buen compromiso entre flexibi- lidad y precisión. Para tamaños muestrales pequeños (n≤ 30), k = 3 es una buena opción para empezar. El Akaike Information Criteria (AIC) puede ser utilizado para elegir k.

library(splines)

natspl=lm(prestige~ns(income,df=5))

plot(income, prestige, xlab="Average Income", ylab="Prestige") lines(income[ord],natspl$fitted[ord])

3.2. Splines de suavizado (smoothing splines)

Los smoothing splines son la soluci´on al problema de minimizar la suma de residuos al cuadrado penalizados:

RSS(f, λ) = X

i = 1ⁿ(y_i− f(xⁱ))²+ λ Z xn

x1

f⁰⁰(x)²dx

El primer término mide la proximidad a los datos y el segundo penaliza la curvatura de la función. Aqu´ı, λ es el parámetro de suavizado , y controla el balance entre el sesgo y la varianza de la curva ajustada. Si λ = 0, la curva interpola los datos, y si λ→ ∞, la segunda derivada se hace 0, por lo que tenemos un ajuste lineal.

(16)

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

0 5000 10000 15000 20000 25000

20406080

Average Income

Prestige

Figura 5: Spline c´ubico natural con 4 nodos en los cuantiles de income.

Los splines de suavizado, son splines cúbicos naturales en los que hay tantos nodos como observaciones única de x. Esto podr´ıa parecer un modelo sobreparametrizado, sin embargo, el término de penalización asegura que los coeficientes se reduzcan hacia la linealidad, limi- tando el número de grados de libertad utilizados.

El spline de suavizado es un suavizador lineal, en el sentido de que para cada valor ´unico x_i, hay una base de funciones h(x_i) tal que,

f_λ(x) =

n

X

i=1

h(x_i)y_i Podemos reescribir la suma de cuadrados residuales como:

RSS(θ, λ) = (y− hθ)⁰(y− hθ) + λθ⁰Ωθ La soluci´on es,

θ = (hˆ ⁰h + λΩ)⁻¹h⁰y

Es obvio el paralelismo con la regresión ridge, recordad que en este tipo de regresión, cuanto mayor era λ, más pequeños se hac´ıan los coeficientes; lo mismo ocurre en el caso de los splines de suavizado. El modelo ajustado viene dado por:

f (x) =ˆ

h

X

j=1

h_j(x)ˆθ_j

Pero este tipo de suavizadores tiene un problema: ¿C´omo calculamos el valor apropiado del par´ametro de suavizado λ para un conjuto de datos determinado?

(17)

Elecci´on del par´ametro de suavizado

La elecci´on del par´ametro de suavizado utilizamos:

1. Validaci´on cruzada

La validaci´on cruzada deja cada vez un punto (x_i, y_i) fuera, y estima el valor de nuevo en x_i basado en los restantes n₁ puntos, y se construye la suma de cuadrados:

CV (λ) = n⁻¹

n

X

i=1

(y_i− ˆf_λ⁻ⁱ(x_i))²

donde ˆf_λ⁻ⁱ(x_i) indica el ajuste en x_i calculado dejando la observación i fuera. Utiliza- mos CV para la elección del parámetro de suavizado de la siguiente forma: calculamos CV (λ) para ciertos valores de λ y selecionamos aquel que minimiza CV (λ).

En el caso de un suavizador lineal,

CV (λ) = n⁻¹

n

X

i=1

y_i− ˆf_λ(x_i) 1− Sii(λ)

!2

donde S(λ) es la matriz de proyecci´on del modelo, es decir, ˆy = Sy.

spline1=smooth.spline(income,prestige,cv=TRUE)

> spline1$cv.crit [1] 127.4208

> spline1$lambda [1] 0.01474169 spline1$fit

lines(spline1$x,spline1$y,col=2) 2. Validaci´on cruzada generalizada

Hasta hace pocos años, no se sab´ıa cómo calcular los elementos de las diagonal de S de una forma eficiente, y esto llevó a introducir la validación cruzada generalizada (GCV), la cual reemplaza S_ii por su valor medio, T raza(S)/n, que es más fácil de calcular,

GCV (λ) = n⁻¹

n

X

i=1

y_i− ˆf_λ(x_i) 1− T raza(S)/n

!2

En la mayor´ıa de los casos, CV y GCV se comportan de manera similar, sin embargo, en algunas ocasiones CV tiende a infra-suavizar los datos en comparaci´on con GCV.

spline2=smooth.spline(income,prestige) lines(spline2$x,spline2$y,col=4)

(18)

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

0 5000 10000 15000 20000 25000

20406080

Average Income

Prestige

Figura 6: Spline cúbico natural con 4 nodos en los cuantiles de income (negro) y splines de suavizado con parámetro de suavizado elegido mediante validación cruzada (rojo).

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

0 5000 10000 15000 20000 25000

20406080

Average Income

Prestige

Figura 7: Spline cúbico natural con 4 nodos en los cuantiles de income (negro) y splines de suavizado con paráemtro de suavizado elegido mediante validación cruzada (azul).

(19)

Cap´ıtulo 3

Splines con penalizaciones (P-splines)

En el cap´ıtulo anterior vimos que hay dos grandes enfoques en el tema de modelos de suavizado con splines: a) splines de suavizado (smoothing splines) y b) splines de regresión (regression splines). Los splines de suavizado (ver por ejemplo Green and Silverman (1994)) utilizan tantos parámetros como observaciones, lo que hace que su implementación no sea eficiente cuando el número de datos es muy elevado. Los splines de regresión pueden ser ajustados mediante m´ınimos cuadrados una vez que se han seleccionado el número de nodos, pero la selección de los nodos se hace mediante algoritmos bastante complicados.

Los splines con penalizaciones combinan lo mejor de ambos enfoques: utilizan menos paráme- tros que los splines de suavizado, pero la selección de los nodos no es tan determinante como en los splines de regresión. Hay tres razones fundamentales para el uso de este tipo de splines:

1. Son splines de rango bajo, es decir, que el tamaño de la base utilizada es mucho menor que la dimensión de los datos, al contrario de lo que ocurre en el caso de los splines de suavizado donde hay tantos nodos como datos, lo que hace que sea necesario trabajar con matrices de alta dimensión. El número de nodos, en el caso de los P-splines, no supera los 40, lo que hace que sean computacionalmente eficientes, sobre todo cuando se trabaja con gran cantidad de datos.

2. La introducción de penalizaciones relaja la importancia de la elección del número y la localización de los nodos, cuestión que es de gran importancia en los splines de rango bajo sin penalizaciones (ver por ejemplo Rice and Wu (2001)).

3. La correspondencia entre los P-splines y el BLUP en un modelo mixto permite, en algunos casos, utilizar la metodolog´ıa existente en el campo de los modelos mixtos y el uso de software como PROC MIXED en SAS y lme() en S-PLUS y R.

1. Bases y Penalizaciones

Supongamos que tenemos n pares de datos (x_i, y_i) y estamos interesados en ajustar el modelo

y_i = f (x_i) + _i _i ∼ N(0, σ²)

donde f (.) es una funci´on suave de los datos. Por ejemplo, simulamos los siguientes datos:

(20)

n = 200

x = seq(0,1,length=n)

y = sin(3*pi*x) + 0.5*rnorm(n) plot(x,y,pch=1,bty="l",col=12) lines(x,sin(3*pi*x),col=6)

●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−1012

x

y

Figura 1: Datos simulados, la l´ınea corresponde a f (x) = sin(3πx)

Nuestro objetivo es estimar la funci´on f (x) = sin(3πx) mediante splines con penalizaciones.

Los P-splines fueron introducidos por Eilers and Marx (1996), aunque han alcanzado gran popularidad recientemente (ver por ejemplo Ruppert et al. (2003)). La metodolog´ıa se puede resumir de la siguiente forma: (a) utilizar una base para la regresión, y (b) modificar la función de verosimilitud introduciendo una penalización basada en diferencias entre coeficientes adyacentes. En el caso de datos normalmente distribuidos tenemos el modelo de regresión y = Ba + , donde ∼ N(0, σ²I), y B = B(x) es la base de regresión construida a partir de x. Para estimar los coeficientes de regresión se minimiza la función de m´ınimos cuadrados penalizados:

S(a; y, λ) = (y− Ba)⁰(y− Ba) + λa⁰P a (3.1) donde P es es una matriz que penaliza los coeficientes de forma suave y λ es el par´ametro de suavizado. Fijado un valor de λ, minimizar (3.1) da lugar al sistema de ecuaciones

(B⁰B + λD⁰D)ˆa = B⁰y. (3.2)

Si λ = 0 se corresponde con las ecuaciones normales de regresión de y sobre B. Es importante el hecho de que el tamaño del sistema de ecuaciones anterior depende del tamaño de

(21)

la base y no del n´umero de observaciones.

El parámetro λ determina la influencia de la penalización: si es 0, estamos en un caso de re- gresión con B-splines, y si λ es muy grande, estar´ıamos ajustando un polinomio de grado p−1.

Es sencillo probar que:

ˆ

y = B(B⁰B + λD⁰D)⁻¹B⁰y = Hy, (3.3) H no es una matriz de proyección, ya que no es idempotente, pero su forma hace que el método de suavizado sea lineal. La traza de H corresponde a la dimensión del modelo (el número equivalente de parámetros que estar´ıamos estimando).

1.1. Bases y nodos

La base para la regresi´on se puede calcular de muchas maneras, y de hecho hay dos grandes grupos dentro de los estad´ısticos que utilizan los P-splines: los que utilizan las bases polinomios truncados y los que utilizan las bases de B-splines. Adem´as existen otras alternativas como thin plate regression splines.

Polinomios truncados

Supongamos de nuevo que tenemos pares (x_i, y_i), i = 1, . . . , n. Para simplificar, vamos a suponer que x est´a en [0, 1]. Tomamos k nodos equidistantes en ese intervalo t_j = (j− 1)/k j = 2, . . . , k + 1. Una base de polinomios truncados de grado p viene dada por:

1, x, x², . . . , x^p,{(x − t1)₊}^p, . . . ,{(x − tk)^p₊}^p

donde x₊ = max(0, x) (por eso son truncados, ya que a partir de un cierto punto valen 0).

La función {(x − t)⁺}^p tienen p− 1 derivadas continuas, de modo que cuanto mayor sea p más suave son las funciones en la base. En lenguajes como Matlab, Splus o R es trivial el cálculo de estas funciones:

tpoly= function{x,t,p){

#Polinomios truncados de grado p B=NULL

for(i in 1:length(t)){

B=cbind(B,(x-t[i])^p * (x>t[i])) }

}

Tomamos los nodos, por ejemplo, si queremos 10 nodos:

K=10

knots=seq(0,1,length=(K+2))[-c(1,K+2)]

entonces,

(22)

B0=tpoly(x,knots,0) B1=tpoly(x,knots,1) B2=tpoly(x,knots,2) B3=tpoly(x,knots,3)

son bases de polinomios truncados de grado 0, 1, 2 y 3 respectivamente (ver Figura 2)

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

Polinomios truncados de grado 0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

Figura 2: Bases de polinimios truncados de grado 0, 1, 2 y 3

B-splines

Las referencias básicas son De Boor (1977) y Dierckx (1993). Un B-spline está formado por trozos de polinomios conectados entre si. Un ejemplo muy simple aparece en la parte superior izquierda de la Figura 3: un B-spline de grado 1. Está formado por dos trozos de polinomio lineal que se unen en un nodo, en la parte derecha aparecen más B-splines, cada uno de los cuales está basado en tres nodos. En la parte inferior aparece un B-spline de grado tres, está formado por 4 trozos de polinomios unidos entre si, de nuevo vemos que todas las funciones de la base tienen la misma forma, pero están desplazadas horizontalmente (el

(23)

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

●

● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

●

● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

x

Figura 3: Bases de B-splines de orden 1 y 3.

desplazamiento es una funci´on de la distancia entre los nodos). En general un B-spline de grado p :

Consiste en p + 1 trozos de polinomio de orden p.

Se unen en p nodos internos

En los puntos de uni´on las derivadas hasta el orden p− 1 son continuas.

El B-spline es positivo en el dominio expandido por p + 2 nodos y 0 en es resto.

Excepto en los extremos, se solapa con 2p trozos de polinomios de sus vecinos.

Para cada valor de x, p + 1 B-splines son no nulos.

Los B-splines no “padecen” los efectos de frontera comunes en otros m´etodos de suavizado, como algunos kernels, en los que al extender la curva ajustada fuera del dominio de los datos

´

esta tiende hacia cero. De Boor (2001) presenta un algoritmo para el c´alculo de los B- splines, este algoritmo se puede simplificar f´acilmente en software como MATLAB, S-PLUS y

(24)

R, por ejemplo, la funci´on para el c´alculo de una base de B-splines de orden bdeg con ndx nodos ser´ıa:

bspline = function(x, xl, xr, ndx, bdeg){

dx = (xr-xl)/ndx

knots = seq(xl-bdeg*dx, xr+bdeg*dx, by=dx) B = spline.des(knots,x,bdeg+1,0*x)design B}

Thin plate regression splines (tprs)

Los thin plate splines son funciones que minimizan la funci´on objetivo:

X(y_i− f(xi))²+ λ

Z ∂²f

∂x²

2

dx Es posible reescribir la equaci´on anterior como:

ky − Eδ − T γk + λδ⁰Eδ

En Green and Silverman (1994) se pueden encontrar m´as detalles sobre este m´etodo de suavizado.

El principal problema es que el número de nodos (y por lo tanto el número de paráme- tros) es igual al número de datos, lo que hace que sea computacionalmente muy costoso, sobre todo cuando pasamos al caso multidimensional. Por ello, Wood (2003) desarrolló los thin plate regression splines que son una versión de los anteriores en la que el número de nodos es mucho menor al número de datos. La Figura 4 muestra una base the thin plate regression splines.

1.2. Penalizaciones y coeficientes

Supongamos que tenemos una base B construida con k nodos. Si utilizamos m´ınimos cuadrados para ajustar el modelo, la funci´on objetivo ser´a:

S(a; y) = (y− Ba)⁰(y− Ba) ⇒ ˆa = (B⁰B)⁻¹B⁰y

y la curva ajustada ˆf (x) = B â dependerá del tamaño de la base. En la Figura 5 vemos el efecto que tiene el tamaño de la base en la curva, cuanto mayor sea la base menos suave es la curva, cuando el número de nodos coincide con el número de datos obtenemos una curva que interpola los datos.

Para solucionar esta situación, O’Sullivan (1986) introdujo una penalización en la segunda derivada de la curva, de modo que la función objetivo pasó a ser:

S(a; y, λ) = (y− Ba)⁰(y− Ba) + λ Z

x(B⁰⁰a)²dx