• No se han encontrado resultados

Modelos mixtos de suavizado

N/A
N/A
Protected

Academic year: 2022

Share "Modelos mixtos de suavizado"

Copied!
123
0
0

Texto completo

(1)

Maria Durbán

Universidad Carlos III de Madrid

Septiembre 2010

(2)

3 P-splines como modelos mixtos

4 Aplicaciones

(3)

3 P-splines como modelos mixtos

4 Aplicaciones

(4)

Ensayos clínicos en el Dana Faber Cancer Institute, Boston USA Datos longitudinales: altura de 197 niñas sometidas a tres

tratamientos por leucemia linfoblástica aguda.

¿Cuál es el efecto a largo plazo de las terapias en la altura de las niñas?

height (cm)

●●

●●

● ●

● ●

●●

●●●● ● ●

●●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

80 100 120 140 160

hyperfractionated radiation

●●

●●

● ●

● ●

●●

●●

● ●

●●

●● ● ● ●

●●

●●

●●

● ●

● ● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●● ●

●●

●●

● ●

● ●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●●

●●

●●

NO radiation

5 10 15 20

● ● ●

●●

●●

● ●● ●

●●

●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

standard radiation

(5)

Para cada niña, la altura aumenta de forma suave a los largo de los años.

Un modelo apropiado para estos datos sería:

y =f (x) + 

donde x es la variable explicativa (edad), f es una función suave de x que depende de λ =el parámetro de suavizado

Los métodos de suavizado se dividen en dos grupos:

Los especificados por el método de ajuste: Kernels

Los que son el resultado de minimizar una función: Splines

(6)

Para cada niña, la altura aumenta de forma suave a los largo de los años.

Un modelo apropiado para estos datos sería:

y =f (x) + 

donde x es la variable explicativa (edad), f es una función suave de x que depende de λ =el parámetro de suavizado

Los métodos de suavizado se dividen en dos grupos:

Los especificados por el método de ajuste: Kernels

Los que son el resultado de minimizar una función: Splines

(7)

Para cada niña, la altura aumenta de forma suave a los largo de los años.

Un modelo apropiado para estos datos sería:

y =f (x) + 

donde x es la variable explicativa (edad), f es una función suave de x que depende de λ =el parámetro de suavizado

Los métodos de suavizado se dividen en dos grupos:

Los especificados por el método de ajuste: Kernels

Los que son el resultado de minimizar una función: Splines

(8)

10 12 14 age

135140145150155160

height

(9)

Eilers and Marx, 1996.

Son una generalización del modelo de regresión.

Utiliza la verosimilitud, modificada por una penalización.

y =f (x) +  f (x) ≈ Ba S = (y − Ba)0(y− Ba) + λa0Pa ˆa = (B0B +λP)−1B0y

Bes la base para la regresión:

B-splines

Polinomios truncados Bases radiales ...

(10)

Eilers and Marx, 1996.

Son una generalización del modelo de regresión.

Utiliza la verosimilitud, modificada por una penalización.

y =f (x) +  f (x) ≈ Ba S = (y − Ba)0(y− Ba) + λa0Pa ˆa = (B0B +λP)−1B0y

Bes la base para la regresión:

B-splines

Polinomios truncados Bases radiales ...

(11)

Eilers and Marx, 1996.

Son una generalización del modelo de regresión.

Utiliza la verosimilitud, modificada por una penalización.

y =f (x) +  f (x) ≈ Ba S = (y − Ba)0(y− Ba) + λa0Pa ˆa = (B0B +λP)−1B0y

Bes la base para la regresión:

B-splines

Polinomios truncados Bases radiales ...

(12)

Eilers and Marx, 1996.

Son una generalización del modelo de regresión.

Utiliza la verosimilitud, modificada por una penalización.

y =f (x) +  f (x) ≈ Ba S = (y − Ba)0(y− Ba) + λa0Pa ˆa = (B0B +λP)−1B0y

P es la penalización:

En el caso de los spline cúbicos λ R (f00(x))2

En el caso de los P-splines se utiliza una aproximación discreta

(13)

10 12 14 age

140150160

height

(14)

10 12 14 age

140150160

height

(15)

Trozos de polinomios de grado p unidos de forma suave en nodos internos

El número de B-splines en la base, determinado por el número de nodos y p.

Tienen forma de campana de Gauss. Están desplazadas horizontalmente.

No padecen de efectos de frontera comunes en kernels.

Polinomios Truncados 1, x, x2, . . . ,xp,{(x − t1)+}p, . . . ,(x − tk)p+ p

donde x+=max(0, x).

Más fáciles de construir

Peores propiedades numéricas en algunos casos.

(16)

Trozos de polinomios de grado p unidos de forma suave en nodos internos

El número de B-splines en la base, determinado por el número de nodos y p.

Tienen forma de campana de Gauss. Están desplazadas horizontalmente.

No padecen de efectos de frontera comunes en kernels.

Polinomios Truncados 1, x, x2, . . . ,xp,{(x − t1)+}p, . . . ,(x − tk)p+ p

donde x+=max(0, x).

Más fáciles de construir

Peores propiedades numéricas en algunos casos.

(17)

0 10 20 30 40

0.00.10.20.30.40.50.6

0 10 20 30 40

0.00.51.01.52.02.53.0

0102030

Truncated lines basis

(18)

Una aproximación discreta

Penaliza las diferencias entre los coeficientes adyacentes ⇒ reduce la dimensión del problema de n el número de datos a k el número de B-splines

Lineal(a1− a2)2+ (a2− a3)2+. . . + (ak−1− ak)2 Cuadrática(a1− 2a2− a3)2. . . + (ap−k− 2ak−1+ak)2 Se puede escribir en forma matricial como:

P = D0D D es la matriz de diferencias

(19)

Una aproximación discreta

Penaliza las diferencias entre los coeficientes adyacentes ⇒ reduce la dimensión del problema de n el número de datos a k el número de B-splines

Lineal(a1− a2)2+ (a2− a3)2+. . . + (ak−1− ak)2 Cuadrática(a1− 2a2− a3)2. . . + (ap−k− 2ak−1+ak)2 Se puede escribir en forma matricial como:

P = D0D D es la matriz de diferencias

(20)

Una aproximación discreta

Penaliza las diferencias entre los coeficientes adyacentes ⇒ reduce la dimensión del problema de n el número de datos a k el número de B-splines

Lineal(a1− a2)2+ (a2− a3)2+. . . + (ak−1− ak)2 Cuadrática(a1− 2a2− a3)2. . . + (ap−k− 2ak−1+ak)2 Se puede escribir en forma matricial como:

P = D0D D es la matriz de diferencias

(21)

Efecto de la penalización

we have that the penalty is equivalent to

1+ 2θ2+ θ3)2+ ... + (θc−2+ 2θc−1+ θc)2= θ0D0Dθ . (2.6)

Note that, other orders might be more appropiate in some cases.Figure 2.2illustrates the performance of the P -spline methodology. We simulated n = 100, (xi, yi)points, from the function f(xi) = 1.2 + sin(5xi) + i,with i∼ N (0, 0.2) and xi∼ Unif[0, 1].

Figure 2.2(a) shows the P -spline fit without penalty (i.e. λ = 0), corresponding to a simple B-spline regression.Figure 2.2(b) shows the P -spline fit with a penalty (with λ fixed to 10). In both figures, we used a cubic spline for the B-spline basis (p = 3), with m = 20knots and a second order penalty (q = 2). In both figures we also represent the B-splines bases multiplied by the vector of coefficients θ (represented in circles).

(a) B-splines with unpenalized coefficients (b) B-splines with penalized coefficients

0.0 0.2 0.4 0.6 0.8 1.0

0.00.51.01.52.02.5

x

y

● ●

● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.00.51.01.52.02.5

x

y

● ●

Figure 2.2: (a) fitted curve with unpenalized coefficients (red circles). Bottom: fitted curve with penalized coefficients (blue circles).

It is obvious that the shape of the fitted curve is influenced by the value of the smoo- thing parameter. The smoothing parameter controls the trade-off between the model fit and the model smoothness. Then, when λ → ∞ the fitted curve tends to a polynomial of degree d − 1, if the degree of the B-spline is equal to or higher to the penalty order, i.e. if q ≥ d. When λ = 0, the result is a the least squares estimate in (2.3). Therefore, the estimation of the degree of smoothness for the model consists in the estimation of

Maria Durbán () Septiembre 2010 13 / 68

(22)

El número de funciones en la base no crece con el tamaño de la muestra (entre 5 y 40 nodos).

Robustos con respecto a la elección de nodos (Ruppert, 2000).

Computacionalmente sencillos.

No necesitan utilizar el “backfitting algorithm” en el caso de modelos aditivos.

Se extiende de forma sencilla al caso de 2 o más dimensiones, y al caso de datos no Gaussianos.

Método sencillo para hacer predicciones

(23)

El número de funciones en la base no crece con el tamaño de la muestra (entre 5 y 40 nodos).

Robustos con respecto a la elección de nodos (Ruppert, 2000).

Computacionalmente sencillos.

No necesitan utilizar el “backfitting algorithm” en el caso de modelos aditivos.

Se extiende de forma sencilla al caso de 2 o más dimensiones, y al caso de datos no Gaussianos.

Método sencillo para hacer predicciones

(24)

El número de funciones en la base no crece con el tamaño de la muestra (entre 5 y 40 nodos).

Robustos con respecto a la elección de nodos (Ruppert, 2000).

Computacionalmente sencillos.

No necesitan utilizar el “backfitting algorithm” en el caso de modelos aditivos.

Se extiende de forma sencilla al caso de 2 o más dimensiones, y al caso de datos no Gaussianos.

Método sencillo para hacer predicciones

(25)

y =f (x) +   ∼ N(0, σ2I)

Modelos aditivos sin “backfitting” ⇒ transformar las bases de Bsplines.

Suponemos que f (x) = Ba.

Base puede escribir como la suma de una parte polinómica (lineal) y otra que no lo es:

Xβ + Z α

135140145150155160

height

(26)

y =f (x) +   ∼ N(0, σ2I)

Modelos aditivos sin “backfitting” ⇒ transformar las bases de Bsplines.

Suponemos que f (x) = Ba.

Base puede escribir como la suma de una parte polinómica (lineal) y otra que no lo es:

Xβ + Z α

140145150155160

height

(27)

y =f (x) +   ∼ N(0, σ2I)

Modelos aditivos sin “backfitting” ⇒ transformar las bases de Bsplines.

Suponemos que f (x) = Ba.

Base puede escribir como la suma de una parte polinómica (lineal) y otra que no lo es:

Xβ + Z α

135140145150155160

height

(28)

Queremos reparametrizar y = Ba + ,  ∼ N(0, σ2I)

La suavidad se impone mediante la matriz de penalización P = D0D Prango deficiente⇒ buscamos una transformación uno a uno para los coeficientes:

a = T

 β α



βcorresponde a la parte de la función suave no penalizada por P αes ortogonal a β y es penalizada por P

T no es única,utilizamos la d.v.s. de la penalización para construirla:

(29)

Queremos reparametrizar y = Ba + ,  ∼ N(0, σ2I)

La suavidad se impone mediante la matriz de penalización P = D0D Prango deficiente⇒ buscamos una transformación uno a uno para los coeficientes:

a = T

 β α



βcorresponde a la parte de la función suave no penalizada por P αes ortogonal a β y es penalizada por P

T no es única,utilizamos la d.v.s. de la penalización para construirla:

(30)

Queremos reparametrizar y = Ba + ,  ∼ N(0, σ2I)

La suavidad se impone mediante la matriz de penalización P = D0D Prango deficiente⇒ buscamos una transformación uno a uno para los coeficientes:

a = T

 β α



βcorresponde a la parte de la función suave no penalizada por P αes ortogonal a β y es penalizada por P

T no es única,utilizamos la d.v.s. de la penalización para construirla:

(31)

Queremos reparametrizar y = Ba + ,  ∼ N(0, σ2I)

La suavidad se impone mediante la matriz de penalización P = D0D Prango deficiente⇒ buscamos una transformación uno a uno para los coeficientes:

a = T

 β α



βcorresponde a la parte de la función suave no penalizada por P αes ortogonal a β y es penalizada por P

T no es única,utilizamos la d.v.s. de la penalización para construirla:

D

D

T = Us Un

0 0

Σ~

UsT

T

Un

(32)

Queremos reparametrizar y = Ba + ,  ∼ N(0, σ2I)

La suavidad se impone mediante la matriz de penalización P = D0D Prango deficiente⇒ buscamos una transformación uno a uno para los coeficientes:

a = T

 β α



βcorresponde a la parte de la función suave no penalizada por P αes ortogonal a β y es penalizada por P

T no es única,utilizamos la d.v.s. de la penalización para construirla:

T = [U

n

: U

s

] ⇒ β = U

0n

a α = U

0s

a

(33)

U0nPUn=0 ⇒ a0Pa =α0 Σe

diagonal|{z}

α

Ba = BT

 β α



=Xβ + Z α

Verosimilitud Penalizada

y = Ba + ,  ∼N(0, σ2I)

(y − Ba)0(y − Ba) + λa0Pa

Verosimilitud de un modelo mixto

(y − X β − Z α)0(y − X β − Z α) + λα0eΣα

y = X β + Z α + , α ∼N(0, σ2αΣe−1),  ∼N(0, σ2I)

λ = σ2 σα2

(34)

U0nPUn=0 ⇒ a0Pa =α0 Σe

diagonal|{z}

α

Ba = BT

 β α



=Xβ + Z α

Verosimilitud Penalizada

y = Ba + ,  ∼N(0, σ2I)

(y − Ba)0(y − Ba) + λa0Pa

Verosimilitud de un modelo mixto

(y − X β − Z α)0(y − X β − Z α) + λα0eΣα

y = X β + Z α + , α ∼N(0, σ2αΣe−1),  ∼N(0, σ2I)

λ = σ2 σα2

(35)

U0nPUn=0 ⇒ a0Pa =α0 Σe

diagonal|{z}

α

Ba = BT

 β α



=Xβ + Z α

Verosimilitud Penalizada

y = Ba + ,  ∼N(0, σ2I)

(y − Ba)0(y − Ba) + λa0Pa

Verosimilitud de un modelo mixto

(y − X β − Z α)0(y − X β − Z α) + λα0eΣα

y = X β + Z α + , α ∼N(0, σ2αΣe−1),  ∼N(0, σ2I)

λ = σ2 σα2

(36)

Ventajas

Eficientes con conjuntos de datos grandes, lo cual no sería posible con splines de suavizado.

Se implementan de forma sencilla en Splus y R.

lme(y~X-1,random=pdIdent(~Z-1)) GAM ⇒ GLMM.

(37)

Datos sobre el número de pólizas de seguros en UK

Fuente: Continuous Mortality Investigation Bureau (CMIB).

Para cada año (1947-1999) y cada edad (11-100) tenemos:

Años de vida (exposición).

Número de pólizas reclamadas (muertes).

Referencias

Documento similar

Advi ´ertase que los resultados obtenidos coinciden con el estimador por m´ınimos cuadrados no lineales, por tanto, al igual que antes, no es posible dar una soluci ´on anal´ıtica

De una paae, el modelo de los determinantes del abandono es complementario a los modelos de toma de decisión (Mabley et al. Si el modelo de Mobley y los modelos

La estimación de modelos de ganancias, tanto por MCO como por efectos fijos para datos de panel, permite verificar que una mayor proporción de mujeres en cada ocupación y sector de

La teoría Vygotskyana, ante los datos que aporta la descripción de la con- ducta de Rosalía, construye otro escenario y desde el pueden formularse sus presupuestos. Veamos cómo

Los modelos de datos vectorial y los modelos de datos raster son los dos procedimientos para informatizar los datos geográficos de modo que puedan ser almacenados como base de datos

Tanto el nuevo modelo propuesto para el An´alisis de Datos Acoplados T 3-P CA como los mencionados anteriormente utilizan distintos modelos para el An´alisis de la Interac- ci´on

mientras que al utilizar un modelo individual entrenamos un único modelo sobre un único conjunto de datos, en un modelo de ensemble stacking hay varias capas de modelos y los modelos

Una extensión de esta nomenclatura para el modelo 2-D es inmediata añadiendo los flujos de entrada y salida de agua y sus correspondientes potenciales de contenido de humedad para