Regresión lineal múltiple

(1)

Regresión lineal múltiple

Tema 6

Estadística 2

(2)

Introducción

Consideramos ahora la extensión del modelo de regresión simple para el caso de k variables explicativas, conocido como el modelo lineal general de regresión.

Se supone que:

Y = m(X1, , Xk) +ε

= m(X) +ε

donde:

Y Variable respuesta (o dependiente).

X= (X1, , Xk) vector de variables explicativas (o

independientes).

(3)

Introducción Ejemplo

Ejemplo

Examen junio 07

Una empresa de ventas por internet de productos informáticos está interesada en estudiar que variables in‡uyen en sus costes mensuales ( variable de interés). Para ello recogieron los costes de distribución (en miles de euros), las ventas (en cientos de miles de euros) y el número de órdenes de compras (en miles) de los últimos 24 meses.

costes ventas ordenes

5.30 3.86 4.02 7.17 4.46 3.81 8.56 5.12 5.31 6.37 4.01 4.26 7.28 4.57 4.30 6.84 4.58 4.10 5.25 3.01 3.21 7.08 4.84 4.81 8.20 5.17 5.24 7.44 5.03 4.73 7.08 5.35 4.41

costes ventas ordenes

7.23 3.28 4.43 5.90 4.08 3.96 7.94 4.91 4.58 9.44 5.27 5.58 5.97 4.44 3.45 9.05 6.23 5.08 9.32 5.96 5.74 6.93 4.63 4.27 5.37 3.89 3.71 8.92 5.47 5.39 5.41 3.53 2.92

(4)

Para un análisis descriptivo, es recomendable generar un grá…co matricial y calcular la matriz de correlaciones:

Correlaciones 1 ,842** ,919** ,000 ,000 24 24 24 ,842** 1 ,800** ,000 ,000 24 24 24 ,919** ,800** 1 ,000 ,000 24 24 24 Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Costes de distribución Ventas Ordenes Costes de

distribución Ventas Ordenes

La correlación es significativa al nivel 0,01 (bilateral). **.

(5)

Supondremos además que la función de regresión es lineal: E(Y_jX) =β₀+β₁X1+β₂X2+ +β_kXk

donde β= (β₀, β₁, , β_k)0 es el vector de parámetros (desconocidos).

Resumiendo:

Suponemos que variable respuesta Y y las variables explicativas

(X1, , Xk) están relacionadas linealmente de la forma:

Y = β₀+β₁X1+β₂X2+ +β_kXk +ε

= X0β+ε

NOTA:

Para simpli…car la notación asumiremos que X0 =1 (si incluimos β₀ en el

(6)

Objetivos

El objetivo principal es, a partir de una muestra:

f(x1i, , xki, Yi): i =1, , ng

con:

Yi = β₀+β₁x1i + +β_kxki+εi

= x_i0β+εi.

Estimar el hiperplano de regresión teórico:

y = β₀+β₁x1+ +β_kxk

= x0β

(7)

El modelo lineal general Modelo

Modelo

Se suponen las siguientes hipótesis:

1 Linealidad:

Yi = β₀+β₁x1i+ +β_kxki +εi

= x0_iβ+εi.

con E(εi) =0.

Las variables explicativas se suponen no aleatorias (conocidas).

2 _{Homodecasticidad:}

Var(εi) =σ2

3 _Normalidad:

εi N(0, σ2)

4 _{Independencia: los errores son independientes, i.e. no existe}

correlación entre errores:

(8)

Se suponen además dos hipótesis adicionales:

5. El número de datos disponible es como mínimo k+1 (n de

parámetros).

6. Ninguna de las variables explicativas es una combinación lineal de las

demás.

Los vectores Xj = (xj 1, , xjn)0 vector de observaciones de la

variable j, son linealmente independientes. Por tanto:

Yi = YjX=xi N x0iβ,σ2

Independientes

NOTA: E(Y_jX=x) =x0β

β₀ = valor medio de Y en el origen (Xi nulas).

β_i = efecto lineal de la variable Xi (’incremento medio’de Y cuando

(9)

Yi N x0iβ,σ2

(10)

Ecuaciones en forma matricial

El conjunto de ecuaciones:

Yi = β₀+β₁x1i+ +β_kxki +εi; i =1, , n,

se pueden escribir en forma vectorial:

Y=β₀1+β₁X1+ +β_kXk+ε,

siendo:

Y= (Y1, , Yn)0 vector de observaciones de la variable Y

Xj = (xj 1, , xjn)0 vector de observaciones de la variable Xj

(11)

El modelo lineal general Modelo En forma matricial: Y=X β+ε, 0 B B B @ Y1 Y2 .. . Yn 1 C C C A | {z } n 1 = 0 B B B @ 1 x11 xk 1 1 x12 xk 2 .. . ... . .. ... 1 x1n xkn 1 C C C A | {z } n (k+1) 0 B B B @ β₀ β₁ .. . β_k 1 C C C A | {z } (k+1) 1 + 0 B B B @ ε1 ε2 .. . εn 1 C C C A | {z } n 1

donde X es la denominada matriz del diseño de las variables regresoras:

X = 1 X1 Xk | {z } variables = 0 B @ x1 .. . xn 1 C A 9 > = > ;observaciones

(12)

El modelo lineal general Ejemplo

Ejemplo

Problema 5.4

Y ="gastos en alimentación de una familia (miles de euros)" X1 ="ingresos mensuales (miles de euros)"

X2 ="número de miembros de la familia"

Muestra aleatoria simple de n =15 familias:

Gasto Ingreso Tamaño Gasto Ingreso Tamaño

0.43 2.1 3 1.29 8.9 3 0.31 1.1 4 0.35 2.4 2 0.32 0.9 5 0.35 1.2 4 0.46 1.6 4 0.78 4.7 3 1.25 6.2 4 0.43 3.5 2 0.44 2.3 3 0.47 2.9 3 0.52 1.8 6 0.38 1.4 4 0.29 1.0 5

(13)

El modelo lineal general Ejemplo Y= 0 B B B B B B B B B B B B B B B B B B B B B B B B B @ 0.43 0.31 0.32 0.46 1.25 0.44 0.52 0.29 1.29 0.35 0.35 0.78 0.43 0.47 0.38 1 C C C C C C C C C C C C C C C C C C C C C C C C C A =X β+ε= 0 B B B B B B B B B B B B B B B B B B B B B B B B B @ 1 2.1 3 1 1.1 4 1 0.9 5 1 1.6 4 1 6.2 4 1 2.3 3 1 1.8 6 1 1.0 5 1 8.9 3 1 2.4 2 1 1.2 4 1 4.7 3 1 3.5 2 1 2.9 3 1 1.4 4 1 C C C C C C C C C C C C C C C C C C C C C C C C C A 0 @ ββ0₁ β₂ 1 A+ε

(14)

Estimación de los parámetros

Para la estimación de los parámetros del modelo: el vector de parámetros β= (β₀, β₁, , β_k),

la varianza de la distribución del error, σ2

se utiliza también el método de mínimos cuadrados.

Como resultado obtendremos el hiperplano de regresión mínimo cuadrático: ˆy = ˆβ₀+ ˆβ₁x1+ +ˆβ_kxk =x0^β

que estima el valor medio E(Y_jX=x) =β₀+β₁x1+ +β_kxk =x0β

(15)

Estimación de los parámetros Estimación por mínimos cuadrados

Estimación por mínimos cuadrados

Los estimadores mínimo cuadráticos son los que minimizan la suma de los cuadrados de las diferencias entre los valores reales y las predicciones de la respuesta:: ^_β _{= (}_ˆβ 0, , ˆβk) = arg min (β0, ,βk) n

∑

i=1 (Yi β₀ β₁x1i β_kxki)2 = arg min β (Y X β)0(Y X β)

Este problema de minimización se soluciona derivando e igualando a cero:

∂ ∂β Y

0_Y _2Y0_{X β}₊_β0_X0_{X β} ₌₀

obteniéndose las ecuaciones (canónicas) de regresión: X0X β=X0Y

(16)

Estimación de los parámetros Estimación por mínimos cuadrados

La solución del sistema es el estimador mínimo cuadrático de β:

^_β₌ _X0_X 1

X0Y

NOTAS

El sistema tiene solución (la matriz X0X es invertible) porque las

columnas de X son independientes (aunque pueden aparecer problemas: multicolinealidad).

Haciendo uso de la hipótesis de normalidad multivariante, se llega a las mismas expresiones al maximizar la función logarítmica de verosimilitud, por lo que estos estimadores coinciden con los estimadores máximo-verosímiles.

(17)

Estimación de los parámetros Ejemplo

Ejemplo

Gastos en alimentación X0X = 0 @ 15 42.00 55.00 42 188.08 140.80 55 140.80 219.00 1 A X0Y= 0 @ 8.070 32.063 28.960 1 A 0 B B B B @ n =15 ∑ x1i =42 ∑ x2i =55 ∑ x2 1i =188.08 ∑ x1ix2i =140.80 ∑ x2 2i =219.00 1 C C C C A 0 B B B B @ ∑ yi =8.070 ∑ yix1i =32.063 ∑ yix2i =28.960 1 C C C C A

(18)

Estimación de los parámetros Ejemplo ^_β ₌ _X0_X 1 X0Y = 0 @ 15 42.00 55.00 42 188.08 140.80 55 140.80 219.00 1 A 10 @ 8.070 32.063 28.960 1 A = = 0 @ 1.360 0.092 0.282 0.092 0.016 0.013 0.282 0.013 0.067 1 A 0 @ 8.070 32.063 28.960 1 A= ^_β ₌ 0 @ 0.160 0.149 0.077 1 A

El modelo de regresión lineal ajustado es:

(19)

Estimación de los parámetros Interpretación geométrica

Interpretación geométrica

El ajuste se puede interpretar geométricamente como encontrar

en el subespacio col(X) =X β

el vector más próximo al vector Y. Se trata de minimizar el módulo del error Y X β.

Entonces (Y X ^β)es ortogonal

al subespacio col(X),

i.e. X ^β es la proyección ortogonal

de Y en col(X),

, X0(Y X ^β) =0 ,X0X ^β=X0Y

(20)

Estimación de los parámetros Matriz proyección

Matriz proyección

Podemos expresar las predicciones como: ^

Y = X ^β

= X X0X 1X0Y

= HY

donde H= (hij)n_{i ,j}₌₁ es la matriz de proyección (matriz hat) en el

subespacio col(X).

Se denominan residuos e = (e1, , en)las diferencias entre valores

observados y predicciones:

e = Y Y^

= (I H)Y

NOTA: Teniendo en cuenta las observaciones anteriores los residuos veri…can

(21)

Estimación de los parámetros Matriz proyección

Suma de cuadrados residual

Se de…ne la suma residual de cuadrados:

SSR = n

∑

i=1 e_i2 _{= j}e_j2 =e0e = Y0(I H)0(I H)Y=Y0(I H)Y = Y0Y Y0HY=Y0Y ^β0X0Y Entonces: SSR = n

∑

i=1 e_i2 = n

∑

i=1 y_i2 β₀ n

∑

i=1 yi+β₁ n

∑

i=1 x1iyi +β₂ n

∑

i=1 x2iyi +. . .+β_k n

∑

i=1 xkiyi ! ,

(22)

Estimación de los parámetros Varianza residual

Varianza residual

A partir de los residuos podemos de…nir una medida de la variabilidad de los datos respecto al hiperplano estimado de regresión:

S_R2 = 1 n n

∑

i=1 ei2 = SSR n = 1 n n

∑

i=1 (yi ˆyi)2

que es un estimador sesgado de la varianza del error σ2 (estimador de

máxima verosimilitud).

Un estimador insesgado de la varianza es: ˆS2 R = SSR n (k+1) = 1 n (k+1) n

∑

i=1 (yi ˆyi)2

(23)

Ejemplo

Gastos en alimentación

A partir del modelo ajustado:

ˆy = ˆβ₀+ ˆβ₁x1+ ˆβ₂x2

= 0.160+0.149x1+0.077x2

se obtienen las predicciones y los residuos asociados a las observaciones muestrales

P.e.:

x1,1 =2.1; x2,1 =3; y1 =0.43

ˆy1 = 0.160+0.149 2.1+0.077 3=0.3839

(24)

Estimación de los parámetros Ejemplo Predicciones 0.38 0.41 0.33 0.31 0.57 0.77 0.36 0.37 0.51 0.39 1.39 0.50 1.07 0.35 0.36 Residuos 0.046 0.028 0.024 0.001 0.048 0.011 0.038 0.083 0.084 0.075 0.104 0.032 0.180 0.000 0.025 ssR =

∑

ei2 =0.0721 ˆs_R2 = ssR 12 =0 0₀₀₆₀ ˆsR = 000775

(25)

Estimación de los parámetros Ejemplo Alternativamente (más fácil): ssR =

∑

ei2 =e0e= = Y0Y ^β0X0Y =

∑

y_i2 ˆβ₀

∑

yi ˆβ₁

∑

yix1i ˆβ₂

∑

yix2i = = 5.7733 ( 0.160) 8.070 0.149 32.063 0.077 28.960 ' 0.06

(26)

Estimación de los parámetros Distribución los estimadores

Distribución los estimadores de los parámetros

Los estimadores de los coe…cientes son una combinación lineal de la respuesta:

^_β₌ _X0_X 1_X0_Y

a partir de lo cual se deducen fácilmente sus propiedades principales: Normalidad:

Tienen una distribución normal por ser combinación lineal de variables aleatorias normales (independientes)

Insesgadez:

(27)

Estimación de los parámetros Distribución los estimadores Varianzas: Var(^β) = 0 B B B @

Var(ˆβ₀) Cov(ˆβ₀, ˆβ₁) Cov(ˆβ₀, ˆβ_k)

Cov(ˆβ₀, ˆβ₁) Var(ˆβ₁) Cov(ˆβ₁, ˆβ_k)

..

. ... . .. ...

Cov(ˆβ₀, ˆβ_k) Cov(ˆβ₁, ˆβ_k) Var(ˆβ_k)

1 C C C A = σ2(X0X) 1 = σ2Q ) Var(ˆβ_i) =σ2qii

E…ciencia (Teorema de Gauss-Markov):

ˆβ_i tiene la mínima varianza entre los estimadores lineales insesgados

(28)

ˆβ_i N β_i, σ2qii

(29)

Equivalentemente:

ˆβ_i β_i σpqii

N(0, 1)

Además se puede ver que:

(n k 1)ˆS2 R

σ2 χ

2 n k 1

(independiente de ^β ya que(I H)X =0). Por tanto:

ˆβ_i β_i

ˆSRpqii

tn k 1

A partir de los cuales podemos obtener estimaciones por intervalo de con…anza y realizar contrastes de hipótesis sobre los distintos parámetros.

(30)

Estimación de los parámetros Intervalos de con…anza y contrastes sobre los parámetros

Intervalos de con…anza para los parámetros

A partir de los estadísticos anteriores: ˆβ_i β_i

ˆσ ˆβ_i tn k 1, i =0, , k

donde:

ˆσ ˆβi = ˆSRpqii

Se obtienen los intervalos de con…anza de nivel 1 α para los coe…cientes

del hiperplano de regresión:

IC₍_{1 α}₎(β_i) = ˆβ_i tn k 1,1 α

(31)

A partir del estadístico:

(n k 1)ˆS_R2 σ2 = SSR σ2 χ 2 n k 1

se obtiene el correspondiente intervalo de con…anza para la varianza:

IC₍_{1 α}₎ σ2 = (n k 1)ˆS 2 R χ2_{n k} _1,1 α 2 ,(n k 1)ˆS 2 R χ2_{n k} _1,α 2 ! = SSR χ2_{n k} _1,1 α 2 , SSR χ2_{n k} _1,α 2 ! .

(32)

Contrastes de hipótesis sobre los parámetros

Procediendo de la forma habitual se pueden realizar contrastes de hipótesis individuales sobre los parámetros. Por ejemplo, para contrastar si uno de los coe…cientes es nulo:

H0 : β_i =0 H1 : β_i 6=0 utilizamos el estadístico: Ti = ˆβ_i ˆσ ˆβ_i tn k 1, si H0 cierta R.A.= t_{n k} _1,1 α 2, tn k 1,1 α2 p =2P tn k 1 Tˆi

Los contrastes individuales son de utilidad para estudiar si podemos eliminar alguno de los componentes del modelo (p.e. alguna de las variables explicativas).

(33)

Ejemplo

Intervalo de con…anza para σ2 al 90%:

SSR σ2 χ 2 n 3 ) 0.9=P χ2_12,0.05 SSR σ2 χ 2 12,0.95 = = ...=P SSR χ2_12,0.95 σ 2 SSR χ2_12,0.05 ! IC90% σ2 = 0.0721 21.0298, 0.0721 5.2253 = (0.0034, 0.0138)

(34)

Varianzas de los estimadores de los coe…cientes: d Var ^β = ˆsR2 X0X 1 = 0.006 0 @ 1.360 0.092 0.282 0.092 0.016 0.013 0.282 0.013 0.067 1 A de donde ˆσ2 ˆβ₀ = ˆs_R2q00 =0.006 1.360=0.00816 ) ˆσ ˆβ0 =0.0903 ˆσ2 ˆβ₁ = ˆsR2q11 =0.006 0.0166=0.000099 ) ˆσ ˆβ₁ =0.0099 ˆσ2 ˆβ2 = ˆs 2 Rq22 =0.006 0.067=0.00040 ) ˆσ ˆβ₂ =0.0201

(35)

Intervalo de con…anza para β₀:

ˆβ₀ β₀ ˆσ ˆβ₀ tn (k+1) ) 0.9=P t12,0.95 ˆβ₀ β₀ ˆσ ˆβ0 t12,0.95 ! = P ˆβ₀ t12,0.95ˆσ ˆβ₀ β₀ ˆβ₀+t12,0.95ˆσ ˆβ₀ IC90%(β₀) = ( 0.160 1.783 0.0903) = ( 0.160 0.161) = ( 0.321, 0.001)

(36)

Intervalo de con…anza para β₁ (ingreso):

IC_90%(β₁) = ˆβ₁ t12,0.95ˆσ ˆβ₁

= (0.149 1.783 0.0099) = (0.149 0.0176)

= (0.1314, 0.1666)

Contraste efecto individual, H0 : β₁=0 “la variable ingreso no

in‡uye (linealmente) en el gasto”

T1 = ˆβ₁ ˆσ ˆβ₁ tn k 1, si H0 cierta, ˆ T1 = 0.149 0.0099 =15.05>t12,0.95 =1.783 p1= 2P(t12 15.05) 0.01)Se Rechaza H0

(37)

Intervalo de con…anza para β₂ (tamaño):

IC_90%(β₂) = ˆβ₂ t12,0.95ˆσ ˆβ₂

= (0.077 1.783 0.0201) = (0.077 0.0358)

= (0.0412, 0.1128)

Contraste efecto individual, H0 : β₂=0 “la variable tamaño no

in‡uye (linealmente) en el gasto”

T2 = ˆβ₂ ˆσ ˆβ₂ tn k 1, si H0 cierta, ˆ T2 = 0.077 0.0201 =3.831>t12,0.95 =1.783 p2=2P(t12 3.831) <0.01)Se Rechaza H0

(38)

Bondad del ajuste El contraste de regresión

Bondad del ajuste: El contraste de regresión

Es de especial interés el contraste:

H0 : β₁ = =β_k =0

H1 : β_i 6=0 para algún i

que equivaldría a contrastar que no hay relación lineal entre la variable respuesta y las variables explicativas: contraste de regresión.

Una forma natural de realizar este contraste es el análisis de la varianza en regresión lineal múltiple.

(39)

A partir de la descomposición:

(yi ¯y) = (yi ˆyi) + (ˆyi ¯y),

se obtiene la identidad de la suma de cuadrados de la regresión lineal múltiple: n

∑

i=1 (yi ¯y)2 = n

∑

i=1 (ˆyi ¯y)2+ n

∑

i=1 (yi ˆyi)2 SST = SSE +SSR VT = VE +VR variabilidad total = variabilidad explicada por la regresión + variabilidad residual

(40)

VE =VT (VR =0) )Ajuste perfecto

(41)

Dividiendo las sumas de cuadrados por los correspondientes grados de libertad (numero - restricciones que veri…can los sumandos) se obtienen las varianzas o cuadrados medios:

ˆS2 Y = MST = SST n 1 = 1 n 1 n

∑

i=1 (yi ¯y)2 ˆS2 E = MSE = SSE k = 1 k n

∑

i=1 (ˆyi ¯y)2 ˆS2 R = MSR = SSR n k 1 = 1 n k 1 n

∑

i=1 (yi ˆyi)2

(42)

Para contrastar la hipótesis nula de que no hay una relación lineal entre las dos variables se utiliza el cociente:

F0 = MSE MSR = ˆS 2 E ˆS2 R Fk ,n k 1, si H0 cierta,

que tiende a tomar valores grandes cuando la hipótesis nula es falsa.

Se rechaza H0 al nivel de signi…cación α si:

ˆ

F0 =

msE

msR

>Fk ,n k 1,1 α.

El nivel crítico del test o p-valor será:

(43)

La tabla ANOVA correspondiente al contraste:

H0: β₁ = = β_k =0 No hay rel. lineal

H1: β_i 6=0 para algún i Si hay rel. lineal

es: Fuente de variación SS gl MS F p-valor Regresión ss_E k ms_E =ssE k Fˆ0 = msE msR p Residual ss_R n k 1 ms_R =_{n k}ssR ₁ Total ssT n 1 msT =_{n 1}ssT

NOTA: Si aceptamos la hipótesis nula del contraste de regresión,

aceptamos que no hay relación lineal entre las variables explicativas y la respuesta, lo cual podría ser debido a que las variables explicativas no aportan información sobre la respuesta o que la relación no es lineal.

(44)

El contraste de regresión permite estudiar si el efecto lineal de las variables explicativas es (estadísticamente) signi…cativo.

No confundir con un contraste de linealidad que permite estudiar si el efecto no lineal es (tendencia no lineal) o no (tendencia lineal) signi…cativo.

(45)

Bondad del ajuste Ejemplo

Ejemplo

Gastos en alimentación SSR =

∑

(yi ˆyi)2 =0.0721 SST =

∑

(yi ¯y)2 =

∑

yi2 15 ¯y2 =1.4316 SSE =

∑

(ˆyi ¯y)2 =SST SSR =1.4316 0.0721=1.3595 F. var. SS gl MS F p-valor Explicado 1.3595 2 0.6797 113.28 p <0.001 Residual 0.0721 12 0.0060 Total 1.4316 14 0.1023 F2,12,0.95 '3.9 113.28 p =P(F2,12 >113.28) <0.005

(46)

Bondad del ajuste Los coe…cientes de determinación y correlación

El coe…ciente de determinación

Una medida de la bondad del ajuste (evaluación global del modelo ajustado) es el coe…ciente de determinación:

R2 = VE VT = n ∑ i=1 (ˆyi ¯y)2 n ∑ i=1 (yi ¯y)2 = 1 VR VT =1 (n k 1)ˆS 2 R (n 1)ˆS2 Y

que es la proporción de variación explicada por la regresión.

Se veri…ca que 0 R2 1 :

Si R2 =1 todas las observaciones están en el hiperplano ajustado (lo

explica todo).

(47)

Para el caso de dos o más variables explicativas se de…ne el coe…ciente de correlación múltiple como la raíz cuadrada del coe…ciente de determinación: R= r VE VT = r 1 VR VT (sólo toma valores positivos).

NOTAS:

Se puede ver que el coe…ciente de correlación múltiple coincide con el coe…ciente de correlación lineal de Pearson entre los datos observados(yi)y los pronosticados (ˆyi). Si el ajuste es bueno los pares de puntos(yi, ˆyi) deben estar próximos a la bisectrizx=y.

El estadístico del contraste de regresión se puede expresar también a partir del coe…ciente de determinación:

F0=

(n k 1)

k

R2

(48)

El coe…ciente de determinación ajustado

Cuando las muestras son pequeñas en relación al número de variables explicativas, el coe…ciente de determinación da valores demasiado optimistas, por lo que conviene utilizar en su lugar el coe…ciente de determinación ajustado.

Teniendo en cuenta que

R2 =1 VR

VT

si reemplazamos las variabilidades (sumas de cuadrados) por varianzas, se obtiene el coe…ciente de determinación ajustado (por los grados de libertad): R_ajus2 = 1 ˆS 2 R ˆS2 Y = 1 n 1 n k 1 (1 R 2₎

(de utilidad para comparar modelos con distinto número de variables explicativas).

(49)

El coe…ciente correlación parcial

Se llama correlación parcial entre dos variables a aquella que elimina la in‡uencia de otra(s) variable(s).

Se de…ne el coe…ciente de correlación parcial entre Y y X , eliminando el

efecto de Z1, , Zk, como el coe…ciente de correlación lineal entre los

residuos resultantes de hacer ajustes lineales para Y y X en función de Z1, , Zk:

eY .Z,i = yi (ˆβ₀+ˆβ₁z1i + + ˆβ_kzki)

eX .Z,i = xi (ˆβ0+ ˆβ1z1i+ + ˆβkzki)

Entonces:

(50)

En regresión lineal múltiple se suele estudiar la correlación parcial entre la

variable respuesta y una de las variables explicativas Xi, eliminando el

efecto de las demás variables explicativas X₍ _i₎ (conjunto de variables

(51)

Se puede ver que el valor observado del estadístico del contraste H0 : βi =0 H1 : β_i 6=0 ˆ Ti = ˆβ_i ˆσ ˆβ_i

es función del correspondiente coe…ciente de correlación parcial. De donde se deduce que: r_YX2 _i_.X ( i) = ˆ T2 i ˆ T2 i + (n k 1)

(52)

Ejemplo

Gastos en alimentación Coe…ciente de determinación: R2 = ssE ssT = 1.3595 1.4316 =0.9496)94.96% de ssT

Coe…ciente de correlación múltiple:

R =p0.9496 =0.9745

Coe…ciente de determinación corregido: ¯ R2 =1 ˆs 2 R ˆs_Y2 =1 0.0060 0.1023 =94.13)94.13% de ssT ¯ R =p0.9413 =0.9702

(53)

Coe…ciente de correlación simple entre las variables gasto e ingreso: rYX1 =

SYX1

SYSX1

=0.9424

Coe…ciente de correlación parcial entre las variables gasto e ingreso, eliminando la in‡uencia de la variable tamaño:

r_YX2 ₁_.X₂ = Tˆ 2 1 ˆ T2 1 +n k 1 = 15.05 2 15.052₊₁₂ =0.9496 ) rYX1.X2 =0.974

(54)

Otros contrastes de interés

Se suelen estudiar hipótesis que relacionan simultáneamente varios coe…cientes de regresión:

1 _{Todos los coe…cientes son cero (no hay relación lineal, contraste de}

regresión visto antes).

2 _{Un subconjunto de los coe…cientes es cero.}

3 Un subconjunto de los coe…cientes son iguales.

El procedimiento para contrastar estas hipótesis puede verse de forma general desde el punto de vista del análisis de la varianza, se trata de comparar la variabilidad explicada por los denominados:

modelo completo: modelo considerando todas las variables explicativas sin ninguna restricción.

modelo reducido: modelo correspondiente a la hipótesis H0 que se

(55)

Si denotamos por ˆyi e ˆy_i las predicciones obtenidas con el modelo

completo y con el modelo reducido,respectivamente, y:

VE = n

∑

i=1 (ˆyi ¯y)2 V_E = n

∑

i=1 (ˆy_i ¯y)2

se de…ne el incremento en la variabilidad explicada:

∆VE =VE VE El cociente: F0 = ∆VE (k+1 I) VR n k 1 Fk+1 l ,n k 1, si H0 cierta,

(56)

∆VE =VE V_E =0)No mejora nada (ˆy = ˆy )

(57)

Se rechaza H0 al nivel de signi…cación α si:

ˆ

F0 =

∆VE (k+1 l)

ˆs_R2 >Fk+1 l ,n k 1,1 α,

i.e. el modelo completo produce un incremento signi…cativo en la variabilidad explicada (respecto al modelo reducido).

El nivel crítico del test o p-valor será:

p =P Fk+1 l ,n k 1 Fˆ0 .

Este estadístico también se puede expresar a partir de los coe…cientes de determinación como:

F = (n k 1)

(k+1 l)

(R2 R 2)

1 R2

(58)

Otros contrastes de interés Ejemplo

Ejemplo

Gastos en alimentación Contraste individual de la F H0 : y = β₀+β₁x1+ε H1 : y =β₀+β₁x1+β₂x2+ε H0 : β₂ =0 H1 : β₂ 6=0

Regresión lineal simple de gasto sobre ingreso:

gasto _'0.162+0.134 ingreso

La tabla ANOVA de este modelo es

F. var. SS gl MS

V_E 1.2716 1 ˆs_E2 =1.2716

V_R 0.16 13 ˆs_R2 =0.0123

(59)

Otros contrastes de interés Ejemplo

Incremento en la variabilidad explicada al introducir la variable tamaño:

∆VE (tama ˜no) =VE VE (ingreso) =1.3595 1.2716=0.0879

Para realizar el contraste se utiliza el estadístico:

F0 = ∆VE (k+1 I) VR n k 1 Fk+1 l ,n k 1, si H0 cierta ˆ F0 = ∆VE 1 ˆs2 R = 0.0879 0.0060 =14.65 p = P(F1,12 >14.65) <0.005

Este contraste proporciona el mismo p valor que el contraste individual de la t (salvo redondeo).

(60)

Predicción

Entre los objetivos de un análisis de regresión pueden estar: Estimar la media de la distribución de la respuesta para X=x0 = (x10, , xk 0),

i.e. estimar m0 =E(YjX=x0) (=x00β).

Predecir futuros valores de la repuesta en x0,

i.e. predecir Y0 = YjX=x0

Se puede pensar que en el primer caso se intenta estimar el valor medio

a largo plazo (de un gran número de experimentos realizados con x0),

mientras que en el segundo caso se intenta predecir el resultado de un solo experimento.

La estimación puntual de la media y la predicción de la respuesta se

obtienen sustituyendo x por x0 en el hiperplano ajustado:

ˆ

m0 =by0 = ˆβ₀+ˆβ₁x10+ + ˆβ_kxk 0 =x00^β

(61)

Predicción

Ejemplo (regresión lineal simple)

(62)

Predicción Estimación de la media condicionada

Estimación de la media condicionada

El estimador ˆm0 =by0 =x00^β,sigue una distribución normal de

parámetros: E(mˆ0) = x00β=m0 Var(mˆ0) = σ2h00 donde: h00 =x00 X0X 1 x0

es el valor de in‡uencia o leverage asociado x0, que mide la distancia

estandarizada entre x0 y el centro de la nube X.

Para una observación de la muestra (xi, Yi), el valor de in‡uencia hii es el

i ésimo elemento de la diagonal de la matriz de proyección:

(63)

Predicción Estimación de la media condicionada

Se denomina número equivalente de observaciones a:

n0 = 1 h00 Observaciones: Var(mˆ0) = σ 2

n0 ) Los datos proporcionan la misma información para

estimar m0 que una muestra de tamaño n0 univariante para estimar

su media.

Cuando se realiza una interpolación (estimación dentro del rango de

valores observados): 1 n0 n (=n si x0 =X).

Cuando se extrapola: n0 !0 ( no hay información sobre la

(64)

Predicción Estimación de la media condicionada Se veri…ca que: ˆ m0 m0 σph00 N(0, 1).

Sustituyendo la varianza desconocida por su estimador insesgado, obtenemos el estadístico pivote:

ˆ

m0 m0

ˆSRph00

tn k 1,

a partir del cual podríamos construir intervalos de con…anza: IC₍_{1 α}₎(m0) = mˆ0 ˆSR

p

h00tn k 1,1 α 2

(65)

Predicción Predicción de una nueva observación

Predicción de una nueva observación

El predictor _by0 =x00^β sigue una distribución normal y tiene como media

y varianza de predicción (error cuadrático medio de predicción): E(by0) = x00β

= E(y0)

E (y _by0)2 = Var(y) +Var(by0)

= σ2(1+h00)

De donde se deduce que:

by0 y0

σp(1+h00)

(66)

Predicción Predicción de una nueva observación

Sustituyendo la varianza desconocida por su estimador insesgado, obtenemos: by0 y0 ˆSR p (1+h00) tn k 1,

a partir del cual podríamos construir intervalos de predicción: IP(1 α)(y0) = by0 ˆSR

q

(1+h00)tn k 1,1 α

(67)

Predicción Ejemplo

Ejemplo

Estimar el gasto medio en alimentación de las familias con ingresos

de x1t =3.0 y tamaño de x2t =4. ˆ mt = ˆβ₀+ ˆβ₁x1t+ ˆβ₂x2t = = 0.160+0.149 3.0+0.077 4=0.595 Valor de in‡uencia: htt = x0t X0X 1 xt = 1 3.0 4 0 @ 1.360 0.092 0.282 0.092 0.016 0.013 0.282 0.013 0.067 1 A 0 @ 1 3.0 4 1 A = 0.07649 ) nt = 1 0.07649 =13.073

(68)

Predicción Ejemplo d Var(mˆt) = ˆsR2htt =0.0060 0.07649=0.00046 ) ˆσ(mˆt) =0.0214 mt mˆt ˆσ(mˆt) t12 ) IC_90%(mt) = (0.595 t12,0.95 0.0214) = (0.595 1.7823 1.2343) = (0.595 0.038) = (0.557, 0.633)

(69)

Predicción Ejemplo

Predecir el gasto en alimentación de la familia Pérez, que tiene unos

ingresos de x1t =3.0 y un tamaño de x2t =4. ˆyt = ˆβ0+ ˆβ1x1t+ ˆβ2x2t =0.595 d Var(ˆyt) = ˆsR2 (1+htt) =0.0060 (1+0.07649) =0.0065 ) ˆσ(ˆyt) =0.0803 IP_90%(yt) = (0.595 1.7823 0.0803) = (0.595 0.143) = (0.452, 0.738)

(70)

Diagnosis del modelo

Es importante recordar que las conclusiones obtenidas con este método se basan en las hipótesis básicas del modelo. Si alguna de estas hipótesis no es cierta, las conclusiones obtenidas pueden no ser …ables, o incluso totalmente erroneas.

En regresión simple y múltiple: Linealidad

Normalidad (homogeneidad) Homocedasticidad

Independencia

Hipótesis adicional en regresión múltiple:

Ninguna de las variables explicativas es combinación lineal de las demás.

En el caso de regresión múltiple es además de especial interés el fenómeno de la multicolinealidad (o colinearidad).

(71)

Diagnosis del modelo El problema de la multicolinealidad

El problema de la multicolinealidad

La estimación de los parámetros ^β= (X0X) 1X0Y requiere la

inversión de la matriz X0X .

Si una de las variables explicativas (variables independientes) es combinación lineal de las demás, la matriz será singular y el sistema no tendrá solución única.

Sin llegar a esta situación extrema, cuando algunas variables explicativas estén altamente correlacionadas entre sí, tendremos una situación de alta multicolinealidad.

En este caso las estimaciones de los parámetros pueden verse seriamente afectadas:

Los estimadores ˆβ_i tendrán varianzas muy altas (serán poco e…cientes).

(72)

Fuente: Peña, D. Modelos lineales y series temporales.

Grandes cambios en los parámetros al modi…car ligeramente el modelo (añadir/eliminar una variable o una observación) Contraste de regresión signi…cativo (alto coe…ciente de determinación), pero contrastes individuales no signi…cativos.

(73)

Detección de la multicolinealidad

Se utilizan varias medidas (nosotros las dos primeras): Tolerancia:

Si denotamos por:

R_j2 =R_X2_j_.X

( j)

el coe…ciente de determinación del ajuste lineal de la variable

explicativa Xj en función del resto, se de…ne la tolerancia de la

variable Xj como:

Tolerancia(Xj) =1 Rj2,

i.e. proporción de variabilidad de la variable i-ésima que no se explica por el resto de las variables independientes. Valores pequeños, por ejemplo:

Tolerancia(Xj) <0.1

indicarían una posible multicolinealidad (cuidado, no tiene en cuenta la información que aporta para explicar la respuesta).

(74)

Factor de in‡ación de la varianza (FIV): Se de…ne como el inverso de la tolerancia:

VIF(j) = 1

1 R_j2

La varianza de los coe…cientes en regresión simple (efecto global) es menor que en regresión múltiple (efecto parcial). Se puede ver que:

Var(efecto Xjen RLM) =VIF(j)Var(efecto Xjen RLS)

ˆS2 R

ˆS2 RLS(j)

dode ˆS_RLS2 (j) es la varianza residual de la regresión simple de Y sobre

Xj. El factor de in‡ación de la varianza mide el incremento

debido a la multicolinealidad. Valores grandes, por ejemplo: VIF(j) >10

(75)

Indice de condicionamiento:

Una medida de la singularidad de una matriz es el índice de condicionamiento:

IC =

r

máximo autovalor de la matriz

mínimo autovalor de la matriz 1

El valor de esta medida para X0X (aunque es preferible calcularlo

para la matriz de correlación de las variables explicativas) es una medida de la multicolineadidad entre las variables.

En general se suele admitir que:

IC >30)alta multicolinealidad.

10<IC 30)multicolinealidad moderada. IC <10₎no hay multicolinelidad.

(76)

Es recomendable generar un grá…co matricial y calcular la matriz de correlaciones: Correlaciones 1 ,842** ,919** ,000 ,000 24 24 24 ,842** 1 ,800** ,000 ,000 24 24 24 ,919** ,800** 1 ,000 ,000 24 24 24 Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Costes de distribución Ventas Ordenes Costes de

distribución Ventas Ordenes

La correlación es significativa al nivel 0,01 (bilateral). **.

(77)

Tratamiento de la multicolinealidad

1 _{Cuando la recogida de los datos se diseñe a priori, se puede}

evitar la presencia de multicolinealidad tomando las observaciones de

manera adecuada (de forma que X0X sea aprox. diagonal, i.e. valores

observados de las variables explicativas ortogonales), lo que aumenta considerablemente la precisión de la estimación (objetivo del diseño de experimentos).

2 Una vez que se detecta la presencia de multicolinealidad en la

muestra, se puede pensar en:

Eliminar variables explicativas (reduciendo el número de parámetros a estimar).

Añadir nuevos puntos de observación para las variables colineales que tiendan a disminuir la correlación entre ellas.

Utilizar métodos más so…sticados que solucionen el problema (como regresión por componentes principales, ).

(78)

Diagnosis del modelo Métodos para la selección de variables explicativas

Métodos para la selección de variables explicativas

Cuando se dispone de un conjunto grande de posibles variables explicativas suele ser especialmente importante determinar cuales de estas deberían ser incluidas en el modelo de regresión.

Si alguna de las variables no contiene información relevante sobre la respuesta no se debería incluir (no se complicaría la interpretación del modelo y se evitarían problemas como la multicolinealidad).

Se trataría entonces de conseguir un buen ajuste con el menor número de variables explicativas posibles.

Lo ideal sería evaluar todos los modelos posibles.

Si el número de variables es grande (no sería práctico evaluar todas las posibilidades) se suelen utilizar técnicas para su selección.

(79)

Los métodos que se suelen utilizar (muchas veces combinándolos) son: Selección progresiva (forward): Se parte de una situación en la que no hay ninguna variable y en cada paso se incluye una aplicando un criterio de entrada (hasta que ninguna de las restantes lo veri…can). Eliminación progresiva (backward): Se parte del modelo con todas las variables y en cada paso se elimina una aplicando un criterio de salida (hasta que ninguna de las incluidas lo veri…can).

Regresión paso a paso (stepwise): El más utilizado, se combina la selección progresiva con un criterio de salida. Se parte sin ninguna variable y en cada paso puede haber una inclusión y una exclusión (según criterios de entrada y salida).

Inclusión directa: El experimentador indica (según algún criterio:) cuales se incluyen en el modelo (generalmente se aplica a un subconjunto de variables y el resto se seleccionan por uno de los procedimientos anteriores).

(80)

Criterio de entrada

Se suele introducir la variable con mayor correlación parcial. Para cada una de la variables excluidas, se contrasta si al incluirlas producen un incremento signi…cativo en la proporción de variabilidad explicada:

Fi = (n k 1)

(R2 R 2)

1 R2 >FIN =F1,n k 1,1 αIN

donde k es el numero total de variables (i.e. el n de variables ya

incluidas más uno), R2 _{y R} 2 _{son los coe…cientes de determinación}

con (modelo completo) y sin (modelo reducido) la variable. (equivale a contrastar si su coe…ciente es distinto de cero).

Es necesario …jar un nivel de signi…cación αIN o un valor crítico FIN.

Entre todas las variables que lo producen se elige aquella con

mayor Fi (menor p-valor)

(81)

Criterio de salida

El criterio de salida es análogo. Para cada una de la variables

incluidas se contrasta si al eliminarlas no producen una disminución signi…cativa en la proporción de variabilidad explicada:

Fi = (n k 1)

(R2 R 2)

1 R2 FOUT =F1,n k 1,1 αOUT

donde k es el numero total de variables (i.e. el n de variables

incluidas), R2 y R 2 son los coe…cientes de determinación con

(modelo completo) y sin (modelo reducido) la variable. (equivale a contrastar si su coe…ciente es nulo).

Es necesario …jar un nivel de signi…cación αOUT o un valor crítico

FOUT.

Entre todas las variables que no producen una disminución

signi…cativa se elige aquella con menor Fi (mayor p-valor)

(82)

Si se utiliza el método de selección paso a paso, para prevenir que una variable sea introducida y eliminada repetidamente, debe veri…carse:

αOUT > αIN

(o equivalentemente FOUT <FIN).

Los métodos anteriores pueden dar lugar a distintos modelos.

Para comparar modelos con distinto número de variables explicativas es recomendable utilizar el coe…ciente de determinación ajustado. En cualquier caso debemos asegurarnos de que las variables incluidas en el modelo no estén relacionadas linealmente para evitar los inconvenientes de la multicolinealidad.

(83)

Diagnosis del modelo Observaciones

Observaciones

Sobre el resto de las hipótesis básicas del modelo, podrían hacerse las mismas observaciones que en el caso de regresión lineal simple:

La falta de linealidad "invalida" las conclusiones obtenidas (cuidado con las extrapolaciones).

La falta de normalidad tiene poca in‡uencia si el número de datos es su…cientemente grande (TCL). En caso contrario la estimación de la varianza, los intervalos de con…anza y los contrastes podrían verse afectados.

Si no hay igualdad de varianzas los estimadores de los parámetros no son e…cientes pero sí insesgados. Las varianzas, los intervalos de con…anza y contrastes podrían verse afectados.

La dependencia entre observaciones puede tener un efecto mucho más grave.

(84)

Diagnosis del modelo Residuos y datos atípicos

Residuos y datos atípicos

Se puede pensar en chequear hipótesis sobre la distribución de los errores teóricos a partir de la de los residuos:

e=Y Y^= (I H)Y (Var(e) =σ2(I H)). Residuos estandarizados: ri = ei ˆsR p 1 hii aprox . N(0, 1), Residuos estudentizados: ˜ri = ei ˆsR(i) p 1 hii tn k 2,

(ˆs_R2₍_i₎ obtenida eliminando el dato i ) NOTA: ˜ri =ri

q_{n k} ₁

n k r2 i

Residuos eliminados: e₍_i₎=yi ˆy(i)=

ei

1 hii

(85)

Un dato atípico (outlier) es una observación "rara" comparada con el resto de observaciones (anormalmente más grande o más pequeña de lo esperado).

Se detectan cuando el correspondiente residuo es un valor “inusual” (poco probable) en relación a la distribución asociada.

Un criterio general es considerar un valor atípico cuando:

jrij >2 ó 3.

(86)

Es recomendable generar un grá…co de residuos tipi…cados o estudentizados frente a predicciones o variables explicativas, para detectar falta de linealidad, heterocedasticidad, valores atípicos e in‡uyentes o el efecto de un factor omitido.

(87)

En regresión lineal múltiple no son de la misma utilidad los grá…cos de dispersión simple (p.e. grá…cos de dispersión matriciales) para detectar problemas. En su lugar se pueden hacer grá…cos parciales de residuos:

Si denotamos por eY .X₍ j) y eXj.X( j)los residuos resultantes de hacer

ajustes lineales para Y y Xj en función de X( j), se pueden representar los

pares de puntos:

eXj.X( j),i; eY .X( j),i

(88)

Diagnosis del modelo Observaciones in‡uyentes

Observaciones in‡uyentes

Si las conclusiones obtenidas dependen en gran medida de una observación (normalmente atípica), esta se denomina in‡uyente a posteriori y debe ser examinada con cuidado por el

experimentador.

Las observaciones candidatas a ser in‡uyentes a posteriori son

aquellas en las que xi está muy alejado del resto (i.e. de X), estas se

denominan in‡uyentes a priori.

Se pueden detectar comprobando si el valor de in‡uencia o leverage asociado es grande, p.e.:

hii =x0i X0X 1

xi >2

k+1

n

(también se puede utilizar la distancia de Mahalanobis). NOTA: _n1 ∑n_i₌₁hii = traza_n(H) = k+_n1 (H idempotente).

(89)

Diagnosis del modelo Observaciones in‡uyentes

Debe veri…carse si las observaciones in‡uyentes a priori lo son a posteriori. Además pueden producir multicolinealidad..

Las observaciones in‡uyentes a posteriori se pueden detectar si al eliminarlas hay variación en:

la estimación de los parámetros del modelo: ^β y ^β_{(i )}

las predicciones de las observaciones: ^Y e ^Y_{(i )}.

Un criterio bastante utilizado es considerar una observación in‡uyente a posteriori si: jDFFITSij = ˆyi ˆy(i)i ˆsR(i) p hii >2 r k n, NOTA: DFFITSi = ˜ri q hii

1 hii (equivalente al D-estadístico de Cook).

(90)

Diagnosis del modelo Alternativas

Alternativas

Cuando no se satisfacen los supuestos básicos puede llevarse a cabo una transformación de los datos para corregir falta de linealidad, la heterocedasticidad y/o falta de normalidad (normalmente estas últimas "suelen ocurrir en la misma escala").

Un grá…co dispersión-nivel puede ayudar a seleccionar la transformación en el caso de heterocedasticidad.

Si no se logra corregir la heterocedasticidad, puede ser adecuado utilizar mínimos cuadrados ponderados (habría que modelar la varianza).

Si no se cumple la hipótesis de independencia, se puede intentar modelar la dependencia y utilizar mínimos cuadrados generalizados. Si no se logra corregir la falta de linealidad se puede pensar en utilizar métodos no paramétricos (p.e. regresión aditiva no paramétrica).

(91)

Diagnosis del modelo Alternativas

Modelos aditivos

E(Y_jX) =β₀+m1(X1) +m2(X2) + +mr(Xr),

con mi, i =1, ..., r , funciones cualesquiera

.

Hastie, T.J. y Tibshirani, R.J. (1990). Generalized Additive Models. Chapman &Hall.