Regresión lineal múltiple
Tema 6
Estadística 2
Introducción
Introducción
Consideramos ahora la extensión del modelo de regresión simple para el caso de k variables explicativas, conocido como el modelo lineal general de regresión.
Se supone que:
Y = m(X1, , Xk) +ε
= m(X) +ε
donde:
Y Variable respuesta (o dependiente).
X= (X1, , Xk) vector de variables explicativas (o
independientes).
Introducción Ejemplo
Ejemplo
Examen junio 07
Una empresa de ventas por internet de productos informáticos está interesada en estudiar que variables in‡uyen en sus costes mensuales ( variable de interés). Para ello recogieron los costes de distribución (en miles de euros), las ventas (en cientos de miles de euros) y el número de órdenes de compras (en miles) de los últimos 24 meses.
costes ventas ordenes
5.30 3.86 4.02 7.17 4.46 3.81 8.56 5.12 5.31 6.37 4.01 4.26 7.28 4.57 4.30 6.84 4.58 4.10 5.25 3.01 3.21 7.08 4.84 4.81 8.20 5.17 5.24 7.44 5.03 4.73 7.08 5.35 4.41
costes ventas ordenes
7.23 3.28 4.43 5.90 4.08 3.96 7.94 4.91 4.58 9.44 5.27 5.58 5.97 4.44 3.45 9.05 6.23 5.08 9.32 5.96 5.74 6.93 4.63 4.27 5.37 3.89 3.71 8.92 5.47 5.39 5.41 3.53 2.92
Introducción Ejemplo
Para un análisis descriptivo, es recomendable generar un grá…co matricial y calcular la matriz de correlaciones:
Correlaciones 1 ,842** ,919** ,000 ,000 24 24 24 ,842** 1 ,800** ,000 ,000 24 24 24 ,919** ,800** 1 ,000 ,000 24 24 24 Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Costes de distribución Ventas Ordenes Costes de
distribución Ventas Ordenes
La correlación es significativa al nivel 0,01 (bilateral). **.
Introducción Ejemplo
Supondremos además que la función de regresión es lineal: E(YjX) =β0+β1X1+β2X2+ +βkXk
donde β= (β0, β1, , βk)0 es el vector de parámetros (desconocidos).
Resumiendo:
Suponemos que variable respuesta Y y las variables explicativas
(X1, , Xk) están relacionadas linealmente de la forma:
Y = β0+β1X1+β2X2+ +βkXk +ε
= X0β+ε
NOTA:
Para simpli…car la notación asumiremos que X0 =1 (si incluimos β0 en el
Introducción Ejemplo
Objetivos
El objetivo principal es, a partir de una muestra:
f(x1i, , xki, Yi): i =1, , ng
con:
Yi = β0+β1x1i + +βkxki+εi
= xi0β+εi.
Estimar el hiperplano de regresión teórico:
y = β0+β1x1+ +βkxk
= x0β
El modelo lineal general Modelo
Modelo
Se suponen las siguientes hipótesis:
1 Linealidad:
Yi = β0+β1x1i+ +βkxki +εi
= x0iβ+εi.
con E(εi) =0.
Las variables explicativas se suponen no aleatorias (conocidas).
2 Homodecasticidad:
Var(εi) =σ2
3 Normalidad:
εi N(0, σ2)
4 Independencia: los errores son independientes, i.e. no existe
correlación entre errores:
El modelo lineal general Modelo
Se suponen además dos hipótesis adicionales:
5. El número de datos disponible es como mínimo k+1 (n de
parámetros).
6. Ninguna de las variables explicativas es una combinación lineal de las
demás.
Los vectores Xj = (xj 1, , xjn)0 vector de observaciones de la
variable j, son linealmente independientes. Por tanto:
Yi = YjX=xi N x0iβ,σ2
Independientes
NOTA: E(YjX=x) =x0β
β0 = valor medio de Y en el origen (Xi nulas).
βi = efecto lineal de la variable Xi (’incremento medio’de Y cuando
El modelo lineal general Modelo
Yi N x0iβ,σ2
El modelo lineal general Modelo
Ecuaciones en forma matricial
El conjunto de ecuaciones:
Yi = β0+β1x1i+ +βkxki +εi; i =1, , n,
se pueden escribir en forma vectorial:
Y=β01+β1X1+ +βkXk+ε,
siendo:
Y= (Y1, , Yn)0 vector de observaciones de la variable Y
Xj = (xj 1, , xjn)0 vector de observaciones de la variable Xj
El modelo lineal general Modelo En forma matricial: Y=X β+ε, 0 B B B @ Y1 Y2 .. . Yn 1 C C C A | {z } n 1 = 0 B B B @ 1 x11 xk 1 1 x12 xk 2 .. . ... . .. ... 1 x1n xkn 1 C C C A | {z } n (k+1) 0 B B B @ β0 β1 .. . βk 1 C C C A | {z } (k+1) 1 + 0 B B B @ ε1 ε2 .. . εn 1 C C C A | {z } n 1
donde X es la denominada matriz del diseño de las variables regresoras:
X = 1 X1 Xk | {z } variables = 0 B @ x1 .. . xn 1 C A 9 > = > ;observaciones
El modelo lineal general Ejemplo
Ejemplo
Problema 5.4
Y ="gastos en alimentación de una familia (miles de euros)" X1 ="ingresos mensuales (miles de euros)"
X2 ="número de miembros de la familia"
Muestra aleatoria simple de n =15 familias:
Gasto Ingreso Tamaño Gasto Ingreso Tamaño
0.43 2.1 3 1.29 8.9 3 0.31 1.1 4 0.35 2.4 2 0.32 0.9 5 0.35 1.2 4 0.46 1.6 4 0.78 4.7 3 1.25 6.2 4 0.43 3.5 2 0.44 2.3 3 0.47 2.9 3 0.52 1.8 6 0.38 1.4 4 0.29 1.0 5
El modelo lineal general Ejemplo Y= 0 B B B B B B B B B B B B B B B B B B B B B B B B B @ 0.43 0.31 0.32 0.46 1.25 0.44 0.52 0.29 1.29 0.35 0.35 0.78 0.43 0.47 0.38 1 C C C C C C C C C C C C C C C C C C C C C C C C C A =X β+ε= 0 B B B B B B B B B B B B B B B B B B B B B B B B B @ 1 2.1 3 1 1.1 4 1 0.9 5 1 1.6 4 1 6.2 4 1 2.3 3 1 1.8 6 1 1.0 5 1 8.9 3 1 2.4 2 1 1.2 4 1 4.7 3 1 3.5 2 1 2.9 3 1 1.4 4 1 C C C C C C C C C C C C C C C C C C C C C C C C C A 0 @ ββ01 β2 1 A+ε
Estimación de los parámetros
Estimación de los parámetros
Para la estimación de los parámetros del modelo: el vector de parámetros β= (β0, β1, , βk),
la varianza de la distribución del error, σ2
se utiliza también el método de mínimos cuadrados.
Como resultado obtendremos el hiperplano de regresión mínimo cuadrático: ˆy = ˆβ0+ ˆβ1x1+ +ˆβkxk =x0^β
que estima el valor medio E(YjX=x) =β0+β1x1+ +βkxk =x0β
Estimación de los parámetros Estimación por mínimos cuadrados
Estimación por mínimos cuadrados
Los estimadores mínimo cuadráticos son los que minimizan la suma de los cuadrados de las diferencias entre los valores reales y las predicciones de la respuesta:: ^β = (ˆβ 0, , ˆβk) = arg min (β0, ,βk) n
∑
i=1 (Yi β0 β1x1i βkxki)2 = arg min β (Y X β)0(Y X β)Este problema de minimización se soluciona derivando e igualando a cero:
∂ ∂β Y
0Y 2Y0X β+β0X0X β =0
obteniéndose las ecuaciones (canónicas) de regresión: X0X β=X0Y
Estimación de los parámetros Estimación por mínimos cuadrados
La solución del sistema es el estimador mínimo cuadrático de β:
^β= X0X 1
X0Y
NOTAS
El sistema tiene solución (la matriz X0X es invertible) porque las
columnas de X son independientes (aunque pueden aparecer problemas: multicolinealidad).
Haciendo uso de la hipótesis de normalidad multivariante, se llega a las mismas expresiones al maximizar la función logarítmica de verosimilitud, por lo que estos estimadores coinciden con los estimadores máximo-verosímiles.
Estimación de los parámetros Ejemplo
Ejemplo
Gastos en alimentación X0X = 0 @ 15 42.00 55.00 42 188.08 140.80 55 140.80 219.00 1 A X0Y= 0 @ 8.070 32.063 28.960 1 A 0 B B B B @ n =15 ∑ x1i =42 ∑ x2i =55 ∑ x2 1i =188.08 ∑ x1ix2i =140.80 ∑ x2 2i =219.00 1 C C C C A 0 B B B B @ ∑ yi =8.070 ∑ yix1i =32.063 ∑ yix2i =28.960 1 C C C C AEstimación de los parámetros Ejemplo ^β = X0X 1 X0Y = 0 @ 15 42.00 55.00 42 188.08 140.80 55 140.80 219.00 1 A 10 @ 8.070 32.063 28.960 1 A = = 0 @ 1.360 0.092 0.282 0.092 0.016 0.013 0.282 0.013 0.067 1 A 0 @ 8.070 32.063 28.960 1 A= ^β = 0 @ 0.160 0.149 0.077 1 A
El modelo de regresión lineal ajustado es:
Estimación de los parámetros Interpretación geométrica
Interpretación geométrica
El ajuste se puede interpretar geométricamente como encontrar
en el subespacio col(X) =X β
el vector más próximo al vector Y. Se trata de minimizar el módulo del error Y X β.
Entonces (Y X ^β)es ortogonal
al subespacio col(X),
i.e. X ^β es la proyección ortogonal
de Y en col(X),
, X0(Y X ^β) =0 ,X0X ^β=X0Y
Estimación de los parámetros Matriz proyección
Matriz proyección
Podemos expresar las predicciones como: ^
Y = X ^β
= X X0X 1X0Y
= HY
donde H= (hij)ni ,j=1 es la matriz de proyección (matriz hat) en el
subespacio col(X).
Se denominan residuos e = (e1, , en)las diferencias entre valores
observados y predicciones:
e = Y Y^
= (I H)Y
NOTA: Teniendo en cuenta las observaciones anteriores los residuos veri…can
Estimación de los parámetros Matriz proyección
Suma de cuadrados residual
Se de…ne la suma residual de cuadrados:
SSR = n
∑
i=1 ei2 = jej2 =e0e = Y0(I H)0(I H)Y=Y0(I H)Y = Y0Y Y0HY=Y0Y ^β0X0Y Entonces: SSR = n∑
i=1 ei2 = n∑
i=1 yi2 β0 n∑
i=1 yi+β1 n∑
i=1 x1iyi +β2 n∑
i=1 x2iyi +. . .+βk n∑
i=1 xkiyi ! ,Estimación de los parámetros Varianza residual
Varianza residual
A partir de los residuos podemos de…nir una medida de la variabilidad de los datos respecto al hiperplano estimado de regresión:
SR2 = 1 n n
∑
i=1 ei2 = SSR n = 1 n n∑
i=1 (yi ˆyi)2que es un estimador sesgado de la varianza del error σ2 (estimador de
máxima verosimilitud).
Un estimador insesgado de la varianza es: ˆS2 R = SSR n (k+1) = 1 n (k+1) n
∑
i=1 (yi ˆyi)2Estimación de los parámetros Ejemplo
Ejemplo
Gastos en alimentación
A partir del modelo ajustado:
ˆy = ˆβ0+ ˆβ1x1+ ˆβ2x2
= 0.160+0.149x1+0.077x2
se obtienen las predicciones y los residuos asociados a las observaciones muestrales
P.e.:
x1,1 =2.1; x2,1 =3; y1 =0.43
ˆy1 = 0.160+0.149 2.1+0.077 3=0.3839
Estimación de los parámetros Ejemplo Predicciones 0.38 0.41 0.33 0.31 0.57 0.77 0.36 0.37 0.51 0.39 1.39 0.50 1.07 0.35 0.36 Residuos 0.046 0.028 0.024 0.001 0.048 0.011 0.038 0.083 0.084 0.075 0.104 0.032 0.180 0.000 0.025 ssR =
∑
ei2 =0.0721 ˆsR2 = ssR 12 =0 00060 ˆsR = 000775Estimación de los parámetros Ejemplo Alternativamente (más fácil): ssR =
∑
ei2 =e0e= = Y0Y ^β0X0Y =∑
yi2 ˆβ0∑
yi ˆβ1∑
yix1i ˆβ2∑
yix2i = = 5.7733 ( 0.160) 8.070 0.149 32.063 0.077 28.960 ' 0.06Estimación de los parámetros Distribución los estimadores
Distribución los estimadores de los parámetros
Los estimadores de los coe…cientes son una combinación lineal de la respuesta:
^β= X0X 1X0Y
a partir de lo cual se deducen fácilmente sus propiedades principales: Normalidad:
Tienen una distribución normal por ser combinación lineal de variables aleatorias normales (independientes)
Insesgadez:
Estimación de los parámetros Distribución los estimadores Varianzas: Var(^β) = 0 B B B @
Var(ˆβ0) Cov(ˆβ0, ˆβ1) Cov(ˆβ0, ˆβk)
Cov(ˆβ0, ˆβ1) Var(ˆβ1) Cov(ˆβ1, ˆβk)
..
. ... . .. ...
Cov(ˆβ0, ˆβk) Cov(ˆβ1, ˆβk) Var(ˆβk)
1 C C C A = σ2(X0X) 1 = σ2Q ) Var(ˆβi) =σ2qii
E…ciencia (Teorema de Gauss-Markov):
ˆβi tiene la mínima varianza entre los estimadores lineales insesgados
Estimación de los parámetros Distribución los estimadores
ˆβi N βi, σ2qii
Estimación de los parámetros Distribución los estimadores
Equivalentemente:
ˆβi βi σpqii
N(0, 1)
Además se puede ver que:
(n k 1)ˆS2 R
σ2 χ
2 n k 1
(independiente de ^β ya que(I H)X =0). Por tanto:
ˆβi βi
ˆSRpqii
tn k 1
A partir de los cuales podemos obtener estimaciones por intervalo de con…anza y realizar contrastes de hipótesis sobre los distintos parámetros.
Estimación de los parámetros Intervalos de con…anza y contrastes sobre los parámetros
Intervalos de con…anza para los parámetros
A partir de los estadísticos anteriores: ˆβi βi
ˆσ ˆβi tn k 1, i =0, , k
donde:
ˆσ ˆβi = ˆSRpqii
Se obtienen los intervalos de con…anza de nivel 1 α para los coe…cientes
del hiperplano de regresión:
IC(1 α)(βi) = ˆβi tn k 1,1 α
Estimación de los parámetros Intervalos de con…anza y contrastes sobre los parámetros
A partir del estadístico:
(n k 1)ˆSR2 σ2 = SSR σ2 χ 2 n k 1
se obtiene el correspondiente intervalo de con…anza para la varianza:
IC(1 α) σ2 = (n k 1)ˆS 2 R χ2n k 1,1 α 2 ,(n k 1)ˆS 2 R χ2n k 1,α 2 ! = SSR χ2n k 1,1 α 2 , SSR χ2n k 1,α 2 ! .
Estimación de los parámetros Intervalos de con…anza y contrastes sobre los parámetros
Contrastes de hipótesis sobre los parámetros
Procediendo de la forma habitual se pueden realizar contrastes de hipótesis individuales sobre los parámetros. Por ejemplo, para contrastar si uno de los coe…cientes es nulo:
H0 : βi =0 H1 : βi 6=0 utilizamos el estadístico: Ti = ˆβi ˆσ ˆβi tn k 1, si H0 cierta R.A.= tn k 1,1 α 2, tn k 1,1 α2 p =2P tn k 1 Tˆi
Los contrastes individuales son de utilidad para estudiar si podemos eliminar alguno de los componentes del modelo (p.e. alguna de las variables explicativas).
Estimación de los parámetros Ejemplo
Ejemplo
Gastos en alimentación
Intervalo de con…anza para σ2 al 90%:
SSR σ2 χ 2 n 3 ) 0.9=P χ212,0.05 SSR σ2 χ 2 12,0.95 = = ...=P SSR χ212,0.95 σ 2 SSR χ212,0.05 ! IC90% σ2 = 0.0721 21.0298, 0.0721 5.2253 = (0.0034, 0.0138)
Estimación de los parámetros Ejemplo
Varianzas de los estimadores de los coe…cientes: d Var ^β = ˆsR2 X0X 1 = 0.006 0 @ 1.360 0.092 0.282 0.092 0.016 0.013 0.282 0.013 0.067 1 A de donde ˆσ2 ˆβ0 = ˆsR2q00 =0.006 1.360=0.00816 ) ˆσ ˆβ0 =0.0903 ˆσ2 ˆβ1 = ˆsR2q11 =0.006 0.0166=0.000099 ) ˆσ ˆβ1 =0.0099 ˆσ2 ˆβ2 = ˆs 2 Rq22 =0.006 0.067=0.00040 ) ˆσ ˆβ2 =0.0201
Estimación de los parámetros Ejemplo
Intervalo de con…anza para β0:
ˆβ0 β0 ˆσ ˆβ0 tn (k+1) ) 0.9=P t12,0.95 ˆβ0 β0 ˆσ ˆβ0 t12,0.95 ! = P ˆβ0 t12,0.95ˆσ ˆβ0 β0 ˆβ0+t12,0.95ˆσ ˆβ0 IC90%(β0) = ( 0.160 1.783 0.0903) = ( 0.160 0.161) = ( 0.321, 0.001)
Estimación de los parámetros Ejemplo
Intervalo de con…anza para β1 (ingreso):
IC90%(β1) = ˆβ1 t12,0.95ˆσ ˆβ1
= (0.149 1.783 0.0099) = (0.149 0.0176)
= (0.1314, 0.1666)
Contraste efecto individual, H0 : β1=0 “la variable ingreso no
in‡uye (linealmente) en el gasto”
T1 = ˆβ1 ˆσ ˆβ1 tn k 1, si H0 cierta, ˆ T1 = 0.149 0.0099 =15.05>t12,0.95 =1.783 p1= 2P(t12 15.05) 0.01)Se Rechaza H0
Estimación de los parámetros Ejemplo
Intervalo de con…anza para β2 (tamaño):
IC90%(β2) = ˆβ2 t12,0.95ˆσ ˆβ2
= (0.077 1.783 0.0201) = (0.077 0.0358)
= (0.0412, 0.1128)
Contraste efecto individual, H0 : β2=0 “la variable tamaño no
in‡uye (linealmente) en el gasto”
T2 = ˆβ2 ˆσ ˆβ2 tn k 1, si H0 cierta, ˆ T2 = 0.077 0.0201 =3.831>t12,0.95 =1.783 p2=2P(t12 3.831) <0.01)Se Rechaza H0
Bondad del ajuste El contraste de regresión
Bondad del ajuste: El contraste de regresión
Es de especial interés el contraste:
H0 : β1 = =βk =0
H1 : βi 6=0 para algún i
que equivaldría a contrastar que no hay relación lineal entre la variable respuesta y las variables explicativas: contraste de regresión.
Una forma natural de realizar este contraste es el análisis de la varianza en regresión lineal múltiple.
Bondad del ajuste El contraste de regresión
A partir de la descomposición:
(yi ¯y) = (yi ˆyi) + (ˆyi ¯y),
se obtiene la identidad de la suma de cuadrados de la regresión lineal múltiple: n
∑
i=1 (yi ¯y)2 = n∑
i=1 (ˆyi ¯y)2+ n∑
i=1 (yi ˆyi)2 SST = SSE +SSR VT = VE +VR variabilidad total = variabilidad explicada por la regresión + variabilidad residualBondad del ajuste El contraste de regresión
VE =VT (VR =0) )Ajuste perfecto
Bondad del ajuste El contraste de regresión
Dividiendo las sumas de cuadrados por los correspondientes grados de libertad (numero - restricciones que veri…can los sumandos) se obtienen las varianzas o cuadrados medios:
ˆS2 Y = MST = SST n 1 = 1 n 1 n
∑
i=1 (yi ¯y)2 ˆS2 E = MSE = SSE k = 1 k n∑
i=1 (ˆyi ¯y)2 ˆS2 R = MSR = SSR n k 1 = 1 n k 1 n∑
i=1 (yi ˆyi)2Bondad del ajuste El contraste de regresión
Para contrastar la hipótesis nula de que no hay una relación lineal entre las dos variables se utiliza el cociente:
F0 = MSE MSR = ˆS 2 E ˆS2 R Fk ,n k 1, si H0 cierta,
que tiende a tomar valores grandes cuando la hipótesis nula es falsa.
Se rechaza H0 al nivel de signi…cación α si:
ˆ
F0 =
msE
msR
>Fk ,n k 1,1 α.
El nivel crítico del test o p-valor será:
Bondad del ajuste El contraste de regresión
La tabla ANOVA correspondiente al contraste:
H0: β1 = = βk =0 No hay rel. lineal
H1: βi 6=0 para algún i Si hay rel. lineal
es: Fuente de variación SS gl MS F p-valor Regresión ssE k msE =ssE k Fˆ0 = msE msR p Residual ssR n k 1 msR =n kssR 1 Total ssT n 1 msT =n 1ssT
NOTA: Si aceptamos la hipótesis nula del contraste de regresión,
aceptamos que no hay relación lineal entre las variables explicativas y la respuesta, lo cual podría ser debido a que las variables explicativas no aportan información sobre la respuesta o que la relación no es lineal.
Bondad del ajuste El contraste de regresión
El contraste de regresión permite estudiar si el efecto lineal de las variables explicativas es (estadísticamente) signi…cativo.
No confundir con un contraste de linealidad que permite estudiar si el efecto no lineal es (tendencia no lineal) o no (tendencia lineal) signi…cativo.
Bondad del ajuste Ejemplo
Ejemplo
Gastos en alimentación SSR =∑
(yi ˆyi)2 =0.0721 SST =∑
(yi ¯y)2 =∑
yi2 15 ¯y2 =1.4316 SSE =∑
(ˆyi ¯y)2 =SST SSR =1.4316 0.0721=1.3595 F. var. SS gl MS F p-valor Explicado 1.3595 2 0.6797 113.28 p <0.001 Residual 0.0721 12 0.0060 Total 1.4316 14 0.1023 F2,12,0.95 '3.9 113.28 p =P(F2,12 >113.28) <0.005Bondad del ajuste Los coe…cientes de determinación y correlación
El coe…ciente de determinación
Una medida de la bondad del ajuste (evaluación global del modelo ajustado) es el coe…ciente de determinación:
R2 = VE VT = n ∑ i=1 (ˆyi ¯y)2 n ∑ i=1 (yi ¯y)2 = 1 VR VT =1 (n k 1)ˆS 2 R (n 1)ˆS2 Y
que es la proporción de variación explicada por la regresión.
Se veri…ca que 0 R2 1 :
Si R2 =1 todas las observaciones están en el hiperplano ajustado (lo
explica todo).
Bondad del ajuste Los coe…cientes de determinación y correlación
Para el caso de dos o más variables explicativas se de…ne el coe…ciente de correlación múltiple como la raíz cuadrada del coe…ciente de determinación: R= r VE VT = r 1 VR VT (sólo toma valores positivos).
NOTAS:
Se puede ver que el coe…ciente de correlación múltiple coincide con el coe…ciente de correlación lineal de Pearson entre los datos observados(yi)y los pronosticados (ˆyi). Si el ajuste es bueno los pares de puntos(yi, ˆyi) deben estar próximos a la bisectrizx=y.
El estadístico del contraste de regresión se puede expresar también a partir del coe…ciente de determinación:
F0=
(n k 1)
k
R2
Bondad del ajuste Los coe…cientes de determinación y correlación
El coe…ciente de determinación ajustado
Cuando las muestras son pequeñas en relación al número de variables explicativas, el coe…ciente de determinación da valores demasiado optimistas, por lo que conviene utilizar en su lugar el coe…ciente de determinación ajustado.
Teniendo en cuenta que
R2 =1 VR
VT
si reemplazamos las variabilidades (sumas de cuadrados) por varianzas, se obtiene el coe…ciente de determinación ajustado (por los grados de libertad): Rajus2 = 1 ˆS 2 R ˆS2 Y = 1 n 1 n k 1 (1 R 2)
(de utilidad para comparar modelos con distinto número de variables explicativas).
Bondad del ajuste Los coe…cientes de determinación y correlación
El coe…ciente correlación parcial
Se llama correlación parcial entre dos variables a aquella que elimina la in‡uencia de otra(s) variable(s).
Se de…ne el coe…ciente de correlación parcial entre Y y X , eliminando el
efecto de Z1, , Zk, como el coe…ciente de correlación lineal entre los
residuos resultantes de hacer ajustes lineales para Y y X en función de Z1, , Zk:
eY .Z,i = yi (ˆβ0+ˆβ1z1i + + ˆβkzki)
eX .Z,i = xi (ˆβ0+ ˆβ1z1i+ + ˆβkzki)
Entonces:
Bondad del ajuste Los coe…cientes de determinación y correlación
En regresión lineal múltiple se suele estudiar la correlación parcial entre la
variable respuesta y una de las variables explicativas Xi, eliminando el
efecto de las demás variables explicativas X( i) (conjunto de variables
Bondad del ajuste Los coe…cientes de determinación y correlación
Se puede ver que el valor observado del estadístico del contraste H0 : βi =0 H1 : βi 6=0 ˆ Ti = ˆβi ˆσ ˆβi
es función del correspondiente coe…ciente de correlación parcial. De donde se deduce que: rYX2 i.X ( i) = ˆ T2 i ˆ T2 i + (n k 1)
Bondad del ajuste Ejemplo
Ejemplo
Gastos en alimentación Coe…ciente de determinación: R2 = ssE ssT = 1.3595 1.4316 =0.9496)94.96% de ssTCoe…ciente de correlación múltiple:
R =p0.9496 =0.9745
Coe…ciente de determinación corregido: ¯ R2 =1 ˆs 2 R ˆsY2 =1 0.0060 0.1023 =94.13)94.13% de ssT ¯ R =p0.9413 =0.9702
Bondad del ajuste Ejemplo
Coe…ciente de correlación simple entre las variables gasto e ingreso: rYX1 =
SYX1
SYSX1
=0.9424
Coe…ciente de correlación parcial entre las variables gasto e ingreso, eliminando la in‡uencia de la variable tamaño:
rYX2 1.X2 = Tˆ 2 1 ˆ T2 1 +n k 1 = 15.05 2 15.052+12 =0.9496 ) rYX1.X2 =0.974
Otros contrastes de interés
Otros contrastes de interés
Se suelen estudiar hipótesis que relacionan simultáneamente varios coe…cientes de regresión:
1 Todos los coe…cientes son cero (no hay relación lineal, contraste de
regresión visto antes).
2 Un subconjunto de los coe…cientes es cero.
3 Un subconjunto de los coe…cientes son iguales.
El procedimiento para contrastar estas hipótesis puede verse de forma general desde el punto de vista del análisis de la varianza, se trata de comparar la variabilidad explicada por los denominados:
modelo completo: modelo considerando todas las variables explicativas sin ninguna restricción.
modelo reducido: modelo correspondiente a la hipótesis H0 que se
Otros contrastes de interés
Si denotamos por ˆyi e ˆyi las predicciones obtenidas con el modelo
completo y con el modelo reducido,respectivamente, y:
VE = n
∑
i=1 (ˆyi ¯y)2 VE = n∑
i=1 (ˆyi ¯y)2se de…ne el incremento en la variabilidad explicada:
∆VE =VE VE El cociente: F0 = ∆VE (k+1 I) VR n k 1 Fk+1 l ,n k 1, si H0 cierta,
Otros contrastes de interés
∆VE =VE VE =0)No mejora nada (ˆy = ˆy )
Otros contrastes de interés
Se rechaza H0 al nivel de signi…cación α si:
ˆ
F0 =
∆VE (k+1 l)
ˆsR2 >Fk+1 l ,n k 1,1 α,
i.e. el modelo completo produce un incremento signi…cativo en la variabilidad explicada (respecto al modelo reducido).
El nivel crítico del test o p-valor será:
p =P Fk+1 l ,n k 1 Fˆ0 .
Este estadístico también se puede expresar a partir de los coe…cientes de determinación como:
F = (n k 1)
(k+1 l)
(R2 R 2)
1 R2
Otros contrastes de interés Ejemplo
Ejemplo
Gastos en alimentación Contraste individual de la F H0 : y = β0+β1x1+ε H1 : y =β0+β1x1+β2x2+ε H0 : β2 =0 H1 : β2 6=0Regresión lineal simple de gasto sobre ingreso:
gasto '0.162+0.134 ingreso
La tabla ANOVA de este modelo es
F. var. SS gl MS
VE 1.2716 1 ˆsE2 =1.2716
VR 0.16 13 ˆsR2 =0.0123
Otros contrastes de interés Ejemplo
Incremento en la variabilidad explicada al introducir la variable tamaño:
∆VE (tama ˜no) =VE VE (ingreso) =1.3595 1.2716=0.0879
Para realizar el contraste se utiliza el estadístico:
F0 = ∆VE (k+1 I) VR n k 1 Fk+1 l ,n k 1, si H0 cierta ˆ F0 = ∆VE 1 ˆs2 R = 0.0879 0.0060 =14.65 p = P(F1,12 >14.65) <0.005
Este contraste proporciona el mismo p valor que el contraste individual de la t (salvo redondeo).
Predicción
Predicción
Entre los objetivos de un análisis de regresión pueden estar: Estimar la media de la distribución de la respuesta para X=x0 = (x10, , xk 0),
i.e. estimar m0 =E(YjX=x0) (=x00β).
Predecir futuros valores de la repuesta en x0,
i.e. predecir Y0 = YjX=x0
Se puede pensar que en el primer caso se intenta estimar el valor medio
a largo plazo (de un gran número de experimentos realizados con x0),
mientras que en el segundo caso se intenta predecir el resultado de un solo experimento.
La estimación puntual de la media y la predicción de la respuesta se
obtienen sustituyendo x por x0 en el hiperplano ajustado:
ˆ
m0 =by0 = ˆβ0+ˆβ1x10+ + ˆβkxk 0 =x00^β
Predicción
Ejemplo (regresión lineal simple)
Predicción Estimación de la media condicionada
Estimación de la media condicionada
El estimador ˆm0 =by0 =x00^β,sigue una distribución normal de
parámetros: E(mˆ0) = x00β=m0 Var(mˆ0) = σ2h00 donde: h00 =x00 X0X 1 x0
es el valor de in‡uencia o leverage asociado x0, que mide la distancia
estandarizada entre x0 y el centro de la nube X.
Para una observación de la muestra (xi, Yi), el valor de in‡uencia hii es el
i ésimo elemento de la diagonal de la matriz de proyección:
Predicción Estimación de la media condicionada
Se denomina número equivalente de observaciones a:
n0 = 1 h00 Observaciones: Var(mˆ0) = σ 2
n0 ) Los datos proporcionan la misma información para
estimar m0 que una muestra de tamaño n0 univariante para estimar
su media.
Cuando se realiza una interpolación (estimación dentro del rango de
valores observados): 1 n0 n (=n si x0 =X).
Cuando se extrapola: n0 !0 ( no hay información sobre la
Predicción Estimación de la media condicionada Se veri…ca que: ˆ m0 m0 σph00 N(0, 1).
Sustituyendo la varianza desconocida por su estimador insesgado, obtenemos el estadístico pivote:
ˆ
m0 m0
ˆSRph00
tn k 1,
a partir del cual podríamos construir intervalos de con…anza: IC(1 α)(m0) = mˆ0 ˆSR
p
h00tn k 1,1 α 2
Predicción Predicción de una nueva observación
Predicción de una nueva observación
El predictor by0 =x00^β sigue una distribución normal y tiene como media
y varianza de predicción (error cuadrático medio de predicción): E(by0) = x00β
= E(y0)
E (y by0)2 = Var(y) +Var(by0)
= σ2(1+h00)
De donde se deduce que:
by0 y0
σp(1+h00)
Predicción Predicción de una nueva observación
Sustituyendo la varianza desconocida por su estimador insesgado, obtenemos: by0 y0 ˆSR p (1+h00) tn k 1,
a partir del cual podríamos construir intervalos de predicción: IP(1 α)(y0) = by0 ˆSR
q
(1+h00)tn k 1,1 α
Predicción Ejemplo
Ejemplo
Gastos en alimentación
Estimar el gasto medio en alimentación de las familias con ingresos
de x1t =3.0 y tamaño de x2t =4. ˆ mt = ˆβ0+ ˆβ1x1t+ ˆβ2x2t = = 0.160+0.149 3.0+0.077 4=0.595 Valor de in‡uencia: htt = x0t X0X 1 xt = 1 3.0 4 0 @ 1.360 0.092 0.282 0.092 0.016 0.013 0.282 0.013 0.067 1 A 0 @ 1 3.0 4 1 A = 0.07649 ) nt = 1 0.07649 =13.073
Predicción Ejemplo d Var(mˆt) = ˆsR2htt =0.0060 0.07649=0.00046 ) ˆσ(mˆt) =0.0214 mt mˆt ˆσ(mˆt) t12 ) IC90%(mt) = (0.595 t12,0.95 0.0214) = (0.595 1.7823 1.2343) = (0.595 0.038) = (0.557, 0.633)
Predicción Ejemplo
Predecir el gasto en alimentación de la familia Pérez, que tiene unos
ingresos de x1t =3.0 y un tamaño de x2t =4. ˆyt = ˆβ0+ ˆβ1x1t+ ˆβ2x2t =0.595 d Var(ˆyt) = ˆsR2 (1+htt) =0.0060 (1+0.07649) =0.0065 ) ˆσ(ˆyt) =0.0803 IP90%(yt) = (0.595 1.7823 0.0803) = (0.595 0.143) = (0.452, 0.738)
Diagnosis del modelo
Diagnosis del modelo
Es importante recordar que las conclusiones obtenidas con este método se basan en las hipótesis básicas del modelo. Si alguna de estas hipótesis no es cierta, las conclusiones obtenidas pueden no ser …ables, o incluso totalmente erroneas.
En regresión simple y múltiple: Linealidad
Normalidad (homogeneidad) Homocedasticidad
Independencia
Hipótesis adicional en regresión múltiple:
Ninguna de las variables explicativas es combinación lineal de las demás.
En el caso de regresión múltiple es además de especial interés el fenómeno de la multicolinealidad (o colinearidad).
Diagnosis del modelo El problema de la multicolinealidad
El problema de la multicolinealidad
La estimación de los parámetros ^β= (X0X) 1X0Y requiere la
inversión de la matriz X0X .
Si una de las variables explicativas (variables independientes) es combinación lineal de las demás, la matriz será singular y el sistema no tendrá solución única.
Sin llegar a esta situación extrema, cuando algunas variables explicativas estén altamente correlacionadas entre sí, tendremos una situación de alta multicolinealidad.
En este caso las estimaciones de los parámetros pueden verse seriamente afectadas:
Los estimadores ˆβi tendrán varianzas muy altas (serán poco e…cientes).
Diagnosis del modelo El problema de la multicolinealidad
Fuente: Peña, D. Modelos lineales y series temporales.
Grandes cambios en los parámetros al modi…car ligeramente el modelo (añadir/eliminar una variable o una observación) Contraste de regresión signi…cativo (alto coe…ciente de determinación), pero contrastes individuales no signi…cativos.
Diagnosis del modelo El problema de la multicolinealidad
Detección de la multicolinealidad
Se utilizan varias medidas (nosotros las dos primeras): Tolerancia:
Si denotamos por:
Rj2 =RX2j.X
( j)
el coe…ciente de determinación del ajuste lineal de la variable
explicativa Xj en función del resto, se de…ne la tolerancia de la
variable Xj como:
Tolerancia(Xj) =1 Rj2,
i.e. proporción de variabilidad de la variable i-ésima que no se explica por el resto de las variables independientes. Valores pequeños, por ejemplo:
Tolerancia(Xj) <0.1
indicarían una posible multicolinealidad (cuidado, no tiene en cuenta la información que aporta para explicar la respuesta).
Diagnosis del modelo El problema de la multicolinealidad
Factor de in‡ación de la varianza (FIV): Se de…ne como el inverso de la tolerancia:
VIF(j) = 1
1 Rj2
La varianza de los coe…cientes en regresión simple (efecto global) es menor que en regresión múltiple (efecto parcial). Se puede ver que:
Var(efecto Xjen RLM) =VIF(j)Var(efecto Xjen RLS)
ˆS2 R
ˆS2 RLS(j)
dode ˆSRLS2 (j) es la varianza residual de la regresión simple de Y sobre
Xj. El factor de in‡ación de la varianza mide el incremento
debido a la multicolinealidad. Valores grandes, por ejemplo: VIF(j) >10
Diagnosis del modelo El problema de la multicolinealidad
Indice de condicionamiento:
Una medida de la singularidad de una matriz es el índice de condicionamiento:
IC =
r
máximo autovalor de la matriz
mínimo autovalor de la matriz 1
El valor de esta medida para X0X (aunque es preferible calcularlo
para la matriz de correlación de las variables explicativas) es una medida de la multicolineadidad entre las variables.
En general se suele admitir que:
IC >30)alta multicolinealidad.
10<IC 30)multicolinealidad moderada. IC <10)no hay multicolinelidad.
Diagnosis del modelo El problema de la multicolinealidad
Es recomendable generar un grá…co matricial y calcular la matriz de correlaciones: Correlaciones 1 ,842** ,919** ,000 ,000 24 24 24 ,842** 1 ,800** ,000 ,000 24 24 24 ,919** ,800** 1 ,000 ,000 24 24 24 Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Costes de distribución Ventas Ordenes Costes de
distribución Ventas Ordenes
La correlación es significativa al nivel 0,01 (bilateral). **.
Diagnosis del modelo El problema de la multicolinealidad
Tratamiento de la multicolinealidad
1 Cuando la recogida de los datos se diseñe a priori, se puede
evitar la presencia de multicolinealidad tomando las observaciones de
manera adecuada (de forma que X0X sea aprox. diagonal, i.e. valores
observados de las variables explicativas ortogonales), lo que aumenta considerablemente la precisión de la estimación (objetivo del diseño de experimentos).
2 Una vez que se detecta la presencia de multicolinealidad en la
muestra, se puede pensar en:
Eliminar variables explicativas (reduciendo el número de parámetros a estimar).
Añadir nuevos puntos de observación para las variables colineales que tiendan a disminuir la correlación entre ellas.
Utilizar métodos más so…sticados que solucionen el problema (como regresión por componentes principales, ).
Diagnosis del modelo Métodos para la selección de variables explicativas
Métodos para la selección de variables explicativas
Cuando se dispone de un conjunto grande de posibles variables explicativas suele ser especialmente importante determinar cuales de estas deberían ser incluidas en el modelo de regresión.
Si alguna de las variables no contiene información relevante sobre la respuesta no se debería incluir (no se complicaría la interpretación del modelo y se evitarían problemas como la multicolinealidad).
Se trataría entonces de conseguir un buen ajuste con el menor número de variables explicativas posibles.
Lo ideal sería evaluar todos los modelos posibles.
Si el número de variables es grande (no sería práctico evaluar todas las posibilidades) se suelen utilizar técnicas para su selección.
Diagnosis del modelo Métodos para la selección de variables explicativas
Los métodos que se suelen utilizar (muchas veces combinándolos) son: Selección progresiva (forward): Se parte de una situación en la que no hay ninguna variable y en cada paso se incluye una aplicando un criterio de entrada (hasta que ninguna de las restantes lo veri…can). Eliminación progresiva (backward): Se parte del modelo con todas las variables y en cada paso se elimina una aplicando un criterio de salida (hasta que ninguna de las incluidas lo veri…can).
Regresión paso a paso (stepwise): El más utilizado, se combina la selección progresiva con un criterio de salida. Se parte sin ninguna variable y en cada paso puede haber una inclusión y una exclusión (según criterios de entrada y salida).
Inclusión directa: El experimentador indica (según algún criterio:) cuales se incluyen en el modelo (generalmente se aplica a un subconjunto de variables y el resto se seleccionan por uno de los procedimientos anteriores).
Diagnosis del modelo Métodos para la selección de variables explicativas
Criterio de entrada
Se suele introducir la variable con mayor correlación parcial. Para cada una de la variables excluidas, se contrasta si al incluirlas producen un incremento signi…cativo en la proporción de variabilidad explicada:
Fi = (n k 1)
(R2 R 2)
1 R2 >FIN =F1,n k 1,1 αIN
donde k es el numero total de variables (i.e. el n de variables ya
incluidas más uno), R2 y R 2 son los coe…cientes de determinación
con (modelo completo) y sin (modelo reducido) la variable. (equivale a contrastar si su coe…ciente es distinto de cero).
Es necesario …jar un nivel de signi…cación αIN o un valor crítico FIN.
Entre todas las variables que lo producen se elige aquella con
mayor Fi (menor p-valor)
Diagnosis del modelo Métodos para la selección de variables explicativas
Criterio de salida
El criterio de salida es análogo. Para cada una de la variables
incluidas se contrasta si al eliminarlas no producen una disminución signi…cativa en la proporción de variabilidad explicada:
Fi = (n k 1)
(R2 R 2)
1 R2 FOUT =F1,n k 1,1 αOUT
donde k es el numero total de variables (i.e. el n de variables
incluidas), R2 y R 2 son los coe…cientes de determinación con
(modelo completo) y sin (modelo reducido) la variable. (equivale a contrastar si su coe…ciente es nulo).
Es necesario …jar un nivel de signi…cación αOUT o un valor crítico
FOUT.
Entre todas las variables que no producen una disminución
signi…cativa se elige aquella con menor Fi (mayor p-valor)
Diagnosis del modelo Métodos para la selección de variables explicativas
Si se utiliza el método de selección paso a paso, para prevenir que una variable sea introducida y eliminada repetidamente, debe veri…carse:
αOUT > αIN
(o equivalentemente FOUT <FIN).
Los métodos anteriores pueden dar lugar a distintos modelos.
Para comparar modelos con distinto número de variables explicativas es recomendable utilizar el coe…ciente de determinación ajustado. En cualquier caso debemos asegurarnos de que las variables incluidas en el modelo no estén relacionadas linealmente para evitar los inconvenientes de la multicolinealidad.
Diagnosis del modelo Observaciones
Observaciones
Sobre el resto de las hipótesis básicas del modelo, podrían hacerse las mismas observaciones que en el caso de regresión lineal simple:
La falta de linealidad "invalida" las conclusiones obtenidas (cuidado con las extrapolaciones).
La falta de normalidad tiene poca in‡uencia si el número de datos es su…cientemente grande (TCL). En caso contrario la estimación de la varianza, los intervalos de con…anza y los contrastes podrían verse afectados.
Si no hay igualdad de varianzas los estimadores de los parámetros no son e…cientes pero sí insesgados. Las varianzas, los intervalos de con…anza y contrastes podrían verse afectados.
La dependencia entre observaciones puede tener un efecto mucho más grave.
Diagnosis del modelo Residuos y datos atípicos
Residuos y datos atípicos
Se puede pensar en chequear hipótesis sobre la distribución de los errores teóricos a partir de la de los residuos:
e=Y Y^= (I H)Y (Var(e) =σ2(I H)). Residuos estandarizados: ri = ei ˆsR p 1 hii aprox . N(0, 1), Residuos estudentizados: ˜ri = ei ˆsR(i) p 1 hii tn k 2,
(ˆsR2(i) obtenida eliminando el dato i ) NOTA: ˜ri =ri
qn k 1
n k r2 i
Residuos eliminados: e(i)=yi ˆy(i)=
ei
1 hii
Diagnosis del modelo Residuos y datos atípicos
Un dato atípico (outlier) es una observación "rara" comparada con el resto de observaciones (anormalmente más grande o más pequeña de lo esperado).
Se detectan cuando el correspondiente residuo es un valor “inusual” (poco probable) en relación a la distribución asociada.
Un criterio general es considerar un valor atípico cuando:
jrij >2 ó 3.
Diagnosis del modelo Residuos y datos atípicos
Es recomendable generar un grá…co de residuos tipi…cados o estudentizados frente a predicciones o variables explicativas, para detectar falta de linealidad, heterocedasticidad, valores atípicos e in‡uyentes o el efecto de un factor omitido.
Diagnosis del modelo Residuos y datos atípicos
En regresión lineal múltiple no son de la misma utilidad los grá…cos de dispersión simple (p.e. grá…cos de dispersión matriciales) para detectar problemas. En su lugar se pueden hacer grá…cos parciales de residuos:
Si denotamos por eY .X( j) y eXj.X( j)los residuos resultantes de hacer
ajustes lineales para Y y Xj en función de X( j), se pueden representar los
pares de puntos:
eXj.X( j),i; eY .X( j),i
Diagnosis del modelo Observaciones in‡uyentes
Observaciones in‡uyentes
Si las conclusiones obtenidas dependen en gran medida de una observación (normalmente atípica), esta se denomina in‡uyente a posteriori y debe ser examinada con cuidado por el
experimentador.
Las observaciones candidatas a ser in‡uyentes a posteriori son
aquellas en las que xi está muy alejado del resto (i.e. de X), estas se
denominan in‡uyentes a priori.
Se pueden detectar comprobando si el valor de in‡uencia o leverage asociado es grande, p.e.:
hii =x0i X0X 1
xi >2
k+1
n
(también se puede utilizar la distancia de Mahalanobis). NOTA: n1 ∑ni=1hii = trazan(H) = k+n1 (H idempotente).
Diagnosis del modelo Observaciones in‡uyentes
Debe veri…carse si las observaciones in‡uyentes a priori lo son a posteriori. Además pueden producir multicolinealidad..
Las observaciones in‡uyentes a posteriori se pueden detectar si al eliminarlas hay variación en:
la estimación de los parámetros del modelo: ^β y ^β(i )
las predicciones de las observaciones: ^Y e ^Y(i ).
Un criterio bastante utilizado es considerar una observación in‡uyente a posteriori si: jDFFITSij = ˆyi ˆy(i)i ˆsR(i) p hii >2 r k n, NOTA: DFFITSi = ˜ri q hii
1 hii (equivalente al D-estadístico de Cook).
Diagnosis del modelo Alternativas
Alternativas
Cuando no se satisfacen los supuestos básicos puede llevarse a cabo una transformación de los datos para corregir falta de linealidad, la heterocedasticidad y/o falta de normalidad (normalmente estas últimas "suelen ocurrir en la misma escala").
Un grá…co dispersión-nivel puede ayudar a seleccionar la transformación en el caso de heterocedasticidad.
Si no se logra corregir la heterocedasticidad, puede ser adecuado utilizar mínimos cuadrados ponderados (habría que modelar la varianza).
Si no se cumple la hipótesis de independencia, se puede intentar modelar la dependencia y utilizar mínimos cuadrados generalizados. Si no se logra corregir la falta de linealidad se puede pensar en utilizar métodos no paramétricos (p.e. regresión aditiva no paramétrica).
Diagnosis del modelo Alternativas
Modelos aditivos
E(YjX) =β0+m1(X1) +m2(X2) + +mr(Xr),
con mi, i =1, ..., r , funciones cualesquiera
.
Hastie, T.J. y Tibshirani, R.J. (1990). Generalized Additive Models. Chapman &Hall.