Regresión lineal simple

Texto completo

(1)

Regresión lineal simple

Tema 6

Estadística 2

(2)

Introducción

Introducción

El análisis de regresión se ocupa del análisis de relaciones entre variables: Regresión: relación entre dos o más variables (1889, Francis Galton, Natural inheritance).

Correlación: grado/fuerza (y dirección) de la relación. NOTA: relación no implica en principio causalidad.

Notación:

Variable de interés o respuesta (o dependiente): Y

Variables explicativas (independientes o regresoras): Xj, j =1, ..., k.

(3)

Introducción

Posibles situaciones:

Relación exacta o funcional: las variable explicativas determinan totalmente el valor de la respuesta:

Y =m(X1, , Xk)

Independencia: las variable explicativas no aportan ninguna información sobre la la respuesta.

Relación estadística o estocástica: las variables explicativas permiten predecir en mayor o menor grado el valor de la respuesta:

Y =m(X1, , Xk) +ε

Se puede explicar la respuesta mediante una función ("efecto") de las variables explicativas, más un término de error o perturbación aleatoria, ε, que recoge el efecto conjunto de otras variables (no

directamente explicitadas en el modelo) cuyo efecto individual no resulta relevante.

(4)

Introducción Objetivos

Objetivos

A partir de una muestra:

f(X1i, , Xki, Yi): i =1, , ng

Estimar la función de regresión: m

Realizar inferencias sobre la distribución del error: ε

Predecir el valor de la respuesta (conociendo las variables explicativas)

Deteterminar la importancia de las variables explicativas para explicar la respuesta

Detectar valores atípicos

...

(5)

Introducción Ejemplos

Ejemplo

Una empresa de reparación de cierto tipo de componentes electrónicos pretende estudiar la relación entre el número de unidades defectuosas (variable explicativa, X) y el tiempo de reparación en minutos (variable de interés, Y). X Y 1 23 2 29 3 49 4 64 4 74 5 87 6 96 6 97 7 109 X Y 7 109 8 119 9 149 9 145 10 154 11 162 11 174 12 180 12 176

(6)

Introducción Ejemplos

Grá…co descriptivo: Diagrama de dispersión

(7)

Introducción Ejemplos

Ejemplo

Problema 4.3

Se pretende estudiar la relación entre el número de páginas de un documento (variable explicativa, X) y el tiempo de impresión en segundos (variable de interés, Y).

x y x y x y x y x y 1 24.56 17.33 28.07 23.16 22.53 14.70 17.81 19.41 2 29.92 17.14 37.25 31.90 31.80 41.72 24.59 3 28.86 30.01 44.73 44.43 41.32 34.16 28.79 4 29.03 45.00 54.38 47.63 44.34 48.95 53.52 30.11 5 52.55 69.50 55.61 52.98 65.70 40.11 45.21 46.63 6 65.39 57.48 62.85 69.09 71.44 57.29 50.42 7 85.33 66.73 78.94 61.07 78.34 88.25 68.17 76.71 64.84 8 83.82 75.38 69.40 84.42 80.68 60.79 100.08 74.79 9 82.90 105.73 102.13 119.82 93.93 102.30 10 79.82 90.83 83.81 71.79 76.30 89.00 76.20

(8)

Introducción Ejemplos

Grá…co descriptivo: Diagrama de dispersión

(9)

Introducción Clasi…cación de los modelos de regresión

Clasi…cación de los modelos de regresión

Según el muestreo/recogida de datos:

Diseño …jo: el experimentador controla el valor de las variables explicativas

Diseño aleatorio: las variables explicativas toman valores de forma aleatoria (el experimentador es un observador pasivo).

Según la metodología:

Paramétricos: se supone que la función (y la distribución del error) sólo depende de unos parámetros (habrá que veri…car si esta

suposición es adecuada para los datos).

No paramétricos: no se hace ’ninguna’suposición sobre la función que relaciona las variables.

Nos centraremos en el caso de regresión (paramétrica) lineal de diseño …jo:

(10)

El modelo de regresión lineal simple Modelo

Modelo

Consideramos el caso más simple: una variable respuesta Y y una variable explicativa X relacionadas linealmente:

Y =β0+β1X +ε

El objetivo principal es, a partir de una muestra:

f(xi ,Yi): i =1, , ng,

Yi = β0+β1xi +εi,

estimar la recta de regresión teórica: y =β0+β1x

(es decir, estimar los parámetros β0 y β1 ) y la distribución del error.

(11)

El modelo de regresión lineal simple Modelo

Establecemos (además de la relación lineal) las siguientes hipótesis acerca del modelo:

La variable explicativa se supone no aleatoria.

El término de error o perturbación aleatoria tiene media nula y varianza constante (desconocida):

E(εi) =0, Var(εi) =σ2 El error tiene distribución normal:

εi N(0, σ2)

Los errores son independientes, i.e. no existe correlación entre errores: Cov(εi, εj) =0, si i 6=j.

(12)

El modelo de regresión lineal simple Modelo Por tanto: Yi N β0+β1xi, σ2 Independientes linealidad normalidad homocedasticidad independencia NOTA: E(YjX =x) =β0+β1x

β0 = valor medio de Y cuando X es nula

β1 = ’incremento medio’de Y cuando X aumenta una unidad

(13)

El modelo de regresión lineal simple Modelo

Yi N β0+β1xi, σ2

(14)

Estimación de los parámetros

Estimación de los parámetros

Para la estimación de los parámetros del modelo: los coe…cientes de la recta de regresión, β0 y β1, la varianza de la distribución del error, σ2

se suele utilizar el método de mínimos cuadrados (o el de de máxima verosimilitud).

Como resultado obtendremos la recta de regresión mínimo cuadrática: ˆy = ˆβ0+ ˆβ1x

que estima el valor medio de Y , E(Yi) =β0+β1xi, para cada valor de X

(estima la recta de regresión teórica).

(15)

Estimación de los parámetros Estimación por mínimos cuadrados

Estimación por mínimos cuadrados

Los estimadores mínimo cuadráticos son los que minimizan la suma de los cuadrados de las diferencias entre los valores reales y las predicciones de la respuesta: ^β= (ˆβ 0, ˆβ1) =arg min β0β1 n

i=1 (Yi β0 β1xi)2.

Este problema de minimización se soluciona derivando e igualando a cero: 8 > < > : n ∑ i =1 2(yi (ˆβ0+ˆβ1xi))( 1) =0 n ∑ i =1 2(yi (ˆβ0+ˆβ1xi)( xi) =0 ) 8 > < > : n ∑ i =1 yi n ˆβ0 ˆβ1 ∑n i =1 xi=0 n ∑ i =1 xiyi ˆβ0 n ∑ i =1 xi ˆβ1 n ∑ i =1 xi2=0

(16)

Estimación de los parámetros Estimación por mínimos cuadrados Obteniéndose: ˆβ1 = SXY S2 X ˆβ0 = y ˆβ1x donde: ¯x = 1 n n

i=1 xi, ¯y = 1 n n

i=1 yi, Sx2 = 1 n n

i=1 (xi ¯x)2 = 1 n n

i=1 xi2 ¯x2 SXY = 1 n n

i=1 (xi ¯x) (yi ¯y) = 1 n n

i=1 xiyi ¯x ¯y

(17)

Estimación de los parámetros Estimación por mínimos cuadrados

Entonces la ecuación de la recta de regresión mínimo cuadrática de Y sobre X puede expresarse como:

ˆy = ¯y+SXY

SX2 (x ¯x) NOTAS:

La recta de regresión mínimo cuadrática siempre pasa por el punto

(¯x, ¯y).

La recta de regresión de Y sobre X , Y /X , no coincide con la recta de regresión de X sobre Y (salvo relación lineal perfecta).

Haciendo uso de la hipótesis de normalidad,se llega a las mismas expresiones al maximizar la función logarítmica de verosimilitud, por lo que estos estimadores coinciden con los estimadores

(18)

Estimación de los parámetros Ejemplo

Ejemplo

Tiempo de impresión n =75 ∑n i=1xi =408 ¯x =5.44 ∑n i=1xi2 =2818 sx2 = 281875 5.442 =7.98 ∑n i=1yi =4321.7 ¯y =57.623 ∑n i=1yi2 =296397 sy2 = 29639775 57.623 2 =631.586 ∑n i=1xiyi =28362.5 sxy = 28362.575 5.44 57.623=64.698 ˆy = ¯y+SXY SX2 (x ¯x) =57.623+ 64.698 7.98 (x 5.44) =13.515+8.108x

(19)

Estimación de los parámetros Ejemplo

ˆβ1 = SXY

SX2 =8.108

(20)

Estimación de los parámetros Varianza residual

Varianza residual

Sustituyendo x en la recta ajustada por el correspondiente valor de la variable explicativa se obtienen las predicciones; para la muestra observada:

ˆyi = ˆβ0+ ˆβ1xi

Las diferencias entre valores observados y predicciones: yi (ˆβ0+ ˆβ1xi) =yi ˆyi =ei

se denominan residuos (de media 0), a partir de los cuales podemos de…nir una medida de la variabilidad de los datos respecto a la recta:

SR2 = 1 n n

i=1 (yi ˆyi)2= 1 n n

i=1 ei2

que es un estimador sesgado de la varianza del error σ2 (estimador de

máxima verosimilitud).

(21)

Estimación de los parámetros Varianza residual

Un estimador insesgado de la varianza es: ˆS2 R = 1 n 2 n

i=1 (yi ˆyi)2 = SSR n 2

que denominaremos varianza residual. NOTAS:

De las ecuaciones canónicas se deduce que los residuos veri…can dos restricciones (∑ ei =0 y∑ eixi =0).

Para el cálculo en la práctica, se puede emplear:

SSR = n

i=1 ei2 = n

i=1 yi2 ˆβ0 n

i=1 yi +ˆβ1 n

i=1 xiyi !

(22)

Estimación de los parámetros Varianza residual

Ejemplo

Tiempo de impresión

ˆyi =13.515+8.108xi

xi ˆyi xi ˆyi xi ˆyi xi ˆyi xi ˆyi

1 21.623 3 37.839 5 54.055 7 70.271 9 86.487 2 29.731 4 45.947 6 62.163 8 78.379 10 94.595 SSR = 75

i=1 ei2 = 75

i=1 (yi ˆyi)2 = 75

i=1 (yi (13.515+8.108xi))2 =8025.61 SSR = 75

i=1 yi2 ˆβ0 75

i=1 yi + ˆβ1 75

i=1 xiyi ! = = 296397 13.515 4321.7 8.108 28362.5'8026 ˆsR2 = SSR n 2 = 8025.61 73 =109.94

(23)

Estimación de los parámetros Distribución los estimadores

Distribución los estimadores de los parámetros

Los estimadores de los coe…cientes se pueden expresar como una combinación lineal de los valores de la variable respuesta:

ˆβ1 = n ∑ i=1 (xi ¯x) n ∑ i=1 (xi ¯x)2 yi = n

i=1 aiyi ˆβ0 = ¯y ¯x ˆβ1 = n

i=1 1 n ¯xai yi = n

i=1 biyi

a partir de las cuales se pueden deducir fácilmente sus propiedades principales:

Normalidad: Tienen una distribución normal por ser combinación lineal de variables aleatorias normales (independientes).

(24)

Estimación de los parámetros Distribución los estimadores Insesgadez: E ˆβ1 = n

i=1 aiE(yi) = β1 E ˆβ0 = n

i=1 biE(yi) =β0 Varianzas: Var ˆβ1 = n

i=1 a2iVar(yi) = σ2 nSX2 Var ˆβ0 = n

i=1 b2iVar(yi) =σ2 1 n + ¯x2 nS2 X Cov ˆβ0, ˆβ1 = n

i=1 aibiVar (yi) = ¯x σ2 nS2 x

E…ciencia (Teorema de Gauss-Markov): ˆβj, j =1, 2, tiene la mínima

varianza entre los estimadores lineales insesgados.

(25)

Estimación de los parámetros Distribución los estimadores

Generacion datos (Click!)

ˆβ0 N β0, σ2 1 n + ¯x2 nS2 X ˆβ1 N β1, σ 2 nS2 X

(26)

Estimación de los parámetros Distribución los estimadores Equivalentemente: ˆβ1 β1 σ 1 SXpn N(0, 1) ˆβ0 β0 σ s 1 n + ¯x2 nSX2 N(0, 1)

Además se puede ver que:

(n 2)ˆSR2 σ2 = SSR σ2 χ 2 n 2

(independiente de los estimadores de los coe…cientes).

(27)

Estimación de los parámetros Distribución los estimadores

Estos resultados permiten obtener estimaciones por intervalo de con…anza y realizar contrastes de hipótesis para los distintos parámetros.

Teniendo en cuenta que:

ˆβ1 β1 ˆSR 1 SXpn tn 2 ˆβ0 β0 ˆSR s 1 n + ¯x2 nS2 X tn 2

(28)

Estimación de los parámetros Intervalos de con…anza para los parámetros

Intervalos de con…anza para los parámetros

A partir de los estadísticos anteriores: ˆβi βi ˆσ ˆβi tn 2, i =0, 1 donde: ˆσ2 ˆβ0 = ˆSR2 1 n + ¯x2 nS2 X ˆσ2 ˆβ1 = ˆS 2 R nS2 X

Se obtienen los intervalos de con…anza de nivel 1 α para los coe…cientes

de la recta de regresión:

IC(1 α)(βi) = ˆβi tn 2,1 α

2ˆσ ˆβi , i =0, 1.

(29)

Estimación de los parámetros Intervalos de con…anza para los parámetros

A partir del estadístico:

(n 2)ˆSR2 σ2 = SSR σ2 χ 2 n 2

se obtiene el correspondiente intervalo de con…anza para la varianza:

IC(1 α) σ2 = (n 2)ˆS 2 R χ2n 2,1 α 2 ,(n 2)ˆS 2 R χ2n 2,α 2 ! = SSR χ2n 2,1 α 2 , SSR χ2n 2,α 2 ! .

(30)

Estimación de los parámetros Intervalos de con…anza para los parámetros

Ejemplo

Tiempo de impresión

Intervalo de con…anza para β1 al 90%:

ˆβ1 β1 ˆσ ˆβ1 tn 2 ) 0.9=P t73,0.05 = t73,0.95 ˆβ1 β1 ˆσ ˆβ1 t73,0.95 ! = P ˆβ1 t73,0.95ˆσ ˆβ1 β1 ˆβ1+t73,0.95ˆσ ˆβ1 ˆσ2(ˆβ1) = ˆs 2 R ns2 x = 109.94 75 7.9797 =0.1837) ˆσ(ˆβ1) =0.4286 IC90%(β1) = (8.108 1.6664 0.4286) = (8.108 0.7142) = (7.3938, 8.8222)

(31)

Estimación de los parámetros Intervalos de con…anza para los parámetros

Intervalo de con…anza para β0 al 90%:

ˆσ2(ˆβ0) = ˆs 2 R n 1+ ¯x2 s2 x = 109.94 75 1+ 5.442 7.9797 =6.9022 ) ˆσ(ˆβ0) =2.6272 IC90%(β1) = (13.515 1.6664 2.6272) = (13.515 4.378) = (9.137, 17.893)

Intervalo de con…anza para σ2 al 90%:

SSR σ2 χ 2 n 2 )0.9=P χ273,0.05 SSR σ2 χ 2 73,0.95 = P SSR χ273,0.95 σ 2 SSR χ273,0.05 ! IC90% σ2 = 8025.61 94.059 , 8025.61 54.325 = (85.325, 147.735)

(32)

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

Contrastes de hipótesis sobre los parámetros

Procediendo de la forma habitual se pueden realizar contrastes de hipótesis sobre los parámetros.

Por ejemplo, al contrastar si uno de los coe…cientes es nulo: (

H0(i): βi =0 H1(i): βi 6=0

aceptaríamos la hipótesis nula si el valor observado del estadístico: T0i = ˆβi

ˆσ ˆβi

tn 2, si H0 cierta,

pertenece a la región de aceptación: R.A.= tn 2,1 α

2, tn 2,1 α2 .

(33)

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

El nivel crítico del test o p-valor sería:

p =2P tn 2 t0i .

(probabilidad de obtener un resultado tan extraño o más que el observado bajo H0).

Cuanto mayor sea este nivel crítico (comparado con α) más seguros estaremos en la aceptación de la hipótesis nula y viceversa.

El contraste:

H0 : β0=0

H1 : β0 6=0

podría ’permitir’simpli…car el modelo si aceptamos que la recta de regresión pasa por el origen.

(34)

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

Es de especial interés el contraste:

H0 : β1=0

H1 : β1 6=0

que equivaldría a contrastar la existencia de relación lineal entre las variables X e Y (contraste de regresión).

Otra forma más natural de realizar este contraste es el análisis de la varianza en regresión lineal simple.

(35)

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

Ejemplo

Tiempo de impresión ( H0(1): β1 =0 H1(1): β1 6=0 T01 = ˆβ1 β1 ˆσ ˆβ1 jH0 = ˆβ1 ˆσ ˆβ1 Sup. H0 cierta tn 2 t01 = 8.108 0.4286 =18.917 ) p valor =P(jt73j >18.917) <0.001 ) Se acepta β16=0

(36)

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros ( H0(0): β0 =0 H1(0): β0 6=0 T00 = ˆβ0 ˆσ ˆβ0 Sup. H0cierta tn 2 t00 = 13.515 2.6272 =5.144 ) p valor =P(jt73j >5.144) <0.001 ) Se acepta β0 6=0

(37)

Bondad del ajuste El contraste de regresión

Bondad del ajuste: El contraste de regresión

A partir de la descomposición

(yi ¯y) = (yi ˆyi) + (ˆyi ¯y),

se obtiene la identidad de la suma de cuadrados de la regresión lineal simple: n

i=1 (yi ¯y)2 = n

i=1 (ˆyi ¯y)2+ n

i=1 (yi ˆyi)2 SST = SSE +SSR VT = VE +VR variabilidad total = variabilidad explicada por la regresión + variabilidad residual

(38)

Bondad del ajuste El contraste de regresión

VE =VT (VR =0) )Ajuste perfecto

VE =0 (VR =VT) )No explica nada ˆy = ˆβ0 = ¯y

(39)

Bondad del ajuste El contraste de regresión

Los valores esperados de las sumas de cuadrados dependen del número de sumandos, es preferible utilizar otras medidas de variabilidad: varianzas. Dividiendo las sumas de cuadrados por los correspondientes grados de libertad (numero - restricciones que veri…can los sumandos) se obtienen las varianzas o cuadrados medios:

ˆS2 Y = MST = SST n 1 = 1 n 1 n

i=1 (yi ¯y)2 ˆS2 E = MSE = SSE 1 = n

i=1 (ˆyi ¯y)2 ˆS2 R = MSR = SSR n 2 = 1 n 2 n

i=1 (yi ˆyi)2

(40)

Bondad del ajuste El contraste de regresión

Para contrastar la hipótesis nula de que no hay una relación lineal entre las dos variables se puede utilizar también el cociente:

F0 = MSE MSR = ˆS 2 E ˆS2 R F1,n 2, si H0 cierta,

que tiende a tomar valores grandes cuando la hipótesis nula es falsa.

Se rechaza H0 al nivel de signi…cación α si:

ˆ

F0 =

msE

msR

>F1,n 2,1 α. El nivel crítico del test o p-valor será:

p =P F1,n 2 Fˆ0 .

(41)

Bondad del ajuste El contraste de regresión

Los resultados normalmente se presentan en la tabla ANOVA de regresión lineal simple: Fuente de variación SS gl MS F p-valor Regresión ssE 1 msE =ss1E Fˆ0=msmsE R p Residual ssR n 2 msR = ssR n 2 Total ssT n 1 msT =n 1ssT

(42)

Bondad del ajuste El contraste de regresión

NOTAS:

Si aceptamos la hipótesis nula del contraste de regresión, aceptamos que no hay relación lineal entre las variables, lo cual podría ser debido a que las variables son independientes o que la relación no es lineal.

Si para cada valor xi de la variable explicativa X se dispone de varios

valores de la respuesta se puede contrastar si las medias en cada uno de estos niveles siguen una relación lineal (ver también el contraste de linealidad de los efectos descrito en el capítulo 3).

Otra alternativa (que no requiere multiples observaciones) sería emplear técnicas de inferencia estadística no paramétrica.

(43)

Bondad del ajuste El contraste de regresión

Ejemplo

Tiempo de impresión SSR = 75

i=1 ei2 = 75

i=1 (yi ˆyi)2 = 75

i=1 yi2 ˆβ0 75

i=1 yi+ ˆβ1 75

i=1 xiyi ! = 8025.61 SST = 75

i=1 (yi ¯y)2 = 75

i=1 yi2 75 ¯y2 = 296397 75 57.6232 =47368.95 SSE = 75

i=1 (ˆyi ¯y)2 =SST SSR = 47368.95 8025.61=39343.34

(44)

Bondad del ajuste El contraste de regresión F. var. SS gl MS F p-valor Explicado 39343.34 1 39343.34 357.86 p<0.001 Residual 8025.61 73 109.94 Total 47368.95 74 640.12 F1,73,0.95 '3.98 357.86 p =P(F1,73 >357.86) <0.001

(45)

Bondad del ajuste Los coe…cientes de determinación y correlación

El coe…ciente de determinación

Una medida de la bondad del ajuste (evaluación global de la recta de regresión) es el coe…ciente de determinación:

R2 = VE VT = n ∑ i=1 (ˆyi ¯y)2 n ∑ i=1 (yi ¯y)2 = 1 VR VT =1 (n 2)ˆS 2 R (n 1)ˆS2 Y

que es la proporción de variación (en la respuesta) explicada por la regresión.

Se veri…ca que 0 R2 1 :

Si R2 =1 todas las observaciones están en la recta de regresión (lo

explica todo)

(46)

Bondad del ajuste Los coe…cientes de determinación y correlación

El coe…ciente de correlación

Otra interpretación del coe…ciente de determinación se puede dar a partir del conocido coe…ciente de correlación lineal de Pearson.

Teniendo en cuenta que

ˆyi = ¯y+ ˆβ1(xi ¯x),

se puede expresar el coe…ciente de determinación como: R2 = ˆβ21S 2 X S2 Y = S 2 XY S2 XSY2 ,

que resulta ser el cuadrado del coe…ciente de correlación lineal de Pearson:

r = SXY

SXSY

(47)

Bondad del ajuste Los coe…cientes de determinación y correlación

r = 1 r =1

relación lineal negativa relación lineal positiva

Y disminuye cuandoX aumenta Y aumenta cuando X aumenta

(48)

Bondad del ajuste Los coe…cientes de determinación y correlación

r =0

poca/ninguna relación lineal relación no lineal

NOTA:

r =0,SXY =0, ˆβ1=0

(49)

Bondad del ajuste Los coe…cientes de determinación y correlación

El coe…ciente de correlación lineal r es el estimador muestral del coe…ciente de correlación lineal poblacional:

ρ= σXY

σXσY

. Sería interesante contrastar:

H0 : ρ=0

H1 : ρ6=0

Para ello se podría emplear el siguiente estadístico:

rpn 2

p

1 r2 tn 2,

aunque para tamaños muestrales relativamente grandes (n>30),

σ(r)'1/pn, por lo que podemos rechazar H0 si:

jrj > p2 n.

(50)

Bondad del ajuste Los coe…cientes de determinación y correlación

Ejemplo

Tiempo de impresión R2= ssE ssT = 39343.34 47368.95 =0.83

La recta ajustada explica un 83% de la variabilidad de la respuesta )

buen ajuste r = sxy sxsy = 64.6995 2.82484 25.1313 =0.9113= p 0.83 jrj > p2 n = 2 p 75 =0.231)correlación signi…cativa

(51)

Predicción

Predicción

Entre los objetivos de un análisis de regresión pueden estar:

Estimar la media de la distribución de la respuesta para un cierto valor x0 de X ,

i.e. estimar m0 =E(YjX =x0)( = β0+β1x0).

Predecir futuros valores de la respuesta en x0,

i.e. predecir Y0 = YjX =x0

Se puede pensar que en el primer caso se intenta estimar el valor medio a largo plazo (de un gran número de experimentos realizados con el valor

x0), mientras que en el segundo caso se intenta predecir el resultado de

un solo experimento.

La estimación puntual de la media y la predicción de la respuesta se

obtienen sustituyendo en la recta de regresión el valor de x por x0:

ˆ

(52)

Predicción

Ejemplo

(53)

Predicción Estimación de la media condicionada

Estimación de la media condicionada

El estimador ˆm0 =by0 = ˆβ0+ ˆβ1x0 =y+ ˆβ1(x0 x),sigue una

distribución normal de parámetros:

E(mˆ0) = β0+β1x0 =m0 Var(mˆ0) = σ2 1 n+ (x0 ¯x)2 nS2 X = σ 2 n0 donde: n0 = n 1+ x0 ¯x SX 2

n0 es un coe…ciente positivo que depende únicamente de la distancia

estandarizada del punto x0 a la media ¯x, denominado número equivalente

(54)

Predicción Estimación de la media condicionada

Observaciones:

Los datos proporcionan la misma información para estimar m0 que

una muestra de tamaño n0 univariante para estimar su media.

Cuando se realiza una interpolación (estimación dentro del rango de

valores observados de X ): 1 n0 n (=n si x0 = ¯x).

Cuando se extrapola: n0 !0 ( no hay información sobre la

respuesta). Se veri…ca que: ˆ m0 m0 σ pn 0 N(0, 1).

(55)

Predicción Estimación de la media condicionada

Sustituyendo la varianza desconocida por su estimador insesgado, obtenemos el estadístico pivote:

ˆ m0 m0 ˆSR pn 0 = mˆ0 m0 ˆSRph00 tn 2,

a partir del cual podríamos construir intervalos de con…anza: IC(1 α)(m0) = mˆ0 ˆSR pn 0 tn 2,1 α 2 o realizar contrastes.

(56)

Predicción Predicción de una nueva observación

Predicción de una nueva observación

El predictor by0 = ˆβ0+ ˆβ1x0, sigue una distribución normal y tiene como

media y varianza de predicción (error cuadrático medio de predicción): E(by0) = β0+β1x0 = E(y0) E (y by0)2 = Var(y) +Var(by0) = σ2 1+ 1 n0 = σ2(1+h00)

De donde se deduce que:

by0 y0 σ r 1+n1 0 N(0, 1)

(57)

Predicción Predicción de una nueva observación

Sustituyendo la varianza desconocida por su estimador insesgado, obtenemos: by0 y0 ˆSR r 1+ n1 0 = by0 y0 ˆSR p 1+h00 tn 2,

a partir del cual podríamos construir intervalos de predicción:

IP(1 α)(y0) = by0 ˆSR s 1+ 1 n0 tn 2,1 α 2 ! .

(58)

Predicción Predicción de una nueva observación

Cuidado con extrapolaciones

(59)

Predicción Predicción de una nueva observación

Ejemplo

Tiempo de impresión

Intervalos de con…anza al 90% para el tiempo medio de impresión de los

trabajos de 6 hojas mt =E(Y /X =6) ˆ mt =13.515+8.108xt =13.515+8.108 6=62.163 htt = 1 n 1+ xt ¯x sX 2! = 1 75 1+ 6 5.44 2.82484 2! = 1 75 1+0.1982 2 =0.013857 ) nt = 1 htt

(60)

Predicción Predicción de una nueva observación d Var(mˆt) = ˆsR2 nt = 109.94 72.1651 =1.5235 ) ˆσ(mˆt) =1.2343 mt mˆt ˆσ(mˆt) t73 ) IC90%(mt) = (62.163 t73,0.95 1.2343) = (62.163 1.6664 1.2343) = (62.163 2.0568) = (60.106, 64.219)

(61)

Predicción Predicción de una nueva observación

Intervalo de predicción al 90% para el tiempo de impresión de un trabajo

que tiene 6 hojas Y /X =6

ˆyt =13.515+8.108xt =13.515+8.108 6=62.163 d Var(ˆyt) = ˆsR2 nt +ˆsR2 = 109.94 72.1651+109.94=111.4635 ) ˆσ(ˆyt) =10.5576 IP90%(yt) = (62.163 1.6664 10.5576) = (62.163 17.593) = (44.569, 79.756)

(62)

Diagnosis del modelo

Diagnosis del modelo

Es importante recordar que las conclusiones obtenidas con este método se basan en las hipótesis básicas del modelo:

Linealidad

Normalidad (homogeneidad) Homocedasticidad

Independencia

Si alguna de estas hipótesis no es cierta, las conclusiones obtenidas pueden no ser …ables, o incluso totalmente erroneas. Es importante veri…car si las hipótesis básicas del modelo son adecuadas para los datos: Diagnosis del modelo.

Para ello se pueden emplear desde métodos descriptivos (p.e. el grá…co de dispersión simple) hasta contrastes de hipótesis, como por ejemplo los descritos en el capítulo 1 (aplicados sobre los residuos).

DE FORMA ANÁLOGA A LOS MÉTODOS ANOVA.

(63)

Diagnosis del modelo Observaciones

Observaciones

La falta de linealidad "invalida" las conclusiones obtenidas (cuidado con las extrapolaciones).

La falta de normalidad tiene poca in‡uencia si el número de datos es su…cientemente grande (TCL). Los estimadores de los parámetros no son óptimos pero sí insesgados (blue). Si el número de observaciones es pequeño, y la distribución de los residuos dista mucho de la normalidad (p.e. muy asimétrica), la estimación de la varianza, los intervalos de con…anza y los contrastes pueden verse seriamente afectados.

Si no hay igualdad de varianzas los estimadores de los parámetros tampoco son e…cientes pero sí insesgados (no blue), in‡uye sobre todo en las varianzas (y por tanto en los intervalos de con…anza y contrastes).

La dependencia entre observaciones puede tener un efecto mucho más grave.

(64)

Diagnosis del modelo Observaciones

En regresión lineal simple se pueden detectar fácilmente si hay algún problema en el grá…co de dispersión:

(65)

Diagnosis del modelo Observaciones

(66)

Diagnosis del modelo Residuos, datos atípicos e in‡uyentes

Residuos, datos atípicos e in‡uyentes

Se puede pensar en chequear hipótesis sobre la distribución de los errores teóricos a partir de la de los residuos ei =yi ˆyi.

Como Var(ei) =Var(yi) Var(ˆyi) =σ2(1 hii), los residuos no

son homocedásticos (tampoco independientes). Los residuos estandarizados:

ri =

ei

ˆsRp1 hii

,

deberían seguir una distribución próxima a la normal estandar (aprox. tn 2).

Como ˆsR2 depende de ei, los residuos estudentizados:

˜ri = ei ˆsR(i) p 1 hii tn 3,

(tienen una distribución exacta conocida), donde ˆsR2(i) es la varianza residual obtenida eliminando el dato i de la muestra.

(67)

Diagnosis del modelo Residuos, datos atípicos e in‡uyentes

Un dato atípico (outlier) es una observación "rara" comparada con el resto de observaciones (anormalmente más grande o más pequeña de lo esperado).

En regresión lineal simple se detectan fácilmente en el grá…co de dispersión.

Se detectan también cuando el correspondiente residuo es un valor “inusual” (poco probable) en relación a la distribución asociada. Un criterio general es considerar un valor atípico cuando:

jrij >2 ó 3.

(o preferiblemente utilizar j˜rij >tn 3,1 γ).

Si las conclusiones obtenidas dependen en gran medida de una observación (normalmente atípica), esta se denomina in‡uyente (a posteriori) y debe ser examinada con cuidado por el

(68)

Diagnosis del modelo Residuos, datos atípicos e in‡uyentes

Las observaciones candidatas a ser observaciones in‡uyentes a

posteriori, son las que tienen un valor xi muy alejado del resto (i.e. de

¯x), estas se denominan in‡uyentes a priori. Deben chequearse por si son in‡uyentes a posteriori.

Para detectar datos in‡uyentes puede se pueden utilizar los residuos eliminados:

e(i) =yi ˆy(i) =

ei

1 hii

,

donde ˆy(i) es la predicción obtenida eliminando el dato i de la

muestra, que distarán notablemente de ei en la observaciones

in‡uyentes a posteriori.

(69)

Diagnosis del modelo Residuos, datos atípicos e in‡uyentes

(70)

Diagnosis del modelo Residuos, datos atípicos e in‡uyentes

Es recomendable generar un grá…co de residuos tipi…cados o estudentizados frente a predicciones, para detectar falta de linealidad, heterocedasticidad, valores atípicos (falta de normalidad) e in‡uyentes, o el efecto de un factor omitido: mala especi…cación del modelo.

(71)

Diagnosis del modelo Alternativas

Alternativas

Cuando no se satisfacen los supuestos básicos puede llevarse a cabo una transformación de los datos para corregir falta de linealidad, la heterocedasticidad y/o falta de normalidad (normalmente estas últimas "suelen ocurrir en la misma escala").

Un grá…co dispersión-nivel puede ayudar a seleccionar la

transformación en el caso de heterocedasticidad (p.e. crear un factor que de…na grupos según percentiles de las predicciones y proceder de modo similar al ANOVA I).

Si no se logra corregir la heterocedasticidad, puede ser adecuado utilizar mínimos cuadrados ponderados (habría que modelar la varianza).

Si no se cumple la hipótesis de independencia, se puede intentar modelar la dependencia y utilizar mínimos cuadrados generalizados.

(72)

Diagnosis del modelo Alternativas

Ejemplo: transformaciones para linearizar

.

Resumen del modelo y estimaciones de los parámetros Variable dependiente: Tiempo de reparación (minutos)

,907 204,976 1 21 ,000 36,075 9,956 ,940 330,557 1 21 ,000 -19,339 73,938 ,967 611,537 1 21 ,000 22,204 ,801 ,753 64,121 1 21 ,000 44,986 ,097 Ecuación Lineal Logarítmica Potencia Exponencial R cuadrado F gl1 gl2 Sig. Resumen del modelo

Constante b1 Estimaciones de los

parámetros

La variable independiente esUnidades defectuosas.

Logaritmico y = β0+β1ln x Potencial y =β0x β1 ln y =ln β0+β1ln x Exponencial y = β0e β1x ln y =ln β0+β1x

(73)

Diagnosis del modelo Alternativas

Otra alternativa sería ajustar un modelo polinómico (regresión múltiple): y = β0+β1x+β2x2

Figure

Actualización...

Referencias

Actualización...