TEMA 14.- EL MODELO DE REGRESIÓN LINEAL SIMPLE

(1)

Tema 14. El modelo de regresión lineal simple 260

TEMA 14.- EL MODELO DE REGRESIÓN LINEAL SIMPLE

- Asociación entre variables numéricas.

Covarianza y correlación.

- Modelos de regresión.

- Regresión simple

- Estimación de los parámetros del modelo.

- Significación del modelo. Tabla ANOVA.

- Adecuación del modelo.

(2)

Asociación entre variables numéricas

 En la mayoría de los problemas de interés interviene más de una variable.

 Los estudios univariantes para cada variable son insuficientes.

 El interés principal es el estudio de las relaciones entre las variables presentes en el problema.

Suelen buscarse relaciones lineales entre las variables:

 Es el tipo de relación más simple.

 Muchas relaciones no lineales pueden linealizarse a través de transformaciones.

COVARIANZA: ⁽ ⁾⁽ ⁾ ^.

1 1 1

1 x X y Y x y XY

S

n

i

i n i

i n

i n i

XY

 











Justificación como medida de asociación:

El producto ⁽xi X⁾⁽yi Y⁾ es >0 en los cuadrantes 1 y 3; <0 en el 2 y 4. La covarianza es el promedio de estos productos. Su signo indica la dirección que prevalece.

Asociación creciente: SXY>0. Ausencia de asociación: SXY0. Asociación decreciente: SXY<0.



 +

+



 +

+

) , (X Y



 +

+

) , (X Y

 0

S XY S_XY  0 S_XY  0

(3)

Defectos:

 Tiene unidades: La covarianza se mide en unidades uXuY. Sin embargo, el “grado” de asociación entre dos variables no debería depender de las unidades en que las midamos (cambios de escala lineales). Los cambios de localización no afectan a la covarianza.

  

    _{ }   

X aX b

Y cY d S_{X Y} acS_XY (a 0,c 0)

 Sólo indica el sentido de la asociación a través del signo.

COEFICIENTE DE CORRELACIÓN MUESTRAL:

    

  _   ^





 









 











 









 ⁿ

i Y

i X

i n

i i n

i

i i

Y X

XY

XY S

Y y S

X x Y n

y X

x

Y y X x S

S Y S X r r

1 1

2 1

2

1 1

,

es decir, la covarianza entre las variables tipificadas.

Propiedades:

 Adimensionalidad: No tiene unidades.

 Invariancia frente a cambios de localización y escala (transformaciones lineales):

) 0 ,

0 (

,       



  aX b Y cY d r _ _ r a c

X _X_Y _XY

Los cambios de unidades (cambios de escala) no deben influir en la medida de asociación lineal ya que la asociación es la misma estén los datos medidos en metros o en centímetros (por ejemplo).

(4)

 Acotación entre -1 y 1.

r_XY  1

Si la medida no estuviera acotada no sabríamos qué valores serían altos y qué valores serían bajos.

Interpretación:

-La medida del grado de asociación lineal la da el valor absoluto rXY.

- r_XY próximo a 1 significa asociación lineal importante.

- r_XY próximo a 0 significa asociación lineal débil.

-El sentido de asociación lineal (creciente o decreciente) lo da el signo, que es el mismo que el de la covarianza.

 r_XY=0  Ausencia de relación lineal. La ausencia de relación lineal no implica la inexistencia de relación entre las variables, que puede ser diferente a la lineal.

 r_XY=1  Asociación lineal exacta. El valor absoluto del coeficiente de correlación es 1 si y sólo si los puntos (xi,yi), i=1,...,n están alineados sobre una recta, cuya ecuación es ésta:

 

y Y r S

S x X

XY Y X

   .

(recta que pasa por

 

^{X Y}^, con pendiente ^XY ^Y

X

r S

S ; tiene el mismo signo que rXY y que SXY).

(5)

 El coeficiente de correlación tiene que ir siempre acompañado de un plot XY (nube de puntos) para su correcta interpretación.

- Puede haber un coeficiente de correlación alto y no existir en absoluto asociación lineal

- Puede haber un coeficiente de correlación bajo por culpa de un sólo punto que rompe la tendencia.

Para todos estos conjuntos de datos el coeficiente de correlación es r_XY=0.7.

(6)

Modelos de regresión

ANÁLISIS DE REGRESIÓN: Técnica estadística para modelar e investigar la relación de una variable (Y) con otra u otras variables (X1, X2, …, Xk).

Y ^ X1, X2, …, Xk ¿ Cómo afectan a Y los cambios en las Xi ?

 Y: Variable Respuesta o variable dependiente.

Es una variable aleatoria. Es la variable de interés en el problema.

 X₁, X₂, …, X_k: Regresores o variables independientes.

Aportan información sobre la variabilidad de Y. El experimentador controla sus valores y los cambia de diferentes maneras para ver el efecto que producen en Y.

INTERÉS DEL ANÁLISIS DE REGRESIÓN:

1. Conocimiento del modelo.

Averiguar el tipo de relación (lineal, polinómica, …). Medir la fuerza de la relación.

Comprender el papel y la importancia de cada variable explicativa.

2. Predicción de observaciones futuras.

Pronosticar, con unos márgenes de confianza, el valor que se obtendrá para Y con ciertos valores de las X’s.

3. Optimización.

Averiguar los valores de las X’s que proporcionan el “mejor valor” para la Y.

(7)

Ejemplos de problemas de regresión

EJEMPLO 1. MODELO PARA EXPLICAR EL RENDIMIENTO DE UN PROCESO QUÍMICO Y: Rendimiento del proceso

X’s: Temperatura, Presión, Humedad relativa, Tiempo de operación, Operario que controla el proceso, …

EJEMPLO 2. MODELO PARA EXPLICAR LAS RETRIBUCIONES DE LOS EMPLEADOS DE UNA EMPRESA

Y: Retribuciones

X’s: Edad, Titulación, Experiencia, Puesto, Grado de responsabilidad, Jornada laboral, …

EJEMPLO 3. MODELO PARA EXPLICAR EL PRECIO DE ALQUILER DE VIVIENDAS EN UNA CIUDAD.

Y: Precio de alquiler

X’s: Características físicas (Superficie, Altura, Número de habitaciones, Orientación, … ), Antigüedad del edificio, Situación geográfica, …

EJEMPLO 4. MODELO PARA EXPLICAR EL RENDIMIENTO ACADÉMICO DE LOS ESTUDIANTES.

Y: Nota media del expediente académico

X’s: Estudios que realiza, Nota de selectividad, Indice de asistencia a clase, Tiempo medio diario dedicado al estudio, …

(8)

Naturaleza de los modelos de regresión

La variabilidad de la variable respuesta Y depende de muchas causas o factores (quizás infinitas):

MODELOS DE REGRESIÓN LINEAL:

La relación entre la respuesta y los regresores es lineal.

 Regresión lineal simple:

 Regresión lineal múltiple:

PRIMER OBJETIVO: Estimar los parámetros ’s de la ecuación.

JUSTIFICACIÓN DE LOS MODELOS LINEALES:

 Simplicidad y facilidad de manejo.

 Modelos linealizables mediante transformaciones.

 Cualquier función “regular” se puede aproximar localmente por funciones lineales.

Pocas causas importantes observables y controlables

Muchas causas no observables, desconocidas o incontrolables X1, X2, …, Xk, Xk+1, Xk+2, …

Y = f(X1, X2, …, Xk) + g(Xk+1, Xk+2, … )

Y = f(X₁, X₂, …, X_k) +  perturbación aleatoria

Y = ₀+₁X + 

Y = ₀+₁ X₁+ ₂X₂+ … + _kX_k + 

(9)

NIVEL DE HIDROCARBUROS (%)

PUREZA DEL OXIGENO (%) ^0,87 ^1,07 ^1,27 ^1,47 ^1,67

87 90 93 96 99 102

Caso Nivel de Hidrocarburos

X (%)

Pureza de Oxígeno

Y (%)

1 0,99 90,01

2 1,02 89,05

3 1,15 91,43

4 1,29 93,74

5 1,46 96,73

6 1,36 94,45

7 0,87 87,59

8 1,23 91,77

9 1,55 99,42

10 1,40 93,65

11 1,19 93,54

12 1,15 92,52

13 0,98 90,56

14 1,01 89,54

15 1,11 89,85

16 1,20 90,39

17 1,26 93,25

18 1,32 93,41

19 1,43 94,98

20 0,95 87,33

EJEMPLO:

Proceso químico de destilación.

Se quiere estudiar la relación entre la PUREZA DEL OXIGENO (Y) producido en un proceso químico de destilación y el NIVEL DE HIDROCARBUROS (X) presentes en el condensador principal de la unidad de destilación.

Se realizan n=20 observaciones y se anotan los valores de las variables (X,Y)=(x_i,y_i), i=1, ..., 20.

(10)

El modelo de regresión lineal simple

HIPÓTESIS:

1. Linealidad:

 ^Y _X _x  ^x ^x

E

E (  )  0    

₀

 

₁

, 

2. Homogeneidad de la varianza (Homocedasticidad):



^Y _X _x



^x

Var

Var(



) 



²   



², 3. Normalidad:

x x

x N Y X

N     

 ( 0 ,  ) ( 

₀



₁

,  ),



4. Independencia: Los errores aleatorios de distintas observaciones son v.a. independientes, no tienen memoria al cambiar de unidad experimental.

VARIABLE INDEPENDIENTE X RESPUESTA

Y

Recta verdadera de Regresión

 

E Y X x   ₀ ₁x

x1 x2

0+1x₁

₀+₁x₂

Y = 

0

+ 

1

X + 

^

₀ término independiente 

₁ pendiente

 error aleatorio

(11)

Se toman n observaciones y bajo diferentes valores x, de forma que cada una de ellas sigue el modelo

0 1 1...

i i i

y    x   i n

Reunimos las n ecuaciones en forma de vectores y matrices:

1 1 1

0 1

1

y = X β + ε

n n n

y x

 

     

 

     

      

     

     

  

y vector de observaciones observables

contiene las n observaciones de la variable dependiente

X matriz de diseño controlables por experimentador contiene los valores del regresor en cada una de los experimentos

 vector de parámetros desconocido a estimar

contiene las constantes desconocidas (a estimar) que determinan la relación entre X e Y.

 vector de perturbaciones no observables  a estimar contiene las perturbaciones correspondientes a las n situaciones experimentales sus componentes son independientes (0,²) (y normales si el modelo es normal)

(12)

Estimación del modelo. Método de mínimos cuadrados

Buscamos la recta que minimice globalmente los errores cuadráticos de predicción.

0 1 0 1

2 2 2

0 1

, , β

1 1

min ⁿ _i min ⁿ ( _i ( _i)) min y-Xβ

i i

y x

      

 

   

 

SOLUCIÓN: Matricialmente:



    



    

0 1 0 1

2

1 0 1

1 1

0 1

2

1

0 1

2 0

( ) ( )

i n

i i

i n

i i

i n

i i

i n

i i i

y x y x

y x y x x

 

 

      















1

0



  S S y S

S x

xy xx

t t

t -1 t

(X X)β=X y ˆβ=(X X) X y

Notación: ⁽ ⁾⁽ ⁾^, ⁽ ⁾ ^, ⁽ ⁾ ^.

1

2 1

2

1

 



  











 ⁿ

i i yy

n

i i xx

n

i

i i

xy x x y y S x x S y y

S

PRODUCTOS DEL AJUSTE:

0 1

ˆ ˆ

1. : ˆ

ˆ ˆ

2. : ˆ , 1,...,

ˆ ˆ

3. Re : ˆ ( ), 1,...,

i i

i i i i i

Modelo estimado y x

Valores ajustados y x i n

siduos e y y y x i n

 

 

  

     

ESTIMACIÓN DE ²

SSE: Suma de cuadrados de los residuos. MSE: Cuadrados medios de los residuos.

SSE e y y MSE SSE

i n

i i

    

  



²



1 1

2 2

(  ) ;  2.

(13)

Productos del ajuste

0 1

0

1

0 1

ˆ ˆ

1. Modelo estimado : ˆ

ˆ : Estimación del termino independiente (intercept) ˆ : Estimación de la pendiente (slope)

ˆ ˆ

2. Valores ajustados : ˆ , 1,..., ˆ : Predicción de la respuesta a traves

del modelo estim

i i

i

y x

y x i n

y

 



 

 

  

i

0 1

ado. Se usa el valor medio estimado bajo la condición experimental x

ˆ ˆ

3. Residuos : ˆ ( ), 1,...,

: Estimación de la perturbación aleatoria ocurrida en el caso .

4. Estimación de la varian

i i i i i

i

e y y y x i n

e

i

 

     

ˆ2

za del modelo : / 2

: Promedio corregido de los errores cuadráticos cometidos.

MSE SSE n MSE

   

Recta estimada de Regresión a partir de las observaciones

  

y  ₀ ₁x

(x_i,y_i)

observación

xi

y_i

yi (  )x y valor ajustado_i _i ei residuo

ei

(14)

Propiedades de los estimadores

1. ESTIMADORES INSESGADOS

(No se necesita la hipótesis de normalidad)

 

ˆ1  1, E

 

ˆ0  0, E

 

ˆ²  ² E

2. VARIANZAS DE LOS ESTIMADORES

     

xx xx

xx S

Cov x S

x Var n

Var S ₀ ₁ ²

2 2 0

2

1 , ˆ 1 , ˆ , ˆ

ˆ      

   



 



 



3. DISTRIBUCIONES DE LOS ESTIMADORES (Bajo hipótesis de normalidad para los errores)

2

1 1

2 2

0 0

2

2 2 2

0 1

ˆ ,

ˆ , 1

( 2) ˆ

ˆ ˆ

xx

n

N S

N x

n S

n SSE

SSE independiente de y

  

 

 

 



 

  

  

 

    

  



1 1

2 1, 2

0 0

2 2

ˆ ;

1

n n

xx

n

xx

t su cuadrado F MSE

S

t idem

MSE x

n S

 

 



 

 

  

 

(15)

Inferencias sobre los parámetros

INTERVALOS DE CONFIANZA

 

, ,

  

 

1 2 1 1 2

0 2

2

0 0 2

2

2 2

1 1

   

  

 

     

 



 

t MSE

S t MSE

S

t MSE

n x

S t MSE

n x S

n

xx

n

xx

n

xx

n

xx

CONTRASTES DE HIPÓTESIS





















 



 

 

















 

























 , 2

2

* 0 0 2

,

* 1 1

* 0 0

1

* 0 0

0

* 1 1 1

* 1 1 0

2

2 1

ˆ ˆ

: : :

:

n

xx n

xx

t S

x MSE n

C t

S C MSE

H H H

H





TABLA DE COEFICIENTES ESTIMADOS

Parámetro Estimador Error Estándar

Estadístico t p-valor Intercept ₀ _Var_{ (  )}₀ t₀  ₀ Var (  )₀

Slope ₁ _Var_{ (  )}_₁ _t₁ _{ }_₁ _Var_{ (  )}_₁

(16)

Prueba de significación de la regresión

H H

0 1

1 1

0 0 :

:











PARTICIÓN DE LA VARIABILIDAD

¿La variable X aporta información relevante para explicar la variabilidad de Y?

Recta estimada de Regresión de Y sobre X:

Solución de min y x

i n

i i

   

0 1 1 0 1

2

, ( ( ))

 ^ ^

y  ₀ ₁x

(xi,yi)

xi

(  )x y_i _i y_i  y_i  e_i

y_i

yi

y

y  y

Ajuste de la variable Y sin tener en cuenta la X:

Solución de min y

i n

 i 

0 1 0

( )2

 ^

y_i  y VARIABILIDAD

TOTAL DE LA RESPUESTA Y

PARTE EXPLICADA

POR LA REGRESIÓN

=

PARTE

NO EXPLICADA POR LA

REGRESIÓN

+

SST = SSR + SSE

S_yy y_i y y y y y

i n

i i

n

i i

i

     n 

  



⁽ ⁾²



^{( } ⁾



⁽ ^{ )}

1

2 1

(17)

El tamaño de SSR y SSE relativo al total SST sirve para valorar la significación de la regresión:

 SSE = 0 : Ajuste perfecto.

 SSR = 0 : La X no aporta nada en la explicación de la Y.

 0 < SSR, SSE < SST : Situaciones habituales.

Si la hipótesis nula se cumple (₁=0), entonces

TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)

Fuente de Variación (Source)

Suma de cuadrados (Sum of Squares)

Grados de libertad (Df)

Cuadrados Medios (Mean Square)

F0 p-valor

Regresión SSR 1 MSR

MSE MSR

Residual SSE n-2 MSE

Total SST n-1

COEFICIENTE DE DETERMINACIÓN: R²

1 SSR  ²  

SST

SSE

SST R SSR

, SST ⁰^ ^¹^_^^^ 2 _^₁⁰_:^:_Ajuste^Ausencia_exacto.^de^relacion^lineal.

2 2

R R R

2 , 1 2 0

2 2

2 1 2

2 1





 











n n

MSE F MSR n

SSE F SSR

SSE SSR









Proporción de la

variabilidad explicada sobre el total

(18)

EJEMPLO: Proceso químico de destilación

NIVEL DE HIDROCARBUROS

PUREZA DEL OXIGENO ^0,8 ¹ ^1,2 ^1,4 ^1,6

86 88 90 92 94 96 98 100 102

TABLA DE COEFICIENTES ESTIMADOS

Regression Analysis - Linear model: Y = a + b*X

--- Dependent variable: PUREZA DEL OXIGENO

Independent variable: NIVEL DE HIDROCARB

--- Standard

Parameter Estimate Error Statistic P-Valu --- Intercept 74,2833 1,59347 46,6172 0,000 Slope 14,9475 1,31676 11,3517 0,000 ---

Analysis of Variance

--- Source Sum of Squares Df Mean Square F-Ratio --- Model 152,127 1 152,127 128,86 Residual 21,2498 18 1,1805

--- Total (Corr.) 173,377 19

Correlation Coefficient = 0,936715 R-squared = 87,7436 percent

Standard Error of Est. = 1,08653 Recta estimada de regresión:

PUREZA=74.2833+14.9475*HIDROC.

TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)

(19)

Intervalo de confianza para la respuesta media de Y para un valor determinado de X

Parámetro:



_{Y x}_/ ₀ _{E Y X x}

 

x

0 0 1 0

  

 

   Estimador:



_{Y x}_/ ₀ 

 

₀  _{1 0}x

Distribución:  , ( )

/ /

_{Y x} _{Y x} 

xx

N n

x x

0 0 S

2 0

1 2

   

 















0 0 0 0

/ / 2 / /

2 2 2

2 0 0

ˆ ˆ

(0,1) . ( )

( ) ( )

1 1

Y x Y x Y x Y x

n

xx xx

N indep de SSE t

x x x x

n S MSE n S

   







 

  

       

   

   

 ( )

/ , / / ,

Y x n   

xx

Y x Y x n

xx

t MSE

n

x x

S t MSE

n

x x

0 2 2 0 0 2 S

0

2

0

1 1 2

   

 

      

 



 

Representando gráficamente el Intervalo de Confianza en función de x₀ se forma una banda en torno a la recta de regresión estimada.

Anchura mínima en ^x0  ^x .

La anchura crece desde la media hasta los extremos del rango de valores de X.

(20)

Predicción de nuevas observaciones

y₀: Nueva observación a realizar en X=x₀.

  

y₀  ₀  _{1 0}x : Predicción con el modelo estimado.

y₀ independiente de y₁, ..., y_nutilizadas para el ajuste.

0

0 /

2

2 0 0 0

0 / 2

2 0

2

0 0

( , )

( ) ˆ

ˆ , 1

( )

1 1 ˆ independientes de MSE

Y x

Y x n

xx

y N

x x y y

y N t

n S x x

MSE n S

y e y

 





 

    

 

          

 



 ( )

, ,

y t MSE

n

x x

S y y t MSE

n

x x

n S

xx

n

xx

0 2

0

2

0 0 2

0

2

2 2

1 1 1 1

    

 

       

 



 

 

Representando gráficamente el Intervalo de Predicción en función de x₀ se forma una banda en torno a la recta de regresión estimada.

La banda de predicción contiene a la banda de confianza para la respuesta media.

Anchura mínima en ^x0  ^x .

La anchura crece desde la media hasta los extremos del rango de valores de X: La predicción fuera del rango de valores usados en el ajuste es poco fiable, pues no sabemos cómo se comporta y fuera del rango x observado.

(21)

Intervalos de confianza para la respuesta media e intervalos de predicción para nuevas observaciones

x₀

 _/



_{Y x}

0

Límites inferior y superior del intervalo de predicción para una nueva observación y0 en X=x0.

Límites inferior y superior del intervalo de confianza para la respuesta media en X=x0.

(22)

EJEMPLO: Proceso químico de destilación

NIVEL DE HIDROCARBURO

PUREZA DEL OXIGENO

0,8 1 1,2 1,4 1,6 1,8

86 88 90 92 94 96 98 100 102

Caso

Nivel de Hidrocarburos X(%)

Pureza de Oxígeno Y(%)

Valores

ajustados Residuos 1 0,99 90,01 89,0813 0,928681 2 1,02 89,05 89,5297 -0,479744 3 1,15 91,43 91,4729 -0,042916 4 1,29 93,74 93,5656 0,174437 5 1,46 96,73 96,1066 0,623365 6 1,36 94,45 94,6119 -0,161887 7 0,87 87,59 87,2876 0,302378 8 1,23 91,77 92,6687 -0,898714 9 1,55 99,42 97,4519 1,968090 10 1,40 93,65 95,2098 -1,559790 11 1,19 93,54 92,0708 1,469180 12 1,15 92,52 91,4729 1,047080 13 0,98 90,56 88,9318 1,628160 14 1,01 89,54 89,3803 0,159731 15 1,11 89,85 90,875 -1,025020 16 1,20 90,39 92,2203 -1,830290 17 1,26 93,25 93,1171 0,132861 18 1,32 93,41 94,014 -0,603987 19 1,43 94,98 95,6582 -0,678210 20 0,95 87,33 88,4834 -1,153420

Límites de confianza y de predicción al 95%

(23)

Necesidad de chequear la validez de las hipótesis

Ejemplo: Datos simulados de Anscombe

X1 Y1 Y2 Y3 X2 X3

1 10 8,04 9,14 7,46 8 6,58

2 8 6,95 8,14 6,77 8 5,76

3 13 7,58 8,74 12,74 8 7,71

4 9 8,81 8,77 7,11 8 8,84

5 11 8,33 9,26 7,81 8 8,47

6 14 9,96 8,1 8,84 8 7,04

7 6 7,24 6,13 6,08 8 5,25

8 4 4,26 3,1 5,39 19 12,5

9 12 10,84 9,13 8,15 8 5,56

10 7 4,82 7,26 6,42 8 7,91

y=3.00+0.5*x+eps

X1

Y1

3 4 5 6 7 8 9 10 11 12

2 4 6 8 10 12 14 16

y=3.00+0.5*x+eps

X1

Y2

2 3 4 5 6 7 8 9 10

2 4 6 8 10 12 14 16

y=3.00+0.5*x+eps

X1

Y3

4 6 8 10 12 14

2 4 6 8 10 12 14 16

y=3.00+0.5*x+eps

X2

X3

4 6 8 10 12 14

6 8 10 12 14 16 18 20

Los 4 conjuntos de arrojan resultados idénticos:



_{0 30} . , 



_{1 05} . , MSE1375. , R2 0667 .

(24)

EJEMPLO

El propietario de una oficina de reparto de envíos postales anuncia que todos sus envíos se embarcan dentro de las 24 h. siguientes a su recepción. Puesto que el personal del departamento de embarque se contrata por día, es importante poder predecir el número de envíos contenido en cada lote de correo diario con el objeto de poder contratar el suficiente personal para el día siguiente. Como resulta más rápido pesar los envíos que contarlos, tuvo la idea de pesar cada día durante un mes los envíos para estudiar la forma de predecir el número de envíos en función de su peso.

a) Se puede afirmar estadísticamente que por cada Kg. que aumenta el peso de los envíos, el número de envíos aumenta en más de 100 unidades. Dar el p-valor.

b) Supongamos que una persona puede manejar como máximo 100 envíos por día. ¿Cuántas personas como mínimo debe de contratar para manejar 22 Kg. de correo si se quiere tener unas garantías del 99% de poder distribuir todos los envíos?

Día Peso Envíos RESIDS VAL. AJUST 1 20 5400 499.494226 4900.50577 2 15 4200 ‐54.502730 4254.50273 3 23 5800 511.892400 5288.10760 4 17 5000 487.096052 4512.90395 5 12 3500 ‐366.900904 3866.90090 6 35 6400 ‐438.514905 6838.51490 7 29 6000 ‐63.311252 6063.31125 8 21 5200 170.293617 5029.70638 9 10 4000 391.500313 3608.49969 10 13 3800 ‐196.101513 3996.10151 11 25 5700 153.491183 5546.50882 12 14 4000 ‐125.302122 4125.30212 13 18 4800 157.895444 4642.10456 14 30 6200 7.488139 6192.51186 15 33 6600 19.886313 6580.11369

Día Peso Envíos RESIDS VAL. AJUST 16 26 5400 ‐275.709426 5675.70943 17 21 5000 ‐29.706383 5029.70638

18 24 5400 ‐17.308209 5417.30821 19 16 4300 ‐83.703339 4383.70334 20 34 6700 ‐9.314296 6709.31430

21 28 6100 165.889356 5934.11064 22 15 3600 ‐654.502730 4254.50273 23 11 3200 ‐537.700295 3737.70030 24 18 5300 657.895444 4642.10456 25 27 5800 ‐4.910035 5804.91003 26 30 5900 ‐292.511861 6192.51186 27 22 5500 341.093009 5158.90699 28 20 5200 299.494226 4900.50577 29 24 5000 ‐417.308209 5417.30821 30 13. 3700 ‐296.101513 3996.10151

(25)

AJUSTE DEL MODELO: ENVIOS = ₀ ₁* PESO + 

1 0 1 5 2 0 2 5 3 0 3 5

P e s o 3 2 0 0

4 2 0 0 5 2 0 0 6 2 0 0 7 2 0 0

E n v ío s

3600 4600 5600 6600 7600

Predicted -700

-400 -100 200 500 800

Resid.

Analysis of Variance

--- Source Sum of Squares Df Mean Square F-Ratio Prob. Level Model 24863365 1 24863365 218.7 .00000 Residual 3183634.9 28 113701.2

--- Total (Corr.) 28047000 29

Correlation Coef. = 0.9415 R-squared = 88.65 % Stnd. Error of Est. = 337.196

Dependent variable: ENVIOS Independent variable: PESO ---

Parameter Estimate Stnd.Error t -value Prob. level ---

Intercept 2316.49 197.402 11.7349 .00000 Slope 129.201 8.7371 14.7876 .00000

(26)

Estudio de la adecuación del modelo

Problemas fundamentales:

1. VIOLACIÓN DE LAS HIPÓTESIS 1.1. NO LINEALIDAD

1.2. HETEROCEDASTICIDAD (Varianza no constante) 1.3. NO NORMALIDAD

1.4. CORRELACIÓN DE LAS PERTURBACIONES 2. OUTLIERS Y PUNTOS DE INFLUENCIA

2.1. OUTLIERS: Puntos que se desvían de la tendencia mayoritaria.

2.2. PUNTOS DE INFLUENCIA: Puntos que afectan excesivamente a los resultados de la regresión.

Los problemas anteriores afectan en mayor o menor medida a la validez de las conclusiones del análisis de regresión: Conocimiento del modelo, interpretación de los coeficientes, intervalos de confianza y tests, predicción, …

Herramientas fundamentales:

1. ANÁLISIS DE RESIDUOS (Para problemas 1 y 2)

2. DIAGNÓSTICOS DE INFLUENCIA (Para problema 2)

(27)

1- Análisis de residuos

Se utiliza sobre todo para chequear la validez de las hipótesis probabilísticas hechas sobre el modelo:

0 1 1

2 2

0 1 1

1 1

, 1,..., .

1. ( ) 0 ( ) ( )

2. ( ) ( ) ( var )

3. (0, ) ( , ) ( )

4. ,..., ,

i i i

i i

i i i

n

y x i n

E E y x Linealidad

Var Var y Homogeneidad de la ianza

N y N x Normalidad

independientes y

  

  

  

    

 

   

   

  

   

 ..., y independientes_n

Las hipótesis se hacen sobre las perturbaciones aleatorias ₁, …, _n. N(0,) independientes Las perturbaciones aleatorias no son observables, son desconocidas:

. ,..., 1 )

( ₀ ₁x₁ i n

y_i _i

i      



No podemos usarlas para chequear la validez de las hipótesis.

Los residuos e₁, …, e_n sí son observables:

. ,..., 1 ˆ )

( ˆ

ˆ y ₀ ₁x₁ i n

y y

e_i  _i  _i  _i     _i  Los residuos estiman las perturbaciones.

Su estudio informa sobre el comportamiento de las perturbaciones y, por tanto, sobre el cumplimiento de las hipótesis.

Los estudios serán básicamente gráficos y descriptivos y con un alto grado de interpretación personal.

TEMA 14.- EL MODELO DE REGRESIÓN LINEAL SIMPLE