Tema 14. El modelo de regresión lineal simple 260
TEMA 14.- EL MODELO DE REGRESIÓN LINEAL SIMPLE
- Asociación entre variables numéricas.
Covarianza y correlación.
- Modelos de regresión.
- Regresión simple
- Estimación de los parámetros del modelo.
- Significación del modelo. Tabla ANOVA.
- Adecuación del modelo.
Tema 14. El modelo de regresión lineal simple 261
Asociación entre variables numéricas
En la mayoría de los problemas de interés interviene más de una variable.
Los estudios univariantes para cada variable son insuficientes.
El interés principal es el estudio de las relaciones entre las variables presentes en el problema.
Suelen buscarse relaciones lineales entre las variables:
Es el tipo de relación más simple.
Muchas relaciones no lineales pueden linealizarse a través de transformaciones.
COVARIANZA: ( )( ) .
1 1 1
1 x X y Y x y XY
S
n
i
i n i
i n
i n i
XY
Justificación como medida de asociación:
El producto (xi X)(yi Y) es >0 en los cuadrantes 1 y 3; <0 en el 2 y 4. La covarianza es el promedio de estos productos. Su signo indica la dirección que prevalece.
Asociación creciente: SXY>0. Ausencia de asociación: SXY0. Asociación decreciente: SXY<0.
+
+
+
+
) , (X Y
+
+
) , (X Y
) , (X Y
0
S XY SXY 0 SXY 0
Tema 14. El modelo de regresión lineal simple 262
Defectos:
Tiene unidades: La covarianza se mide en unidades uXuY. Sin embargo, el “grado” de asociación entre dos variables no debería depender de las unidades en que las midamos (cambios de escala lineales). Los cambios de localización no afectan a la covarianza.
X aX b
Y cY d SX Y acSXY (a 0,c 0)
Sólo indica el sentido de la asociación a través del signo.
COEFICIENTE DE CORRELACIÓN MUESTRAL:
n
i Y
i X
i n
i i n
i i n
i
i i
Y X
XY
XY S
Y y S
X x Y n
y X
x
Y y X x S
S Y S X r r
1 1
2 1
2
1 1
,
es decir, la covarianza entre las variables tipificadas.
Propiedades:
Adimensionalidad: No tiene unidades.
Invariancia frente a cambios de localización y escala (transformaciones lineales):
) 0 ,
0 (
,
aX b Y cY d r r a c
X XY XY
Los cambios de unidades (cambios de escala) no deben influir en la medida de asociación lineal ya que la asociación es la misma estén los datos medidos en metros o en centímetros (por ejemplo).
Tema 14. El modelo de regresión lineal simple 263
Acotación entre -1 y 1.
rXY 1
Si la medida no estuviera acotada no sabríamos qué valores serían altos y qué valores serían bajos.
Interpretación:
-La medida del grado de asociación lineal la da el valor absoluto rXY.
- rXY próximo a 1 significa asociación lineal importante.
- rXY próximo a 0 significa asociación lineal débil.
-El sentido de asociación lineal (creciente o decreciente) lo da el signo, que es el mismo que el de la covarianza.
rXY=0 Ausencia de relación lineal. La ausencia de relación lineal no implica la inexistencia de relación entre las variables, que puede ser diferente a la lineal.
rXY=1 Asociación lineal exacta. El valor absoluto del coeficiente de correlación es 1 si y sólo si los puntos (xi,yi), i=1,...,n están alineados sobre una recta, cuya ecuación es ésta:
y Y r S
S x X
XY Y X
.
(recta que pasa por
X Y, con pendiente XY YX
r S
S ; tiene el mismo signo que rXY y que SXY).
Tema 14. El modelo de regresión lineal simple 264
El coeficiente de correlación tiene que ir siempre acompañado de un plot XY (nube de puntos) para su correcta interpretación.
- Puede haber un coeficiente de correlación alto y no existir en absoluto asociación lineal
- Puede haber un coeficiente de correlación bajo por culpa de un sólo punto que rompe la tendencia.
Para todos estos conjuntos de datos el coeficiente de correlación es rXY=0.7.
Tema 14. El modelo de regresión lineal simple 265
Modelos de regresión
ANÁLISIS DE REGRESIÓN: Técnica estadística para modelar e investigar la relación de una variable (Y) con otra u otras variables (X1, X2, …, Xk).
Y X1, X2, …, Xk ¿ Cómo afectan a Y los cambios en las Xi ?
Y: Variable Respuesta o variable dependiente.
Es una variable aleatoria. Es la variable de interés en el problema.
X1, X2, …, Xk: Regresores o variables independientes.
Aportan información sobre la variabilidad de Y. El experimentador controla sus valores y los cambia de diferentes maneras para ver el efecto que producen en Y.
INTERÉS DEL ANÁLISIS DE REGRESIÓN:
1. Conocimiento del modelo.
Averiguar el tipo de relación (lineal, polinómica, …). Medir la fuerza de la relación.
Comprender el papel y la importancia de cada variable explicativa.
2. Predicción de observaciones futuras.
Pronosticar, con unos márgenes de confianza, el valor que se obtendrá para Y con ciertos valores de las X’s.
3. Optimización.
Averiguar los valores de las X’s que proporcionan el “mejor valor” para la Y.
Tema 14. El modelo de regresión lineal simple 266
Ejemplos de problemas de regresión
EJEMPLO 1. MODELO PARA EXPLICAR EL RENDIMIENTO DE UN PROCESO QUÍMICO Y: Rendimiento del proceso
X’s: Temperatura, Presión, Humedad relativa, Tiempo de operación, Operario que controla el proceso, …
EJEMPLO 2. MODELO PARA EXPLICAR LAS RETRIBUCIONES DE LOS EMPLEADOS DE UNA EMPRESA
Y: Retribuciones
X’s: Edad, Titulación, Experiencia, Puesto, Grado de responsabilidad, Jornada laboral, …
EJEMPLO 3. MODELO PARA EXPLICAR EL PRECIO DE ALQUILER DE VIVIENDAS EN UNA CIUDAD.
Y: Precio de alquiler
X’s: Características físicas (Superficie, Altura, Número de habitaciones, Orientación, … ), Antigüedad del edificio, Situación geográfica, …
EJEMPLO 4. MODELO PARA EXPLICAR EL RENDIMIENTO ACADÉMICO DE LOS ESTUDIANTES.
Y: Nota media del expediente académico
X’s: Estudios que realiza, Nota de selectividad, Indice de asistencia a clase, Tiempo medio diario dedicado al estudio, …
Tema 14. El modelo de regresión lineal simple 267
Naturaleza de los modelos de regresión
La variabilidad de la variable respuesta Y depende de muchas causas o factores (quizás infinitas):
MODELOS DE REGRESIÓN LINEAL:
La relación entre la respuesta y los regresores es lineal.
Regresión lineal simple:
Regresión lineal múltiple:
PRIMER OBJETIVO: Estimar los parámetros ’s de la ecuación.
JUSTIFICACIÓN DE LOS MODELOS LINEALES:
Simplicidad y facilidad de manejo.
Modelos linealizables mediante transformaciones.
Cualquier función “regular” se puede aproximar localmente por funciones lineales.
Pocas causas importantes observables y controlables
Muchas causas no observables, desconocidas o incontrolables X1, X2, …, Xk, Xk+1, Xk+2, …
Y = f(X1, X2, …, Xk) + g(Xk+1, Xk+2, … )
Y = f(X1, X2, …, Xk) + perturbación aleatoria
Y = 0+1X +
Y = 0+1 X1+ 2X2+ … + kXk +
Tema 14. El modelo de regresión lineal simple 268
NIVEL DE HIDROCARBUROS (%)
PUREZA DEL OXIGENO (%) 0,87 1,07 1,27 1,47 1,67
87 90 93 96 99 102
Caso Nivel de Hidrocarburos
X (%)
Pureza de Oxígeno
Y (%)
1 0,99 90,01
2 1,02 89,05
3 1,15 91,43
4 1,29 93,74
5 1,46 96,73
6 1,36 94,45
7 0,87 87,59
8 1,23 91,77
9 1,55 99,42
10 1,40 93,65
11 1,19 93,54
12 1,15 92,52
13 0,98 90,56
14 1,01 89,54
15 1,11 89,85
16 1,20 90,39
17 1,26 93,25
18 1,32 93,41
19 1,43 94,98
20 0,95 87,33
EJEMPLO:
Proceso químico de destilación.Se quiere estudiar la relación entre la PUREZA DEL OXIGENO (Y) producido en un proceso químico de destilación y el NIVEL DE HIDROCARBUROS (X) presentes en el condensador principal de la unidad de destilación.
Se realizan n=20 observaciones y se anotan los valores de las variables (X,Y)=(xi,yi), i=1, ..., 20.
Tema 14. El modelo de regresión lineal simple 269
El modelo de regresión lineal simple
HIPÓTESIS:
1. Linealidad:
Y X x x x
E
E ( ) 0
0
1,
2. Homogeneidad de la varianza (Homocedasticidad):
Y X x
xVar
Var(
)
2
2, 3. Normalidad:x x
x N Y X
N
( 0 , ) (
0
1, ),
4. Independencia: Los errores aleatorios de distintas observaciones son v.a. independientes, no tienen memoria al cambiar de unidad experimental.
VARIABLE INDEPENDIENTE X RESPUESTA
Y
Recta verdadera de Regresión
E Y X x 0 1x
x1 x2
0+1x1
0+1x2
Y =
0+
1X +
0 término independiente
1 pendiente
error aleatorio
Tema 14. El modelo de regresión lineal simple 270
Se toman n observaciones y bajo diferentes valores x, de forma que cada una de ellas sigue el modelo
0 1 1...
i i i
y x i n
Reunimos las n ecuaciones en forma de vectores y matrices:
1 1 1
0 1
1
1
y = X β + ε
n n n
y x
y x
y vector de observaciones observables
contiene las n observaciones de la variable dependiente
X matriz de diseño controlables por experimentador contiene los valores del regresor en cada una de los experimentos
vector de parámetros desconocido a estimar
contiene las constantes desconocidas (a estimar) que determinan la relación entre X e Y.
vector de perturbaciones no observables a estimar contiene las perturbaciones correspondientes a las n situaciones experimentales sus componentes son independientes (0,2) (y normales si el modelo es normal)
Tema 14. El modelo de regresión lineal simple 271
Estimación del modelo. Método de mínimos cuadrados
Buscamos la recta que minimice globalmente los errores cuadráticos de predicción.
0 1 0 1
2 2 2
0 1
, , β
1 1
min n i min n ( i ( i)) min y-Xβ
i i
y x
SOLUCIÓN: Matricialmente:
0 1 0 1
2
1 0 1
1 1
0 1
2
1
0 1
2 0
2 0
( ) ( )
( ) ( )
i n
i i
i n
i i
i n
i i
i n
i i i
y x y x
y x y x x
1
0
S S y S
S x
xy xx
xy xx
t t
t -1 t
(X X)β=X y ˆβ=(X X) X y
Notación: ( )( ), ( ) , ( ) .
1
2 1
2
1
n
i i yy
n
i i xx
n
i
i i
xy x x y y S x x S y y
S
PRODUCTOS DEL AJUSTE:
0 1
0 1
0 1
ˆ ˆ
1. : ˆ
ˆ ˆ
2. : ˆ , 1,...,
ˆ ˆ
3. Re : ˆ ( ), 1,...,
i i
i i i i i
Modelo estimado y x
Valores ajustados y x i n
siduos e y y y x i n
ESTIMACIÓN DE 2
SSE: Suma de cuadrados de los residuos. MSE: Cuadrados medios de los residuos.
SSE e y y MSE SSE
i n
i n
i n
i i
2
1 1
2 2
( ) ; 2.
Tema 14. El modelo de regresión lineal simple 272
Productos del ajuste
0 1
0
1
0 1
ˆ ˆ
1. Modelo estimado : ˆ
ˆ : Estimación del termino independiente (intercept) ˆ : Estimación de la pendiente (slope)
ˆ ˆ
2. Valores ajustados : ˆ , 1,..., ˆ : Predicción de la respuesta a traves
del modelo estim
i i
i
y x
y x i n
y
i
0 1
ado. Se usa el valor medio estimado bajo la condición experimental x
ˆ ˆ
3. Residuos : ˆ ( ), 1,...,
: Estimación de la perturbación aleatoria ocurrida en el caso .
4. Estimación de la varian
i i i i i
i
e y y y x i n
e
i
ˆ2
za del modelo : / 2
: Promedio corregido de los errores cuadráticos cometidos.
MSE SSE n MSE
Recta estimada de Regresión a partir de las observaciones
y 0 1x
(xi,yi)
observación
xi
yi
yi ( )x y valor ajustadoi i ei residuo
ei
Tema 14. El modelo de regresión lineal simple 273
Propiedades de los estimadores
1. ESTIMADORES INSESGADOS(No se necesita la hipótesis de normalidad)
ˆ1 1, E
ˆ0 0, E
ˆ2 2 E2. VARIANZAS DE LOS ESTIMADORES
xx xx
xx S
Cov x S
x Var n
Var S 0 1 2
2 2 0
2
1 , ˆ 1 , ˆ , ˆ
ˆ
3. DISTRIBUCIONES DE LOS ESTIMADORES (Bajo hipótesis de normalidad para los errores)
2
1 1
2 2
0 0
2
2
2 2 2
0 1
ˆ ,
ˆ , 1
( 2) ˆ
ˆ ˆ
xx
xx
n
N S
N x
n S
n SSE
SSE independiente de y
1 1
2 1, 2
0 0
2 2
ˆ ;
ˆ ;
1
n n
xx
n
xx
t su cuadrado F MSE
S
t idem
MSE x
n S
Tema 14. El modelo de regresión lineal simple 274
Inferencias sobre los parámetros
INTERVALOS DE CONFIANZA
, ,
, ,
1 2 1 1 2
0 2
2
0 0 2
2
2 2
2 2
1 1
t MSE
S t MSE
S
t MSE
n x
S t MSE
n x S
n
xx
n
xx
n
xx
n
xx
CONTRASTES DE HIPÓTESIS
, 2
2
* 0 0 2
,
* 1 1
* 0 0
1
* 0 0
0
* 1 1 1
* 1 1 0
2
2 1
ˆ ˆ
: : :
:
n
xx n
xx
t S
x MSE n
C t
S C MSE
H H H
H
TABLA DE COEFICIENTES ESTIMADOS
Parámetro Estimador Error Estándar
Estadístico t p-valor Intercept 0 Var ( )0 t0 0 Var ( )0
Slope 1 Var ( )1 t1 1 Var ( )1
Tema 14. El modelo de regresión lineal simple 275
Prueba de significación de la regresión
H H
0 1
1 1
0 0 :
:
PARTICIÓN DE LA VARIABILIDAD
¿La variable X aporta información relevante para explicar la variabilidad de Y?
Recta estimada de Regresión de Y sobre X:
Solución de min y x
i n
i i
0 1 1 0 1
2
, ( ( ))
y 0 1x
(xi,yi)
xi
( )x yi i yi yi ei
yi
yi
y
y y
Ajuste de la variable Y sin tener en cuenta la X:
Solución de min y
i n
i
0 1 0
( )2
yi y VARIABILIDAD
TOTAL DE LA RESPUESTA Y
PARTE EXPLICADA
POR LA REGRESIÓN
=
PARTE
NO EXPLICADA POR LA
REGRESIÓN
+
SST = SSR + SSE
Syy yi y y y y y
i n
i i
n
i i
i
n
( )2
( )
( )1
2 1
2 1
Tema 14. El modelo de regresión lineal simple 276
El tamaño de SSR y SSE relativo al total SST sirve para valorar la significación de la regresión:
SSE = 0 : Ajuste perfecto.
SSR = 0 : La X no aporta nada en la explicación de la Y.
0 < SSR, SSE < SST : Situaciones habituales.
Si la hipótesis nula se cumple (1=0), entonces
TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)
Fuente de Variación (Source)
Suma de cuadrados (Sum of Squares)
Grados de libertad (Df)
Cuadrados Medios (Mean Square)
F0 p-valor
Regresión SSR 1 MSR
MSE MSR
Residual SSE n-2 MSE
Total SST n-1
COEFICIENTE DE DETERMINACIÓN: R2
1 SSR 2
SST
SSE
SST R SSR
, SST 0 1 2 10::AjusteAusenciaexacto.derelacionlineal.
2 2
R R R
2 , 1 2 0
2 2
2 1 2
2 1
n n
MSE F MSR n
SSE F SSR
SSE SSR
Proporción de la
variabilidad explicada sobre el total
Tema 14. El modelo de regresión lineal simple 277
EJEMPLO: Proceso químico de destilación
NIVEL DE HIDROCARBUROS
PUREZA DEL OXIGENO 0,8 1 1,2 1,4 1,6
86 88 90 92 94 96 98 100 102
TABLA DE COEFICIENTES ESTIMADOS
Regression Analysis - Linear model: Y = a + b*X
--- Dependent variable: PUREZA DEL OXIGENO
Independent variable: NIVEL DE HIDROCARB
--- Standard
Parameter Estimate Error Statistic P-Valu --- Intercept 74,2833 1,59347 46,6172 0,000 Slope 14,9475 1,31676 11,3517 0,000 ---
Analysis of Variance
--- Source Sum of Squares Df Mean Square F-Ratio --- Model 152,127 1 152,127 128,86 Residual 21,2498 18 1,1805
--- Total (Corr.) 173,377 19
Correlation Coefficient = 0,936715 R-squared = 87,7436 percent
Standard Error of Est. = 1,08653 Recta estimada de regresión:
PUREZA=74.2833+14.9475*HIDROC.
TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)
Tema 14. El modelo de regresión lineal simple 278
Intervalo de confianza para la respuesta media de Y para un valor determinado de X
Parámetro:
Y x/ 0 E Y X x
x0 0 1 0
Estimador:
Y x/ 0
0 1 0xDistribución: , ( )
/ /
Y x Y x
xx
N n
x x
0 0 S
2 0
1 2
0 0 0 0
/ / 2 / /
2 2 2
2 0 0
ˆ ˆ
(0,1) . ( )
( ) ( )
1 1
Y x Y x Y x Y x
n
xx xx
N indep de SSE t
x x x x
n S MSE n S
( )
( )
/ , / / ,
Y x n
xx
Y x Y x n
xx
t MSE
n
x x
S t MSE
n
x x
0 2 2 0 0 2 S
0
2
2
0
1 1 2
Representando gráficamente el Intervalo de Confianza en función de x0 se forma una banda en torno a la recta de regresión estimada.
Anchura mínima en x0 x .
La anchura crece desde la media hasta los extremos del rango de valores de X.
Tema 14. El modelo de regresión lineal simple 279
Predicción de nuevas observaciones
y0 : Nueva observación a realizar en X=x0.
y0 0 1 0x : Predicción con el modelo estimado.
y0 independiente de y1, ..., yn utilizadas para el ajuste.
0
0
0 /
2
2 0 0 0
0 / 2
2 0
2
0 0
( , )
( ) ˆ
ˆ , 1
( )
1 1 ˆ independientes de MSE
Y x
Y x n
xx
xx
y N
x x y y
y N t
n S x x
MSE n S
y e y
( )
( )
, ,
y t MSE
n
x x
S y y t MSE
n
x x
n S
xx
n
xx
0 2
0
2
0 0 2
0
2
2 2
1 1 1 1
Representando gráficamente el Intervalo de Predicción en función de x0 se forma una banda en torno a la recta de regresión estimada.
La banda de predicción contiene a la banda de confianza para la respuesta media.
Anchura mínima en x0 x .
La anchura crece desde la media hasta los extremos del rango de valores de X: La predicción fuera del rango de valores usados en el ajuste es poco fiable, pues no sabemos cómo se comporta y fuera del rango x observado.
Tema 14. El modelo de regresión lineal simple 280
Intervalos de confianza para la respuesta media e intervalos de predicción para nuevas observaciones
x0
/
Y x0
Límites inferior y superior del intervalo de predicción para una nueva observación y0 en X=x0.
Límites inferior y superior del intervalo de confianza para la respuesta media en X=x0.
Tema 14. El modelo de regresión lineal simple 281
EJEMPLO: Proceso químico de destilación
NIVEL DE HIDROCARBURO
PUREZA DEL OXIGENO
0,8 1 1,2 1,4 1,6 1,8
86 88 90 92 94 96 98 100 102
Caso
Nivel de Hidrocarburos X(%)
Pureza de Oxígeno Y(%)
Valores
ajustados Residuos 1 0,99 90,01 89,0813 0,928681 2 1,02 89,05 89,5297 -0,479744 3 1,15 91,43 91,4729 -0,042916 4 1,29 93,74 93,5656 0,174437 5 1,46 96,73 96,1066 0,623365 6 1,36 94,45 94,6119 -0,161887 7 0,87 87,59 87,2876 0,302378 8 1,23 91,77 92,6687 -0,898714 9 1,55 99,42 97,4519 1,968090 10 1,40 93,65 95,2098 -1,559790 11 1,19 93,54 92,0708 1,469180 12 1,15 92,52 91,4729 1,047080 13 0,98 90,56 88,9318 1,628160 14 1,01 89,54 89,3803 0,159731 15 1,11 89,85 90,875 -1,025020 16 1,20 90,39 92,2203 -1,830290 17 1,26 93,25 93,1171 0,132861 18 1,32 93,41 94,014 -0,603987 19 1,43 94,98 95,6582 -0,678210 20 0,95 87,33 88,4834 -1,153420
Límites de confianza y de predicción al 95%
Tema 14. El modelo de regresión lineal simple 282
Necesidad de chequear la validez de las hipótesis
Ejemplo: Datos simulados de AnscombeX1 Y1 Y2 Y3 X2 X3
1 10 8,04 9,14 7,46 8 6,58
2 8 6,95 8,14 6,77 8 5,76
3 13 7,58 8,74 12,74 8 7,71
4 9 8,81 8,77 7,11 8 8,84
5 11 8,33 9,26 7,81 8 8,47
6 14 9,96 8,1 8,84 8 7,04
7 6 7,24 6,13 6,08 8 5,25
8 4 4,26 3,1 5,39 19 12,5
9 12 10,84 9,13 8,15 8 5,56
10 7 4,82 7,26 6,42 8 7,91
y=3.00+0.5*x+eps
X1
Y1
3 4 5 6 7 8 9 10 11 12
2 4 6 8 10 12 14 16
y=3.00+0.5*x+eps
X1
Y2
2 3 4 5 6 7 8 9 10
2 4 6 8 10 12 14 16
y=3.00+0.5*x+eps
X1
Y3
4 6 8 10 12 14
2 4 6 8 10 12 14 16
y=3.00+0.5*x+eps
X2
X3
4 6 8 10 12 14
6 8 10 12 14 16 18 20
Los 4 conjuntos de arrojan resultados idénticos:
0 30 . ,
1 05 . , MSE1375. , R2 0667 .Tema 14. El modelo de regresión lineal simple 283
EJEMPLO
El propietario de una oficina de reparto de envíos postales anuncia que todos sus envíos se embarcan dentro de las 24 h. siguientes a su recepción. Puesto que el personal del departamento de embarque se contrata por día, es importante poder predecir el número de envíos contenido en cada lote de correo diario con el objeto de poder contratar el suficiente personal para el día siguiente. Como resulta más rápido pesar los envíos que contarlos, tuvo la idea de pesar cada día durante un mes los envíos para estudiar la forma de predecir el número de envíos en función de su peso.
a) Se puede afirmar estadísticamente que por cada Kg. que aumenta el peso de los envíos, el número de envíos aumenta en más de 100 unidades. Dar el p-valor.
b) Supongamos que una persona puede manejar como máximo 100 envíos por día. ¿Cuántas personas como mínimo debe de contratar para manejar 22 Kg. de correo si se quiere tener unas garantías del 99% de poder distribuir todos los envíos?
Día Peso Envíos RESIDS VAL. AJUST 1 20 5400 499.494226 4900.50577 2 15 4200 ‐54.502730 4254.50273 3 23 5800 511.892400 5288.10760 4 17 5000 487.096052 4512.90395 5 12 3500 ‐366.900904 3866.90090 6 35 6400 ‐438.514905 6838.51490 7 29 6000 ‐63.311252 6063.31125 8 21 5200 170.293617 5029.70638 9 10 4000 391.500313 3608.49969 10 13 3800 ‐196.101513 3996.10151 11 25 5700 153.491183 5546.50882 12 14 4000 ‐125.302122 4125.30212 13 18 4800 157.895444 4642.10456 14 30 6200 7.488139 6192.51186 15 33 6600 19.886313 6580.11369
Día Peso Envíos RESIDS VAL. AJUST 16 26 5400 ‐275.709426 5675.70943 17 21 5000 ‐29.706383 5029.70638
18 24 5400 ‐17.308209 5417.30821 19 16 4300 ‐83.703339 4383.70334 20 34 6700 ‐9.314296 6709.31430
21 28 6100 165.889356 5934.11064 22 15 3600 ‐654.502730 4254.50273 23 11 3200 ‐537.700295 3737.70030 24 18 5300 657.895444 4642.10456 25 27 5800 ‐4.910035 5804.91003 26 30 5900 ‐292.511861 6192.51186 27 22 5500 341.093009 5158.90699 28 20 5200 299.494226 4900.50577 29 24 5000 ‐417.308209 5417.30821 30 13. 3700 ‐296.101513 3996.10151
Tema 14. El modelo de regresión lineal simple 284
AJUSTE DEL MODELO: ENVIOS = 0 1* PESO +
1 0 1 5 2 0 2 5 3 0 3 5
P e s o 3 2 0 0
4 2 0 0 5 2 0 0 6 2 0 0 7 2 0 0
E n v ío s
3600 4600 5600 6600 7600
Predicted -700
-400 -100 200 500 800
Resid.
Analysis of Variance
--- Source Sum of Squares Df Mean Square F-Ratio Prob. Level Model 24863365 1 24863365 218.7 .00000 Residual 3183634.9 28 113701.2
--- Total (Corr.) 28047000 29
Correlation Coef. = 0.9415 R-squared = 88.65 % Stnd. Error of Est. = 337.196
Dependent variable: ENVIOS Independent variable: PESO ---
Parameter Estimate Stnd.Error t -value Prob. level ---
Intercept 2316.49 197.402 11.7349 .00000 Slope 129.201 8.7371 14.7876 .00000
Tema 14. El modelo de regresión lineal simple 285
Estudio de la adecuación del modelo
Problemas fundamentales:
1. VIOLACIÓN DE LAS HIPÓTESIS 1.1. NO LINEALIDAD
1.2. HETEROCEDASTICIDAD (Varianza no constante) 1.3. NO NORMALIDAD
1.4. CORRELACIÓN DE LAS PERTURBACIONES 2. OUTLIERS Y PUNTOS DE INFLUENCIA
2.1. OUTLIERS: Puntos que se desvían de la tendencia mayoritaria.
2.2. PUNTOS DE INFLUENCIA: Puntos que afectan excesivamente a los resultados de la regresión.
Los problemas anteriores afectan en mayor o menor medida a la validez de las conclusiones del análisis de regresión: Conocimiento del modelo, interpretación de los coeficientes, intervalos de confianza y tests, predicción, …
Herramientas fundamentales:
1. ANÁLISIS DE RESIDUOS (Para problemas 1 y 2)
2. DIAGNÓSTICOS DE INFLUENCIA (Para problema 2)
Tema 14. El modelo de regresión lineal simple 286
1- Análisis de residuos
Se utiliza sobre todo para chequear la validez de las hipótesis probabilísticas hechas sobre el modelo:
0 1 1
0 1 1
2 2
0 1 1
1 1
, 1,..., .
1. ( ) 0 ( ) ( )
2. ( ) ( ) ( var )
3. (0, ) ( , ) ( )
4. ,..., ,
i i i
i i i
i i
i i i
n
y x i n
E E y x Linealidad
Var Var y Homogeneidad de la ianza
N y N x Normalidad
independientes y
..., y independientesn
Las hipótesis se hacen sobre las perturbaciones aleatorias 1, …, n. N(0,) independientes Las perturbaciones aleatorias no son observables, son desconocidas:
. ,..., 1 )
( 0 1x1 i n
yi i
i
No podemos usarlas para chequear la validez de las hipótesis.
Los residuos e1, …, en sí son observables:
. ,..., 1 ˆ )
( ˆ
ˆ y 0 1x1 i n
y y
ei i i i i Los residuos estiman las perturbaciones.
Su estudio informa sobre el comportamiento de las perturbaciones y, por tanto, sobre el cumplimiento de las hipótesis.
Los estudios serán básicamente gráficos y descriptivos y con un alto grado de interpretación personal.