• No se han encontrado resultados

TEMA 14.- EL MODELO DE REGRESIÓN LINEAL SIMPLE

N/A
N/A
Protected

Academic year: 2021

Share "TEMA 14.- EL MODELO DE REGRESIÓN LINEAL SIMPLE"

Copied!
48
0
0

Texto completo

(1)

Tema 14. El modelo de regresión lineal simple 260

TEMA 14.- EL MODELO DE REGRESIÓN LINEAL SIMPLE

- Asociación entre variables numéricas.

Covarianza y correlación.

- Modelos de regresión.

- Regresión simple

- Estimación de los parámetros del modelo.

- Significación del modelo. Tabla ANOVA.

- Adecuación del modelo.

(2)

Tema 14. El modelo de regresión lineal simple 261

Asociación entre variables numéricas

 En la mayoría de los problemas de interés interviene más de una variable.

 Los estudios univariantes para cada variable son insuficientes.

 El interés principal es el estudio de las relaciones entre las variables presentes en el problema.

Suelen buscarse relaciones lineales entre las variables:

 Es el tipo de relación más simple.

 Muchas relaciones no lineales pueden linealizarse a través de transformaciones.

COVARIANZA: ( )( ) .

1 1 1

1 x X y Y x y XY

S

n

i

i n i

i n

i n i

XY

 

Justificación como medida de asociación:

El producto (xi X)(yi Y) es >0 en los cuadrantes 1 y 3; <0 en el 2 y 4. La covarianza es el promedio de estos productos. Su signo indica la dirección que prevalece.

Asociación creciente: SXY>0. Ausencia de asociación: SXY0. Asociación decreciente: SXY<0.

+

+

+

+

) , (X Y

+

+

) , (X Y

) , (X Y

0

S XY SXY 0 SXY 0

(3)

Tema 14. El modelo de regresión lineal simple 262

Defectos:

 Tiene unidades: La covarianza se mide en unidades uXuY. Sin embargo, el “grado” de asociación entre dos variables no debería depender de las unidades en que las midamos (cambios de escala lineales). Los cambios de localización no afectan a la covarianza.

  

        

X aX b

Y cY d SX Y acSXY (a 0,c 0)

 Sólo indica el sentido de la asociación a través del signo.

COEFICIENTE DE CORRELACIÓN MUESTRAL:

    

   

 

n

i Y

i X

i n

i i n

i i n

i

i i

Y X

XY

XY S

Y y S

X x Y n

y X

x

Y y X x S

S Y S X r r

1 1

2 1

2

1 1

,

es decir, la covarianza entre las variables tipificadas.

Propiedades:

 Adimensionalidad: No tiene unidades.

 Invariancia frente a cambios de localización y escala (transformaciones lineales):

) 0 ,

0 (

,       

  aX b Y cY d r r a c

X XY XY

Los cambios de unidades (cambios de escala) no deben influir en la medida de asociación lineal ya que la asociación es la misma estén los datos medidos en metros o en centímetros (por ejemplo).

(4)

Tema 14. El modelo de regresión lineal simple 263

 Acotación entre -1 y 1.

rXY  1

Si la medida no estuviera acotada no sabríamos qué valores serían altos y qué valores serían bajos.

Interpretación:

-La medida del grado de asociación lineal la da el valor absoluto rXY.

- rXY próximo a 1 significa asociación lineal importante.

- rXY próximo a 0 significa asociación lineal débil.

-El sentido de asociación lineal (creciente o decreciente) lo da el signo, que es el mismo que el de la covarianza.

 rXY=0  Ausencia de relación lineal. La ausencia de relación lineal no implica la inexistencia de relación entre las variables, que puede ser diferente a la lineal.

 rXY=1  Asociación lineal exacta. El valor absoluto del coeficiente de correlación es 1 si y sólo si los puntos (xi,yi), i=1,...,n están alineados sobre una recta, cuya ecuación es ésta:

 

y Y r S

S x X

XY Y X

  .

(recta que pasa por

 

X Y, con pendiente XY Y

X

r S

S ; tiene el mismo signo que rXY y que SXY).

(5)

Tema 14. El modelo de regresión lineal simple 264

 El coeficiente de correlación tiene que ir siempre acompañado de un plot XY (nube de puntos) para su correcta interpretación.

- Puede haber un coeficiente de correlación alto y no existir en absoluto asociación lineal

- Puede haber un coeficiente de correlación bajo por culpa de un sólo punto que rompe la tendencia.

Para todos estos conjuntos de datos el coeficiente de correlación es rXY=0.7.

(6)

Tema 14. El modelo de regresión lineal simple 265

Modelos de regresión

ANÁLISIS DE REGRESIÓN: Técnica estadística para modelar e investigar la relación de una variable (Y) con otra u otras variables (X1, X2, …, Xk).

Y X1, X2, …, Xk ¿ Cómo afectan a Y los cambios en las Xi ?

 Y: Variable Respuesta o variable dependiente.

Es una variable aleatoria. Es la variable de interés en el problema.

 X1, X2, …, Xk: Regresores o variables independientes.

Aportan información sobre la variabilidad de Y. El experimentador controla sus valores y los cambia de diferentes maneras para ver el efecto que producen en Y.

INTERÉS DEL ANÁLISIS DE REGRESIÓN:

1. Conocimiento del modelo.

Averiguar el tipo de relación (lineal, polinómica, …). Medir la fuerza de la relación.

Comprender el papel y la importancia de cada variable explicativa.

2. Predicción de observaciones futuras.

Pronosticar, con unos márgenes de confianza, el valor que se obtendrá para Y con ciertos valores de las X’s.

3. Optimización.

Averiguar los valores de las X’s que proporcionan el “mejor valor” para la Y.

(7)

Tema 14. El modelo de regresión lineal simple 266

Ejemplos de problemas de regresión

EJEMPLO 1. MODELO PARA EXPLICAR EL RENDIMIENTO DE UN PROCESO QUÍMICO Y: Rendimiento del proceso

X’s: Temperatura, Presión, Humedad relativa, Tiempo de operación, Operario que controla el proceso, …

EJEMPLO 2. MODELO PARA EXPLICAR LAS RETRIBUCIONES DE LOS EMPLEADOS DE UNA EMPRESA

Y: Retribuciones

X’s: Edad, Titulación, Experiencia, Puesto, Grado de responsabilidad, Jornada laboral, …

EJEMPLO 3. MODELO PARA EXPLICAR EL PRECIO DE ALQUILER DE VIVIENDAS EN UNA CIUDAD.

Y: Precio de alquiler

X’s: Características físicas (Superficie, Altura, Número de habitaciones, Orientación, … ), Antigüedad del edificio, Situación geográfica, …

EJEMPLO 4. MODELO PARA EXPLICAR EL RENDIMIENTO ACADÉMICO DE LOS ESTUDIANTES.

Y: Nota media del expediente académico

X’s: Estudios que realiza, Nota de selectividad, Indice de asistencia a clase, Tiempo medio diario dedicado al estudio, …

(8)

Tema 14. El modelo de regresión lineal simple 267

Naturaleza de los modelos de regresión

La variabilidad de la variable respuesta Y depende de muchas causas o factores (quizás infinitas):

MODELOS DE REGRESIÓN LINEAL:

La relación entre la respuesta y los regresores es lineal.

 Regresión lineal simple:

 Regresión lineal múltiple:

PRIMER OBJETIVO: Estimar los parámetros ’s de la ecuación.

JUSTIFICACIÓN DE LOS MODELOS LINEALES:

 Simplicidad y facilidad de manejo.

 Modelos linealizables mediante transformaciones.

 Cualquier función “regular” se puede aproximar localmente por funciones lineales.

Pocas causas importantes observables y controlables

Muchas causas no observables, desconocidas o incontrolables X1, X2, …, Xk, Xk+1, Xk+2, …

Y = f(X1, X2, …, Xk) + g(Xk+1, Xk+2, … )

Y = f(X1, X2, …, Xk) +  perturbación aleatoria

Y = 0+1X + 

Y = 0+1 X1+ 2X2+ … + kXk + 

(9)

Tema 14. El modelo de regresión lineal simple 268

NIVEL DE HIDROCARBUROS (%)

PUREZA DEL OXIGENO (%) 0,87 1,07 1,27 1,47 1,67

87 90 93 96 99 102

Caso Nivel de Hidrocarburos

X (%)

Pureza de Oxígeno

Y (%)

1 0,99 90,01

2 1,02 89,05

3 1,15 91,43

4 1,29 93,74

5 1,46 96,73

6 1,36 94,45

7 0,87 87,59

8 1,23 91,77

9 1,55 99,42

10 1,40 93,65

11 1,19 93,54

12 1,15 92,52

13 0,98 90,56

14 1,01 89,54

15 1,11 89,85

16 1,20 90,39

17 1,26 93,25

18 1,32 93,41

19 1,43 94,98

20 0,95 87,33

EJEMPLO:

Proceso químico de destilación.

Se quiere estudiar la relación entre la PUREZA DEL OXIGENO (Y) producido en un proceso químico de destilación y el NIVEL DE HIDROCARBUROS (X) presentes en el condensador principal de la unidad de destilación.

Se realizan n=20 observaciones y se anotan los valores de las variables (X,Y)=(xi,yi), i=1, ..., 20.

(10)

Tema 14. El modelo de regresión lineal simple 269

El modelo de regresión lineal simple

HIPÓTESIS:

1. Linealidad:

Y X xx x

E

E (  )  0    

0

 

1

, 

2. Homogeneidad de la varianza (Homocedasticidad):

Y X x

x

Var

Var(

) 

2   

2, 3. Normalidad:

x x

x N Y X

N     

 ( 0 ,  ) ( 

0

1

,  ),

4. Independencia: Los errores aleatorios de distintas observaciones son v.a. independientes, no tienen memoria al cambiar de unidad experimental.

VARIABLE INDEPENDIENTE X RESPUESTA

Y

Recta verdadera de Regresión

 

E Y X x   0 1x

x1 x2

0+1x1

0+1x2

Y =

0

+

1

X +



0 término independiente

1 pendiente

 error aleatorio

(11)

Tema 14. El modelo de regresión lineal simple 270

Se toman n observaciones y bajo diferentes valores x, de forma que cada una de ellas sigue el modelo

0 1 1...

i i i

y x  i n

Reunimos las n ecuaciones en forma de vectores y matrices:

1 1 1

0 1

1

1

y = X β + ε

n n n

y x

y x

 

 

     

 

     

      

     

     

  

y vector de observaciones observables

contiene las n observaciones de la variable dependiente

X matriz de diseño controlables por experimentador contiene los valores del regresor en cada una de los experimentos

 vector de parámetros desconocido a estimar

contiene las constantes desconocidas (a estimar) que determinan la relación entre X e Y.

 vector de perturbaciones no observables  a estimar contiene las perturbaciones correspondientes a las n situaciones experimentales sus componentes son independientes (0,2) (y normales si el modelo es normal)

(12)

Tema 14. El modelo de regresión lineal simple 271

Estimación del modelo. Método de mínimos cuadrados

Buscamos la recta que minimice globalmente los errores cuadráticos de predicción.

0 1 0 1

2 2 2

0 1

, , β

1 1

min n i min n ( i ( i)) min y-Xβ

i i

y x

    

   

 

SOLUCIÓN: Matricialmente:





0 1 0 1

2

1 0 1

1 1

0 1

2

1

0 1

2 0

2 0

( ) ( )

( ) ( )

i n

i i

i n

i i

i n

i i

i n

i i i

y x y x

y x y x x

 

 

 

 

1

0

  S S y S

S x

xy xx

xy xx

t t

t -1 t

(X X)β=X y ˆβ=(X X) X y

Notación: ( )( ), ( ) , ( ) .

1

2 1

2

1

 

n

i i yy

n

i i xx

n

i

i i

xy x x y y S x x S y y

S

PRODUCTOS DEL AJUSTE:

0 1

0 1

0 1

ˆ ˆ

1. : ˆ

ˆ ˆ

2. : ˆ , 1,...,

ˆ ˆ

3. Re : ˆ ( ), 1,...,

i i

i i i i i

Modelo estimado y x

Valores ajustados y x i n

siduos e y y y x i n

 

 

 

 

  

     

ESTIMACIÓN DE 2

SSE: Suma de cuadrados de los residuos. MSE: Cuadrados medios de los residuos.

SSE e y y MSE SSE

i n

i n

i n

i i

    

2

1 1

2 2

(  ) ;  2.

(13)

Tema 14. El modelo de regresión lineal simple 272

Productos del ajuste

0 1

0

1

0 1

ˆ ˆ

1. Modelo estimado : ˆ

ˆ : Estimación del termino independiente (intercept) ˆ : Estimación de la pendiente (slope)

ˆ ˆ

2. Valores ajustados : ˆ , 1,..., ˆ : Predicción de la respuesta a traves

del modelo estim

i i

i

y x

y x i n

y

 

 

i

0 1

ado. Se usa el valor medio estimado bajo la condición experimental x

ˆ ˆ

3. Residuos : ˆ ( ), 1,...,

: Estimación de la perturbación aleatoria ocurrida en el caso .

4. Estimación de la varian

i i i i i

i

e y y y x i n

e

i

 

   

ˆ2

za del modelo : / 2

: Promedio corregido de los errores cuadráticos cometidos.

MSE SSE n MSE

Recta estimada de Regresión a partir de las observaciones

y 0 1x

(xi,yi)

observación

xi

yi

yi (  )x y valor ajustadoi i ei residuo

ei

(14)

Tema 14. El modelo de regresión lineal simple 273

Propiedades de los estimadores

1. ESTIMADORES INSESGADOS

(No se necesita la hipótesis de normalidad)

 

ˆ1 1, E

 

ˆ0 0, E

 

ˆ2 2 E

2. VARIANZAS DE LOS ESTIMADORES

     

xx xx

xx S

Cov x S

x Var n

Var S 0 1 2

2 2 0

2

1 , ˆ 1 , ˆ , ˆ

ˆ





3. DISTRIBUCIONES DE LOS ESTIMADORES (Bajo hipótesis de normalidad para los errores)

2

1 1

2 2

0 0

2

2

2 2 2

0 1

ˆ ,

ˆ , 1

( 2) ˆ

ˆ ˆ

xx

xx

n

N S

N x

n S

n SSE

SSE independiente de y

  

  

 

 

 

 

1 1

2 1, 2

0 0

2 2

ˆ ;

ˆ ;

1

n n

xx

n

xx

t su cuadrado F MSE

S

t idem

MSE x

n S

 

 

 

 

 

  

 

(15)

Tema 14. El modelo de regresión lineal simple 274

Inferencias sobre los parámetros

INTERVALOS DE CONFIANZA

, ,

, ,

1 2 1 1 2

0 2

2

0 0 2

2

2 2

2 2

1 1

 

t MSE

S t MSE

S

t MSE

n x

S t MSE

n x S

n

xx

n

xx

n

xx

n

xx

CONTRASTES DE HIPÓTESIS









, 2

2

* 0 0 2

,

* 1 1

* 0 0

1

* 0 0

0

* 1 1 1

* 1 1 0

2

2 1

ˆ ˆ

: : :

:

n

xx n

xx

t S

x MSE n

C t

S C MSE

H H H

H

TABLA DE COEFICIENTES ESTIMADOS

Parámetro Estimador Error Estándar

Estadístico t p-valor Intercept0 Var (  )0 t0  0 Var (  )0

Slope 1 Var (  )1 t1  1 Var (  )1

(16)

Tema 14. El modelo de regresión lineal simple 275

Prueba de significación de la regresión

H H

0 1

1 1

0 0 :

:

PARTICIÓN DE LA VARIABILIDAD

¿La variable X aporta información relevante para explicar la variabilidad de Y?

Recta estimada de Regresión de Y sobre X:

Solución de min y x

i n

i i

 

0 1 1 0 1

2

, ( ( ))

y 0 1x

(xi,yi)

xi

(  )x yi i yi yi ei

yi

yi

y

y y

Ajuste de la variable Y sin tener en cuenta la X:

Solución de min y

i n

i

0 1 0

( )2

yi y VARIABILIDAD

TOTAL DE LA RESPUESTA Y

PARTE EXPLICADA

POR LA REGRESIÓN

=

PARTE

NO EXPLICADA POR LA

REGRESIÓN

+

SST = SSR + SSE

Syy yi y y y y y

i n

i i

n

i i

i

n

( )2

(  )

(  )

1

2 1

2 1

(17)

Tema 14. El modelo de regresión lineal simple 276

El tamaño de SSR y SSE relativo al total SST sirve para valorar la significación de la regresión:

 SSE = 0 : Ajuste perfecto.

 SSR = 0 : La X no aporta nada en la explicación de la Y.

 0 < SSR, SSE < SST : Situaciones habituales.

Si la hipótesis nula se cumple (1=0), entonces

TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)

Fuente de Variación (Source)

Suma de cuadrados (Sum of Squares)

Grados de libertad (Df)

Cuadrados Medios (Mean Square)

F0 p-valor

Regresión SSR 1 MSR

MSE MSR

Residual SSE n-2 MSE

Total SST n-1

COEFICIENTE DE DETERMINACIÓN: R2

1 SSR 2

SST

SSE

SST R SSR

, SST 0 1 2 10::AjusteAusenciaexacto.derelacionlineal.

2 2

R R R

2 , 1 2 0

2 2

2 1 2

2 1

 





n n

MSE F MSR n

SSE F SSR

SSE SSR

Proporción de la

variabilidad explicada sobre el total

(18)

Tema 14. El modelo de regresión lineal simple 277

EJEMPLO: Proceso químico de destilación

NIVEL DE HIDROCARBUROS

PUREZA DEL OXIGENO 0,8 1 1,2 1,4 1,6

86 88 90 92 94 96 98 100 102

TABLA DE COEFICIENTES ESTIMADOS

Regression Analysis - Linear model: Y = a + b*X

--- Dependent variable: PUREZA DEL OXIGENO

Independent variable: NIVEL DE HIDROCARB

--- Standard

Parameter Estimate Error Statistic P-Valu --- Intercept 74,2833 1,59347 46,6172 0,000 Slope 14,9475 1,31676 11,3517 0,000 ---

Analysis of Variance

--- Source Sum of Squares Df Mean Square F-Ratio --- Model 152,127 1 152,127 128,86 Residual 21,2498 18 1,1805

--- Total (Corr.) 173,377 19

Correlation Coefficient = 0,936715 R-squared = 87,7436 percent

Standard Error of Est. = 1,08653 Recta estimada de regresión:

PUREZA=74.2833+14.9475*HIDROC.

TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)

(19)

Tema 14. El modelo de regresión lineal simple 278

Intervalo de confianza para la respuesta media de Y para un valor determinado de X

Parámetro:

Y x/ 0 E Y X x

 

x

0 0 1 0

  

 

   Estimador:

Y x/ 0

 

0  1 0x

Distribución:  , ( )

/ /

Y xY x

xx

N n

x x

0 0 S

2 0

1 2

   

 







0 0 0 0

/ / 2 / /

2 2 2

2 0 0

ˆ ˆ

(0,1) . ( )

( ) ( )

1 1

Y x Y x Y x Y x

n

xx xx

N indep de SSE t

x x x x

n S MSE n S

 ( )

 ( )

/ , / / ,

Y x n  

xx

Y x Y x n

xx

t MSE

n

x x

S t MSE

n

x x

0 2 2 0 0 2 S

0

2

2

0

1 1 2

   

 

      

 



Representando gráficamente el Intervalo de Confianza en función de x0 se forma una banda en torno a la recta de regresión estimada.

Anchura mínima en x0 x .

La anchura crece desde la media hasta los extremos del rango de valores de X.

(20)

Tema 14. El modelo de regresión lineal simple 279

Predicción de nuevas observaciones

y0 : Nueva observación a realizar en X=x0.

  

y0  0  1 0x : Predicción con el modelo estimado.

y0 independiente de y1, ..., yn utilizadas para el ajuste.

0

0

0 /

2

2 0 0 0

0 / 2

2 0

2

0 0

( , )

( ) ˆ

ˆ , 1

( )

1 1 ˆ independientes de MSE

Y x

Y x n

xx

xx

y N

x x y y

y N t

n S x x

MSE n S

y e y

 

 

 

    

 

          

 



( )

( )

, ,

y t MSE

n

x x

S y y t MSE

n

x x

n S

xx

n

xx

0 2

0

2

0 0 2

0

2

2 2

1 1 1 1

 

     

Representando gráficamente el Intervalo de Predicción en función de x0 se forma una banda en torno a la recta de regresión estimada.

La banda de predicción contiene a la banda de confianza para la respuesta media.

Anchura mínima en x0 x .

La anchura crece desde la media hasta los extremos del rango de valores de X: La predicción fuera del rango de valores usados en el ajuste es poco fiable, pues no sabemos cómo se comporta y fuera del rango x observado.

(21)

Tema 14. El modelo de regresión lineal simple 280

Intervalos de confianza para la respuesta media e intervalos de predicción para nuevas observaciones

x0

/

Y x

0

Límites inferior y superior del intervalo de predicción para una nueva observación y0 en X=x0.

Límites inferior y superior del intervalo de confianza para la respuesta media en X=x0.

(22)

Tema 14. El modelo de regresión lineal simple 281

EJEMPLO: Proceso químico de destilación

NIVEL DE HIDROCARBURO

PUREZA DEL OXIGENO

0,8 1 1,2 1,4 1,6 1,8

86 88 90 92 94 96 98 100 102

Caso

Nivel de Hidrocarburos X(%)

Pureza de Oxígeno Y(%)

Valores

ajustados Residuos 1 0,99 90,01 89,0813 0,928681 2 1,02 89,05 89,5297 -0,479744 3 1,15 91,43 91,4729 -0,042916 4 1,29 93,74 93,5656 0,174437 5 1,46 96,73 96,1066 0,623365 6 1,36 94,45 94,6119 -0,161887 7 0,87 87,59 87,2876 0,302378 8 1,23 91,77 92,6687 -0,898714 9 1,55 99,42 97,4519 1,968090 10 1,40 93,65 95,2098 -1,559790 11 1,19 93,54 92,0708 1,469180 12 1,15 92,52 91,4729 1,047080 13 0,98 90,56 88,9318 1,628160 14 1,01 89,54 89,3803 0,159731 15 1,11 89,85 90,875 -1,025020 16 1,20 90,39 92,2203 -1,830290 17 1,26 93,25 93,1171 0,132861 18 1,32 93,41 94,014 -0,603987 19 1,43 94,98 95,6582 -0,678210 20 0,95 87,33 88,4834 -1,153420

Límites de confianza y de predicción al 95%

(23)

Tema 14. El modelo de regresión lineal simple 282

Necesidad de chequear la validez de las hipótesis

Ejemplo: Datos simulados de Anscombe

X1 Y1 Y2 Y3 X2 X3

1 10 8,04 9,14 7,46 8 6,58

2 8 6,95 8,14 6,77 8 5,76

3 13 7,58 8,74 12,74 8 7,71

4 9 8,81 8,77 7,11 8 8,84

5 11 8,33 9,26 7,81 8 8,47

6 14 9,96 8,1 8,84 8 7,04

7 6 7,24 6,13 6,08 8 5,25

8 4 4,26 3,1 5,39 19 12,5

9 12 10,84 9,13 8,15 8 5,56

10 7 4,82 7,26 6,42 8 7,91

y=3.00+0.5*x+eps

X1

Y1

3 4 5 6 7 8 9 10 11 12

2 4 6 8 10 12 14 16

y=3.00+0.5*x+eps

X1

Y2

2 3 4 5 6 7 8 9 10

2 4 6 8 10 12 14 16

y=3.00+0.5*x+eps

X1

Y3

4 6 8 10 12 14

2 4 6 8 10 12 14 16

y=3.00+0.5*x+eps

X2

X3

4 6 8 10 12 14

6 8 10 12 14 16 18 20

Los 4 conjuntos de arrojan resultados idénticos:

0 30 . , 

1 05 . , MSE1375. , R2 0667 .

(24)

Tema 14. El modelo de regresión lineal simple 283

EJEMPLO

El propietario de una oficina de reparto de envíos postales anuncia que todos sus envíos se embarcan dentro de las 24 h. siguientes a su recepción. Puesto que el personal del departamento de embarque se contrata por día, es importante poder predecir el número de envíos contenido en cada lote de correo diario con el objeto de poder contratar el suficiente personal para el día siguiente. Como resulta más rápido pesar los envíos que contarlos, tuvo la idea de pesar cada día durante un mes los envíos para estudiar la forma de predecir el número de envíos en función de su peso.

a) Se puede afirmar estadísticamente que por cada Kg. que aumenta el peso de los envíos, el número de envíos aumenta en más de 100 unidades. Dar el p-valor.

b) Supongamos que una persona puede manejar como máximo 100 envíos por día. ¿Cuántas personas como mínimo debe de contratar para manejar 22 Kg. de correo si se quiere tener unas garantías del 99% de poder distribuir todos los envíos?

Día Peso  Envíos        RESIDS         VAL. AJUST 1   20     5400   499.494226      4900.50577 2   15     4200    ‐54.502730      4254.50273 3   23     5800   511.892400      5288.10760 4   17     5000   487.096052      4512.90395 5   12     3500  ‐366.900904      3866.90090 6   35     6400  ‐438.514905      6838.51490 7   29     6000    ‐63.311252      6063.31125 8   21     5200   170.293617      5029.70638 9   10     4000   391.500313      3608.49969 10   13     3800  ‐196.101513      3996.10151 11   25     5700   153.491183      5546.50882 12   14     4000  ‐125.302122      4125.30212 13   18     4800   157.895444      4642.10456 14   30     6200        7.488139      6192.51186       15   33     6600     19.886313      6580.11369

Día Peso  Envíos        RESIDS           VAL. AJUST    16  26       5400  ‐275.709426      5675.70943      17  21       5000    ‐29.706383      5029.70638  

   18  24       5400    ‐17.308209      5417.30821          19  16       4300    ‐83.703339      4383.70334          20  34       6700      ‐9.314296      6709.31430  

   21  28       6100   165.889356      5934.11064      22   15      3600  ‐654.502730      4254.50273      23   11      3200  ‐537.700295      3737.70030      24   18      5300   657.895444      4642.10456      25   27      5800      ‐4.910035      5804.91003      26   30      5900  ‐292.511861      6192.51186      27   22      5500   341.093009      5158.90699      28   20      5200   299.494226      4900.50577      29   24      5000   ‐417.308209     5417.30821     30  13.      3700   ‐296.101513     3996.10151

(25)

Tema 14. El modelo de regresión lineal simple 284

AJUSTE DEL MODELO: ENVIOS = 0 1* PESO + 

1 0 1 5 2 0 2 5 3 0 3 5

P e s o 3 2 0 0

4 2 0 0 5 2 0 0 6 2 0 0 7 2 0 0

E n v ío s

3600 4600 5600 6600 7600

Predicted -700

-400 -100 200 500 800

Resid.

Analysis of Variance

--- Source Sum of Squares Df Mean Square F-Ratio Prob. Level Model 24863365 1 24863365 218.7 .00000 Residual 3183634.9 28 113701.2

--- Total (Corr.) 28047000 29

Correlation Coef. = 0.9415 R-squared = 88.65 % Stnd. Error of Est. = 337.196

Dependent variable: ENVIOS Independent variable: PESO ---

Parameter Estimate Stnd.Error t -value Prob. level ---

Intercept 2316.49 197.402 11.7349 .00000 Slope 129.201 8.7371 14.7876 .00000

(26)

Tema 14. El modelo de regresión lineal simple 285

Estudio de la adecuación del modelo

Problemas fundamentales:

1. VIOLACIÓN DE LAS HIPÓTESIS 1.1. NO LINEALIDAD

1.2. HETEROCEDASTICIDAD (Varianza no constante) 1.3. NO NORMALIDAD

1.4. CORRELACIÓN DE LAS PERTURBACIONES 2. OUTLIERS Y PUNTOS DE INFLUENCIA

2.1. OUTLIERS: Puntos que se desvían de la tendencia mayoritaria.

2.2. PUNTOS DE INFLUENCIA: Puntos que afectan excesivamente a los resultados de la regresión.

Los problemas anteriores afectan en mayor o menor medida a la validez de las conclusiones del análisis de regresión: Conocimiento del modelo, interpretación de los coeficientes, intervalos de confianza y tests, predicción, …

Herramientas fundamentales:

1. ANÁLISIS DE RESIDUOS (Para problemas 1 y 2)

2. DIAGNÓSTICOS DE INFLUENCIA (Para problema 2)

(27)

Tema 14. El modelo de regresión lineal simple 286

1- Análisis de residuos

Se utiliza sobre todo para chequear la validez de las hipótesis probabilísticas hechas sobre el modelo:

0 1 1

0 1 1

2 2

0 1 1

1 1

, 1,..., .

1. ( ) 0 ( ) ( )

2. ( ) ( ) ( var )

3. (0, ) ( , ) ( )

4. ,..., ,

i i i

i i i

i i

i i i

n

y x i n

E E y x Linealidad

Var Var y Homogeneidad de la ianza

N y N x Normalidad

independientes y

  

  

  

    

 

   

   

  

   

 ..., y independientesn

Las hipótesis se hacen sobre las perturbaciones aleatorias 1, …, n. N(0,) independientes Las perturbaciones aleatorias no son observables, son desconocidas:

. ,..., 1 )

( 0 1x1 i n

yi i

i      

No podemos usarlas para chequear la validez de las hipótesis.

Los residuos e1, …, en sí son observables:

. ,..., 1 ˆ )

( ˆ

ˆ y 0 1x1 i n

y y

eiiii     i  Los residuos estiman las perturbaciones.

Su estudio informa sobre el comportamiento de las perturbaciones y, por tanto, sobre el cumplimiento de las hipótesis.

Los estudios serán básicamente gráficos y descriptivos y con un alto grado de interpretación personal.

Referencias

Documento similar

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)