Regresión Simple y Múltiple Parte II

(1)

Regresión Simple y Múltiple Parte II

Profesor Oscar Millones Borrador, Octubre 12, 2008

Supuestos en el modelo de regresión

• 1.- Para cada valor de X, existe un grupo de valores de Y que tienen una distribución normal. (graficar esta idea)

• 2.- Las medias de estas distribuciones normales de valores de Y deben estar sobre la recta de regresión.

• 3.- Las desviaciones estándar de estas distribuciones normales son iguales.

• 4.- Los valores de Y son estadísticamente independientes. Es decir, que en la selección de una muestra, los valores elegidos de Y para un valor particular de X no depende de los valores de Y para otro valor de X.

Error estándar de regresión

Recordar: Dado el modelo

Y

i

=

a

+

bX

_i

+

u

_i, en la muestra se tiene:

i i

i

a

b

X

e

Y

=

+

∧ ∧

con

Y

i

a

b

X

_i ∧ ∧ ∧

+

=

donde

_ei

=

_Y

_i

−

Y

∧_i es el error de regresión

Se calcularon:

X b Y a x

y x b

i i

i _ˆ

ˆ ˆ

2 = −

= ∑

∑ _donde

−

= X X

xi i ;

−

= _Y Y

yi i

• El error estándar de la estimación mide la dispersión de los valores

observados

Y

i alrededor de la recta de regresión

Y

i ∧

, es decir, la

dispersión de los

_ei

=

Y

_i

−

Y

∧_i.

• Fórmula usada para calcular el error estándar:

Error estándar de regresión

2 2 2

− =

∑

n i e x

y S

(2)

Evaluación del modelo de regresión 1 (evaluación global) Tabla ANOVA y el R2

El cuadro o Tabla ANOVA es la colección de tres tipos de varianzas calculadas en el ejercicio de una regresión. Estas varianzas o “suma de cuadrados totales” son:

Suma de Cuadrados Totales (SCT) Suma de Cuadrados Explicados (SCE) Suma de cuadrados Residuales (SCR)

Suma de Cuadrados Totales (SCT)

Si definimos las siguientes variables en términos de sus desviaciones

−

= Y Y

yi i

− ∧ ∧

−

=

_Y

yi

i

entonces,

y

=

y

ˆ

+

e

Esto se puede ver gráficamente así:

Es fácil demostrar que

∑

2 y =

_∑

∧

2

y +

∑

2 e SCT = SCE + SCR

Osea, la suma de cuadrados totales ∑_y2 es igual a la suma de cuadrados

(3)

Ordenando estos cálculos del ejercicio se tiene la Tabla ANOVA siguiente

Tabla ANOVA Fuente de

variación

Suma de Cuadrados

gl Cuadrados Medios

Test F Explicada

SCE=

∑

∧ 2 y

1

∑

∧ 2

y /1 F1,(n-2)

Residual

SCR=

∑

2

e n-2

∑

e2_/(n-2)

Total

SCT

∑

y2 n-1

El coeficiente de Determinación R2

“El R2 es la proporción de la variación de Y explicada por la regresión”, es decir cuán bien el modelo de regresión representa a los datos.

Dividiendo la ecuación

_∑

2 y =

_∑

∧

2

y +

∑

2 e

entre ∑_y2 se tiene

∑ ∑ + ∑ ∑ =

∧

y2 e2

y2

2

y

1

Definiendo

SCT

SCE

2

2 ₌

∑

∧

=

y

R

y reemplazando arriba se tiene

SCT

SCR

R

2

1 =

+

ó

SCT

SCR

1

2 ₌

₋

R

luego

=

SCT

SCE

2 R

donde

SCR: Suma de Cuadrados Residuales =

SCT: Suma de Cuadrados Totales de desvíos “y” =

SCE: Suma de Cuadrados Explicada por la regresión “y” en “x” =122.5

(4)

Preguntas interesantes

¿Qué pasaría si la variable dependiente fuera constante?

¿Qué significa que un modelo explique el 50% y otro el 90% de la variable de interés observada?

Intervalos de confianza en la predicción (opcional)

Estimados los parámetros con la muestra, puede ser de interés predecir el valor Y0 para algún valor específico X0 . Notar que X0 puede estar dentro o fuera del rango de los valores muestrales.

La predicción será

0

0 b

X

y

a

∧

+

=∧

con un error de predicción de = −∧

0 0 0 Y y e

según esto el IC al 5% de la predicción es

)

0 (

025 .

0

0 t

Var

e

y

±

∧

es decir,

)

0 (

025 .

0 )

0 (

∧

a

+

∧

b

X

±

t

Var

e

• El intervalo de confianza para el valor medio de Y dado X0 está definido por el IC de arriba pero:

Usando

)

2

0

1 (

2 )

0 (

∑

+

=

x

n

e

Var

σ

• El intervalo de confianza para un valor individual de Y dado X0 se define por el IC de arriba pero :

Usando

)

2

0

1

1 (

2 )

0 (

∑

+

=

x

n

e

Var

σ

Ejercicio

• Con la información del ejemplo de costo de libros:

· calcule el error estándar de la estimación:

2 2 2 − =

∑

n i e x y

S _{= 3.471}

· desarrolle un intervalo de confianza de 95% para los libros de 650 páginas: [24.03, 30.25]. Verifique

(5)

Evaluación del Modelo de regresión 2 (evaluación individual de factores) Inferencia sobre los parámetros estimados (Prueba t)

Por ilustrar en Lab

Estudiar Reporte de software Por ilustrar en Lab.

Regresión Múltiple

• Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es:

• X1 y X2 son las variables independientes.

• a es la intercepción en Y.

• b1 es el cambio neto en Y por cada cambio unitario en X1, manteniendo X2 constante.

• Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

• La ecuación general de regresión múltiple con k varibles independientes es:

• El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

• Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.

Y

'

=

a

+

b X

₁ ₁

+

b X

₂ ₂

+ +

. . .

b X

_k _k

2 2 1 1

'

a

b

X

b

X

(6)

Test t

• El estadístico de prueba es la distribución t con n - (k + 1) grados de libertad.

Ejemplo

• Un estudio de mercado para la cadena de tiendas autoservicio Super Dollar analiza la cantidad anual que gastan en comida las familias de cuatro o más miembros. Se piensa que tres variables independientes se relacionan con los gastos en comida. Esas variables son: ingreso

familiar total, tamaño de la familia y si la familia tiene hijos en la universidad.

• ¿Qué gastos en comida estima para una familia de 4 integrantes, sin hijos en la universidad y con ingresos de $50,000?

• Y’=954 + 10.9(50) + 748(4) + 565 (0) = 4491.

Ejercicio

• Realice una prueba individual para determinar qué coeficientes son distintos de cero.

• Entonces,

• Para 5% de nivel de significancia, se rechaza H0 si el valor p < .05

Como el valor p =.039 <.05, se rechaza H0 y se concluye que

H

₀

:

β

₂

=

0 H

₁

:

β

₂

≠

0

Y

'

=

954 +

10 9

.

X

₁

+

748 X

₂

+

565 X

₃

Family Food Income Family College

Expenditure (thousands) Size Student

1 3900 37.6 4 0

2 5300 51.5 5 1

3 4300 51.6 4 0

4 4900 46.8 5 0

5 6400 53.8 6 1

6 7300 62.6 7 1

7 4900 54.3 5 0

8 5300 43.7 4 0

9 6100 60.8 5 1

10 6400 51.3 6 1

11 7400 49.3 6 1

12 5800 56.3 5 0

0

(7)

. Esto es, el tamaño de la familia y cantidad gastada en comida tienen una relación significativa.

Test F

• La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos.

• Las hipótesis son:

La alternativa es

Ha : al menos uno de los coeficientes de regresión no es cero.

• El estadístico de prueba es la distribución F con k (número de variables independientes) y n - (k + 1) grados de libertad, donde n es el tamaño de la muestra.

Ejercicio

• Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de regresión es distinto de cero.

0 :

₁ ₂ ₃

0

β

=

β

=

β

=

H

H1 : al menos una

• H0 se rechaza si F > 4.07

• A partir de la salida del output, el valor del estadístico de prueba calculado es 10.94