• No se han encontrado resultados

Regresión Simple y Múltiple Parte II

N/A
N/A
Protected

Academic year: 2018

Share "Regresión Simple y Múltiple Parte II"

Copied!
7
0
0

Texto completo

(1)

Regresión Simple y Múltiple Parte II

Profesor Oscar Millones Borrador, Octubre 12, 2008

Supuestos en el modelo de regresión

• 1.- Para cada valor de X, existe un grupo de valores de Y que tienen una distribución normal. (graficar esta idea)

2.- Las medias de estas distribuciones normales de valores de Y deben estar sobre la recta de regresión.

3.- Las desviaciones estándar de estas distribuciones normales son iguales.

• 4.- Los valores de Y son estadísticamente independientes. Es decir, que en la selección de una muestra, los valores elegidos de Y para un valor particular de X no depende de los valores de Y para otro valor de X.

Error estándar de regresión

Recordar: Dado el modelo

Y

i

=

a

+

bX

i

+

u

i, en la muestra se tiene:

i i

i

a

b

X

e

Y

=

+

+

∧ ∧

con

Y

i

a

b

X

i ∧ ∧ ∧

+

=

donde

ei

=

Y

i

Y

i es el error de regresión

Se calcularon:

X b Y a x

y x b

i i

i ˆ

ˆ ˆ

2 = −

= ∑

donde

= X X

xi i ;

= Y Y

yi i

• El error estándar de la estimación mide la dispersión de los valores

observados

Y

i alrededor de la recta de regresión

Y

i

, es decir, la

dispersión de los

ei

=

Y

i

Y

i.

• Fórmula usada para calcular el error estándar:

Error estándar de regresión

2 2 2

− =

n i e x

y S

(2)

Evaluación del modelo de regresión 1 (evaluación global) Tabla ANOVA y el R2

El cuadro o Tabla ANOVA es la colección de tres tipos de varianzas calculadas en el ejercicio de una regresión. Estas varianzas o “suma de cuadrados totales” son:

Suma de Cuadrados Totales (SCT) Suma de Cuadrados Explicados (SCE) Suma de cuadrados Residuales (SCR)

Suma de Cuadrados Totales (SCT)

Si definimos las siguientes variables en términos de sus desviaciones

= Y Y

yi i

− ∧ ∧

=

Y

Y

yi

i

entonces,

y

=

y

ˆ

+

e

Esto se puede ver gráficamente así:

Es fácil demostrar que

2 y =

2

y +

2 e SCT = SCE + SCR

Osea, la suma de cuadrados totales ∑y2 es igual a la suma de cuadrados

(3)

Ordenando estos cálculos del ejercicio se tiene la Tabla ANOVA siguiente

Tabla ANOVA Fuente de

variación

Suma de Cuadrados

gl Cuadrados Medios

Test F Explicada

SCE=

∧ 2 y

1

∧ 2

y /1 F1,(n-2)

Residual

SCR=

2

e n-2

e2/(n-2)

Total

SCT

y2 n-1

El coeficiente de Determinación R2

“El R2 es la proporción de la variación de Y explicada por la regresión”, es decir cuán bien el modelo de regresión representa a los datos.

Dividiendo la ecuación

2 y =

2

y +

2 e

entre ∑y2 se tiene

∑ ∑ + ∑ ∑ =

y2 e2

y2

2

y

1

Definiendo

SCT

SCE

2

2

2

=

=

y

y

R

y reemplazando arriba se tiene

SCT

SCR

R

2

1

=

+

ó

SCT

SCR

1

2

=

R

luego

=

=

=

SCT

SCE

2

R

donde

SCR: Suma de Cuadrados Residuales =

SCT: Suma de Cuadrados Totales de desvíos “y” =

SCE: Suma de Cuadrados Explicada por la regresión “y” en “x” =122.5

(4)

Preguntas interesantes

¿Qué pasaría si la variable dependiente fuera constante?

¿Qué significa que un modelo explique el 50% y otro el 90% de la variable de interés observada?

Intervalos de confianza en la predicción (opcional)

Estimados los parámetros con la muestra, puede ser de interés predecir el valor Y0 para algún valor específico X0 . Notar que X0 puede estar dentro o fuera del rango de los valores muestrales.

La predicción será

0

0

b

X

y

a

+

=∧

con un error de predicción de = −∧

0 0 0 Y y e

según esto el IC al 5% de la predicción es

)

0

(

025

.

0

0

t

Var

e

y

±

es decir,

)

0

(

025

.

0

)

0

(

a

+

b

X

±

t

Var

e

• El intervalo de confianza para el valor medio de Y dado X0 está definido por el IC de arriba pero:

Usando

)

2

2

0

1

(

2

)

0

(

+

=

x

x

n

e

Var

σ

• El intervalo de confianza para un valor individual de Y dado X0 se define por el IC de arriba pero :

Usando

)

2

2

0

1

1

(

2

)

0

(

+

+

=

x

x

n

e

Var

σ

Ejercicio

• Con la información del ejemplo de costo de libros:

· calcule el error estándar de la estimación:

2 2 2 − =

n i e x y

S = 3.471

· desarrolle un intervalo de confianza de 95% para los libros de 650 páginas: [24.03, 30.25]. Verifique

(5)

Evaluación del Modelo de regresión 2 (evaluación individual de factores) Inferencia sobre los parámetros estimados (Prueba t)

Por ilustrar en Lab

Estudiar Reporte de software Por ilustrar en Lab.

Regresión Múltiple

• Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es:

X1 y X2 son las variables independientes.

a es la intercepción en Y.

b1 es el cambio neto en Y por cada cambio unitario en X1, manteniendo X2 constante.

• Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

La ecuación general de regresión múltiple con k varibles independientes es:

• El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.

Y

'

=

a

+

b X

1 1

+

b X

2 2

+ +

. . .

b X

k k

2 2 1 1

'

a

b

X

b

X

(6)

Test t

El estadístico de prueba es la distribución t con n - (k + 1) grados de libertad.

Ejemplo

• Un estudio de mercado para la cadena de tiendas autoservicio Super Dollar analiza la cantidad anual que gastan en comida las familias de cuatro o más miembros. Se piensa que tres variables independientes se relacionan con los gastos en comida. Esas variables son: ingreso

familiar total, tamaño de la familia y si la familia tiene hijos en la universidad.

• ¿Qué gastos en comida estima para una familia de 4 integrantes, sin hijos en la universidad y con ingresos de $50,000?

• Y’=954 + 10.9(50) + 748(4) + 565 (0) = 4491.

Ejercicio

• Realice una prueba individual para determinar qué coeficientes son distintos de cero.

• Entonces,

Para 5% de nivel de significancia, se rechaza H0 si el valor p < .05

Como el valor p =.039 <.05, se rechaza H0 y se concluye que

H

0

:

β

2

=

0

H

1

:

β

2

0

Y

'

=

954

+

10 9

.

X

1

+

748

X

2

+

565

X

3

Family Food Income Family College

Expenditure (thousands) Size Student

1 3900 37.6 4 0

2 5300 51.5 5 1

3 4300 51.6 4 0

4 4900 46.8 5 0

5 6400 53.8 6 1

6 7300 62.6 7 1

7 4900 54.3 5 0

8 5300 43.7 4 0

9 6100 60.8 5 1

10 6400 51.3 6 1

11 7400 49.3 6 1

12 5800 56.3 5 0

0

(7)

. Esto es, el tamaño de la familia y cantidad gastada en comida tienen una relación significativa.

Test F

• La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos.

• Las hipótesis son:

La alternativa es

Ha : al menos uno de los coeficientes de regresión no es cero.

El estadístico de prueba es la distribución F con k (número de variables independientes) y n - (k + 1) grados de libertad, donde n es el tamaño de la muestra.

Ejercicio

• Realice una prueba global de hipótesis para determinar si alguno de los coeficientes de regresión es distinto de cero.

0

:

1 2 3

0

β

=

β

=

β

=

H

H1 : al menos una

H0 se rechaza si F > 4.07

• A partir de la salida del output, el valor del estadístico de prueba calculado es 10.94

Decisión: como F = 10.94 > 4.07, H0 se rechaza.

• Entonces, no todos los coeficientes de regresión son cero.

0

...

:

1 2 3

0

=

=

=

=

k

=

H

β

β

β

β

Referencias

Documento similar

Con respecto a la hipótesis general, luego de someter a la prueba estadístico de regresión ordinal se tiene que la puntuación Wald indica que la variable

Según los datos presentados en la Tabla 13, sobre los coeficientes de la regresión logística de las dimensiones de la autorregulación del aprendizaje en los estudiantes

Se llega así a una doctrina de la autonomía en el ejercicio de los derechos que es, en mi opinión, cuanto menos paradójica: el paternalismo sería siempre una discriminación cuando

Nuestra prueba prueba experimental consiste en medir el error cuadrático medio de los árboles CART y los bosques aleatorios con su nueva implementación multi-objetivo

13 El candidato que encabezaba la terna remitida por el gobernador de Orihuela –en marzo de 1593– para la provisión del primer titular de la Abogacía fiscal alicantina,

A la hora de realizar el análisis de regresión mediante SPSS existen diferentes métodos para seleccionar los predictores a incluir en el modelo de regresión. Las opciones

Metodología: en primer lugar, se realiza un análisis de regresión múltiple para determinar qué factores tienen mayor efecto sobre el aprendizaje y, posteriormente, determinar en

Metodología: en primer lugar, se realiza un análisis de regresión múltiple para determinar qué factores tienen mayor efecto sobre el aprendizaje y, posteriormente,