Propiedades algebraicas de los estimadores MCO

(1)

Propiedades algebraicas de los estimadores MCO

Mauricio Olivares

ITAM

(2)

I Los estimadores de MCO satisfacen una serie de propiedades algebraicas bastante convenientes. Recalcamos que estamos estimando α yβ.

I Antes de ver las propiedades estad´ısticas, es importante mencionar las siguientes propiedades que ser´an de bastante utilidad para mostrar las propiedades estad´ısticas.

I Piensa en ellas como propiedades de MCO para una muestra determinada.

I Aunque muchas de ellas parecer´an triviales, nos arrojar´an mucha luz cuando estudiemos ciertas manipulaciones a los datos.

(3)

(4)

(5)

(6)

(7)

Propiedades

1. La suma de residuales es cero, i.e.

n

X

i=1

ˆ εi =0

2. La covarianza muestral entre la variable explicativa y el residual es cero i.e.

n

X

i=1

xiεˆi =0

3. El punto(En(x),En(y))siempre est´a sobre la funci´on de

(8)

Propiedades

n

X

i=1

ˆ εi =0

n

X

i=1

xiεˆi =0

(9)

Propiedades

n

X

i=1

ˆ εi =0

n

X

i=1

xiεˆi =0

(10)

Observaciones

I Las primeras dos propiedades se siguen inmediatamente de las condiciones de primer orden del problema de minimizaci´on de los residuales al cuadrado.

I Nota que estas condiciones, multiplicadas por 1_n, puedes pensarlas tambi´en como el an´alogo muestral de las condiciones de momentos que derivaste en la tarea:

E(ε) = 0 E(xε) = 0

I La tercera propiedad se sigue inmediatamente al evaluar la función de regresión muestral enEn(x)y usar la definición de

(11)

Observaciones

E(ε) = 0 E(xε) = 0

(12)

Observaciones

E(ε) = 0 E(xε) = 0

(13)

Implicaciones

I A partir de estas tres propiedades vamos a derivar otras tantas.

I Recuerda la definici´on de residualεˆi =yi −ˆyi

I Entonces podemos reescribir nuestro modelo como

yi = ˆyi+ ˆεi

I Usando las propiedades 1 y 2, podemos concluir:

(14)

Implicaciones

yi = ˆyi+ ˆεi

(15)

Implicaciones

yi = ˆyi+ ˆεi

(16)

Implicaciones

yi = ˆyi+ ˆεi

(17)

Implicaciones

yi = ˆyi+ ˆεi

(18)

Implicaciones

I Implicaci´on 2: La covarianza entre los residuales y el valor ajustado es cero i.e.

Cn(ˆy,ε) =ˆ 0

I Esta propiedad nos dice que cadayi se puede descomponer en dos partes,yî yεî, y ambas partes no están correlacionadas en

la muestra.

(19)

Implicaciones

Cn(ˆy,ε) =ˆ 0

la muestra.

(20)

Implicaciones

Cn(ˆy,ε) =ˆ 0

la muestra.

(21)

Sumas de cuadrados

I Vamos a definir tres objetos en t´erminos de sumas de cuadrados.

I LaSuma cuadrados totales (SST):

SST =

n

X

i=1

(yi −y¯)2

I LaSuma de cuadrados explicada (SSE):

SSE =

n

X

i=1

(ˆyi −y¯)2

I LaSuma de residuales cuadrados (SSR):

SSR =

n

X

i=1

(22)

Sumas de cuadrados

SST =

n

X

i=1

(yi −y¯)2

SSE =

n

X

i=1

(ˆyi −y¯)2

SSR =

n

X

i=1

(23)

Sumas de cuadrados

SST =

n

X

i=1

(yi −y¯)2

SSE =

n

X

i=1

(ˆyi −y¯)2

SSR =

n

X

i=1

(24)

Sumas de cuadrados

SST =

n

X

i=1

(yi −y¯)2

SSE =

n

X

i=1

(ˆyi −y¯)2

SSR =

n

X

i=1

(25)

Observaciones

I SST es una medida de dispersi´on de yi en la muestra.

I De hecho, si dividimos SST sobre n−1 obtenemos el estimador insesgado de la varianza.

I Usando la misma lógica, SSE mide la varianción deyî en la

muestra (recuerda quey¯ˆ= ¯y).

I Finalmente, SSR mide la dispersi´on deεˆrespecto a su media muestral (que es cero dado que Pn

(26)

Observaciones

(27)

Observaciones

(28)

Observaciones

(29)

Detour: Identidad ANOVA

I Recuerda la identidad ANOVA

V(y) =V(E(y|x)) +E(V(y|x))

I En la tarea mostraron queV(y|x) =V(ε|x).

I Entonces la identidad ANOVA resulta

V(y) =V(E(y|x)) +E(V(ε|x))

I Recuerda el supuesto de homoscedasticidad condicional V(ε|x) =σ2

I Entonces

(30)

Detour: Identidad ANOVA

V(y) =V(E(y|x)) +E(V(y|x))

V(y) =V(E(y|x)) +E(V(ε|x))

I Entonces

(31)

Detour: Identidad ANOVA

V(y) =V(E(y|x)) +E(V(y|x))

V(y) =V(E(y|x)) +E(V(ε|x))

I Entonces

(32)

Detour: Identidad ANOVA

V(y) =V(E(y|x)) +E(V(y|x))

V(y) =V(E(y|x)) +E(V(ε|x))

I Entonces

(33)

Detour: Identidad ANOVA

V(y) =V(E(y|x)) +E(V(y|x))

V(y) =V(E(y|x)) +E(V(ε|x))

I Entonces

(34)

Observaciones

I En este contexto, podemos interpretar la identidad ANOVA de la siguiente manera

I

V(y) = V(E(y|x))

| {z }

Variabilidad del modelo

+ σ2 |{z}

Variabilidad de lo que no es

el modelo

I Piensa en lo siguiente, ¿qu´e pasar´ıa si dividimos ambos lados por V(y)?

I La identidad ANOVA en el contexto del modelo de regresi´on lineal simple prescribe una forma para estudiar la volatilidad de una variable aleatoria.

(35)

Observaciones

I

V(y) = V(E(y|x))

| {z }

+ σ2 |{z}

el modelo

(36)

Observaciones

I

V(y) = V(E(y|x))

| {z }

+ σ2 |{z}

el modelo

(37)

Observaciones

I

V(y) = V(E(y|x))

| {z }

+ σ2 |{z}

el modelo

(38)

Observaciones

I

V(y) = V(E(y|x))

| {z }

+ σ2 |{z}

el modelo

(39)

...de vuelta a las sumas

I La variación total dey puede ser expresada como la suma de la variación explicada por el modelo y la variaciónno

explicadapor el modelo.

I Entonces

SST =SSE +SSR

I O en otras palabras

n

X

i=1

(yi −y¯)2 =

n

X

i=1

(ˆyi −y¯)2+

n

X

i=1

(40)

...de vuelta a las sumas

I Entonces

SST =SSE +SSR

n

X

i=1

(yi −y¯)2 =

n

X

i=1

(ˆyi −y¯)2+

n

X

i=1

(41)

...de vuelta a las sumas

I Entonces

SST =SSE +SSR

n

X

i=1

(yi −y¯)2 =

n

X

i=1

(ˆyi −y¯)2+

n

X

i=1

(42)

Precauciones

I No hay consenso sobre las abrevituras SST, SSE, SSR.

I SSE a veces se lee como suma deerrores y no comosuma

explicada.

I Similar confusi´on con SSR: a veces se lee como suma dela regresi´ony no como suma deresiduales .

I Algunos paquetes estad´ısticos se refieren a SSE como la suma

de cuadrados del modelo.

I Nosotros usaremos SSR como lasuma de residuos al cuadrado

(43)

Precauciones

explicada.

(44)

Precauciones

explicada.

(45)

Precauciones

explicada.

(46)

Precauciones

explicada.

(47)

Bondad de ajuste

I Hasta ahora no hemos definido un criterio para establecer qu´e tan bien hemos explicado y a partir de x.

I Idealmente nos gustar´ıa tener un número que resuma qué tan bien la función de regresión muestral ajusta a los datos.

I Supongamos que SST>0 entonces dividamos la identidad

SST =SSE+SSR por SST

1= SSE

SST +

SSR SST

I LaR-cuadrada de la regresi´on (a veces llamada coeficiente de determinaci´on), se define como

R2 = SSE

SST =1−

SSR SST

I

(48)

Bondad de ajuste

1= SSE

SST +

SSR SST

R2 = SSE

SST =1−

SSR SST

I

(49)

Bondad de ajuste

1= SSE

SST +

SSR SST

R2 = SSE

SST =1−

SSR SST

I

(50)

Bondad de ajuste

1= SSE

SST +

SSR SST

R2= SSE

SST =1−

SSR SST

I

(51)

Bondad de ajuste

1= SSE

SST +

SSR SST

R2= SSE

SST =1−

SSR SST

I

(52)

Bondad de ajuste

1= SSE

SST +

SSR SST

R2= SSE

SST =1−

SSR SST

I

(53)

Bondad de ajuste

I LaR2 _{es el cociente de la variaci´}_{on explicada sobre la}

variaci´on total.

I Entonces, la R2 se interpreta comola proporci´on de la

variaci´on muestral en y que es explicada por la variaci´on enx.

I LaR2 ∈[0,1]dado que la suma explicada no puede ser mayor a la suma total.

I R2 =1 significa que la funci´on de regresi´on muestral cruza por todos los puntos, ajustando perfectamente con los datos.

I R2 cercana a 0 indica un desempeño pobre de la función de regresión muestral.

I Si multiplicamos R2∗100 podemos interpretarlo como

(54)

Bondad de ajuste

variaci´on total.

(55)

Bondad de ajuste

variaci´on total.

(56)

Bondad de ajuste

variaci´on total.

(57)

Bondad de ajuste

variaci´on total.

(58)

Bondad de ajuste

variaci´on total.

(59)

Ejemplo del sueldo de los CEOs

I En la regresi´on de los sueldos anuales de los CEOs sobre el rendimiento de la empresa obtuvimos

I

ˆs =963.191+18.501r

con una R2=0.0132.

I Vemos que de hecho el rendimiento de la empresa no explica muy bien la variaci´on de los sueldos en la muestra.

I El 1.3 % de la variaci´on en sueldos es explicada por variaci´on en el rendimiento de la empresa.

I Es decir, el 98.7 % de la variaci´on no es explicada por el modelo.

(60)

Ejemplo del sueldo de los CEOs

I

ˆs =963.191+18.501r

con una R2=0.0132.

(61)

Ejemplo del sueldo de los CEOs

I

ˆs =963.191+18.501r

con una R2=0.0132.

(62)

Ejemplo del sueldo de los CEOs

I

ˆs =963.191+18.501r

con una R2=0.0132.

(63)

Ejemplo del sueldo de los CEOs

I

ˆs =963.191+18.501r

con una R2=0.0132.

(64)

Ejemplo del sueldo de los CEOs

I

ˆs =963.191+18.501r

con una R2=0.0132.

(65)

Observaciones

I En corte transversal es com´un encontrar unaR2 baja.

I Sin embargo debemos recalcar que una R2 bajano implica que la regresi´on es inservible.

I Puede ser que la regresi´on me de un estimador muy bueno (insesgado, consistente, etc.) de β a´un si laR2 es baja. I De hecho, ninguna de estas propiedades deseables de un

estimador dependen de la R2.

(66)

Observaciones

I En corte transversal es com´un encontrar unaR2 baja. I Sin embargo debemos recalcar que una R2 bajano implica

que la regresi´on es inservible.

(67)

Observaciones

I Puede ser que la regresi´on me de un estimador muy bueno (insesgado, consistente, etc.) de β a´un si laR2 es baja.

I De hecho, ninguna de estas propiedades deseables de un estimador dependen de la R2.

(68)

Observaciones

(69)

Observaciones

(70)

Ejemplo del gasto en campa˜

na y resultados electorales

I En este caso, al correr la regresi´on de votos sobre el gasto obtuvimos

I

ˆ

v =40.90+0.306s

con una R2=0.505.

I Entonces, la variación en el gasto en campaña explica aproximadamente el 50 % de la variación en el resultado electoral.

(71)

Ejemplo del gasto en campa˜

na y resultados electorales

I

ˆ

v =40.90+0.306s

con una R2=0.505.

(72)

Ejemplo del gasto en campa˜

na y resultados electorales

I

ˆ

v =40.90+0.306s

con una R2=0.505.

(73)

Ejemplo del gasto en campa˜

na y resultados electorales

I

ˆ

v =40.90+0.306s

con una R2=0.505.