• No se han encontrado resultados

Introducción. Varianza del error no constante: heteroscedasticidad

N/A
N/A
Protected

Academic year: 2021

Share "Introducción. Varianza del error no constante: heteroscedasticidad"

Copied!
32
0
0

Texto completo

(1)

25/02/2011 1

Varianza del error no constante:

heteroscedasticidad

Fortino Vela Peón Universidad Autónoma Metropolitana

[email protected]

Octubre, 2010 México, D. F.

25/02/2011 2

Introducción

 Con bastante regularidad los datos no se ajustan a las condiciones idealizadas del modelo de regresión lineal clásico. Así, por ejemplo, es frecuente encontrar errores heteroscedasticos, particularmente en datos de corte transversal.

 Una razón de ello radica en que la varianza en la variable dependiente raramente se mantiene constante cuando el nivel de una (o más) variable(s) explicativa(s) aumenta o disminuye.

 Por ejemplo, no sólo el nivel de consumo de los “ricos” es mucho mayor al de los “pobres”, sino que también es más variable. Los pobres tienen pocas opciones para dedicar sus ingresos a bienes distintos a los de la canasta básica; los ricos por su parte disfrutan del privilegio de considerar más opciones.

25/02/2011 3

 Una implicación para el análisis estadístico es que no se podrá aplicar el modelo de regresión lineal clásico a los datos de manera inmediata.

 Una transformación matemática bien elegida puede ayudar a corregir a la heteroscedasticidad dado que menudo es debida a la asimetría en la distribución de Y (transformaciones Box-Cox, por ejemplo).

 Desafortunadamente, no siempre es posible hacer esto.

(2)

25/02/2011 4

 Si el resto de los supuestos del modelo de regresión resultan validos, es decir, la existencia de una relación lineal, independencia y esperanza cero del término del error, se puede demostrar que los errores heteroscedásticos no afectan la propiedad de insesgamiento de los coeficientes estimados mediante MCO.

 No obstante, la precisión en los valores de los coeficientes no es la mejor. Es decir, los estimadores de MCO dejan de ser los mejores estimadores linealmente insesgados (MELI) aspirando a ser solamente estimadores lineales e insesgados.

 Así, los errores estándar no serán los correctos, puesto que se basan en el supuesto de homoscedasticidad.

25/02/2011 5

El modelo bajo errores heteroscedasticos

 Sea

 Bajo heteroscedasticidad se tiene

u

y

=

+

0

u

)

=

(

E

I

uu'

)

2

(

=

σ

E

Y

X'

X)

(X'

β

ˆ

=

−1

)

(

1

u

X'

X)

(X'

+

=

u

X

X)

(X'

β

+

−1

'

=

β

β

ˆ

)

=

(

E

insesgado …(3) …(2) …(1) donde 25/02/2011 6 Ahora su varianza

 Por lo tanto, bajo heteroscedasticidad se tiene

I

uu'

)

2

(

=

σ

E

u

E

(

uu

'

)

=

σ

2

=

Σ

donde Ω es

[ ]

ˆ

=

[

−1 −1

]

X)

X(X'

uu'

X'

X)

(X'

β

E

Var

bajo “homo”

pero bajo “hetero”

E

(

uu'

)

σ

2

I

=

σ

2

[ ]

1 1

)

(

ˆ

=

(X'

X)

X'

X

(X'

X)

β

Var

matriz de varianzas-covarianzas

(3)

25/02/2011 7

Tipos de

ΣΣΣΣ

u                 = Σ 2 2 2 2 1 ... 0 0 . . . . . 0 ... 0 0 ... 0 n u

σ

σ

σ

Heteroscedasticidad                 = Σ − − − − 1 ... . . . . . ... 1 ... 1 3 2 1 2 1 1 1 n n a n n u

ρ

ρ

ρ

ρ

ρ

ρ

Autocorrelación 25/02/2011 8                 = Σ − − − − 2 3 2 1 3 2 2 2 1 1 1 2 1 ... . . . . . ... ... n n n n n u

σ

ρ

ρ

ρ

σ

ρ

ρ

ρ

σ

Autocorrelación y heteroscedasticidad (modelos ARCH, GARCH,..)

25/02/2011 9

Identificación de heteroscedasticidad: métodos

gráficos

 Si no existe información a priori sobre la naturaleza de la heteroscedasticidad, es común llevar a cabo la estimación del modelo de regresión para luego hacer un análisis de los residuos que se generan.

 La forma inicial del análisis de residuos es mediante gráficos.

 Los residuales se definen como .  Entre las propiedades importantes de los residuales se

encuentran que tienen media cero y su varianza se aproxima por: i i i

y

y

u

=

ˆ

k n SCE k n u k n u u n i i n i i − = − = − − =∑= ∑=1 2 1 2 2 ˆ ) ˆ ( ˆ σ

(4)

25/02/2011 10

Residuales

 Por definición los residuales se forma de la sigiente manera:

 Como se puede considerar que un residual es la desviación entre los datos y el ajuste , también es una medida de la variabilidad de la variable de respuesta que no explica el modelo de regresión.

 También es posible considerar a los residuales como los valores realizados (u observados) de los errores del modelo.

 El análisis de los residuales es una forma eficaz de descubrir diversos tipos de inadecuaciones del modelo.

i i

i

y

y

u

ˆ

=

ˆ

25/02/2011 11

Propiedades de los residuales

 Los residuales tienen varias propiedades importantes.

 Tienen media cero

CMeE k n SCE k n u k n u u s n i i n i i = − = − = − − =

=

=1 2 1 2 2 ˆ ) ˆ (

 Su varianza aproximada se estima como

0 ˆ ˆ= 1 =

= n u u n i i

 Si el modelo es apropiado, CMeE es un estimador insesgado de la varianza del término de error, σ2.

25/02/2011 12

 Los residuales no son v.a. independientes debido a que involucran a los valores ajustados, los cuales están sujetos a las restricciones:

i

 Cuando la muestra es grande en comparación al número de parámetros en el modelo de regresión (n<k), el efecto de la dependencia arriba señalado puede relativamente ser ignorado.

0

ˆ

1

=

= n i i

u

ˆ

0

1

=

= n i i i

u

x

(5)

25/02/2011 13

Métodos de escalar residuales

 En ocasiones resulta mejor trabajar con residuales escalados.

 Son útiles, por ejemplo, para identificar valores extremos o atípicos.

 Existen distintos métodos para escalar residuales.

25/02/2011 14

Residuales estandarizados

 Debido a que la varianza aproximada de un residual se estima como CMeE, un escalamiento lógico de los residuales es el de los llamados residuales estandarizados que se definen como:

regress y x

predict NOMBRE, rstandard

CMeE u d i i ˆ =

 Los ditienen media cero y varianza aproximadamente unitaria.

 En consecuencia, un residual estandarizado grande (por ejemplo di>3)

indica que se trata de un valor atípico potencial.

 En Stata su calculo se efectúa mediante la instrucción

, i= 1,2,…,n

25/02/2011 15

La matriz sombrero (hat matrix)  La matriz H donde X' X) X(X' H=1 β X yˆ= ˆ y X' X) (X' βˆ=1 y X' X) X(X' y=1 ˆ …(1) …(2) …(3) Sustituyendo (2) en (1), y retomando (3) Hy yˆ= H

 se denomina matriz sombrero. sea

(6)

25/02/2011 16  Sabemos que los residuales se definen como

pudiendo reescribirse como

H)y (I Hy y uˆ= − = − y y uˆ= −ˆ β X y ˆ = …(4) o bien 25/02/2011 17 Residuales estudentizados

 Si se utiliza al CMeE como la varianza del i-esimo residual uisolo se

tendrá una aproximación. Se puede mejorar el escalamiento de residuales dividiendo a uientre la desviación estándar exacta del

i-ésimo residual. Para ello se tiene

donde X' X) X(X' H=1 H)y (I uˆ= − u y= + H)u (I X' X) (X' X' 1 + = − ) ( ˆ (I H)Xβ u u= − + …(4) …(5) …(6) Sustituyendo (6) en (4) H)u (I HXβ − + − = H)u (I uˆ= −

 Los residuales son una transformación lineal de las y y los u.

25/02/2011 18

 Podemos obtener la varianza de los residuales, esto es,

dado que H)' H)Var(u)(I I− − =(

[

(I H)u

]

u =VarVar(ˆ) H) (I− ) 1 ( ) ( 2 ii i h u Var =σ − H) (I u)= 2 − ˆ ( σ Var H) (Iii h además de I u 2 ) ˆ ( =σ Var es simétrica e idempotente

 De esta manera, dado que no es una matriz diagonal, los residuales tienen distintas varianzas y pueden estar correlacionados.

 La varianza del i-ésimo residual es

(7)

25/02/2011 19  Así, los residuales estudentizados se definen como

) 1 ( ˆ ii i i h CMeE u r − = , i= 1,2,…,n  Al igual que los di, riaportan información para detectar puntos

extremos, atípicos e incluso puntos influyentes.

En Stata su calculo se efectúa mediante la instrucción

regress y x

predict NOMBRE, rstudent

25/02/2011 20

Diagnóstico gráfico de residuales

 Entre los gráficos que utilizan a los residuales para diagnosticar al modelo se encuentran:

-residuales vs variable predictora.

-residuales al cuadrado vs variable predictora.

-residuales vs valores ajustados.

-residuales vs el tiempo.

-residuales vs variables predictoras omitidas.

-diagrama de caja de los residuales.

-gráfica de probabilidad normal de residuales.

25/02/2011 21

Tipos de residuales

 En ocasiones resulta mejor considerar a los residuales escalados.

 Son útiles además para identificar puntos atípicos o valores extremos.

 Residuales estandarizados que se definen como

2 ˆ ˆ

σ

i i u d =

 Residuales estudentizados que se definen como

) 1 ( ˆ ˆ 2 ii i i h u r − ⋅ =

σ

(8)

25/02/2011 22

Patrones hipóteticos de los residuos para la

iden-tificación de heteroscedasticidad

Los gráficos siguientes muestran un diagrama de dispersión entre y .

Fuente: Tomado de Gujarati y Porter (2010, 377)

2 ˆ

u

25/02/2011 23

Los gráficos siguientes muestran un diagrama de dispersión entre y X .

Fuente: Tomado de Gujarati y Porter (2010, 378) 2 ˆ

u

25/02/2011 24

Stata tiene implementado dentro de sus rutinas ambos tipos de gráficas para la identificación de heteroscedasticidad en los residuales.

Despues de estimar el modelo de regresión la sintaxis a utilizar es: rvfploty rvpplot.

rvfplot muestra el diagrama de dispersión entre residuales y valores ajustados.

Por su parte, rvpplot elabora el diagrama de dispersión entre residuales y cualquiera de las variables predictoras (X’s), razón por la requiere que se señale cual es la variable a considerar, esto es, por ejemplo:

Pruebas gráficas en Stata

(9)

25/02/2011 25

Stata permite el calculo de los residuales estandarizados y estudentizados.

Una vez estimado una ecuación de regresión, la sintaxis es la siguiente:

Calculo de residuales en Stata

predict residual, resid predict rstand, rstand predict rstud, rstuden

(residuales simples) (residuales estandarizados) (residuales estudentizados)

25/02/2011 26

Métodos formales: pruebas de Park, Glesjer

Glesjer y

Breusch-Pagan-Godfrey

 Las tres pruebas son en esencia muy similares.  Cada una de ellas es una prueba del Multiplicador de

Lagrange (LM), por lo que siguen el mismo procedimiento general.

 Dado el modelo de regresión:

i ki k i i i

x

x

x

u

y

=

β

1

+

β

2 2

+

β

3 3

+

...

+

β

+

se realizan los pasos siguientes:

1.- Se estima el modelo de regresión y se obtienen los residuales:

2.- Se estiman las regresiones auxiliares siguientes y

obtienen sus R2. i i i

y

y

u

ˆ

=

ˆ

25/02/2011 27 i pi p i i

Z

Z

u

ˆ

=

α

+

α

ln

+

...

+

α

ln

+

ε

ln

2 1 2 2 donde

a) Para la prueba de Park la regresión auxiliar es

=

= n i i i i

u

u

n

u

1 2 2 2

/

ˆ

/

ˆ

~

b) Para la prueba de Glesjerla regresión auxiliar es

i pi p i i

Z

Z

u

ˆ

=

α

1

+

α

2 2

+

...

+

α

+

ε

2

c) Para la prueba de Breusch-Pagan-Godfrey la

regresión auxiliar es i pi p i i

Z

Z

u

~

2

=

α

1

+

α

2 2

+

...

+

α

+

ε

(10)

25/02/2011 28

 En cada regresión auxiliar, las Zi's pueden ser algunos o todos los regresores

2 2

p

nR

=

χ

3.- A continuación se calcula el estadístico de prueba LM. Bajo Ho: homoscedasticidad, se puede demostrar

que el producto del tamaño de la muestra “n” por la R2

obtenida de las regresiones auxiliares sigue

asintoticamente una distribución Ji-cuadrada con un número de grados de libertad igual al número de regresores. Esto es:

Es importante observar que los estadísticos de prueba propuestos originalmente por Park y Glesjer son estadísticos de prueba de Wald. Sin embargo, según lo precisado por Engle (1984), puesto que todas estas pruebas son diseñadas para muestras grandes, operacionalmente son equivalentes a la prueba LM.

25/02/2011 29

2 2

p nR

4.- Una vez que se encuentra el estadístico de prueba

se compara a nR2con el valor crítico de Ji-cuadrada.

Así,

Las pruebas Park, Glesjer, y de Breusch-Pagan-Godfrey requieren el conocimiento sobre la fuente de heteroscedasticidad, es decir, la(s) variable(s) Z que puede ser causa del problema.

En la prueba de Park, el término de error en la regresión auxiliar puede no satisfacer los supuestos del modelo de regresión lineal clásico y puede ser heteroscedástico en sí mismo.

2 2

p nR

si , la conclusión es que hay heteroscedasticidad;

por el contrario, si hay homoscedasticidad.

25/02/2011 30

En la prueba de Glejser, el término del error uies diferente a cero, puede tener autocorrelación y es, irónicamente, heteroscedástico.

En la prueba de Breusch-Pagan-Godfrey el término de error es absolutamente sensible al supuesto de normalidad (principalmente en pequeñas muestras).

La hipótesis nula de la prueba Breusch-Pagan/Cook-Weisberg es que la varianza del error es la misma versus la alternativa de que la varianza del error es una función multiplicativa de una o más variables independientes.

(11)

25/02/2011 31

La prueba Breusch-Pagan-Godfrey ha sido implementada en Stata.

La sintaxis es estat hettest

Las opciones posibles son:

Prueba Breusch-Pagan-Godfrey en Stata

estat hettest varlist especifica las variables explicativas consideradas en la prueba (en caso de omisión se realiza con los valores ajustados de la dependiente, yhat).

estat hettest,normalcalcula la prueba suponiendo que los residuales de la regresión se distribuyen normalmente (es la opción por defecto).

estat hettest,iidprovoca que se calcule la versión N*R2versión del estadístico de prueba, el cuál elimina el

supuesto de normalidad.

estat hettest,fstat provoca que se calcule la versión basada en el estadístico F.

25/02/2011 32

Ejemplo

Verificamos la prueba hettest de forma manual. Para ello se considera la influencia que se sobre el ingreso (income) presentan las variables: escolaridad (educ), la experiencia laboral (jobexp) y la raza (race) en una muestra de 20 individuos, información que se encuentra en el archivo labora1ubicado en:

http://www.nd.edu/~rwilliam/stats2/statafile

Una vez recuperado el archivo de datos se calculan algunas estadísticas descriptivas de la variables en análisis.

25/02/2011 33

use http://www.nd.edu/~rwilliam/stats2/statafiles/reg01.dta, clear

sum

reg income educ jobexp

Variable | Obs Mean Std. Dev. Min Max ---+---income | 20 24.415 9.788354 5 48.3 educ | 20 12.05 4.477723 2 21 jobexp | 20 12.65 5.460625 1 21 race | 20 .5 .5129892 0 1

Del listado se puede señalar que el ingreso promedio de los individuos en la muestra alcanzo los 24.42 dólares; su nivel escolaridad promedio fue de 12 años al igual que los años de experiencia laboral.

(12)

25/02/2011 34 graph matrix income educ jobexp race

income educ jobexp race 0 50 0 50 0 10 20 0 10 20 0 10 20 0 10 20 0 .5 1 0 .5 1 25/02/2011 35

reg income educ jobexp

Source | SS df MS Number of obs = 20 ---+--- F( 2, 17) = 46.33 Model | 1538.22521 2 769.112605 Prob > F = 0.0000 Residual | 282.200265 17 16.6000156 R-squared = 0.8450 ---+--- Adj R-squared = 0.8267 Total | 1820.42548 19 95.8118671 Root MSE = 4.0743

---income | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+---educ | 1.933393 .2099494 9.21 0.000 1.490438 2.376347 jobexp | .6493654 .1721589 3.77 0.002 .2861417 1.012589 _cons | -7.096855 3.626412 -1.96 0.067 -14.74792 .5542052 ---estat hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variables: fitted values of income chi2(1) = 0.12 Prob > chi2 = 0.7238 25/02/2011 36 rvfplot, yline(0) -1 0 -5 0 5 1 0 R e s id u a ls 0 10 20 30 40 50 Fitted values

(13)

25/02/2011 37

rvpplot educ, yline(0) rvpplot jobexp, yline(0)

-1 0 -5 0 5 1 0 R e s id u a ls 0 5 10 15 20 educ -1 0 -5 0 5 1 0 R e s id u a ls 0 5 10 15 20 jobexp 25/02/2011 38 predict yhat predict e, resid

gen e2= e^2 / (e(rss)/e(N)) reg e2 yhat

Source | SS df MS Number of obs = 20 ---+--- F( 1, 18) = 0.18 Model | .249695098 1 .249695098 Prob > F = 0.6758 Residual | 24.8679862 18 1.38155479 R-squared = 0.0099 ---+--- Adj R-squared = -0.0451 Total | 25.1176813 19 1.32198323 Root MSE = 1.1754

---e2 | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+---yhat | .0127408 .0299691 0.43 0.676 -.050222 .0757036 _cons | .6889345 .7774684 0.89 0.387 -.944466 2.322335 ---display "Chi Square (1) = " e(mss) / 2

Chi Square (1) = .12484755

display "Prob > chi2 = " chi2tail(1, e(mss)/ 2)

Prob > chi2 = .72383527

25/02/2011 39

Prueba Goldfeld-Quandt

 Idea: “Si los errores son homoscedásticos entonces tienen la misma varianza en toda la muestra, razón por la que la varianza de los residuales de una parte de las observaciones de la muestra debe tener igual varianza a la de cualquier otra parte de las observaciones en la muestra”.

 El acercamiento consiste en probar la presencia de heteroscedasticidad mediante una prueba de igualdad de varianzas de los residuales mediante la estadística F.

 Se parte del modelo de regresión siguiente:

i ki k i i i

x

x

x

u

y

=

β

1

+

β

2 2

+

β

3 3

+

...

+

β

+

(14)

25/02/2011 40

1.Identificar una variable con la que la varianza de los errores este relacionada. Con propósito ilustrativo, suponga que es con X1positivamente.

2.Ordenar en forma ascendente a las observaciones según los valores de X1.

3.Omitir C observaciones centrales donde C es especificada a priori, dividiendo a las restantes n-C observaciones en dos grupos cada uno con un total de (n-C)/2 observaciones

:

0

H

Procedimiento

La determinación de C es arbitraria. Sin embargo, suele considerarse como criterios el omitir entre un 20 y un 25% de las observaciones totales.

uihomoscedasticos

25/02/2011 41

4. Estimar dos regresiones separadas correspondientes a los dos grupos; la primera considerando las (n-C)/2 observaciones y la segunda con las (n-C)/2 observaciones. De estas se obtienen la suma de cuadrados de los errores respectivas: SCE1 que corresponde a los valores más pequeños de X1 y SCE2a la de los valores más grandes de X1(el grupo grande de la variación), y se calcula el estadístico de prueba F.

donde los grados de libertad son

1 1 2 2

/

/

υ

υ

SCE

SCE

F

=

2 2 1 C n− = =

υ

υ

25/02/2011 42

5. Si uise distribuye normalmente, la regla de decisión es:

donde Ft= F(n-C)/2 , (n-C)/2

Rechazar Ho ssi Fc>Ft

Comentarios

- Esta prueba depende fuertemente tanto de la identificación de la variable X que genera la heteroscedasticidad como del valor de C.

- Adicionalmente la prueba no puede considerar situaciones donde la fuente de heteroscedasticidad es por la combinación de varias variables. En este caso, debido a que no existe una sola variable que cause del problema, la prueba de Goldfeld-Quandt concluirá probablemente que no existe heteroscedasticidad cuando de hecho si la hay.

(15)

25/02/2011 43

Establece como hipótesis nula que la varianza de los errores es constante (homoscedasticidad).

Para probar esto se estima una regresión auxiliar donde se regresa a los residuales al cuadrado sobre sus regresores (originales), el cuadrado de los regresores y los productos cruzados de los regresores.

La prueba no requiere ningún conocimiento previo sobre la fuente de heteroscedasticidad.

La prueba no depende del supuesto de normalidad de los errores.

Sea

y

i

=

β

1

+

β

2

x

2i

+

β

3

x

3i

+

u

i

Prueba de White (1980)

25/02/2011 44

1. Estimar el modelo de regresión y obtener sus residuales.

2. Estimar la regresión auxiliar siguiente y obtener su R2asociada:

3. Calcular la estadística de prueba dado por el producto de n y R2obtenido de la regresión auxiliar, el cual sigue de manera asintótica una distribución Ji-cuadrada con grados de libertad igual al número de regresores (sin incluir al término constante) en la regresión auxiliar. Esto es,

4. Si nR2>χ2 la conclusión es que existe heteroscedasticidad. i i i i i i i i

x

x

x

x

x

x

u

ˆ

2

=

γ

1

+

γ

2 2

+

γ

3 3

+

γ

4 22

+

γ

5 32

+

γ

4 22 32

+

ε

Procedimiento

2 5 2

=

χ

nR

25/02/2011 45

Prueba de White en Stata

 La prueba de White se puede estimar vía la sintaxis

estat imtest, whiteo simplemente imtest, white, o bien whitetst.

 Stata computa la prueba extendida de White considerando en la regresión auxiliar a los residuales al cuadrado contra todos los regresores, los productos cruzados y los cuadrados de los distintos regresores.

(16)

25/02/2011 46

Ejemplo

Se desea establecer la influencia que se sobre el número de hijos nacidos vivos (ceb) por mujer presentan las variables: edad de la madre (age), edad al primer nacimiento (agefbrth) y la escolaridad (educ). Para ello se considera la información de 4361 mujeres en los Estados Unidos misma que se encuentra en el archivo fertil2ubicado en:

http://www.stata-press.com/data/imeus/fertil2

Una vez recuperado el archivo de datos, lo primero a resolver es determinar qué variables presentan valores perdidos (missing values).

25/02/2011 47

Para ello se puede recurrir al archivo mdescel cual realiza un conteo del número de valores perdidos para cada una de las variables numéricas (findit mdesc).

Variable Missing Total Missing/Total ---age 0 4361 0 educ 0 4361 0 ceb 0 4361 0 agefbrth 1088 4361 .249484 mdesc dis 4361- 1088 =3273 drop if missing(agefbrth)

use http://www.stata-press.com/data/imeus/fertil2, clear keep age educ ceb agefbrth

25/02/2011 48

sum ceb educ age agefbrth

La edad promedio de las mujeres captadas en la muestra (con registros validos) fue de 30 años con una edad al primer nacimiento de 19 años. No obstante, hubo quienes tuvieron a su primer hijo a los 10 años. En promedio el número de hijos nacidos vivos por mujer es de 3.2. La escolaridad promedio fue de 5.4 años.

Variable | Obs Mean Std. Dev. Min Max ---+---age | 3273 30.04277 7.984743 15 49 educ | 3273 5.406355 4.067566 0 20 ceb | 3273 3.253284 2.253429 1 13 agefbrth | 3273 19.0113 3.092333 10 38

(17)

25/02/2011 49 Se espera que el número de hijos nacidos vivos (ceb):

- aumente con la edad actual de la madre (age); - disminuya con la edad al primer nacimiento (agefbrth); - disminuya con mayores niveles de escolaridad (esc)

25/02/2011 50

graph matrix ceb age agefbrth educ

ceb a ge agefbrth e duc 0 5 10 15 0 5 10 15 0 50 0 50 10 20 30 40 10 20 30 40 0 10 20 0 10 20 25/02/2011 51

regress ceb age agefbrth educ estimates store original

Source | SS df MS Number of obs = 3273

---+--- F( 3, 3269) = 1569.02

Model | 9805.3274 3 3268.44247 Prob > F = 0.0000

Residual | 6809.6998 3269 2.08311404 R-squared = 0.5901

---+--- Adj R-squared = 0.5898

Total | 16615.0272 3272 5.0779423 Root MSE = 1.4433

---ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]

---+---age | .2108335 .0035151 59.98 0.000 .2039414 .2177255 agefbrth | -.2372357 .0088494 -26.81 0.000 -.2545867 -.2198847 educ | -.0729918 .0066071 -11.05 0.000 -.0859462 -.0600374 _cons | 1.824042 .1671298 10.91 0.000 1.496352 2.151732

(18)

---25/02/2011 52 rvfplot -1 0 -5 0 5 R e s id u a ls 0 2 4 6 8 10 Fitted values 25/02/2011 53 rvpplot age -1 0 -5 0 5 R e s id u a ls 10 20 30 40 50 age rvpplot agefbrth -1 0 -5 0 5 R e s id u a ls 10 20 30 40 agefbrth 25/02/2011 54

predict resid, resid gen resid2= resid^2

0 1 0 2 0 3 0 4 0 5 0 re s id 2 10 20 30 40 agefbrth 0 1 0 2 0 3 0 4 0 5 0 re s id 2 10 20 30 40 50 age sc resid2 agefbrth sc resid2 age

(19)

25/02/2011 55 Prueba Goldfeld-Quandt sort agefbrth gen m=. replace m=1 in 1/1452 replace m=2 in 1820/3273

regress ceb age agefbrth educ if m==1 scalar scrm1=e(rss)

scalar df1=e(df_r)

Source | SS df MS Number of obs = 1452 ---+--- F( 3, 1448) = 718.38 Model | 4611.97745 3 1537.32582 Prob > F = 0.0000 Residual | 3098.72434 1448 2.140003 R-squared = 0.5981 ---+--- Adj R-squared = 0.5973 Total | 7710.70179 1451 5.3140605 Root MSE = 1.4629 ---ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+---age | .2123868 .0053677 39.57 0.000 .2018575 .2229161 agefbrth | -.1071605 .0297124 -3.61 0.000 -.1654445 -.0488765 educ | -.0940836 .0113811 -8.27 0.000 -.1164087 -.0717585 _cons | -.3348579 .5045349 -0.66 0.507 -1.324555 .6548397 ---25/02/2011 56 Prueba Goldfeld-Quandt

regress ceb age agefbrth educ if m==2 scalar scrm2=e(rss)

scalar df2=e(df_r)

scalar F= ((scrm2/df2)/(scrm1/df1)) display F

Source | SS df MS Number of obs = 1454 ---+--- F( 3, 1450) = 676.63 Model | 3939.75191 3 1313.25064 Prob > F = 0.0000 Residual | 2814.2646 1450 1.94087214 R-squared = 0.5833 ---+--- Adj R-squared = 0.5825 Total | 6754.01651 1453 4.64832519 Root MSE = 1.3932 ---ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+---age | .2060849 .0051318 40.16 0.000 .1960182 .2161515 agefbrth | -.2807764 .0141002 -19.91 0.000 -.3084354 -.2531173 educ | -.0602906 .0085651 -7.04 0.000 -.0770919 -.0434892 _cons | 2.851509 .3012148 9.47 0.000 2.260645 3.442372 ---25/02/2011 57 Prueba Goldfeld-Quandt describe sort agefbrth dis 3273*.25 dis 3273*.25 =368.25 dis 367/2 =183.5 dis (3273+1)/2 =1637 dis 1637-184 =1453 dis 1637+184 =1821 dis 1821-1453 =368 drop in 1452/1820

(20)

25/02/2011 58

hettest age agefbrth

hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance

Variables: age agefbrth chi2(2) = 1613.76 Prob > chi2 = 0.0000

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance

Variables: fitted values of ceb chi2(1) = 1633.15 Prob > chi2 = 0.0000

25/02/2011 59

imtest, white

White's test for Ho: homoskedasticity

against Ha: unrestricted heteroskedasticity chi2(9) = 850.98

Prob > chi2 = 0.0000 Cameron & Trivedi's decomposition of IM-test ---Source | chi2 df p ---+---Heteroskedasticity | 850.98 9 0.0000 Skewness | 56.38 3 0.0000 Kurtosis | 69.03 1 0.0000 ---+---Total | 976.38 13 0.0000 ---25/02/2011 60

regress ceb age agefbrth educ,robust estimates store robustos

Linear regression Number of obs = 3273 F( 3, 3269) = 837.36 Prob > F = 0.0000 R-squared = 0.5901 Root MSE = 1.4433 ---| Robust

ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+---age | .2108335 .0046423 45.42 0.000 .2017314 .2199355 agefbrth | -.2372357 .00958 -24.76 0.000 -.2560191 -.2184523 educ | -.0729918 .006377 -11.45 0.000 -.0854952 -.0604885 _cons | 1.824042 .1615009 11.29 0.000 1.507389 2.140695

(21)

---25/02/2011 61

estimates table original robustos, b(%9.4f) se(%5.3f) t(%5.2f)

---Variable | original robustos ---+---age | 0.2108 0.2108 | 0.004 0.005 | 59.98 45.42 agefbrth | -0.2372 -0.2372 | 0.009 0.010 | -26.81 -24.76 educ | -0.0730 -0.0730 | 0.007 0.006 | -11.05 -11.45 _cons | 1.8240 1.8240 | 0.167 0.162 | 10.91 11.29 ---25/02/2011 62

Soluciones al problema de heteroscedasticidad

 Cuando de presenta una estructura de errores

heteroscedastica se puede proceder por alguna de las siguientes rutas:

a)Emplear una transformación de Y del tipo Box-Cox;

b)Aplicar mínimos cuadrados

ponderados;

c)Corregir los errores estándar por heteroscedasticidad.

25/02/2011 63

Transformaciones Box-Cox

 Box y Cox (1964) propusieron realizar la transformación paramétrica Yλ sobre la variable de respuesta Y de manera tal que Yλcumpliera con los supuestos del modelo de regresión lineal (corrige asimetría, no linealidad y heteroscedasticidad).  Las transformaciones consideradas por los autores

forman parte de la familia de las transformaciones potencia y raíz.

 Su propuesta original fue

,

ln

,

)

(

1

y

y

y

λ

λ

λ −

=

si λ≠0 si λ=0

(22)

25/02/2011 64  El valor de λse estima a partir de los datos.

 Kutner et. al. (2005) señalan que puede emplearse simplemente la transformación

i i

i

x

u

y

λ

=

β

1

+

β

2

+

 La forma de determinar el valor de λconsidera: i.el método de máxima verosimilitud,

el cual además de estimar a λ también estima β1, β2y σ2;

ii.un proceso de búsqueda numérica mediante el cual se minimice a la SCE.

25/02/2011 65

 Respecto al procedimiento de busca numérica, Kutner et. al (2005: 135) apuntan que cada valor de λ las observaciones deben ser estandarizadas a fin de que la SCE no dependa del valor de λ,donde

),

(ln

),

1

(

2 1 1 i i

y

K

y

K

w

=

λ si λ≠0 si λ=0 λ i y donde n n i i

y

K

/ 1 1 2





=

= 1 2 1

1

=

λ

λ

K

K

…(A) 25/02/2011 66

Considerando los datos de la tabla 3.9 de Kutner et.al. (2005) en la cual se presentan los datos de 25 niños sanos respecto a su edad (X) y su nivel de plasma poliamina (Y), moléculas que afectan los aspectos del desarrollo, crecimiento, senescencia y respuesta al estrés, se pide encontrar el valor de λmás adecuado para transformar a la variable Y.

Ejemplo

Empleando (A) se obtienen para los valores λ= 1, .9, .7, .5, .3, .1, 0, -.1, -.3, -.4, .5. -.6, -.7, -.9 y 1.0 siguientes:

(23)

25/02/2011 67 k1 lambda k2 1.0000 1.0 8.5163 1.3765 0.9 8.5163 2.7163 0.7 8.5163 5.8365 0.5 8.5163 14.9298 0.3 8.5163 68.7428 0.1 8.5163 - - 0.0 8.5163 -105.5061 -0.1 8.5163 -53.9767 -0.3 8.5163 -50.1526 -0.4 8.5163 -49.7059 -0.5 8.5163 -51.3159 -0.6 8.5163 -54.4917 -0.7 8.5163 -65.0484 -0.9 8.5163 -72.5278 -1.0 8.5163 25/02/2011 68 Valor de λλλλ 1 0.9 0.7 0.5 0.3 0.1 0 child age y w1 w2 w3 w4 w5 w6 w7 1 0 13.44 12.4400 12.8908 14.0276 15.5606 17.6220 20.3961 22.1274138 2 0 12.84 11.8400 12.3162 13.5008 15.0775 17.1790 19.9899 21.7384729 3 0 11.91 10.9100 11.4203 12.6694 14.3059 16.4629 19.3252 21.0981568 4 0 20.09 19.0900 19.1098 19.4689 20.3240 21.7941 24.0523 25.5508639 5 0 15.60 14.6000 14.9388 15.8688 17.2160 19.1104 21.7345 23.396649 6 1 10.11 9.1100 9.6658 11.0021 12.7215 14.9570 17.8940 19.7027286 7 1 11.38 10.3800 10.9067 12.1868 13.8526 16.0371 18.9253 20.7104856 8 1 10.28 9.2800 9.8327 11.1632 12.8768 15.1069 18.0386 19.8447402 9 1 8.96 7.9600 8.5286 9.8902 11.6341 13.8937 16.8541 18.6743416 10 1 8.59 7.5900 8.1597 9.5235 11.2696 13.5314 16.4939 18.3151955 11 2 9.83 8.8300 9.3901 10.7350 12.4627 14.7063 17.6510 19.4635383 12 2 9.00 8.0000 8.5684 9.9295 11.6731 13.9323 16.8922 18.7122762 13 2 8.65 7.6500 8.2196 9.5832 11.3293 13.5909 16.5532 18.3744741 14 2 7.85 6.8500 7.4171 8.7755 10.5162 12.7725 15.7295 17.5480007 15 2 8.88 7.8800 8.4490 9.8113 11.5560 13.8163 16.7774 18.5979615 16 3 7.94 6.9400 7.5077 8.8675 10.6097 12.8674 15.8258 17.6450846 17 3 6.01 5.0100 5.5381 6.8158 8.4719 10.6394 13.5032 15.2733861 18 3 5.14 4.1400 4.6304 5.8275 7.3958 9.4676 12.2271 13.9416743 19 3 6.90 5.9000 6.4532 7.7833 9.4948 11.7209 14.6468 16.449462 20 3 6.77 5.7700 6.3203 7.6444 9.3497 11.5693 14.4884 16.2874788 21 4 4.86 3.8600 4.3350 5.4990 7.0304 9.0610 11.7748 13.4646355 22 4 5.10 4.1000 4.5883 5.7809 7.3442 9.4105 12.1638 13.8751402 23 4 5.67 4.6700 5.1850 6.4351 8.0613 10.1966 13.0256 14.7774326 24 4 5.75 4.7500 5.2683 6.5253 8.1590 10.3024 13.1402 14.8967526 25 4 6.23 5.2300 5.7655 7.0588 8.7315 10.9167 13.7994 15.5795614 SCE 77.9831 70.3505 57.8369 48.3707 41.3634 36.3689 34.5195 25/02/2011 69 reg w1 age

Source | SS df MS Number of obs = 25 ---+--- F( 1, 23) = 70.21 Model | 238.0562 1 238.0562 Prob > F = 0.0000 Residual | 77.9830686 23 3.3905682 R-squared = 0.7532 ---+--- Adj R-squared = 0.7425 Total | 316.039268 24 13.1683028 Root MSE = 1.8413 reg w2 age

Source | SS df MS Number of obs = 25 ---+--- F( 1, 23) = 75.86 Model | 232.034312 1 232.034312 Prob > F = 0.0000 Residual | 70.3505047 23 3.0587176 R-squared = 0.7673 ---+--- Adj R-squared = 0.7572

reg w3 age

Source | SS df MS Number of obs = 25 ---+--- F( 1, 23) = 88.19 Model | 221.762335 1 221.762335 Prob > F = 0.0000 Residual | 57.8368633 23 2.51464623 R-squared = 0.7931 ---+--- Adj R-squared = 0.7841 Total | 279.599198 24 11.6499666 Root MSE = 1.5858 reg w4 age

Source | SS df MS Number of obs = 25 ---+--- F( 1, 23) = 101.57 Model | 213.615737 1 213.615737 Prob > F = 0.0000 Residual | 48.3707214 23 2.10307484 R-squared = 0.8154 ---+--- Adj R-squared = 0.8073 Total | 261.986458 24 10.9161024 Root MSE = 1.4502

(24)

25/02/2011 70 Valor de l -0.1 -0.3 -0.4 -0.5 -0.6 -0.7 -0.9 -1 w8 w9 w10 w11 w12 w13 w14 w15 24.1411 29.2204 32.4134 36.1475 40.5212 45.6518 58.7725 67.1314 23.7686 28.8788 32.0863 35.8344 40.2213 45.3646 58.5091 66.8792 23.1518 28.3063 31.5348 35.3030 39.7093 44.8714 58.0513 66.4381 27.3470 32.0329 35.0482 38.6163 42.8346 47.8199 60.6777 68.9176 25.3447 30.3029 33.4400 37.1211 41.4446 46.5275 59.5603 67.8786 21.7913 27.0129 30.2736 34.0733 38.5103 43.7021 56.9395 65.3539 22.7760 27.9533 31.1926 34.9714 39.3880 44.5599 57.7587 66.1545 21.9307 27.1475 30.4058 34.2031 38.6378 43.8274 57.0603 65.4725 20.7742 26.0182 29.2899 33.1003 37.5480 42.7505 56.0086 64.4332 20.4161 25.6622 28.9350 32.7465 37.1952 42.3987 55.6589 64.0845 21.5558 26.7848 30.0491 33.8522 38.2927 43.4879 56.7319 65.1496 20.8120 26.0555 29.3270 33.1373 37.5848 42.7870 56.0448 64.4691 20.4754 25.7213 28.9940 32.8054 37.2541 42.4575 55.7175 64.1431 19.6461 24.8866 28.1565 31.9651 36.4110 41.6116 54.8659 63.2886 20.6982 25.9429 29.2149 33.0257 37.4738 42.6765 55.9353 64.3602 19.7440 24.9859 28.2566 32.0660 36.5126 41.7139 54.9698 63.3933 17.3220 22.4598 25.6764 29.4305 33.8204 38.9636 52.0990 60.4599 15.9322 20.9460 24.0966 27.7816 32.0994 37.1674 50.1421 58.4173 18.5314 23.7388 26.9918 30.7832 35.2116 40.3944 53.6124 62.0165 18.3659 23.5658 26.8149 30.6024 35.0268 40.2055 53.4150 61.8147 15.4291 20.3863 23.5062 27.1589 31.4426 36.4746 49.3714 57.6044 15.8622 20.8685 24.0150 27.6958 32.0091 37.0724 50.0369 58.3066 16.8070 21.9043 25.0995 28.8314 33.1983 38.3175 51.4022 59.7363 16.9312 22.0388 25.2396 28.9771 33.3499 38.4754 51.5732 59.9142 17.6385 22.7979 26.0259 29.7917 34.1937 39.3495 52.5113 60.8861 33.0559 31.1768 30.7182 30.5595 30.6875 31.0902 32.7042 33.9088872 25/02/2011 71 3 0 4 0 5 0 6 0 7 0 8 0 S C E -1 -.5 0 .5 1 lambda 25/02/2011 72

 Stata tiene incluida la rutina para encontrar el valor de y utilizando el método de máxima versosimitud.

λ

i y

Transformaciones Box-Cox en Stata

boxcox y age

Numberofobs = 25 LR chi2(1) = 50.33 Log likelihood= -37.983365 Prob> chi2 = 0.000 ---y | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---+---/theta | -.5049226 .2926884 -1.73 0.085 -1.078581 .068736 ---Estimatesofscale-variantparameters

---| Coef. ---+---Notrans | age| -.0792865 _cons| 1.456585 ---+---/sigma | .0440194 --- ---Test Restricted LR statistic P-value

H0: loglikelihood chi2 Prob> chi2 ---theta = -1 -39.283475 2.60 0.107 theta = 0 -39.506554 3.05 0.081 theta = 1 -49.693662 23.42 0.000

(25)

---25/02/2011 73

Transformación de las variables del modelo

 Con el fin de encontrar un estimador con mayor

precisión que el ofrecido por MCO bajo heteroscedasticidad, la idea es encontrar una transformación adecuada para ui, de manera tal que cumpla con el supuesto de homocedasticidad.  Una posibilidad es multiplicar a ui por xi-1/2, para

entonces el cual es homoscedastico. 2 2

1

)

(

1

2 / 1

=

=

σ

=

σ

i i i i i i

x

x

u

Var

x

x

u

Var

25/02/2011 74

Mínimos Cuadrados Generalizados (MCG)

 Si el supuesto de homoscedasticidad no se cumple

entonces se tiene

 Bajo heteroscedasticidad se tiene

uu'

)

2

(

=

σ

E

donde Ωes una matriz simétrica nxnque depende de X pero es diferente de I.                 = Σ = Ω n u

ω

ω

ω

σ

... 0 0 . . . . . 0 ... 0 0 ... 0 2 1 2 25/02/2011 75

 Dado que la varianzas dependen de los valores de X (heteroscedastidad condicional), se puede reescribir a Σucomo:

 Se puede encontrar a una matriz P, llamada matriz de transformación, tal que al modificar al vector u de forma V uu' 2 2 1 2 2 2 2 1 2 ... 0 0 . . . . . . 0 ... 0 0 ... 0 ... 0 0 . . . . . . 0 ... 0 0 ... 0 ) (

σ

σ

σ

σ

σ

=                 =                 = Σ = n n u x x x x x x E

Pu

u

*

=

(26)

25/02/2011 76

ofrezca una matriz de var-cov del vector de errores transformado homoscedastica

 La matriz de transformación P es de dimensión nxn.  La forma precisa que toma P depende de los

elementos de la matriz Σu.

 Es posible considerar multiplicar todo el modelo por la matriz P

I

'

u

u

u

*

)

(

* *

)

2

(

=

E

=

σ

Var

25/02/2011 77

El modelo bajo MCG

 Sea  ¿Cómo encontrar a P?

 Si σσσσi2fueran conocidas la corrección sería directa, ya que se puede considerar para encontrar a P

 Lo más realista es que σσσσi2 sean desconocidas. Afortunadamente existen algunos supuestos razonables para establecer el patrón de heteroscedasticidad los cuales pueden surgir del examen gráfico.

Pu

PXβ

Py

=

+

* * 1 * *

ˆ

(X

'

X

)

X

'

Y

β

=

− son MELI * * *

u

β

X

y

=

+

25/02/2011 78

Patrones de heteroscedasticidad

 Uno de los patrones más comunes es que la varianza del error sea proporcional a Xi2, esto es

 La transformación a considerar es dividir a todas las observaciones sobre . Así, 1/2

i X i

X

u

E

i 2 2

)

(

=

σ

                = − − − 2 / 1 2 / 1 2 2 / 1 ... 0 0 . . . . . . 0 ... 0 0 ... 0 1 n x x x P

(27)

25/02/2011 79  Bajo este patrón, las variables transformadas serán

                =                 ⋅                 = − − − 2 / 1 1 2 / 1 1 2 2 / 1 1 1 2 1 2 / 1 2 / 1 2 2 / 1 / . . / / . . ... 0 0 . . . . . . 0 ... 0 0 ... 0 1 x y x y x y y y y x x x n n n * y                 =                 ⋅                 = − − − − − − 2 / 1 2 / 1 2 / 1 2 / 1 2 2 / 1 2 / 1 2 / 1 2 / 1 2 / 1 1 2 12 1 11 2 / 1 2 / 1 2 2 / 1 1 1 12 12 2 11 1 11 1 1 / ... . . . . . . . . / ... / ... ... 1 . . . . . . . . ... 1 ... 1 ... 0 0 . . . . . . 0 ... 0 0 ... 0 n kn n k x x x x x x x x x x x x x x x x x x x x x n kn n k k n * X 25/02/2011 80

 El vector de errores transformados

                = 2 / 1 1 2 / 1 1 2 2 / 1 1 1 / . . / / x u x u x u n * u

 P esta dado por

⋅                 = − − − 2 / 1 2 / 1 2 2 / 1 ... 0 0 . . . . . . 0 ... 0 0 ... 0 1 n x x x P 25/02/2011 81  Así, donde

Pu

PXβ

Py

=

+

* * 1 * *

ˆ

(X

'

X

)

X

'

Y

β

=

− * * *

u

β

X

y

=

+

PY

P'

X'

PX)

P'

(X'

β

ˆ

=

−1 1 V P P' − − − − − =                 =                 = 1 2 1 1 2 1 ... 0 0 . . . . . . 0 ... 0 0 ... 0 ... 0 0 . . . . . . 0 ... 0 0 ... 0 1 1 n n x x x x x x

(28)

25/02/2011 82

Míminos cuadrados ponderados en Stata

 Considerando los datos que se muestran a

continuación sobre los gastos en comida e ingreso de 40 hogares así como el modelo:

a. Presente el diagrama de dispersión

correspondiente;

b.Estime el modelo señalado;

c. Identifique si el modelo cumple con el

supuesto de homoscedasticidad;

d.De no cumplir con lo apuntado en (c) corrija

mediante MCP: i i i

ingreso

u

comida

=

β

1

+

β

2

+

25/02/2011 83

ID COMIDA INGRESO ID COMIDA INGRESO

1 9.46 25.83 21 17.77 71.98 2 10.56 34.31 22 22.44 72.00 3 14.81 42.50 23 22.87 72.23 4 21.71 46.75 24 26.52 72.23 5 22.79 48.29 25 21.00 73.44 6 18.19 48.77 26 37.52 74.25 7 22.00 49.65 27 21.69 74.77 8 18.12 51.94 28 27.40 76.33 9 23.13 54.33 29 30.69 81.02 10 19.00 54.87 30 19.56 81.85 11 19.46 56.46 31 30.58 82.56 12 17.83 58.83 32 41.12 83.33 13 32.81 59.13 33 15.38 83.40 14 22.13 60.73 34 17.87 91.81 15 23.46 61.12 35 25.54 91.81 16 16.81 63.10 36 39.00 92.96 17 21.35 65.96 37 20.44 95.17 18 14.87 66.40 38 30.10 101.40 19 33.00 70.42 39 20.90 114.13 20 25.19 70.48 40 48.71 115.46

Datos sobre gastos en comida e ingreso de 40 hogares.

25/02/2011 84

Diagrama de dispersión entre los gastos en comida e ingreso 1 0 2 0 3 0 4 0 5 0 C O M ID A 20 40 60 80 100 120 INGRESO

(29)

25/02/2011 85

regress comida ingreso

Source | SS df MS Number of obs = 40 ---+--- F( 1, 38) = 17.64 Model | 826.635228 1 826.635228 Prob > F = 0.0002 Residual | 1780.4125 38 46.8529606 R-squared = 0.3171 ---+--- Adj R-squared = 0.2991 Total | 2607.04773 39 66.8473777 Root MSE = 6.8449 ---comida | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+---ingreso | .2322533 .0552934 4.20 0.000 .1203176 .344189 _cons | 7.383217 4.008356 1.84 0.073 -.7312761 15.49771 ---25/02/2011 86 rvfplot -2 0 -1 0 0 1 0 2 0 R e s id u a ls 15 20 25 30 35 F itted values 25/02/2011 87 rvpplot ingreso -2 0 -1 0 0 1 0 2 0 R e s id u a ls 20 40 60 80 100 120 INGRESO

(30)

25/02/2011 88

whitetst

hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance

Variables: fitted values of comida chi2(1) = 11.28 Prob > chi2 = 0.0008

White's general test statistic : 14.58151 Chi-sq( 2) P-value = 6.8e-04

25/02/2011 89

regress comida ingreso [aweight=1/ ingreso]

Source | SS df MS Number of obs = 40

---+--- F( 1, 38) = 27.26

Model | 1027.51018 1 1027.51018 Prob > F = 0.0000

Residual | 1432.39609 38 37.6946339 R-squared = 0.4177

---+--- Adj R-squared = 0.4024

Total | 2459.90627 39 63.0745196 Root MSE = 6.1396

---comida | Coef. Std. Err. t P>|t| [95% Conf. Interval]

---+---ingreso | .2551922 .0488781 5.22 0.000 .1562437 .3541407 _cons | 5.782084 3.256587 1.78 0.084 -.8105315 12.3747

---25/02/2011 90

Errores estándar corregidos por

heteroscedasti-cidad

 Si los errores son heteroscedasticos condicionalmente, es psoible aplicar un enfoque robusto.

 Hubber (1967) y White (1980) propusieron el estimador “sandwich” de la varianza de los errores, el cual corrige la hetersoscedasticidad.

 Se ha señalado que bajo heteroscedasticidad

[ ]

[

1 1

]

)

(

ˆ

=

(X'

X)

X'

uu'

X(X'

X)

β

E

E

Var

[ ]

ˆ

=

[

−1

Σ

−1

]

X)

X(X'

X'

X)

(X'

β

E

u

Var

(31)

25/02/2011 91

Ejemplo

 Para los datos de gastos en comida e ingreso se obtienen los errores estándar corregidos de acuerdo al estimador de Hubber y White.

 En Stata se tiene regress comida ingreso, robust

Linear regression Number of obs = 40

F( 1, 38) = 10.73 Prob > F = 0.0023 R-squared = 0.3171 Root MSE = 6.8449 ---| Robust

comida | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---+---ingreso | .2322533 .0709056 3.28 0.002 .0887125 .3757942 _cons | 7.383217 4.403557 1.68 0.102 -1.531318 16.29775

---25/02/2011 92

histogram resid, normal

0 .1 .2 .3 .4 D e n s it y -10 -5 0 5 Residuals 25/02/2011 93

sum resid, detail scalar nobs=r(N) scalar s=r(skewness) scalar k=r(kurtosis) scalar JB=(nobs/6)*(s^2+((k-3)^2)/4) scalar chi2_95=invchi2(2,.95) scalar pval=1-chi2(2,JB) di JB di chi2_95 di pval Prueba Jarque_Bera JB= 657.94501 chi2_95= 5.9914645 pvalue=0

(32)

25/02/2011 94

sktest resid

Prueba SK

Skewness/Kurtosis tests for Normality

- joint ---Variable | Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 ---+---resid | 3.3e+03 0.0000 0.0000 . 0.0000

Referencias

Documento similar

En estos últimos años, he tenido el privilegio, durante varias prolongadas visitas al extranjero, de hacer investigaciones sobre el teatro, y muchas veces he tenido la ocasión

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

En junio de 1980, el Departamento de Literatura Española de la Universi- dad de Sevilla, tras consultar con diversos estudiosos del poeta, decidió propo- ner al Claustro de la

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

Sanz (Universidad Carlos III-IUNE): &#34;El papel de las fuentes de datos en los ranking nacionales de universidades&#34;.. Reuniones científicas 75 Los días 12 y 13 de noviembre

(Banco de España) Mancebo, Pascual (U. de Alicante) Marco, Mariluz (U. de València) Marhuenda, Francisco (U. de Alicante) Marhuenda, Joaquín (U. de Alicante) Marquerie,

· Emisión de informe sobre la adecuación entre las competencias y conocimientos adquiridos de acuerdo con el plan de estu- dios del título de origen, o la experiencia laboral

Anexo 1: Cuestionarios de diagnóstico aplicados en los centros escolares de Educación primaria: CEIP Pedro Antonio de Alarcón (Madrid-España) y la I.E.. 3.- Desde tu experiencia ¿Qué