Estimaci´ on de La forma de la heteroscedasticidad: GLS factibles

En la mayor´ıa de los casos, la forma de la heteroscedasticidad no es conocida, o sea, es dif´ıcil encontrar la funci´onh(x_i).

Pero, en muchos casos, podemos proponer un modelo para la funci´onh y utilizar los datos para estimar los par´ametros

desconocidos de este modelo. Esto nos da un estimador de cada hi, que llamaremos ˆhi.

Poniendo ˆh_i en lugar deh_i en la transformaci´on de GLS, obtenemos un estimador llamado estimador de GLS factibles (FGLS). A veces se llama EGLS, o simplemente GLS a FGLS.

Entre todos los posibles modelos para la heteroscedasticidad, supondremos uno concreto bastante flexible:

dondex1,x2, ...,xk son las variables independientes del modelo de regresi´on y los δ_j son par´ametros desconocidos. Otras funciones de losx_j son igualmente posibles, pero nos centraremos en (2).

h(x) = exp(δ0+δ1x1+....+δkxk). Utilizamos esta funci´on exponencial porque los modelos lineales no nos garantizan que los valores predichos sean positivos, y las varianzas estimadas deben ser positivas para poder utilizar WLS.

Si los parámetros δ_j fueran conocidos, simplemnte aplicar´ıamos WLS, como dijimos antes, pero no suele ser el caso y tendremos que utilizar los datos para estimar los parámetros y calcular los pesos. ¿Como podemos estimar losδj? En pocas palabras, transformaremos la ecuación en otra lineal que, con una pequeña transformación, pueda ser estimada por OLS. Bajo la hipótesis (2), podemos escribir:

u² =σ²exp(δ₀+δ₁x₁+....+δ_kx_k)v,

dondev tiene media uno, condicionada ax= (x1,x2, ...,xk). Si suponemos quev es, en realidad, independiente de x, podemos escribir

log(u²) =α0+δ1x1+....+δkxk+e,

dondee tiene media cero y es independiente dex; la constante de esta ecuaci´on es distinta de δ0,pero esto carece de importancia.

La variable dependiente es el logaritmo del cuadrado del error.

Como el modelo anterior cumple las hip´otesis de Gauss-Markov, podemos usar OLS para obtener estimadores insesgados de losδj. Tenemos que sustituir losu no observados con los residuos de OLS. Por tanto,

Los que necesitamos de esta regresi´on son los valores predichos. Si los llamamos ˆg_i, entonces las estimaciones deh_i son simplemente

ˆhi = exp(ˆgi).

Ahora podemos usar WLS con pesos 1/ˆh_i. En resumen:

1. Obtenemos la regresi´on dey sobre x₁,x₂, ...,x_k y los residuos, ˆ

2. Calculamos log(ˆu²).

3. Hacemos la regresi´on auxiliar y calculamos los valores predichos, ˆg.

4. Obtenemos los ˆh = exp(ˆg).

5. Estimamos la ecuaci´ony =β₀+β₁x₁+...+β_kx_k +u por WLS, con pesos 1/ˆh.

Si pudi´eramos usar los h_i en lugar de los ˆh_i en el procedimiento de WLS, sabemos que nuestros estimadores ser´ıan insesgados y, si el modelo de la heteroscedasticidad fuera correcto, ser´ıan tambi´en eficientes.

Pero el tener que estimar loshi utilizando los mismos datos nos lleva a que el estimador de FGLS no es insesgado, asi que no puede ser tampoco BLUE. Sin embargo es consistente y asint´oticamente m´as eficiente que OLS.

Otra alternativa para estimar loshi es sustituir las variables

independientes de la regresi´on auxiliar por los valores predichos por OLS en la regresi´on principal y sus cuadrados. Es decir, calcular los ˆ

gi como los valores predichos por la regresi´on de log(ˆu²) sobre ˆy e ˆy², y despues calcular los ˆh_i como antes.

Hay que tener cuidado al calcular estad´ısticosF para hacer contrastes de hip´otesis m´ultiples despues de estimar por WLS. Es importante usar los mismos pesos para estimar los modelos restringido y sin restringir. Es decir, estimamos primero el modelo sin restringir por OLS y, luego, con los mismos pesos estimamos el modelo restringido. El estad´ısticoF se calcula como siempre.

Ejemplo- Demanda de cigarrillos

Usaremos los datos de SMOKE.RAW para estimar una función de demanda del consumo diario de cigarrillos. Como la mayor´ıa de la gente no fuma, la variable dependiente,cigs, es cero para la mayor´ıa de las observaciones. Un modelo lineal no es adecuado, porque puede dar valores predichos negativos. A pesar de esto, un modelo lineal nos puede ser util en algunos aspectos. La ecuación estimada por m´ınimos cuadrados ordinarios, con las desviaciones t´ıpicas clásicas debajo es

cigsˆ =−3.64

24.08 + 0.880

0.728log(income)−0.751

5.773log(cigpric)

−0.501

0.167educ+ 0.771

0.160age−0.009

0.0017age²−2.83

1.11restaurn R² = 0.056 n= 807

Dondecigs es el número de cigarrillos que se fuman diariamente, income son los ingresos anuales, cigpric es el precio de la cajetilla de cigarrillos (en céntimos),educ son los años de estudios,age es la edad en años yrestaurn es una variable ficticia que vale uno si la persona vive en un estado donde hay restricciones para fumar en los restaurantes. Como vamos a usar WLS, no ponemos las

desviaciones t´ıpicas robustas frente a la heteroscedasticidad para la estimaci´on de OLS. (Por cierto, 13 de los 807 valores predichos eran menores que cero, esto supone menos del 2% de la muestra y no es un problema importante.)

Ni la variableincome ni el precio de la cajetilla son

estad´ısticamente significativos, y sus efectos no son importantes.

Por ejemplo, si los ingresos crecen en un 10%,cigs se espera que se incremente en (.880/100)(10) =.088, o sea, menos que una d´ecima parte de cigarrillo por d´ıa. Algo parecido sucede con el precio.

¿Hay heteroscedasticidad en los errores de este modelo? La regresi´on de Breusch- Pagan de los cuadrados de los residuos de OLS sobre las variables independientes daR² =.040. Este R cuadrado peque˜no parece que indica que no hay

heteroscedasticidad, pero recordemos que debemos calcular los estad´ısticosF o LM. Si el tamaño de la muestra es grande, un valor aparentemente pequeño deR² puede resultar en un rechazo fuerte de la hipótesis de heteroscedasticidad. El estad´ısticoLM es 807(.040) = 32.28, y, con una distribuciónχ²₆, el valor p es menor de .000015, lo cual es una evidencia fuerte de heteroscedasticidad.

In document Caso 2: Estimaci´ on de La forma de la heteroscedasticidad: GLS factibles (página 34-43)