En la mayor´ıa de los casos, la forma de la heteroscedasticidad no es conocida, o sea, es dif´ıcil encontrar la funci´onh(xi).
Pero, en muchos casos, podemos proponer un modelo para la funci´onh y utilizar los datos para estimar los par´ametros
desconocidos de este modelo. Esto nos da un estimador de cada hi, que llamaremos ˆhi.
Poniendo ˆhi en lugar dehi en la transformaci´on de GLS, obtenemos un estimador llamado estimador de GLS factibles (FGLS). A veces se llama EGLS, o simplemente GLS a FGLS.
Entre todos los posibles modelos para la heteroscedasticidad, supondremos uno concreto bastante flexible:
dondex1,x2, ...,xk son las variables independientes del modelo de regresi´on y los δj son par´ametros desconocidos. Otras funciones de losxj son igualmente posibles, pero nos centraremos en (2).
h(x) = exp(δ0+δ1x1+....+δkxk). Utilizamos esta funci´on exponencial porque los modelos lineales no nos garantizan que los valores predichos sean positivos, y las varianzas estimadas deben ser positivas para poder utilizar WLS.
Si los par´ametros δj fueran conocidos, simplemnte aplicar´ıamos WLS, como dijimos antes, pero no suele ser el caso y tendremos que utilizar los datos para estimar los par´ametros y calcular los pesos. ¿Como podemos estimar losδj? En pocas palabras, transformaremos la ecuaci´on en otra lineal que, con una peque˜na transformaci´on, pueda ser estimada por OLS. Bajo la hip´otesis (2), podemos escribir:
u2 =σ2exp(δ0+δ1x1+....+δkxk)v,
dondev tiene media uno, condicionada ax= (x1,x2, ...,xk). Si suponemos quev es, en realidad, independiente de x, podemos escribir
log(u2) =α0+δ1x1+....+δkxk+e,
dondee tiene media cero y es independiente dex; la constante de esta ecuaci´on es distinta de δ0,pero esto carece de importancia.
La variable dependiente es el logaritmo del cuadrado del error.
Como el modelo anterior cumple las hip´otesis de Gauss-Markov, podemos usar OLS para obtener estimadores insesgados de losδj. Tenemos que sustituir losu no observados con los residuos de OLS. Por tanto,
2
Los que necesitamos de esta regresi´on son los valores predichos. Si los llamamos ˆgi, entonces las estimaciones dehi son simplemente
ˆhi = exp(ˆgi).
Ahora podemos usar WLS con pesos 1/ˆhi. En resumen:
1. Obtenemos la regresi´on dey sobre x1,x2, ...,xk y los residuos, ˆ
u.
2. Calculamos log(ˆu2).
3. Hacemos la regresi´on auxiliar y calculamos los valores predichos, ˆg.
4. Obtenemos los ˆh = exp(ˆg).
5. Estimamos la ecuaci´ony =β0+β1x1+...+βkxk +u por WLS, con pesos 1/ˆh.
Si pudi´eramos usar los hi en lugar de los ˆhi en el procedimiento de WLS, sabemos que nuestros estimadores ser´ıan insesgados y, si el modelo de la heteroscedasticidad fuera correcto, ser´ıan tambi´en eficientes.
Pero el tener que estimar loshi utilizando los mismos datos nos lleva a que el estimador de FGLS no es insesgado, asi que no puede ser tampoco BLUE. Sin embargo es consistente y asint´oticamente m´as eficiente que OLS.
Otra alternativa para estimar loshi es sustituir las variables
independientes de la regresi´on auxiliar por los valores predichos por OLS en la regresi´on principal y sus cuadrados. Es decir, calcular los ˆ
gi como los valores predichos por la regresi´on de log(ˆu2) sobre ˆy e ˆy2, y despues calcular los ˆhi como antes.
Hay que tener cuidado al calcular estad´ısticosF para hacer contrastes de hip´otesis m´ultiples despues de estimar por WLS. Es importante usar los mismos pesos para estimar los modelos restringido y sin restringir. Es decir, estimamos primero el modelo sin restringir por OLS y, luego, con los mismos pesos estimamos el modelo restringido. El estad´ısticoF se calcula como siempre.
Ejemplo- Demanda de cigarrillos
Usaremos los datos de SMOKE.RAW para estimar una funci´on de demanda del consumo diario de cigarrillos. Como la mayor´ıa de la gente no fuma, la variable dependiente,cigs, es cero para la mayor´ıa de las observaciones. Un modelo lineal no es adecuado, porque puede dar valores predichos negativos. A pesar de esto, un modelo lineal nos puede ser util en algunos aspectos. La ecuaci´on estimada por m´ınimos cuadrados ordinarios, con las desviaciones t´ıpicas cl´asicas debajo es
cigsˆ =−3.64
24.08 + 0.880
0.728log(income)−0.751
5.773log(cigpric)
−0.501
0.167educ+ 0.771
0.160age−0.009
0.0017age2−2.83
1.11restaurn R2 = 0.056 n= 807
Dondecigs es el n´umero de cigarrillos que se fuman diariamente, income son los ingresos anuales, cigpric es el precio de la cajetilla de cigarrillos (en c´entimos),educ son los a˜nos de estudios,age es la edad en a˜nos yrestaurn es una variable ficticia que vale uno si la persona vive en un estado donde hay restricciones para fumar en los restaurantes. Como vamos a usar WLS, no ponemos las
desviaciones t´ıpicas robustas frente a la heteroscedasticidad para la estimaci´on de OLS. (Por cierto, 13 de los 807 valores predichos eran menores que cero, esto supone menos del 2% de la muestra y no es un problema importante.)
Ni la variableincome ni el precio de la cajetilla son
estad´ısticamente significativos, y sus efectos no son importantes.
Por ejemplo, si los ingresos crecen en un 10%,cigs se espera que se incremente en (.880/100)(10) =.088, o sea, menos que una d´ecima parte de cigarrillo por d´ıa. Algo parecido sucede con el precio.
¿Hay heteroscedasticidad en los errores de este modelo? La regresi´on de Breusch- Pagan de los cuadrados de los residuos de OLS sobre las variables independientes daR2 =.040. Este R cuadrado peque˜no parece que indica que no hay
heteroscedasticidad, pero recordemos que debemos calcular los estad´ısticosF o LM. Si el tama˜no de la muestra es grande, un valor aparentemente peque˜no deR2 puede resultar en un rechazo fuerte de la hip´otesis de heteroscedasticidad. El estad´ısticoLM es 807(.040) = 32.28, y, con una distribuci´onχ26, el valor p es menor de .000015, lo cual es una evidencia fuerte de heteroscedasticidad.