El análisis de regresión - Retos e innovaciones en el quehacer de la administración de las org

La herramienta estadística de más amplio uso es el análisis de regresión; proporciona un método sencillo para establecer una relación funcional entre variables. Estas relaciones se expresan a través de modelos lineales³ cuya forma general es, para el caso de una ecuación con n variables independientes y una dependiente:

y=β₀+β₁X1+...+β_nXn+ε_i donde: y: variable dependiente a explicar

β_i: son los coeficientes de regresión ó parámetros a estimar (i = 1, 2, ..., n).

x_i: variable explicativa, se considera fija.

ε_i : variable estocástica, término de perturbación ó error.

El término de perturbación puede representar el efecto de todas las variables excluidas en el modelo, la imprevisibilidad del comportamiento humano (como gustos, preferencias, etc.) y los errores de observación o medida de las xi; repre- senta la incapacidad del investigador de tener un modelo exacto de la realidad observada.

El modelo de regresión es de gran utilidad en la medida en que se haya seleccionado adecuadamente las variables que proporcionen la máxima informa- ción posible acerca del ambiente en que se desenvuelve la variable que se desea explicar; que se mantenga la suposición de linealidad entre las variables; que las observaciones de x se hayan obtenido por medio de un experimento controlado tal que los factores irrelevantes puedan mantenerse constantes. Esta última con- dición es difícil de cumplir en la práctica ya que el investigador no tiene control sobre situaciones que influyen en la variable a explicar; para los economistas, por ejemplo, serían los precios internacionales de productos, el ingreso esperado de los consumidores, etc.

3 La linealidad del modelo se refiere a que lo es en los parámetros β's aunque no en sus variables x's cuyos exponentes pueden ser 1. La forma general presentada es un modelo lineal de primer orden.

IDENTIFICACIÓN DE MODELOS Y VARIABLES ECONÓMICAS

105

Si el interés primordial al estimar una ecuación lineal es el de explicación y medición, el análisis de regresión proporciona las técnicas analíticas para que desde un enfoque puramente estadístico, se tenga la confianza (en términos probabilísticos) de que el modelo lineal propuesto esté representando y explicando a las variables que lo componen y que las estimaciones a efectuar también gozan de esa confiabilidad.

Las suposiciones básicas del modelo de regresión que permiten asegurar con un cierto nivel de confianza que es el que mejor explica a las variables involucradas, se refieren a la distribución de probabilidad del término de perturbación:

i) el valor esperado de la perturbación es cero y varianza constante, es decir, existencia de homoscedasticidad para cada conjunto de valores observados de x aunque la varianza sea desconocida, i.e.,

E [ε_i] = 0 Var [ε_i] =

σ

ii) ^εi, ε_j están no correlacionados, su covarianza es cero:

Cov [ε_i, ε_j ] = 0 para i ≠ j E[y_j ] = β₀+β₁X ; Var[yj ]=

σ

( ó x_i no tiene correlación con ε_i ) esto se cumple automáticamente cuando x_i es una variable aleatoria.

iii ) La perturbación o error se distribuye normalmente con media cero y varianza

σ

² desconocida ( por lo cual también se estima en el modelo).

^εi

~

N (0,

σ

²⁾

Esta suposición implica que las perturbaciones son independientes: el error de una observación no depende del valor del error de cualquier otra observación.

La suposición de normalidad es lo que hace que ε_i sea estocástico. Debido a que la ecuación de regresión se puede utilizar para realizar inferencias, se impo- nen ciertas condiciones a los estimadores de los parámetros β y

σ

² los cuales se cumplen si el método llamado de Mínimos Cuadrados se aplica para estimar la ecuación de regresión. Estas condiciones ó propiedades deseables son: insesga- miento (E [ β ] = β , E(S²) =

σ

² ); varianza mínima (poseen la menor varianza que cualquier otro estimador insesgado lineal); son funciones lineales de ^ . Por esta razón también reciben el nombre de estimadores insesgados lineales óptimos.

El principio básico del método de mínimos cuadrados es el de minimizar la distancia que existe entre los valores observados y los ajustados que están sobre la recta de regresión.

106

El método de mínimos cuadrados para la estimación de los parámetros β se presenta de manera breve, ya que no se considera relevante mostrar el desarrollo completo, pues nos desviaría del objetivo que se persigue. En la gráfica debe apre- ciarse que en realidad se deben minimizar las n desviaciones (errores) verticales de la recta ajustada. Para ello se parte de:

^∑(yi _ y^_i )² [ * ]

Para minimizar esta suma de cuadrados (SC) obsérvese que:

^ ^

yi=β₀+β₁xi , sustituyendo en [ * ] tenemos que:

^ ^ ∑(yi _ yi)²=∑(yi _ (β₀+β₁xi ))²

y recurriendo al cálculo diferencial para minimizar las distancias:

^{^}^ ^ ^ ∂∑(yi _ (β0+β₁xi ))² ∂∑(yi _ (β₀+β₁xi ))² ^ =0

^ =0 ∂β₀ ∂β₀

^ ^ ^ ^ ∑y_i=nβ₀+β₁∑xi ∑xiyi=β₀∑xi+β₁∑ x_i²

y=1.876x+10.658 R²=1

y

x

y=β₀+β₁

IDENTIFICACIÓN DE MODELOS Y VARIABLES ECONÓMICAS

107

Resolviendo estas ecuaciones simultáneamente y despejando se obtienen los estimadores (llamados mínimos cuadráticos) de la ecuación de regresión:

^ n∑x_i y_i_∑x_i∑y_i

^ ¯ ^ ¯

β₁= β₀=y _ β₁x n∑x_i _ (∑y_i)²

Existe toda una serie de pruebas estadísticas acerca de los estimadores del modelo de regresión para tener la certeza de que cualquier inferencia que se haga a partir de él tenga validez:

• el cálculo del coeficiente de determinación R², el cual se interpreta como la proporción del total de la variabilidad en que es explicada por x . Si R² está muy cerca de 1, entonces x explica una gran parte de la variación de y.

∑(y_i _ y ^_i )2 R²=1_

¯ ∑(y_i _ y)^2-

el análisis de residuales (ε_i = yi _ y^i) a través de la construcción de la tabla de análisis de varianza .

• Construcción de intervalos de confianza.

• Elaboración de pruebas de hipótesis.

El problema de la identificación

⁴

El punto central en el trabajo econométrico es la estimación estructural de los pará- metros que definen el comportamiento de los agentes económicos y las relaciones tecnológicas de las que se hablaron cuando se definió un modelo económico; dada la naturaleza de los problemas a estudiar en la economía, una ecuación estructural forma parte de un sistema, es decir, todas ellas se mantienen simultáneamente, por lo que no es suficiente el conocer las variables que definen a la ecuación, sino cuáles son las que aparecen en las ecuaciones restantes ó bien poseer información adicional acerca de la ecuación a estimar ya que las observaciones de la variable ó variables involucradas aún cuando sean completas en extensión y calidad, no basta por sí mismas para identificar a la ecuación: no puede tenerse la certeza que ella pueda ser capaz de generar los datos observados.

Existe una serie de problemas que surgen en la construcción de modelos eco- nómicos constituidos por varias ecuaciones, como es el caso que nos ocupa, que

4 La identificación hace referencia a la posibilidad de calcular los parámetros estructurales del modelo de ecuaciones simultáneas a partir de los parámetros en forma reducida. Es por ello que una ecuación del sistema esta exactamente identificada si el número de variables exógenas excluidas de la ecuación es igual al número de variables endógenas de la ecuación menos uno.

108

han generado mayor preocupación entre los economistas; estos problemas son pre- cisamente la identificación, el ordenamiento causal y los métodos de estimación.

In document Retos e innovaciones en el quehacer de la administración de las organizaciones. (página 80-84)