El problema de selección - Aspectos metodológicos

Capítulo 4: Aspectos metodológicos

4.1. El problema de selección

Al trabajar con observaciones, nos enfrentamos al problema de la selección (Angrist y Pischke 2009). Básicamente, consiste en que puede ser que existan factores inobservables que llevan a los individuos a auto-seleccionarse como pertenecientes a una categoría (por ejemplo, empresas que realizan cooperación tecnológica) y que también sean responsables de las diferencias entre las empresas que pertenecen a cada una de las categorías y de cualquiera de las otras variables de interés. Ante esta situación, resulta imposible afirmar que una variable particular o algún factor inobservable es el verdadero responsable de las diferencias observadas en la variable de interés (variable dependiente). Afortunadamente, la econometría nos provee de varias herramientas que aproximan las condiciones experimentales y permiten la utilización de este tipo de datos (Wooldridge 2002). La econometría permite el control de las diferencias entre cada una de las categorías (empresas que cooperan y no cooperan) a través de varias técnicas matemáticas. Artificialmente se hace que los dos grupos de empresas, pertenecientes a cada una de las categorías, sean comparables. El objetivo es estimar qué hubiese ocurrido si una empresa no hubiese implementado una determinada estrategia (en nuestro, caso cooperar en I+D). Además, la econometría permite realizar inferencia estadística para determinar si la relación entre dos variables es estadísticamente significativa.

El método más simple para solucionar el problema de selección es la inclusión de variables de control. Con este método, el investigador trata de condicionar las posibles diferencias entre los dos grupos de empresas mediante la inclusión de variables de control en el modelo. Una vez incluidas, el método econométrico mantiene cada variable constante en su valor medio, a la vez que elimina la influencia lineal de cada covariable sobre la variable dependiente. El coeficiente estimado nos informa del efecto neto de una covariable sobre el valor medio de la variable dependiente una vez que se elimina el efecto del resto de covariables de control.

No obstante, el método de inclusión de variables de control también tiene sus limitaciones. En primer lugar, es imposible medir e incluir todas las variables relevantes, por lo que la no inclusión produce un sesgo en la estimación. En segundo lugar, aunque podamos controlar por muchas variables, no es adecuado incluirlas todas en la regresión. La inclusión de muchas variables es tan problemática como la omisión de variables relevantes. Muchas de las variables están altamente correlacionadas con otras, lo que lleva a un problema de multicolinealidad. La inclusión de variables correlacionadas con el término de error produce la estimación de coeficientes sesgados. Sin embargo, estos problemas se ven mitigados si se dispone de una amplia muestra con muchas observaciones, aunque las inferencias sobre las relaciones causales resultan limitadas.

Dado que disponemos de una muestra de datos panel, en la que la misma empresa es medida en diferentes momentos del tiempo, podemos explotar esta información adicional y estimar de forma más precisa las relaciones causales entre las variables. Existen dos técnicas de control de variables inobservables en datos panel que se denominan efectos fijos y efectos aleatorios.

En los modelos de efectos fijos aparecen efectos inobservables temporales. Se considera que existe un término constante diferente para cada individuo, y se supone que los efectos individuales son independientes entre sí. Con este modelo se considera que las variables explicativas afectan por igual a las unidades de corte transversal y que éstas se diferencian por características propias de cada una de ellas, medidas por medio del intercepto. El modelo condiciona la heterogeneidad inobservada mediante la estimación de la varianza dentro de cada empresa a lo largo del tiempo, permitiendo que cada empresa

tenga su propio intercepto35. Si consideramos que las variables no observables son

constantes a lo largo del tiempo, entonces el modelo de efectos fijos eliminaría el sesgo de variables omitidas. Sin embargo, si las variables inobservables no son constantes y están correlacionadas con las variables que sí incluimos en la regresión, todavía incurriríamos en dicho sesgo.

El modelo de efectos aleatorios, a diferencia del modelo de efectos fijos, considera que los efectos individuales no son independientes entre sí, sino que están distribuidos aleatoriamente alrededor de un valor dado. Se asume que el gran número de factores, que afecta al valor de la variable dependiente pero que no ha sido incluido explícitamente como variable independiente del modelo, puede resumirse apropiadamente en la perturbación aleatoria. Es decir, la heterogeneidad no observada es absorbida en un término de error compuesto que sigue una distribución determinada. El modelo asume que las variables inobservables son independientes y no están correlacionadas con las variables observables del modelo. El modelo de efectos aleatorios considera que los efectos individuales no son independientes entre sí, sino que están distribuidos aleatoriamente alrededor de un valor dado. Se considera que tanto el impacto de las variables explicativas como las características propias de cada empresa son diferentes. El modelo se expresa algebraicamente de la siguiente forma:

it it it

it X

Y ( )' 

Donde “µi” viene a representar la perturbación aleatoria que permitiría distinguir el

efecto de cada individuo en el panel. Para efectos de su estimación, se agrupan los componentes estocásticos y se obtiene la siguiente relación:

it it

it X U

Y ' 

Donde Uit = ∂t+µi+εit se convierte en el nuevo término de la perturbación, U no es homocedástico, y ∂t, µi, εit corresponden al error asociado con las series de tiempo (∂t); a la perturbación de corte transversal (µi,) y al efecto combinado de ambas (εit ).

A la hora de elegir entre el modelo de efectos fijos y el modelo de efectos aleatorios, deben hacerse algunas consideraciones con respecto a la estructura de los datos. Si el tamaño de la muestra es grande, pero el número de años sobre los que se tiene observaciones pequeño, podría ser que el número de parámetros de efectos fijos sea muy grande en relación con el número de datos disponibles, lo que daría lugar a una estimación ineficiente. Desde el punto de vista conceptual, el modelo de efectos

aleatorios es apropiado cuando las unidades transversales son una muestra (aleatoria) de una población mayor (individuos, familias, empresas, etc.); en este caso cabe esperar que el efecto individual se caracterice mejor por una variable aleatoria y las inferencias que se realicen serán respecto de la población y no respecto de la muestra aleatoria extraída. Por el contrario, el modelo de efectos fijos es más apropiado cuando el análisis se centra sobre un conjunto específico de N unidades, y la inferencia que se haga estará condicionada al comportamiento de dicho conjunto particular.

En el primer y segundo estudio, para tener en cuenta la posible heterogeneidad no observada, se emplea el modelo de efectos aleatorios. La decisión de usar el modelo de efectos aleatorios, en lugar del modelo de efectos fijos, se basa en primer lugar en que la muestra recoge datos de una gran población y los estimadores calculados con efectos fijos pueden ser menos eficientes en paneles sobre pocos periodos de tiempo, lo que no ocurre con el modelo de efectos aleatorios (Heckman 1981); además, el modelo de efectos fijos no puede incluir covariables independientes con el tiempo. Por otro lado, tal y como se explica en el siguiente apartado, la variable dependiente de los estudios 1 y 2 es una variable censurada, por lo que el método de estimación empleado es el modelo tobit. No existe un comando en Stata (paquete estadístico que se emplea en este estudio) para modelos con este tipo de variables dependientes que controle por efectos fijos.

In document Efectos y determinantes de la cooperación para la innovación tecnológica: Un estudio empírico sobre un panel de datos de empresas localizadas en España (página 112-115)