Tema 2: PLANTEAMIENTO DEL MODELO
2.1 El modelo lineal simple: hipótesis básicas.
El modelo de regresión lineal simple es una clase de modelo econométrico con las siguientes características: lineal, uniecuacional, estático, con una variable endógena, una variable exógena, un término de error y dos parámetros.
La formulación teórica es: Y = β1 + β2X + u
Donde Y representa a la variable endógena, X a la variable exógena, u es la variable aleatoria que representa al término de error y β1 y β2 son los parámetros.
Si consideramos los “N” elementos muestrales que se van a observar: Y1 = β1 + β2X1 + u1 Y2 = β1 + β2X2 + u2 . . . Yi = β1 + β2Xi + ui . . . YN = β1 + β2XN + uN
pudiéndose expresar de forma compacta como:
Yi = β1 + β2Xi + ui i = 1, ... ,N
Siendo:
Yi: observaciones muestrales de la variable endógena Y, variable cuyo
comporta-miento pretende explicar el modelo.
Xi: observaciones muestrales de la variable exógena X, variable elegida como
expli-cativa e influyente sobre la variable Y.
ui: elementos muestrales latentes o no observables de la variable u, se denominan
también perturbaciones aleatorias o términos de error. Representan al conjunto de causas explicativas de la variable Y, desconocidas o incontrolables y por tanto no incluidas en la estructura del modelo.
β1 y β2: son los parámetros estructurales del modelo que permanecen invariantes
respec-to a la variación muestral. β1 es el término independiente u ordenada en el
ori-gen, β2 es la pendiente o coeficiente de regresión que es el parámetro que
acom-paña y pondera a la variable exógena X.
La forma es evidentemente lineal respecto de los parámetros. Los datos serán de sec-ción cruzada o bien, series temporales, en cuyo caso se referirán al mismo periodo de tiempo, sin retardos.
Hipótesis básicas:
H-1: LINEALIDAD (respecto de los parámetros).
H-2: Las variables Xi son NO ESTOCÁSTICAS ( o NO ALEATORIAS).
H-3: MEDIA NULA: ∀ i = 1, ... , N E[ ui ] = 0
H-4: HOMOCEDASTICIDAD : ∀ i = 1, ... , N V[ ui ] = σ2
(Varianza constante)
H-5: NO AUTOCORRELACIÓN: ∀ i ≠ j Cov [ui , uj ] = E[ ui·uj ] = 0
( las tres últimas hipótesis supone que el conjunto de perturbaciones aleatorias {ui}i=1,...,N está generado por un proceso estocástico denominado ruido blanco )
H-6: NORMALIDAD: ∀ i = 1, ... , N ui : N( 0 , σ2 )
con función de densidad f(u = 1
2 u R i u i i 2 ) σ π e σ − ∈ 1 2 2
Esto supone que las variables ui , no sólo estarán incorrelacionadas sino serán
inde-pendientes en probabilidad.
A partir de estas hipótesis se deduce que las Yi, en el modelo, son variables
aleato-rias con las siguientes características:
1. E[ Yi / Xi ] = β1 + β2Xi + E[ui ] = β1 + β2Xi [2.1]
2. V[ Yi / Xi ] = V[β1 + β2Xi + ui ] = V[ui ] = σ2
3. Cov [ Yi,Yj / Xi,Xj] = E[ (Yi - β1 - β2Xi)⋅( Yj - β1 - β2Xj) ] = E[ ui⋅uj ] = 0
Recordemos que las Xi no son aleatorias y, por tanto, suponen cantidades conocidas
en cada distribución de las Yi en el modelo. La notación de momentos condicionados se
utiliza para reflejar que no hablamos de la distribución individual de Yi , sino de su
dis-tribución en el modelo.
Por tanto, incorporando la hipótesis de normalidad, las variables Yi se distribuyen en
el modelo como:
Yi : N[β1 + β2Xi ; σ2 ] ∀ i = 1, ... , N independientes estocásticamente
La expresión [2.1], que se ha obtenido considerando únicamente la hipótesis de me-dia nula entre todas las hipótesis enunciadas sobre las perturbaciones aleatorias, es bási-ca para entender e interpretar el modelo de regresión:
Nos dice que la estructura del modelo, constituida por la combinación lineal de pa-rámetros y observaciones de la variable explicativa, es el valor medio o valor esperado de las correspondientes observaciones de la variable endógena. Es decir, si prescindié-ramos de la variable explicativa X nos quedaríamos con las “n” observaciones, posi-blemente dependientes, de la variable aleatoria Y, cuyo comportamiento medio vendría representado por su esperanza matemática E[Y] = μ que se estimaría por la media muestral de las observaciones Yi. Pero al incorporar la variable exógena X ese
compor-tamiento medio se describe mejor por medio de la función β1 + β2Xi que nos da el valor
esperado para la variable endógena Y según el valor Xi que haya tomado la variable
explicativa, expresión que depende de los dos parámetros β1 y β2 cuyo valor tendremos
que estimar.
(El alumno debe recordar la definición dada de función de regresión dentro de la dis-tribución bidimensional de probabilidad de la variable (ξ1,ξ2): ϕ1(X) = E[ξ2 /ξ1 = X]
que en el caso que resultase lineal se expresaba ϕ1(X) = α + βX )
Gráficamente: Yi β$1 +β$2Xi β1 + β2Xi E[Y] = μ μ μ$ = Y Y Xi Donde se representan con trazo grueso las características medias “poblacionales” tanto de la variable endógena por sí sola, como la proporcionada por el modelo de re-gresión y por trazo fino la media muestral de las observaciones Yi de la variable
endó-gena y una estimación del modelo de regresión lineal.
La expresión [2.1] también nos permite interpretar el valor de los parámetros de la siguiente forma:
β1: será el valor medio o esperado que tomará Yi cuando la variable explicativa sea
igual a cero.
β2: será lo que variará el valor medio o esperado de Yi cuando la variable explicativa
Comentarios a los enunciados de las hipótesis básicas:
- Es posible que de una especificación del modelo no lineal, por medio de las de-bidas transformaciones en las variables, se llegue a una expresión lineal, respecto a los parámetros, del modelo. Por ejemplo:
- Transformación semilogarítmica:
Si la especificación inicial es del tipo: Y = AeβX con A > 0 , tomando logarit-mos se obtiene: logY = α +βX , siendo α = logA .
El modelo econométrico quedaría: logYi = α +βXi + ui .
- Transformación logarítmica:
Si la especificación inicial es del tipo: Y = AXβ con A > 0 , tomando logarit-mos se obtiene: logY = α +βlogX , siendo α = logA .
El modelo econométrico quedaría: logYi = α +βlogXi + ui .
- Transformación recíproca:
Si la especificación inicial es del tipo: [Y - α].X = β , despejando se obtiene: Y = α + β.(1/X).
El modelo econométrico quedaría: Yi = α + β.(1/Xi) + ui .
En todos los casos una o las dos variables aparecen en la formulación lineal sustituidas por transformaciones de las variables originales.
- La segunda hipótesis supone que los valores observados de la variable X han de ser considerados fijos o únicos, aunque se realizaran muestreos sucesivos, como si hubiesen sido los únicos valores posibles de obtener por parte de la variable X. Esta idea proviene de las primeras aplicaciones del modelo de regresión en las ciencias experimentales, en las que la variable explicativa era una variable contro-lada e incluso determinada, en el laboratorio, por el investigador. Es evidente que en las ciencias sociales es difícil mantener esta hipótesis. Nosotros lo haremos, pero adelantando que los resultados y propiedades de la estimación del modelo que vamos a obtener en el siguiente tema se podrán mantener con tal de que se cumpla la incorrelación entre las perturbaciones aleatorias y las observaciones de la variable exógena. Es decir: Cov( ui , Xj ) = 0 ∀ (i , j )
- La hipótesis de media nula significa que el efecto que pueda causar ui sobre Yi
podrá ser, con igual probabilidad, positivo o negativo, de tal forma que se le asig-na como valor medio el cero. No obstante si no se cumpliera esta hipótesis y se diera, por ejemplo, que E[ui] = c, con el valor de c desconocido, el modelo a
esti-mar se puede transforesti-mar en : Yi = γ1 + β2Xi + vi , siendo γ1 = β1 + c y vi = ui -
c , cumpliéndose, ahora, que: E[vi] = E[ui] - c = c - c = 0 , con lo que las nuevas
perturbaciones aleatorias tienen media nula. En este modelo se podrá estimar β2 y
- El supuesto de homocedasticidad que se hace en la cuarta hipótesis significa que para cada Xi, o lo que es lo mismo para cada observación, la posible
disper-sión de la observación de Yi respecto a su valor medio (β1 + β2Xi) es la misma,
medida por el valor de la varianza constante σ2
. Recordemos que anteriormente se obtuvo que V[ Yi / Xi ] = V[ui ] = σ2. Gráficamente lo podemos ver suponiendo
que fuera posible obtener para cada Xi varias observaciones de la variable
endó-gena. Quedaría: Yi x x x x x β1 + β2Xi x x x x x x x x x x x x x x x x x x x x x x x x x x x X1 X2 X3 X4 X5 X6 Xi Si, por ejemplo, estuviéramos analizando la influencia que tienen los ingresos fa-miliares (Xi) sobre la cifra del gasto efectuado en bienes de consumo (Yi) durante un
periodo determinado, a través de una encuesta realizada a cierto número de familias españolas, el cumplimiento de la hipótesis de homocedasticidad indicaría que las fa-milias de menor renta tendrían un rango de variación posible de sus gastos equiva-lente al que pudieran tener las familias con mayores ingresos. Cosa bastante impro-bable y, por tanto, no sería admisible esta hipótesis. Habitualmente si el modelo uti-liza datos de corte transversal se deberá probar estadísticamente la verificación del supuesto de homocedasticidad.
- La hipótesis de no autocorrelación de las perturbaciones aleatorias, por la que ui está incorrelacionada con uj, implica que todas aquellas causas no previstas por
la estructura del modelo que influyen en la determinación del valor de Yi no
tie-nen relación con las que actúan en la determinación de Yj. Este supuesto es más
admisible si las observaciones corresponden a distintas empresas o familias (datos de corte transversal) que a distintos instantes de tiempo (series temporales), en las que es más verosímil pensar que el efecto de esas causas imprevistas se mantenga durante varios periodos y, por tanto, se relacionen entre ellas.
2.2 Ejemplo 2: el modelo de educación de Mincer.
Este modelo, formulado por Jacob Mincer en su obra “Schooling, experience and earnings” en 1974 dentro de la teoría del capital humano, tiene como objetivo, en su expresión más sencilla, explicar la cantidad y variación de los ingresos salariales obte-nidos por los individuos por medio de la inversión realizada por dicho individuo en edu-cación formal y representada por el número de años empleados en la formación educati-va. El supuesto fundamental en que se basa es que cada individuo decide invertir en su formación hasta hacer máximo el valor actual de la totalidad de ingresos futuros espera-dos. Es decir, una persona decide seguir estudiando, en lugar de incorporarse al merca-do laboral porque espera obtener mayores ingresos en el futuro.
Las cuatro hipótesis simplificadoras que se necesitan para el análisis previo a la ob-tención del modelo son:
1º: Los individuos únicamente invierten en educación. (Posteriormente Mincer com-pleta su teoría incorporando la inversión en experiencia y formación laboral). 2º: Sólo se considera como coste educativo el denominado coste de oportunidad, es
decir, los ingresos perdidos por continuar estudiando y no incorporarse al merca-do de trabajo.
3º: Cada individuo comienza su vida laboral inmediatamente después de terminada su educación formal.
4º: La duración de la vida laboral de cada individuo es de “n” años, cualquiera que sea el nivel educativo alcanzado.
Por tanto, los individuos, una vez cubierta la enseñanza obligatoria, tomarán la deci-sión de, o bien comenzar a trabajar, o bien continuar “S” años más estudiando, dejando de percibir los posibles ingresos que le pudieran corresponder.
Si denominamos Y(S) al ingreso anual constante de un individuo con “S” años adi-cionales de estudio, Y(0) representará el coste de oportunidad del mismo durante esos años de estudio. Suponiendo que el individuo toma su decisión siguiendo el criterio, anteriormente definido, de maximización del valor actual de las ganancias futuras, la tasa de descuento “r” que iguale el valor actual de la corriente constante de ingresos con el valor actual de los costes considerados, será la que la economía financiera denomina tasa de rendimiento interna de la inversión y representa una medida de la ganancia ob-tenida por la inversión en educación.
La igualdad de los valores actuales de las corrientes de ingresos y costes esperados, siendo “n” el número de años de la vida laboral y utilizando las expresiones que nos proporciona la matemática financiera, será:
r e -1 Y(0). r e -1 . Y(S).e -r.n -r.n r.S - =
; que simplificando: Y(S).e-r.S = Y(0)
donde tomando logaritmos, obtenemos: log Y(S) = log Y(0) + r.S que es la expresión teórica del modelo de educación de Mincer.
Con las siguientes equivalencias simbólicas podremos expresar el modelo economé-trico de regresión lineal correspondiente al modelo de educación de Mincer:
Y(S) = Y log Y(0) = β1 r = β2
log Yi = β1 + β2Si + ui
siendo:
Yi: observaciones muestrales de los ingresos salariales individuales.
Si: recoge el número de años de estudio, desde el final de la enseñanza obligatoria,
que corresponde al mayor nivel educativo del individuo.
β2: parámetro cuyo valor representa la tasa de rendimiento de la inversión en
educa-ción.
β1: parámetro cuya estimación se aproximará al valor del logaritmo del salario
“me-dio” o “tipo” de los individuos que decidieron no seguir estudiando.
ui: perturbación aleatoria que recoge todas las causas que influyen en la
determina-ción del salario del individuo “i” distintas del nivel educativo logrado.
2.3 Ejemplo 3: el modelo del mercado de Sharpe
Este modelo surge a partir de los trabajos de W. Sharpe sobre el riesgo en el mercado de capitales y, concretamente, sobre las decisiones de los individuos respecto a sus car-teras de títulos. En estos trabajos llega a establecer una relación entre el rendimiento de un título determinado y el rendimiento medio de un conjunto o cartera de títulos al que pertenece el primero. En uno de sus artículos se puede leer: “La mejor manera de com-prender su sentido económico consiste en considerar la relación entre el rendimiento del activo j y el de la combinación g de forma similar a la del análisis de regresión.”. La cartera de títulos más representativa será el conjunto total de títulos del mercado de va-lores.
Si representamos por rj el rendimiento del título “j” durante el periodo que se
consi-dere, su cálculo se hará de la siguiente forma:
periodo del principio al precio periodo del principio al precio -dividendos + periodo del final al precio = rj
El rendimiento del mercado se medirá a través del valor de un índice de Bolsa, como el Índice General de la Bolsa de Madrid o el IBEX en España. Si lo representamos por RM su calculo será: periodo del principio al índice del valor periodo del principio al índice del valor -periodo del final al índice del valor = RM
La ecuación que se establece para el estudio de la determinación del rendimiento del título “j” en el periodo, conocida como línea característica es:
rj = αj + βjRM + uj
Dónde:
βj: Es el denominado parámetro “beta” del título “j” que representa una medida
del riesgo sistemático de la inversión en dicho título. Nos indica la variación posible del rendimiento del título “j” motivada por una variación en el rendi-miento medio del mercado. Mide la volatilidad del título o intensidad de su respuesta a las alteraciones en el mercado. De tal forma que si βj es mayor que
1 se dice que el título “j” es volátil, indicando que cuando el mercado aumente su rendimiento medio el título “j” lo hará en mayor proporción, pero cuando el rendimiento del mercado disminuya el titulo “j” rebajará aún más el suyo. αj: Nos da el rendimiento que se espera para el título “j” si el mercado permanece
estable, con rendimiento nulo, en el periodo. uj: Es el término de error o perturbación aleatoria.
El modelo así definido se refiere a un determinado periodo de tiempo pero del cual sólo podremos tener una observación de las variables. Para poder estimar los paráme-tros deberemos extender el cumplimiento de la anterior ecuación a un intervalo de tiem-po amplio que comprenda varios periodos. Así, utilizando como subíndice “t” para los distintos periodos de observación el modelo econométrico quedará especificado de la siguiente forma:
rjt = αj +βjRMt +ujt para t = 1, ... ,N
Con el significado conocido para las variables y parámetros que aparecen.
EJERCICIOS PROPUESTOS
2.1 Encuestadas 20 personas, seleccionadas al azar, entre la población activa de cierta región española, sus salarios anuales en euros, y sus años de estudios han resultado ser: Obs. salario anual en € Años de estudios Obs. salario anual en € Años de estudios 1 24600 12 11 66960 16 2 37800 16 12 30240 20 3 57240 18 13 34800 12 4 31440 16 14 102600 16 5 52800 12 15 18120 10 6 9936 12 16 34200 18 7 36960 16 17 25680 16 8 20640 12 18 21240 20 9 23880 10 19 7704 12 10 11952 12 20 101880 16
1º: Calcule la media y la varianza de cada una de las dos distribuciones marginales. 2º: Calcule la covarianza.
3º: Realice los mismos cálculos, pero sustituyendo los valores de los salarios por sus lo-garitmos.
2.2 Si los precios y los dividendos pagados para un título A son los que se exponen a continuación, junto con los valores del IBEX-35:
periodos t precio de un título “A” (en euros) dividendos pagados (en euros) IBEX-35. oct – 04 0 12,30 0,10 8418,3 nov – 04 1 12,38 8693 dic – 04 2 13,09 9080,8 enero-05 3 12,92 0,10 9223,9 feb – 05 4 13,07 9391 marzo-05 5 12,56 9258,8 abril – 05 6 11,95 0,142 9001,6 mayo- 05 7 12,74 9427,1 junio - 05 8 12,76 9783,2 julio - 05 9 13,91 0,115 10115,6 agosto-05 10 13,45 10008,9 sept - 05 11 14,59 10813,9 oct - 05 12 14,71 0,115 10493,8 nov - 05 13 15,02 10557,8 dic - 05 14 15,08 10733,9 enero-06 15 16,62 0,115 11104,3 feb - 06 16 17,08 11740,7 marzo-06 17 17,22 11854,3 abril - 06 18 17,51 0,186 11892,5 mayo- 06 19 16,17 11340,5 junio - 06 20 16,08 11548,1
1º: Calcule los valores de los rendimientos del título (rAt) y del mercado (RMt) que se
consideran en el modelo del mercado de Sharpe.