Introducción a la Econometría. Análisis estadístico de datos económicos

(1)

Introducción a la Econometría

Análisis estadístico de datos económicos

(2)

Breve Resumen del Curso

La ciencia económica suele indicarnos relaciones

interesantes entre variables, a menudo con implicaciones de política económica, pero casi nunca sugiere la

magnitud cuantitativa del efecto causal.

• ¿Cuál es la elasticidad precio del tabaco?

• ¿Qué efecto tiene una reducción del número de alumnos en clase sobre sus notas?

• ¿Y un año de educación sobre el salario futuro?

• ¿Y un incremento del 1% en el tipo de interés sobre el crecimiento?

(3)

Este curso estará enfocado a la utilización de métodos estadísticos y econométricos para cuantificar efectos causales.

Idealmente, nos gustaría poder experimentar con: El precio del tabaco; el tamaño de la clase; el

rendimiento de la educación; el Banco Central Europeo

Pero casi siempre tendremos que trabajar con datos no experimentales, lo que plantea importantes problemas:

• efectos confusos (variables omitidas) • causalidad simultánea

(4)

En este curso:

• Aprenderá distintos métodos de estimación de efectos causales utilizando datos observados;

• Aprenderá otro tipo de herramientas para utilizar, por ejemplo, en la predicción de series temporales;

• Nos centraremos en aplicaciones – la teoría se

utilizará cuando sea necesaria para el entendimiento del “por qué” de los métodos;

• Aprenderá a producir (llevar a cabo el análisis) y consumir (evaluar el trabajo de otros) aplicaciones econométricas; y

(5)

Revisión de Probabilidad y Estadística

(SW Capítulos 2,3)

Problema empírico: Número de alumnos y notas • Cuestión clave: ¿Cuál es el efecto de reducir el

número de alumnos en uno por clase? ¿y en 8? • ¿Cómo se mide la variable dependiente (“notas”)?

§ Satisfacción de los padres

§ Desarrollo personal del estudiante

§ Bienestar futuro y/o salario

§ contrastes estándar

¿Qué nos dicen los datos sobre la relación entre el número de alumnos y el resultado de los exámenes?

(6)

Los datos del California Test Score

Todos los distritos escolares K-6 (Infantil a 6º curso) y K-8 de California (n = 420)

Variables:

§ Examen de 5º grado (matemáticas y lectura): media de los distritos

(7)

(8)

(9)

¿Cómo obtener evidencia empírica sobre si los distritos con menor STR tienen resultados mejores?

1. Comparar la nota media de los distritos de bajo STR con la de los de alto STR (“estimación”) 2. Verificar la hipótesis de que la nota media es la

misma en ambos tipos de distrito, contra la

alternativa de que es distinta (“ test de hipótesis”) 3. Estimar un intervalo para la diferencia de notas

(10)

Análisis inicial de los datos: Comparar distritos “pequeños” (STR < 20) y “grandes” (STR 20):

Tamaño Nota media (Y ) Desviación estándar (sY) n Pequeño 657.4 19.4 238 Grande 650.0 17.9 182

1. Estimación de ∆ = diferencia entre medias de grupos

2. Contraste de la hipótesis ∆ = 0

(11)

1. Estimación pequeño grande Y −Y = 657.4 – 650.0 = 7.4 donde pequeño pequeño 1 pequeño 1 n i i Y Y n ₌ =

∑

y grande grande 1 grande 1 n i i Y Y n ₌ =

∑

¿Es esta diferencia significativa?

• Desviación estándar de las notas = 19.1

• Diferencia entre los percentiles 60 y 75 de las notas es 667.6 – 659.4 = 8.2

• Esta diferencia es lo suficientemente importante como para tenerla en cuenta en las posibles discusiones del comité escolar

(12)

2. Verificación de hipótesis

Contraste de la diferencia de medias: estadístico t,

2 2 g ( ) p g p p g p g s s p g n n Y Y Y Y t SE Y Y − − = = − + (¿lo recuerda?)

donde SE(Y_s – Y_l) es el “error estándar” de Y_p – Y_g; los subíndices p y g hacen referencia a distritos con STR “pequeño” y “grande” ; y 2 2 1 1 ( ) 1 s n p i p i p s Y Y n ₌ = − −

∑

(etc.)

(13)

Cálculo del t de la diferencia de medias: Tamaño _Y sY n Pequeño 657.4 19.4 238 grande 650.0 17.9 182 2 2 _19.42 _17.92 238 182 657.4 650.0 7.4 1.83 p g p g p g s s n n Y Y t = − = − = + + = 4.05

|t| > 1.96, entonces rechazamos al nivel del 5% la hipótesis nula de que las dos medias son iguales.

(14)

3. Intervalo de confianza

Un intervalo de confianza del 95% para la diferencia de medias es

(Y_p – Y_g) ± 1.96´SE(Y_p – Y_g)

= 7.4 ± 1.96´1.83 = (3.8, 11.0)

Dos afirmaciones equivalentes:

1. El intervalo de confianza del 95% para ∆ no incluye al cero;

2. La hipótesis de que ∆ = 0 es rechazada al nivel de significación del 5%

(15)

Todo esto debería resultar familiar. Pero:

1. ¿Qué es lo que justifica todos estos resultados? 2. Estimación: ¿Por qué estimar ∆ mediante Y_p – Y_g? 3. Verificación: ¿Cuál es realmente el error estándar de

s

Y – Y_l? ¿Por qué rechazar ∆ = 0 si |t| > 1.96?

4. Intervalos de confianza (estimación de intervalos): ¿Qué es, en realidad, un intervalo de confianza?

(16)

1. Estructura probabilística de la inferencia 2. Estimación

3. Verificación

4. Intervalos de confianza Población

• El grupo o colección de entidades de interés • Aquí, “todos los posibles” distritos escolares

• “Todos los posibles” significa “todas las posibles” circunstancias que nos llevan a unos valores

específicos de STR

• Si la población es muy grande, tendremos que hacer inferencia a partir de una muestra de dicha población

(17)

Variable Aleatoria Y

• Resumen numérico de un suceso aleatorio

• Aquí, el valor numérico de la nota media o del STR en un determinado año y distrito de la muestra.

Distribución Poblacional de Y

• Las probabilidades de que diferentes valores de Y ocurran en la población, por ejemplo Pr[Y = 650] (cuando Y es discreta)

• ó: Las probabilidades sobre conjuntos de dichos valores, por ejemplo Pr[Y £ 650] (cuando Y es continua).

(18)

“Momentos” de la distribución poblacional media = valor esperado

= E(Y) = µ_Y

= valor medio de múltiples repeticiones de Y

varianza = E(Y – µY)2 = σ_Y2

= media del cuadrado de la dispersión

(19)

Distribuciones condicionadas

• La distribución de Y, dados los valores de otra variable aleatoria, X

• Ejemplo: distribución de las notas, dado un STR < 20 Momentos de las distribuciones condicionadas

• Media condicional = media de la distribución condicional = E(Y|X = x)

• Varianza condicional = varianza de la distribución condicional

• Ejemplo: E(notas|STR < 20), la nota media en aquellos distritos con menor número de alumnos

(20)

Diferencia de las medias de dos distribuciones condicionadas:

∆ = E(nota|STR < 20) – E(nota|STR 20) Otros ejemplos de medias condicionadas:

• Salario de la mujer (Y = salario, X = sexo)

• Tasa de mortalidad anual de personas bajo tratamiento (Y = vivo/muerto; X = tratado/no tratado)

La media condicionada es un nuevo término para la idea familiar de la media del grupo

(21)

Inferencia sobre medias, medias condicionadas, y diferencia en medias condicionadas

Queremos conocer ∆ (diferencia de notas ; de sexo, de tratamiento).

Por tanto, debemos reunir y usar datos que nos permitan llevar a cabo inferencias estadísticas sobre ∆.

• Datos experimentales • Datos observables

(22)

Muestreo aleatorio simple

• Elija un individuo (distrito, entidad) aleatoriamente de la población

Aleatoriedad y datos

• Antes de la selección, el valor de Y es aleatorio ya que el individuo seleccionado también lo es

• Tras la selección, el valor de Y es observado, tan sólo un número – no aleatorio

• Los datos serían (Y1, Y2,…, Yn), donde Yi = valor de Y

(23)

Implicaciones del muestreo aleatorio simple

Puesto que los individuos #1 y #2 se eligen al azar, el valor de Y1 no posee información sobre Y2. Por tanto:

• Y1, Y2 se distribuyen independientemente

• Y1 e Y2, provienen de la misma distribución, es decir,

se distribuyen idénticamente

• Luego, una consecuencia del muestreo aleatorio simple es que Y1 e Y2 se distribuyen idéntica e

independientemente (i.i.d.).

• De forma más general, con muestreo aleatorio simple, {Y_i}, i = 1,…, n, son i.i.d

(24)

1. Estructura probabilística de la inferencia 2. Estimación

3. Verificación

4. Intervalos de confianza

Y es el estimador natural de la media. Pero: • ¿Qué propiedades tiene este estimador? • ¿Por qué utilizamos Y y no otro estimador?

§ Y1 (la primera observación)

§ quizás con ponderaciones distintas – no medias simples

(25)

Para contestar estas cuestiones necesitamos caracterizar la distribución muestral de Y • Los individuos se eligen de forma aleatoria. • Tal que los valores de (Y1,…, Yn) son aleatorios

• Funciones de (Y1,…, Yn), como Y , son aleatorias: si

hubiéramos elegido otra muestra, ésta daría valores distintos

• La distribución de Y sobre posibles muestras distintas de tamaño n es la distribución muestral de Y .

• La media y la varianza de Y son la media y la

varianza de su distribución muestral, E(Y ) y var(Y ). • Para calcular var(Y ), necesitamos la covarianza

(26)

La covarianza entre X y Z es,

cov(X,Z) = E[(X – µ_X)(Z – µ_Z)] = σ_XZ

• La covarianza es una medida de asociación lineal entre

X y Z; sus unidades son unidades de X × unidades de Z • cov(X,Z) > (<) 0: relación positiva (negativa) entre X y

Z

• Si X y Z son independientes, entonces cov(X,Z) = 0 (¡pero no viceversa!)

• La covarianza consigo misma es su varianza:

(27)

(28)

El coeficiente de correlación viene definido en términos de la covarianza: corr(X,Z) = cov( , ) var( ) var( ) XZ X Z X Z X Z σ σ σ = = r_XZ • –1 corr(X,Z) 1

• corr(X,Z) = 1, asociación lineal positiva perfecta • corr(X,Z) = –1, asociación lineal negativa perfecta • corr(X,Z) = 0, ningún tipo de asociación lineal • Si E(X|Z) = constante, entonces corr(X,Z) = 0 (no

(29)

(30)

(31)

La media y la varianza de la distribución muestral de Y media: E(Y ) = E( 1 1 n i i Y n

∑

₌ ) = 1 1 ( ) n i i E Y n

∑

₌ = 1 1 n Y i n

∑

₌ µ = µY Varianza: var(Y ) = E[Y – E(Y )]2 = E[Y – µY]2 = E 2 1 1 ( ) n i Y i Y n ₌ µ  ₋    

∑

 = E ₂ 1 1 1 ( )( ) n n i Y j Y i j Y Y n ₌ ₌ µ µ   − −   

∑∑



(32)

var(Y ) = ₂ 1 1 1 ( )( ) n n i Y j Y i j E Y Y n

∑∑

₌ ₌ − µ −µ = ₂ 1 1 1 cov( , ) n n i j i j Y Y n

∑∑

₌ ₌ = ₂ ₂ 1 1 1, 1 1 var( ) cov( , ) n n n i i j i i j j i Y Y Y n

∑

₌ + n

∑ ∑

_{= = ≠} = ₂ 2 1 1 0 n Y i n

∑

₌ σ + = 2 Y n σ

(33)

Resumen: E(Y ) = µY y var(Y ) = 2 Y n σ . Consecuencias:

• Y es un estimador insesgado de µY (esto es, E(Y ) =

µY)

• var(Y ) es inversamente proporcional a n • la dispersión de la distribución muestral es

proporcional a 1/ n

• en este sentido, la incertidumbre muestral que aparece al utilizar Y para realizar inferencias sobre µ_Y es

(34)

¿Qué sucede con la distribución muestral completa de Y , y no sólo con la media y la varianza?

En general, la distribución muestral exacta de Y es muy complicada y depende de la distribución

poblacional de Y.

Ejemplo: Supongamos que Y toma los valores 0 ó 1 (una variable aleatoria de Bernoulli) con la distribución de probabilidad,

Pr[Y = 0] = .22, Pr(Y =1) = .78

Entonces, E(Y) = .78 y 2

Y

(35)

(36)

Para pequeños tamaños de la muestra, la distribución de Y es complicada.

PERO: ¡cuando n es elevado, no lo es!

A medida que n aumenta, la distribución de Y se centra progresivamente alrededor de µ_Y: la incertidumbre

muestral decrece conforme n aumenta (recuérdese que var(Y ) = σ_Y2/n)

Un estimador es consistente si la probabilidad de que caiga dentro de un intervalo alrededor del valor

poblacional verdadero tiende a 1 conforme aumenta el tamaño muestral

(37)

La Ley de los Grandes Números:

Si (Y1,…,Yn) son i.i.d. y σ_Y2 < ¥, entonces Y es un

estimador consistente de µ_Y, esto es,

Pr[|Y – µY| < ε] ® 1 según n ® ¥ lo que puede escribirse como Y

p

→ µY (“Y converge en probabilidad a µ_Y”)

(Demostración: según n ® ¥, var(Y ) =

2 Y n σ _® 0, lo que implica que Pr[|Y – µ_Y| < ε] ® 1.)

(38)

Teorema Central del Límite (TCL): Si (Y₁,…,Y_n) son i.i.d. y 0 < σ_Y2 < ¥, entonces cuando n es elevado la distribución de Y está bien aproximada por una distribución normal:

• Y se distribuye aproximadamente N(µ_Y,

2

Y

n σ ₎

(“distribución normal con media µY y varianza σ_Y2/n”) • n(Y – µY)/σY se distribuye aproximadamente N(0,1) (normal estándar) • Es decir, “Y _{estandarizada” =} ( ) var( ) Y E Y Y − = / Y Y Y n µ σ − se

distribuye aproximadamente como una N(0,1) • La aproximación mejora conforme n aumenta

(39)

(40)

Mismo ejemplo: distribución de ( ) var( ) Y E Y Y − :

(41)

Resumen: para (Y1,…,Yn) i.i.d. con 0 < σ_Y2 < ¥,

• La distribución muestral exacta (muestra finita) de Y tiene media µY (“Y es un estimador insesgado de µY”) y varianza σ_Y2/n

• Aparte de su media y de su varianza, la distribución exacta de Y es complicada y depende de la

distribución de Y

• Y →p µY (Ley de los grandes números) • ( ) var( ) Y E Y Y − se distribuye aproximadamente N(0,1) (TCL)

(42)

Entonces, ¿Por qué utilizar Y para estimar µY? • insesgadez: E(Y ) = µY

• consistencia: Y

p

→ µY

• Y es el estimador de “mínimos cuadrados” de µY; Y resuelve: 2 1 min ( ) n m i i Y m = −

∑

(véase Ap. 3.2)

• Y tiene la menor varianza de todos los estimadores

lineales: considérese el estimador,

1 1 ˆ n Y i i i a Y n µ = =

∑

, donde {a_i} es tal que µˆ_Y es insesgado; entonces var(Y ) £ var(µˆ_Y ).

(43)

Estructura probabilística de la inferencia 1. Estimación

2. Contrastación de hipótesis 3. Intervalos de confianza

El problema de la contrastación de hipótesis (para la media): adoptar una decisión provisional, basada en la evidencia disponible, sobre si una hipótesis nula es verdadera, o, en su lugar, sobre si alguna hipótesis alternativa es verdadera. Es decir, contrastar

H0: E(Y) = µY,0 vs. H1: E(Y) > µY,0 (unilateral, >)

H0: E(Y) = µY,0 vs. H1: E(Y) < µY,0 (unilateral, <)

(44)

p-valor = probabilidad de obtener un valor (de Y ) al menos tan adverso para la nula como el realmente

calculado a partir de nuestros datos, suponiendo que la hipótesis nula es verdadera.

El nivel de significación de un contraste es una

probabilidad preestablecida de rechazar incorrectamente la hipótesis nula, cuando ésta es verdadera.

Cálculo del p-valor basado en Y :

p-valor =

0 ,0 , 0

Pr [|_H Y − µ_Y | |> Y obs − µ_Y |],

donde Y obs es el valor de Y realmente observado (no aleatorio)

(45)

p-valor =

0 ,0 , 0

Pr [|_H Y − µ_Y | |> Yobs − µ_Y |],

Para calcula el p-valor, es necesario conocer la

distribución de Y . Si n es elevado, podemos utilizar la aproximación normal para n elevado:

@ suma de las probabilidades bajo las colas derecha e izquierda de la N(0,1)

(46)

(47)

En la práctica, σY es desconocida, por lo que debe estimarse Estimador de la varianza de Y: s_Y2 = 2 1 1 ( ) 1 n i i Y Y n −

∑

₌ − Resultado:

Si (Y1,…,Yn) son i.i.d. y E(Y4) < ¥, entonces s_Y2

p

→ 2

Y

σ

§ ¿Por qué se aplica la ley de los grandes números?

Porque s_Y2 es una media muestral; véase el Apéndice 3.3

§ Nota: suponemos que E(Y4) < ¥ porque aquí la media no es la de Yi, sino la de su cuadrado; véase Ap. 3.3

(48)

@ probabilidad bajo las colas de la normal donde t = ,0 / Y Y Y s n µ −

(49)

El p-valor y el nivel de significación

Con un nivel de significación preestablecido (e.g. 5%): • Rechazamos si |t| ³ 1.96

• De forma equivalente: rechazamos si p £ 0.05. • Al p-valor se le denomina en ocasiones nivel

(50)

La distribución t de Student

Si Y se distribuye N(µ_Y,σ_Y2), el estadístico t sigue una distribución t de Student (tabulada al final de todos los libros de estadística)

Algunos comentarios:

• Para n > 30, la distribución t y la N(0,1) están muy próximas

• El supuesto de que Y se distribuye N(µ_Y,σ_Y2) es poco

admisible en la práctica (¿la renta? ¿el número de hijos?)

• La distribución t se comenzó a utilizar históricamente cuando los tamaños muestrales resultaban muy reducidos

• En este curso, no utilizaremos la distribución t, sino la aproximación para n elevado dada por el TCL

(51)

Estructura probabilística de la inferencia 1. Estimación

2. Contrastación

3. Intervalos de confianza

Un intervalo de confianza del 95% para µY es un intervalo que contiene el valor verdadero de µ_Y en un 95% de muestras repetidas.

(¿Qué es lo aleatorio aquí? El intervalo de confianza que diferirá de una muestra a otra; el parámetro poblacional,

(52)

Un intervalo de confianza del 95% puede construirse siempre como el conjunto de valores de µ_Y no rechazados por un

contraste de hipótesis con un nivel de significación del 5%.

{µ_Y: / Y Y Y s n µ − _£ 1.96} = {µ_Y: –1.96 £ / Y Y Y s n µ − _£ 1.96} = {µ_Y: –1.96 sY n £ Y – µY £ 1.96 Y s n } = {µY Î (Y – 1.96 sY n , Y + 1.96 Y s n )}

Este intervalo de confianza se basa en los dos siguientes

resultados para n elevado: Y se distribuye aproximadamente normal, y 2

Y

s →p 2

Y

(53)

Resumen:

A partir de los supuestos de:

(1) Muestreo aleatorio simple de una población, esto es, {Y_i, i =1,…,n} son i.i.d.

(2) 0 < E(Y4) < ¥

desarrollamos, para grandes muestras (n elevado):

• Una teoría de la estimación (distribución muestral de Y )

• Una teoría de la contrastación de hipótesis (distribución para n elevado del estadístico t y cálculo del p-valor)

• Una teoría de los intervalos de confianza (construida invirtiendo el contraste estadístico)

(54)

Pregunta inicial de política educativa:

¿Qué efecto tiene sobre las notas la reducción en la ratio estudiantes por profesor de un estudiante por clase?

¿Hemos respondido a esta pregunta?

• Examinamos ∆ = la diferencia de medias, clases pequeñas vs. grandes

• Pero ∆ no responde realmente a la pregunta mencionada.

• En su lugar, el objetivo de interés es Nota

STR ∆

∆

• Pero esta es la pendiente de la recta que relaciona la nota y la ratio estudiantes por profesor