Introducción al Modelo de Regresión Lineal

(1)

Introducción al Modelo de

Regresión Lineal

(2)

Repaso de Clase Anterior

1.  Inferencias Estadís<cas: de la parte al todo. 2.  El error es inevitable, se estudia por medio de probabilidades. 3.  El mundo es complejo: no hay leyes como en Gsica-> realidad estocás<ca. 4.  El modelamiento estadís<co es un ejercicio de simpliﬁcación: extraer lo importante por medio de la abstracción.

(3)

Tengo datos sobre el Gasto en educación y la Riqueza en los dis<ntos estados de EEUU para 1970 •  educa<on income young urban •  ME 189 2824 350.7 508 •  NH 169 3259 345.9 564 •  VT 230 3072 348.5 322 •  MA 168 3835 335.3 846 •  RI 180 3549 327.1 871 •  CT 193 4256 341.0 774 •  ... •  ... •  CO 192 3340 358.1 785 •  NM 227 2651 421.5 698 •  AZ 207 3027 387.5 796 •  UT 201 2790 412.4 804 •  NV 225 3957 385.1 809 •  WA 215 3688 341.3 726 •  OR 233 3317 332.7 671 •  CA 273 3968 348.4 909 •  AK 372 4146 439.7 484 •  HI 212 3513 382.9 831 •  _{¿Cómo puedo} describir sinté&camente el gasto en educación? ¿y el nivel de ingreso? •  _{¿Cómo puedo} describir la relación entre ambas?

(4)

> mean(Anscombe$educa<on) [1] 196.3137 > var(Anscombe$educa<on) [1] 2158.02 > sd(Anscombe$educa<on) [1] 46.45449 > mean(Anscombe$income) [1] 3225.294 > var(Anscombe$educa<on) [1] 2158.02 > sd(Anscombe$educa<on) [1] 46.45449

(5)

2000 2500 3000 3500 4000 4500 0 100 200 300 400 500

Gráfico 1: Relación entre Ingreso y Gasto Educacional en EEUU, 1970

Anscombe, 1973 Ingreso per Cápita

G ast o en Ed uca ci ón Pú bl ica

(6)

> cov(Anscombe$educa<on,Anscombe$income) [1] 17367.51 > cor(Anscombe$educa<on,Anscombe$income) [1] 0.6675773 > cor.test(Anscombe$educa<on,Anscombe$income) Pearson's product-moment correla<on data: Anscombe$educa<on and Anscombe$income t = 6.2764, df = 49, p-value = 8.762e-08 alterna<ve hypothesis: true correla<on is not equal to 0 95 percent conﬁdence interval: 0.4803688 0.7966066 sample es<mates: cor 0.6675773

(7)

¿Podemos ir más allá?

•  Esta descripción es demasiado general ¿cómo procedemos si queremos conocer con mayor detalle la relación entre ambos? •  RESPUESTA: el modelamiento estadís<co! –  _{La media es un representante de los datos (muestro un nº} en vez de 50). Se pierde detalle de la información, pero se adquiere una idea clara sobre su tendencia central. –  Si asumimos que la relación entre ambos fenómenos es lineal, podríamos usar una recta para representar la relación entre ambos. –  _{¿Por qué lineal? Sencillez (simpliﬁcación teórica,} matemá<ca y analí<ca (cambios no dependen de valor inicial.)

(8)

2000 2500 3000 3500 4000 4500 0 100 200 300 400 500

Gráfico 1: Relación entre Ingreso y Gasto Educacional en EEUU, 1970

Anscombe, 1973 Ingreso per Cápita

G ast o en Ed uca ci ón Pú bl ica

(9)

Regresión Lineal

•  _{La regresión es una técnica estadís<ca para} construir, empíricamente, una representación o modelo simpliﬁcador de los fenómenos estudiados. •  _{Es un resumen: analizar la realidad asumiendo} que la relación entre los fenómenos puede acotarse a una recta.

(10)

Tres Visiones sobre las Técnicas de Regresión

•  _{Wooldridge concibe la regresión como una} técnica que permite aproximar el nivel de control que se <ene en un experimento pero u<lizando datos observacionales. •  _{Ancla la visión de causalidad en la noción de} ceteris paribus.

(11)

•  _{U<liza un enfoque de ecuación de modelo} estructural. En este caso Y=X’β+ε •  _{Y es una variable dependiente, X un vector de} variables independientes, β es un vector de parámetros de pendiente tal que x’β es el valor esperado de Y dado que se interviene y ﬁjan los valores de X a x. Por úl<mo, ε es un término de error que representa todas las otras causas de Y, de modo de dar cuenta de la diferencia entre X’β y los valores observados de Y (Chen y Pearl, 2013).

(12)

Gelman y Hill, 2007 (pg. 33)

•  “La regresión lineal es un método que resume como los valores promedios de una variable numérica de resultado varía entre subgrupos deﬁnidos por una función lineal de los predictores”. •  Es una comparación de (variables de) resultados promedio. •  Se puede usar para predecir una variable de resultado dada una función lineal de dichos predictores, y los coeﬁcientes pueden entenderse como comparaciones entre valores predichos o entre promedios en los datos.

(13)

Berk, 2010

•  _{La regresión <ene múl<ples usos: descrip<vo,} inferencial y causal. •  _{Su aplicación concreta depende del} cumplimiento de una mul<plicidad de supuestos.

(14)

(15)

Es<mación Estadís<ca

•  El parámetro poblacional es un número fijo. Refleja una carácterís<ca específica. Sin embargo, su valor es desconocida. •  El es<mador es una función que genera una es<mación. Para es<mar se aprovechan las propiedades de las variables aleatorias. •  El obje<vo es es<mar parámetros poblacionales, los cuales en general no son observables con un grado total de certeza. El procedimiento que se sigue es “generar una conjetura razonable” en base a un conjunto finito de observaciones (muestra).

(16)

(17)

¿Cómo controlar el error?

•  No nos importan las desviaciones individuales, sino que el agregado. •  Sin embargo, más que intentar minimizar la suma del error, lo que intentamos minimizar es la suma del error cuadrático, es decir: •  Esto se debe a que aún teniendo errores individuales grandes, la suma puede ser pequeña si los valores grandes positivos se suman con los valores grandes negativos y se cancelan. Es por esto que trabajamos con errores cuadráticos, y llamamos a nuestros estimadores estimadores de mínimos cuadráticos.

(18)

Mínimos Cuadrados Ordinarios

•  _{Es una técnica de es<mación: genera un} es<mador para el efecto de ciertas variables independientes sobre la variable dependiente estudiada. •  _{En el estudio de modelos lineales, es por lejos,} el método más u<lizado.

(19)

Ventajas de los Modelos de Regresión

•  El análisis de regresión permite imputar direccionalidad. Pero no olviden que no es nada más que un método para resumir como varían los valores esperados de una variable numérica entre dis<ntos subgrupos de la población deﬁnidos por medio de funciones lineales de los predictores. •  Permite aislar las relaciones bivariadas (controlando por terceros factores). •  Es una herramienta bastante ﬂexible.

(20)

(21)

(22)

Es<mación

library(car) library(memisc) summary(Anscombe) modelo1<-lm(education~1+income,data=Anscombe) mtable(modelo1,summary.stats=c("R-squared","adj. R-squared", "sigma","F","p","N")) ========================== Constante 17.710 (28.874) Ingreso 0.055*** (0.009) --- R² 0.446 R² Ajustado 0.434 Error Est. R. 34.938 Estadístico F 39.393 Valor p 0.000 Número Obs. 51 ==========================

(23)

(24)

(25)

Interpretación

•  _{Las interpretaciones deben ser completas y} sustan&vas. Los elementos básicos que debe incluir: 1. Magnitud 2. Dirección 3. Signiﬁcancia (estudiaremos más adelante) 4. Condición de ceteris paribus

(26)

(27)

(28)

Para obtener efectos debemos calcular la derivada respecto a la variable en estudio

(29)

(30)

(31)

Por lo tanto….

•  En promedio, los estados cuyo ingreso per cápita es de 0 dólares <enen un gasto en educación pública de 17710 dólares per cápita. Esto no <ene sen<do sustan<vo. •  En promedio, un incremento de un dólar en el ingreso per cápita de un estado va asociado a un aumento de 0.055 dólares (6 centavos) en el gasto en educación per cápita, manteniendo todo lo demás constante. Esto sin importar el valor inicial que tome el ingreso per cápita.

(32)

(33)

Cambio de la unidad de medición

•  _{Por regla si se modifica la unidad de medida} de la variable de resultado, cambia el intercepto y el coeficiente de la variable explica<va (transformación lineal). •  _{Si se modifica la unidad de medición de la} variable explica<va, cambia el coeficiente de la variable explica<va.

(34)

anscombe<-Anscombe anscombe$education1<-anscombe$education/1000 anscombe$income1<-anscombe$income/10000 modelo2<-lm(education1~1+income, data=anscombe) modelo3<-lm(education1~1+income1,data=anscombe) modelo4<-lm(education1~1+income1,data=anscombe) mtable(modelo2,modelo3,modelo4,summary.stats=c("R-squared","adj. R-squared", "sigma","F","p","N")) =========================================================== modelo1 modelo2 modelo3 modelo4 --- (Intercept) 17.710 0.018 17.710 0.018 (28.874) (0.029) (28.874) (0.029) income 0.055*** 0.000*** (0.009) (0.000) income1 553.759*** 0.554*** (88.229) (0.088) --- R-squared 0.446 0.446 0.446 0.446 adj. R-squared 0.434 0.434 0.434 0.434 sigma 34.938 0.035 34.938 0.035 F 39.393 39.393 39.393 39.393 p 0.000 0.000 0.000 0.000 N 51 51 51 51 ===========================================================

(35)

Transformación Logarítmica

•  Existen ciertos casos que las relaciones entre variables no sigue un patrón lineal. A su vez, puede ser poco realista asumir un cambio lineal. Una alterna<va es aproximar mediante un cambio porcentual constante. •  Para esto se modiﬁca la variable, aplicándole el logaritmo natural. •  Si cambia la variable independiente, cambia… •  Si cambia la variable dependiente, cambia…

(36)

modelo5<-lm(education~log(income),data=Anscombe) modelo6<-lm(log(education)~income,data=Anscombe) modelo7<-lm(log(education)~log(income),data=Anscombe) mtable(modelo5,modelo6,modelo7,summary.stats=c("squared","adj. R-squared", "sigma","F","p","N")) =========================================================

modelo1 modelo5 modelo6 modelo7 --- (Intercept) 17.710 -1228.433*** 4.335*** -2.162* (28.874) (224.879) (0.138) (1.062) income 0.055*** 0.000*** (0.009) (0.000) log(income) 176.686*** 0.920*** (27.881) (0.132) --- R-squared 0.446 0.450 0.482 0.499 adj. R-squared 0.434 0.439 0.471 0.489 sigma 34.938 34.788 0.167 0.164 F 39.393 40.159 45.595 48.769 p 0.000 0.000 0.000 0.000 N 51 51 51 51 ===================================================================

*NO RECOMENDABLE PRESENTAR TRES MODELOS TAN DISTINTOS JUNTOS. * 0.0002848287

(37)

Aproximación Porcentual

Modelo Variable de Resultado Variable Explica&va Nivel-Nivel y x Nivel-Log y log(x) Log-Nivel log(y) x

Log-Log log(y) log(x)

•  Sólo resulta recomendable cuando la magnitud es pequeña. La aproximación pierde poder al aumentar su valor.

(38)

(39)

Interpretación Exacta

Modelo Variable de

Resultado Explica&va Variable

Nivel-Nivel y x

Nivel-Log y log(x)

Log-Nivel log(y) x

(40)

Recordatorio

•  _{log(income)=1.76686 = 1.77} •  _{income=0.02848287 = 0.03}