Modelos de regresi´
on
Aprendizaje autom´atico
Alejandra Mart´ınez
Introducci´
on
Unmodelo de regresi´ones un modelo que permite describir c´omo influye una variableX sobre otra variableY.
X: variable explicativa, independiente o covariable. Y: variable dependiente o respuesta.
El objetivo es obtener estimaciones razonables deY para distintos valores deX a partir de una muestra den pares:
Tipos de relaci´
on
?Determin´ıstica: Conocido el valor deX, el valor de Y queda perfectamente establecido. Es decir,
Y =f(X)
Ejemplo: La relaci´on existente entre la temperatura en grados cent´ıgrados (X) y grados Fahrenheit (Y) es:
?No determin´ıstica: Conocido el valor de X, el valor de Y no queda perfectamente establecido. Son del tipo:
Y =f(X) +ε
dondeεes un error desconocido (variable aleatoria).
Ejemplo: En una planta a vapor, en 25 meses, se observ´o el promedio mensual de temperatura atmosf´erica (en Farenheit) (X) y la cantidad de vapor consumido (en libras) (Y).
Regresi´
on lineal simple
Consiste en describir la relaci´on entre las dos variables mediante una recta.
?Determin´ıstica: Con dos puntos me queda determinada la recta...
?No determin´ıstica: Volviendo el ejemplo de la planta a vapor: la funci´on que proponemos para modelar la relaci´on es
f(x) =a+bx pero, en este caso, a yb son constantes desconocidas (tambi´en llamadospar´ametros).
Problema: Ajustar la recta que represente al conjunto de datos de la mejor manera
Paraa(ordenada al origen o intercept) y b (pendiente o slope) fijos, se llama:
b
yi =a+bxi: valores ajustados o predichos,
ei =yi−byi: residuos.
Objetivo: Hallar los mejores coeficientesa yb que representan la relaci´on lineal entre las variables.
Un vez hallada la recta, es decir, hallados ˆay ˆb, tenemos que los valores ajustadosen cada punto son:
b
Un vez hallada la recta, es decir, hallados ˆay ˆb, tenemos que los valores ajustadosen cada punto son:
b
M´
etodo de m´ınimos cuadrados
Problema: (ba,bb) = arg min (a,b) n X i=1 ei2 = arg min (a,b) n X i=1 (yi −byi) 2 = arg min (a,b) n X i=1 (yi −(a+bxi))2Gr´aficamente, lo que se resuelve es la minimizaci´on de las distancias entre los valores observados y los valores predichos
¿C´
omo resolvemos el problema de minimizaci´
on?
arg min (a,b) n X i=1 (yi−(a+bxi))2 = arg min (a,b)F(a,b)Hallando los puntos cr´ıticos: usando derivadas parciales. Buscamos (a,b) tales que
n X i=1 2 (yi −(a+bxi)) (−1) = 0 n X i=1 2 (yi −(a+bxi)) (−xi) = 0 Luego b b= Pn i=1(xi−¯x)(yi−¯y) Pn i=1(xi −x)¯ 2 ba= ¯y−bb¯x donde ¯x= (1/n)Pn i=1xi y ¯y = (1/n)Pni=1yi.
Como la funci´on es estrictamente convexa, los puntos hallados son
Volviendo al ejemplo de la planta a vapor: b y =bf(x) = 13.62−0.08x es decir,ba= 13.62 ybb= −0.08. Si x = 52 entonces la predicci´on obtenida para y es
b
Volviendo al ejemplo de la planta a vapor: b y =bf(x) = 13.62−0.08x es decir,ba= 13.62 ybb= −0.08. Si x = 52 entonces la predicci´on obtenida para y es
b
EnR, las estimaciones de los par´ametros (entre otra informaci´on) se puede obtener con la funci´onlm.
Dado un ajuste, ¿C´omo podemos ver si el ajuste es bueno?
Medida de asociaci´on lineal: coeficiente de correlaci´on lineal r de Pearson r2= Pn i=1(yi −¯y)2−Pni=1(yi −byi) 2 Pn i=1(yi−¯y)2 Se cumple que 0≤r2 ≤1 Significado:
? r2= 1: significa que los puntos est´an exactamente sobre una recta.
? r2 cerca de 1: los puntos est´an cerca de una recta. ? r2 cerca de 0: significa que la recta de m´ınimos
En el ejemplo de la planta a vapor ten´ıamos que elr2 = 0.7144, que no est´a tan mal.
Observaci´on: ¯y = 9.424.
Inferencia estad´ıstica
Para poder hacer tests e intervalos de confianza es necesario hacer (y validar) ciertos supuestos sobre los erroresεcomo independencia, homoscedasticidad y normalidad.
Significaci´on de los coeficientes:
En el ejemplo nos hab´ıa quedadoba= 13.62 ybb=−0.08, es decir, la recta ajustada
13.62−0.08x
Una posible duda podr´ıa ser: ¿Son los coeficientesba ybbsignificativos? Convengamos que el−0.08 parece “chiquito”...
En Estad´ıstica, lo grande o chico depende de la variabilidad que tengan los datos. Se pueden hacer tests para testear la significaci´on de los coeficientes.
ElRarroja losp-valoresde los tests de la forma
H0 : a= 0 vs H1 : a6= 0
De manera similar lo hace con todos los coeficientes involucrados en el problema de estimaci´on. (En nuestro caso ser´ıan s´oloayb)
Luego, como los p-valores son muy chicos, podemos suponera6= 0 y
b6= 0. Como adem´as el modelo lineal estaba bastante bien (por elr2), entonces la recta dada por
f(x) = 13.62−0.08x
es buena para modelar la relaci´on entreX eY.
Si por el contrario, hubi´esemos tenido un p-valor alto para la ordenada al origen (por ejemplo, de m´as de 0.20), entonces esto hubiese sugerido probar con el modelo linealf(x) =bx.
Transformaci´
on de variables
Ejemplo: Datos de las Naciones Unidas de 1998. El producto bruto interno o GDP (X) y la tasa de mortalidad infantil cada 1000 nacimientos (Y), sobre 193 pa´ıses.
Transformaci´
on de variables
Primero probamos transformando la covariable. Usamos elln.
Transformaci´
on de variables
Ahora transformamos la variable respuesta usando elln. Como ahora el ajuste lineal parece razonable, ajustamos una recta.
Transformaci´
on de variables
Como ahora el ajuste lineal parece razonable, ajustamos una recta usandom´ınimos cuadrados.
Luego, \
Transformaci´
on de variables
Y por lo tanto el modelo estimado queda b
Y =bf(X) =eba+ b
Regresi´
on lineal m´
ultiple
Y =a+b1X1+b2+· · ·+bpXp+ε
Ejemplo: En un estudio se tomaron 14 muestras de cementos. Las variables explicativas son los pesos (medidos en porcentajes) de 5 componentes del cemento y la variable que se quiere modelar es el calor generado en el fraguado (Y).
Si hacemos un ajuste lineal con todas las variables
Si bien el coeficiente de correlaci´onr2 es muy grande y por lo tanto la informaci´on dada por las covariables para el ajuste es mejor que no hacer uso de dicha informaci´on, ningunavariable es estad´ısticamente significativa.
Mediante t´ecnicas de selecci´on de variables, se puede ver que el mejor modelo es
Obviamente, los modelos lineales no siempre resuelven todos los problemas de relaci´on entre dos variables y, a´un en el caso en los que s´ı pueden modelar la relaci´on, no siempre los estimadores obtenidos mediante m´ınimos cuadrados son “buenos”. Ejemplo: Recta estimada mediante elm´etodo de m´ınimos cuadrados:
Regresi´
on lineal robusta
Ejemplo: En el cl´uster de estrellas CYG OB1 hay 47 estrellas. Se quiere modelar el logaritmo de la intensidad de la luz (Y) en funci´on del logaritmo de la temperatura en la superficie (X).
Regresi´
on lineal robusta
El estimador de m´ınimos cuadrados consiste en resolver el problema (ba,bb) = arg min (a,b) n X i=1 ei2 dondeei =yi −(a+bxi)
Una alternativa m´as resistente consiste en darle menos peso a residuos grandes.
Least Median of Squares (LMS) (ba,bb) = arg min (a,b)Med ei2 M–estimadores de regresi´on (ba,bb) = arg min (a,b) n X i=1 ρei b σ
ρ se llamaρ–funci´on. b
σ es un estimador del desv´ıo de los datos.
En general, para que sea poco sensible a datos at´ıpicos, se le pide aρ que tenga derivada acotada. Por ejemplo,
? Laρ–funci´on de Huber: ρc(x) = x2 si |x| ≤c 2c|x| −c2 si |x|>c Se suele tomarc = 1.345.
? Laρ–funci´on de Tukey o funci´on bicuadrada:
ρ0c(x) = ( cte x1− x c 22 si|x| ≤c 0 si|x|>c Se suele tomarc = 4.685.
? ρ(x) =|x|=⇒ Estimador L1 o estimador de m´ınimas
ρ
–funciones
ρ(x) =x2 ρ(x) =|x|
Computacionalmente
Least Median of Squares (LMS)=⇒ Queda como tarea. M–estimadores de regresi´onSupongamos que ρ0= Ψ. Como queremos resolver arg min (a,b) n X i=1 ρ yi −(a+bxi) b σ = arg min (a,b)G(a,b)
Utilizaremos nuevamente las derivadas parciales. Pn i=1Ψ y i−(a+bxi) b σ −1 b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ −xi b σ = 0 O bien Pn i=1Ψ y i−(a+bxi) b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ xi = 0
Pn i=1Ψ y i−(a+bxi) b σ yi−(a+bxi) b σ −1y i−(a+bxi) b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ yi−(a+bxi) b σ −1 yi−(a+bxi) b σ xi = 0 Entonces, si definimosW(t) = Ψ(t)/t sit 6= 0 y Ψ0(0) sit= 0 y wi =W(ei/σb) entonces Pn i=1wi(yi−(a+bxi)) =Pni=1wiei = 0 Pn i=1wi(yi−(a+bxi)xi =Pni=1wieixi = 0
Por ´ultimo, si llamamos xi = (1,xi)t yβ = (a,b)t entonces el
problema anterior se reduce a buscarβ tal que
n
X
i=1
wixi(yi−xtiβ) =0
Observemos que se resuelve iterativamente dado quewi =wi,β.
Este procedimiento se llamaM´ınimos cuadrados pesados iterados (Iteratively reweighted least squares o IRWLS).
Utilicemos ahora elestimador LMS para ajustar una recta al ejemplo.
Usemos ahora la informaci´on obtenida por el estimador robusto para detectar los datos at´ıpicos.
Las observaciones detectadas por el boxplot como datos at´ıpicos son:
Las observaciones detectadas por el boxplot como datos at´ıpicos son:
Si ahora sacamos las 5 observaciones at´ıpicas detectadas y volvemos a usarm´ınimos cuadrados
Si hubi´esemos querido usar el boxplot de los residuos obtenidos por m´ınimos cuadrados:
Regresi´
on log´ıstica
En algunas ocasiones, la variable respuesta no es una variable continua sino que se sabe que tiene una distribuci´on discreta como puede ser una Poisson o una Binomial.
Supongamos que dadoX =x,Y tiene una distribuci´on Bernoulli de par´ametrop =p(x) entonces
Y =a+bX +ε
ya no pareciera tener mucho sentido...
Lo que se modela de manera lineal es la esperanza de la Bernoulli que esp. La funci´on de enlace o funci´on link es
g(p) = ln p 1−p : (0,1)→R entonces el modelo es g(p) =a+bx
Ejemplo: Un grupo de 20 alumnos estuvieron entre 0 y 6 horas estudiando para un examen. Nos preguntamos c´omo el n´umero de horas estudiando para un examen afecta la probabilidad del alumno de pasar el examen?
Estimando mediante alg´un procedimiento los par´ametros ayb resulta que
Como g(p(x)) = ln p(x) 1−p(x) =ba+bbx conba=−0.4077 ybb = 1.5046 entonces p(x) = e b a+bbx eba+bbx + 1
Como g(p(x)) = ln p(x) 1−p(x) =ba+bbx conba=−0.4077 ybb = 1.5046 entonces p(x) = e b a+bbx eba+bbx + 1
De esta manera, seg´un este modelo, si un alumno estudia x= 2.3 horas, entonces, comoba=−4.0777 ybb = 1.5046 entonces
b p = e b a+bb2.3 eba+bb2.3+ 1 = 0.3504
Por lo tanto, si tuvi´esemos que predecir el resultado del examen (es decir, el resultado deY) dir´ıamos que desaprueba (o sea Y = 0).
Estimaci´
on de los par´
ametros
La idea es hallar los estimadores de m´axima verosimilitud de ayb. Es decir, hallar
(ba,bb) = arg max`(a,b)
donde`es el logaritmo de la verosimilitud (densidad o funci´on de probabilidad conjunta). En nuestro caso, `(a,b) = n X i=1 yiln g−1(a+bxi) + (1−yi) ln 1−g−1(a+bxi) dondeg(p) = ln p 1−p .
Nuevamente, si todas las funciones son suficientemente buenas (en general lo son), (ba,bb) se hallan como los puntos cr´ıticos del
problema: ∂` ∂a = 0 ∂` ∂b = 0 Que es un problemano lineal.
M´etodos
1. Newton Raphson =⇒ Paran grande seguro converge pero para muestras peque˜nas no necesariamente.
2. Algoritmo de Fisher–Scoring =⇒ Pide segundas derivadas. En cada paso iterativo se realiza un procedimiento de m´ınimos cuadrados pesados usando pseudo-observaciones.
Bibliograf´ıa
Apunte de regresi´on lineal. Mgs. Mar´ıa Eugenia Szretter Noste.
Robust Statistics: Theory and Methods. R. Maronna, R. Martin y V. Yohai. (2006). Wiley Series in Probability and Statistics.
Generalized Linear Models. Mc. Cullagh y Nelder. (1998). Londres: Chapman and Hall.