Modelos de regresión

(1)

Modelos de regresi´

on

Aprendizaje autom´atico

Alejandra Mart´ınez

(2)

Introducci´

on

Unmodelo de regresi´ones un modelo que permite describir c´omo influye una variableX sobre otra variableY.

X: variable explicativa, independiente o covariable. Y: variable dependiente o respuesta.

El objetivo es obtener estimaciones razonables deY para distintos valores deX a partir de una muestra den pares:

(3)

Tipos de relaci´

on

?Determin´ıstica: Conocido el valor deX, el valor de Y queda perfectamente establecido. Es decir,

Y =f(X)

Ejemplo: La relaci´on existente entre la temperatura en grados cent´ıgrados (X) y grados Fahrenheit (Y) es:

(4)

?No determin´ıstica: Conocido el valor de X, el valor de Y no queda perfectamente establecido. Son del tipo:

Y =f(X) +ε

dondeεes un error desconocido (variable aleatoria).

Ejemplo: En una planta a vapor, en 25 meses, se observ´o el promedio mensual de temperatura atmosf´erica (en Farenheit) (X) y la cantidad de vapor consumido (en libras) (Y).

(5)

Regresi´

on lineal simple

Consiste en describir la relaci´on entre las dos variables mediante una recta.

?Determin´ıstica: Con dos puntos me queda determinada la recta...

(6)

?No determin´ıstica: Volviendo el ejemplo de la planta a vapor: la funci´on que proponemos para modelar la relaci´on es

f(x) =a+bx pero, en este caso, a yb son constantes desconocidas (tambi´en llamadospar´ametros).

Problema: Ajustar la recta que represente al conjunto de datos de la mejor manera

(7)

Paraa(ordenada al origen o intercept) y b (pendiente o slope) fijos, se llama:

b

yi =a+bxi: valores ajustados o predichos,

ei =yi−byi: residuos.

Objetivo: Hallar los mejores coeficientesa yb que representan la relaci´on lineal entre las variables.

(8)

Un vez hallada la recta, es decir, hallados ˆay ˆb, tenemos que los valores ajustadosen cada punto son:

b

(9)

Un vez hallada la recta, es decir, hallados ˆay ˆb, tenemos que los valores ajustadosen cada punto son:

b

(10)

M´

etodo de m´ınimos cuadrados

Problema: (_ba,bb) = arg min (a,b) n X i=1 e_i2 = arg min (a,b) n X i=1 (yi −byi) 2 = arg min (a,b) n X i=1 (yi −(a+bxi))2

(11)

Gr´aficamente, lo que se resuelve es la minimizaci´on de las distancias entre los valores observados y los valores predichos

(12)

¿C´

omo resolvemos el problema de minimizaci´

on?

arg min (a,b) n X i=1 (yi−(a+bxi))2 = arg min (a,b)F(a,b)

Hallando los puntos cr´ıticos: usando derivadas parciales. Buscamos (a,b) tales que

           n X i=1 2 (yi −(a+bxi)) (−1) = 0 n X i=1 2 (yi −(a+bxi)) (−xi) = 0 Luego b b= Pn i=1(xi−¯x)(yi−¯y) Pn i=1(xi −x)¯ 2 ba= ¯y−bb¯x donde ¯x= (1/n)Pn i=1xi y ¯y = (1/n)Pni=1yi.

Como la funci´on es estrictamente convexa, los puntos hallados son

(13)

Volviendo al ejemplo de la planta a vapor: b y =bf(x) = 13.62−0.08x es decir,ba= 13.62 ybb= −0.08. Si x = 52 entonces la predicci´on obtenida para y es

b

(14)

Volviendo al ejemplo de la planta a vapor: b y =bf(x) = 13.62−0.08x es decir,ba= 13.62 ybb= −0.08. Si x = 52 entonces la predicci´on obtenida para y es

b

(15)

EnR, las estimaciones de los parámetros (entre otra información) se puede obtener con la funciónlm.

(16)

Dado un ajuste, ¿C´omo podemos ver si el ajuste es bueno?

Medida de asociaci´on lineal: coeficiente de correlaci´on lineal r de Pearson r2= Pn i=1(yi −¯y)2−Pni=1(yi −byi) 2 Pn i=1(yi−¯y)2 Se cumple que 0≤r2 ≤1 Significado:

? r2= 1: significa que los puntos est´an exactamente sobre una recta.

? r2 cerca de 1: los puntos est´an cerca de una recta. ? r2 cerca de 0: significa que la recta de m´ınimos

(17)

En el ejemplo de la planta a vapor ten´ıamos que elr2 = 0.7144, que no est´a tan mal.

Observaci´on: ¯y = 9.424.

Inferencia estad´ıstica

Para poder hacer tests e intervalos de confianza es necesario hacer (y validar) ciertos supuestos sobre los erroresεcomo independencia, homoscedasticidad y normalidad.

Significaci´on de los coeficientes:

En el ejemplo nos hab´ıa quedado_ba= 13.62 ybb=−0.08, es decir, la recta ajustada

13.62−0.08x

Una posible duda podr´ıa ser: ¿Son los coeficientes_ba ybbsignificativos? Convengamos que el−0.08 parece “chiquito”...

En Estad´ıstica, lo grande o chico depende de la variabilidad que tengan los datos. Se pueden hacer tests para testear la significaci´on de los coeficientes.

(18)

ElRarroja losp-valoresde los tests de la forma

H0 : a= 0 vs H1 : a6= 0

De manera similar lo hace con todos los coeficientes involucrados en el problema de estimaci´on. (En nuestro caso ser´ıan s´oloayb)

Luego, como los p-valores son muy chicos, podemos suponera6= 0 y

b6= 0. Como adem´as el modelo lineal estaba bastante bien (por elr2), entonces la recta dada por

f(x) = 13.62−0.08x

es buena para modelar la relaci´on entreX eY.

Si por el contrario, hubi´esemos tenido un p-valor alto para la ordenada al origen (por ejemplo, de m´as de 0.20), entonces esto hubiese sugerido probar con el modelo linealf(x) =bx.

(19)

Transformaci´

on de variables

Ejemplo: Datos de las Naciones Unidas de 1998. El producto bruto interno o GDP (X) y la tasa de mortalidad infantil cada 1000 nacimientos (Y), sobre 193 pa´ıses.

(20)

Transformaci´

on de variables

Primero probamos transformando la covariable. Usamos elln.

(21)

Transformaci´

on de variables

Ahora transformamos la variable respuesta usando elln. Como ahora el ajuste lineal parece razonable, ajustamos una recta.

(22)

Transformaci´

on de variables

Como ahora el ajuste lineal parece razonable, ajustamos una recta usandom´ınimos cuadrados.

Luego, _\

(23)

Transformaci´

on de variables

Y por lo tanto el modelo estimado queda b

Y =bf(X) =eba+ b

(24)

Regresi´

on lineal m´

ultiple

Y =a+b1X1+b2+· · ·+bpXp+ε

Ejemplo: En un estudio se tomaron 14 muestras de cementos. Las variables explicativas son los pesos (medidos en porcentajes) de 5 componentes del cemento y la variable que se quiere modelar es el calor generado en el fraguado (Y).

(25)

Si hacemos un ajuste lineal con todas las variables

Si bien el coeficiente de correlaciónr2 es muy grande y por lo tanto la información dada por las covariables para el ajuste es mejor que no hacer uso de dicha información, ningunavariable es estad´ısticamente significativa.

(26)

Mediante t´ecnicas de selecci´on de variables, se puede ver que el mejor modelo es

(27)

Obviamente, los modelos lineales no siempre resuelven todos los problemas de relación entre dos variables y, aún en el caso en los que s´ı pueden modelar la relación, no siempre los estimadores obtenidos mediante m´ınimos cuadrados son “buenos”. Ejemplo: Recta estimada mediante elmétodo de m´ınimos cuadrados:

(28)

Regresi´

on lineal robusta

Ejemplo: En el cl´uster de estrellas CYG OB1 hay 47 estrellas. Se quiere modelar el logaritmo de la intensidad de la luz (Y) en funci´on del logaritmo de la temperatura en la superficie (X).

(29)

Regresi´

on lineal robusta

(30)

El estimador de m´ınimos cuadrados consiste en resolver el problema (ba,bb) = arg min (a,b) n X i=1 e_i2 dondeei =yi −(a+bxi)

Una alternativa m´as resistente consiste en darle menos peso a residuos grandes.

Least Median of Squares (LMS) (ba,bb) = arg min (a,b)Med e_i2 M–estimadores de regresi´on (_ba,bb) = arg min (a,b) n X i=1 ρei b σ

ρ se llamaρ–funci´on. b

σ es un estimador del desv´ıo de los datos.

(31)

En general, para que sea poco sensible a datos at´ıpicos, se le pide aρ que tenga derivada acotada. Por ejemplo,

? Laρ–funci´on de Huber: ρc(x) = x2 si |x| ≤c 2c|x| −c2 si |x|>c Se suele tomarc = 1.345.

? Laρ–funci´on de Tukey o funci´on bicuadrada:

ρ0_c(x) = ( cte x1− x c 22 si|x| ≤c 0 si|x|>c Se suele tomarc = 4.685.

? ρ(x) =|x|=⇒ Estimador L1 o estimador de m´ınimas

(32)

ρ

–funciones

ρ(x) =x2 ρ(x) =|x|

(33)

Computacionalmente

Least Median of Squares (LMS)=⇒ Queda como tarea. M–estimadores de regresi´onSupongamos que ρ0= Ψ. Como queremos resolver arg min (a,b) n X i=1 ρ yi −(a+bxi) b σ = arg min (a,b)G(a,b)

Utilizaremos nuevamente las derivadas parciales.    Pn i=1Ψ _y i−(a+bxi) b σ −1 b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ −xi b σ = 0 O bien _   Pn i=1Ψ _y i−(a+bxi) b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ xi = 0

(34)

   Pn i=1Ψ _y i−(a+bxi) b σ yi−(a+bxi) b σ −1_y i−(a+bxi) b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ yi−(a+bxi) b σ −1 yi−(a+bxi) b σ xi = 0 Entonces, si definimosW(t) = Ψ(t)/t sit 6= 0 y Ψ0_{(0) si}_t_{= 0 y} wi =W(ei/σb) entonces Pn i=1wi(yi−(a+bxi)) =Pni=1wiei = 0 Pn i=1wi(yi−(a+bxi)xi =Pni=1wieixi = 0

Por ´ultimo, si llamamos xi = (1,xi)t yβ = (a,b)t entonces el

problema anterior se reduce a buscarβ tal que

n

X

i=1

wixi(yi−xtiβ) =0

Observemos que se resuelve iterativamente dado quewi =wi,β.

Este procedimiento se llamaM´ınimos cuadrados pesados iterados (Iteratively reweighted least squares o IRWLS).

(35)

Utilicemos ahora elestimador LMS para ajustar una recta al ejemplo.

(36)

Usemos ahora la informaci´on obtenida por el estimador robusto para detectar los datos at´ıpicos.

(37)

Las observaciones detectadas por el boxplot como datos at´ıpicos son:

(38)

Las observaciones detectadas por el boxplot como datos at´ıpicos son:

(39)

Si ahora sacamos las 5 observaciones at´ıpicas detectadas y volvemos a usarm´ınimos cuadrados

(40)

Si hubi´esemos querido usar el boxplot de los residuos obtenidos por m´ınimos cuadrados:

(41)

Regresi´

on log´ıstica

En algunas ocasiones, la variable respuesta no es una variable continua sino que se sabe que tiene una distribuci´on discreta como puede ser una Poisson o una Binomial.

Supongamos que dadoX =x,Y tiene una distribuci´on Bernoulli de par´ametrop =p(x) entonces

Y =a+bX +ε

ya no pareciera tener mucho sentido...

Lo que se modela de manera lineal es la esperanza de la Bernoulli que esp. La funci´on de enlace o funci´on link es

g(p) = ln p 1−p : (0,1)→_R entonces el modelo es g(p) =a+bx

(42)

Ejemplo: Un grupo de 20 alumnos estuvieron entre 0 y 6 horas estudiando para un examen. Nos preguntamos c´omo el n´umero de horas estudiando para un examen afecta la probabilidad del alumno de pasar el examen?

(43)

Estimando mediante alg´un procedimiento los par´ametros ayb resulta que

(44)

Como g(p(x)) = ln p(x) 1−p(x) =ba+bbx con_ba=−0.4077 ybb = 1.5046 entonces p(x) = e b a+bbx eba+bbx + 1

(45)

Como g(p(x)) = ln p(x) 1−p(x) =ba+bbx con_ba=−0.4077 ybb = 1.5046 entonces p(x) = e b a+bbx eba+bbx + 1

(46)

De esta manera, seg´un este modelo, si un alumno estudia x= 2.3 horas, entonces, como_ba=−4.0777 ybb = 1.5046 entonces

b p = e b a+bb2.3 eba+bb2.3+ 1 = 0.3504

Por lo tanto, si tuvi´esemos que predecir el resultado del examen (es decir, el resultado deY) dir´ıamos que desaprueba (o sea Y = 0).

(47)

Estimaci´

on de los par´

ametros

La idea es hallar los estimadores de m´axima verosimilitud de ayb. Es decir, hallar

(_ba,bb) = arg max`(a,b)

donde`es el logaritmo de la verosimilitud (densidad o funci´on de probabilidad conjunta). En nuestro caso, `(a,b) = n X i=1 yiln g−1(a+bxi) + (1−yi) ln 1−g−1(a+bxi) dondeg(p) = ln p 1−p .

(48)

Nuevamente, si todas las funciones son suficientemente buenas (en general lo son), (ba,bb) se hallan como los puntos cr´ıticos del

problema:          ∂` ∂a = 0 ∂` ∂b = 0 Que es un problemano lineal.

M´etodos

1. Newton Raphson =⇒ Paran grande seguro converge pero para muestras peque˜nas no necesariamente.

2. Algoritmo de Fisher–Scoring =⇒ Pide segundas derivadas. En cada paso iterativo se realiza un procedimiento de m´ınimos cuadrados pesados usando pseudo-observaciones.

(49)

Bibliograf´ıa

Apunte de regresi´on lineal. Mgs. Mar´ıa Eugenia Szretter Noste.

Robust Statistics: Theory and Methods. R. Maronna, R. Martin y V. Yohai. (2006). Wiley Series in Probability and Statistics.

Generalized Linear Models. Mc. Cullagh y Nelder. (1998). Londres: Chapman and Hall.