• No se han encontrado resultados

Modelos de regresión

N/A
N/A
Protected

Academic year: 2021

Share "Modelos de regresión"

Copied!
49
0
0

Texto completo

(1)

Modelos de regresi´

on

Aprendizaje autom´atico

Alejandra Mart´ınez

(2)

Introducci´

on

Unmodelo de regresi´ones un modelo que permite describir c´omo influye una variableX sobre otra variableY.

X: variable explicativa, independiente o covariable. Y: variable dependiente o respuesta.

El objetivo es obtener estimaciones razonables deY para distintos valores deX a partir de una muestra den pares:

(3)

Tipos de relaci´

on

?Determin´ıstica: Conocido el valor deX, el valor de Y queda perfectamente establecido. Es decir,

Y =f(X)

Ejemplo: La relaci´on existente entre la temperatura en grados cent´ıgrados (X) y grados Fahrenheit (Y) es:

(4)

?No determin´ıstica: Conocido el valor de X, el valor de Y no queda perfectamente establecido. Son del tipo:

Y =f(X) +ε

dondeεes un error desconocido (variable aleatoria).

Ejemplo: En una planta a vapor, en 25 meses, se observ´o el promedio mensual de temperatura atmosf´erica (en Farenheit) (X) y la cantidad de vapor consumido (en libras) (Y).

(5)

Regresi´

on lineal simple

Consiste en describir la relaci´on entre las dos variables mediante una recta.

?Determin´ıstica: Con dos puntos me queda determinada la recta...

(6)

?No determin´ıstica: Volviendo el ejemplo de la planta a vapor: la funci´on que proponemos para modelar la relaci´on es

f(x) =a+bx pero, en este caso, a yb son constantes desconocidas (tambi´en llamadospar´ametros).

Problema: Ajustar la recta que represente al conjunto de datos de la mejor manera

(7)

Paraa(ordenada al origen o intercept) y b (pendiente o slope) fijos, se llama:

b

yi =a+bxi: valores ajustados o predichos,

ei =yi−byi: residuos.

Objetivo: Hallar los mejores coeficientesa yb que representan la relaci´on lineal entre las variables.

(8)

Un vez hallada la recta, es decir, hallados ˆay ˆb, tenemos que los valores ajustadosen cada punto son:

b

(9)

Un vez hallada la recta, es decir, hallados ˆay ˆb, tenemos que los valores ajustadosen cada punto son:

b

(10)

etodo de m´ınimos cuadrados

Problema: (ba,bb) = arg min (a,b) n X i=1 ei2 = arg min (a,b) n X i=1 (yi −byi) 2 = arg min (a,b) n X i=1 (yi −(a+bxi))2

(11)

Gr´aficamente, lo que se resuelve es la minimizaci´on de las distancias entre los valores observados y los valores predichos

(12)

¿C´

omo resolvemos el problema de minimizaci´

on?

arg min (a,b) n X i=1 (yi−(a+bxi))2 = arg min (a,b)F(a,b)

Hallando los puntos cr´ıticos: usando derivadas parciales. Buscamos (a,b) tales que

           n X i=1 2 (yi −(a+bxi)) (−1) = 0 n X i=1 2 (yi −(a+bxi)) (−xi) = 0 Luego b b= Pn i=1(xi−¯x)(yi−¯y) Pn i=1(xi −x)¯ 2 ba= ¯y−bb¯x donde ¯x= (1/n)Pn i=1xi y ¯y = (1/n)Pni=1yi.

Como la funci´on es estrictamente convexa, los puntos hallados son

(13)

Volviendo al ejemplo de la planta a vapor: b y =bf(x) = 13.62−0.08x es decir,ba= 13.62 ybb= −0.08. Si x = 52 entonces la predicci´on obtenida para y es

b

(14)

Volviendo al ejemplo de la planta a vapor: b y =bf(x) = 13.62−0.08x es decir,ba= 13.62 ybb= −0.08. Si x = 52 entonces la predicci´on obtenida para y es

b

(15)

EnR, las estimaciones de los par´ametros (entre otra informaci´on) se puede obtener con la funci´onlm.

(16)

Dado un ajuste, ¿C´omo podemos ver si el ajuste es bueno?

Medida de asociaci´on lineal: coeficiente de correlaci´on lineal r de Pearson r2= Pn i=1(yi −¯y)2−Pni=1(yi −byi) 2 Pn i=1(yi−¯y)2 Se cumple que 0≤r2 ≤1 Significado:

? r2= 1: significa que los puntos est´an exactamente sobre una recta.

? r2 cerca de 1: los puntos est´an cerca de una recta. ? r2 cerca de 0: significa que la recta de m´ınimos

(17)

En el ejemplo de la planta a vapor ten´ıamos que elr2 = 0.7144, que no est´a tan mal.

Observaci´on: ¯y = 9.424.

Inferencia estad´ıstica

Para poder hacer tests e intervalos de confianza es necesario hacer (y validar) ciertos supuestos sobre los erroresεcomo independencia, homoscedasticidad y normalidad.

Significaci´on de los coeficientes:

En el ejemplo nos hab´ıa quedadoba= 13.62 ybb=−0.08, es decir, la recta ajustada

13.62−0.08x

Una posible duda podr´ıa ser: ¿Son los coeficientesba ybbsignificativos? Convengamos que el−0.08 parece “chiquito”...

En Estad´ıstica, lo grande o chico depende de la variabilidad que tengan los datos. Se pueden hacer tests para testear la significaci´on de los coeficientes.

(18)

ElRarroja losp-valoresde los tests de la forma

H0 : a= 0 vs H1 : a6= 0

De manera similar lo hace con todos los coeficientes involucrados en el problema de estimaci´on. (En nuestro caso ser´ıan s´oloayb)

Luego, como los p-valores son muy chicos, podemos suponera6= 0 y

b6= 0. Como adem´as el modelo lineal estaba bastante bien (por elr2), entonces la recta dada por

f(x) = 13.62−0.08x

es buena para modelar la relaci´on entreX eY.

Si por el contrario, hubi´esemos tenido un p-valor alto para la ordenada al origen (por ejemplo, de m´as de 0.20), entonces esto hubiese sugerido probar con el modelo linealf(x) =bx.

(19)

Transformaci´

on de variables

Ejemplo: Datos de las Naciones Unidas de 1998. El producto bruto interno o GDP (X) y la tasa de mortalidad infantil cada 1000 nacimientos (Y), sobre 193 pa´ıses.

(20)

Transformaci´

on de variables

Primero probamos transformando la covariable. Usamos elln.

(21)

Transformaci´

on de variables

Ahora transformamos la variable respuesta usando elln. Como ahora el ajuste lineal parece razonable, ajustamos una recta.

(22)

Transformaci´

on de variables

Como ahora el ajuste lineal parece razonable, ajustamos una recta usandom´ınimos cuadrados.

Luego, \

(23)

Transformaci´

on de variables

Y por lo tanto el modelo estimado queda b

Y =bf(X) =eba+ b

(24)

Regresi´

on lineal m´

ultiple

Y =a+b1X1+b2+· · ·+bpXp+ε

Ejemplo: En un estudio se tomaron 14 muestras de cementos. Las variables explicativas son los pesos (medidos en porcentajes) de 5 componentes del cemento y la variable que se quiere modelar es el calor generado en el fraguado (Y).

(25)

Si hacemos un ajuste lineal con todas las variables

Si bien el coeficiente de correlaci´onr2 es muy grande y por lo tanto la informaci´on dada por las covariables para el ajuste es mejor que no hacer uso de dicha informaci´on, ningunavariable es estad´ısticamente significativa.

(26)

Mediante t´ecnicas de selecci´on de variables, se puede ver que el mejor modelo es

(27)

Obviamente, los modelos lineales no siempre resuelven todos los problemas de relaci´on entre dos variables y, a´un en el caso en los que s´ı pueden modelar la relaci´on, no siempre los estimadores obtenidos mediante m´ınimos cuadrados son “buenos”. Ejemplo: Recta estimada mediante elm´etodo de m´ınimos cuadrados:

(28)

Regresi´

on lineal robusta

Ejemplo: En el cl´uster de estrellas CYG OB1 hay 47 estrellas. Se quiere modelar el logaritmo de la intensidad de la luz (Y) en funci´on del logaritmo de la temperatura en la superficie (X).

(29)

Regresi´

on lineal robusta

(30)

El estimador de m´ınimos cuadrados consiste en resolver el problema (ba,bb) = arg min (a,b) n X i=1 ei2 dondeei =yi −(a+bxi)

Una alternativa m´as resistente consiste en darle menos peso a residuos grandes.

Least Median of Squares (LMS) (ba,bb) = arg min (a,b)Med ei2 M–estimadores de regresi´on (ba,bb) = arg min (a,b) n X i=1 ρei b σ

ρ se llamaρ–funci´on. b

σ es un estimador del desv´ıo de los datos.

(31)

En general, para que sea poco sensible a datos at´ıpicos, se le pide aρ que tenga derivada acotada. Por ejemplo,

? Laρ–funci´on de Huber: ρc(x) = x2 si |x| ≤c 2c|x| −c2 si |x|>c Se suele tomarc = 1.345.

? Laρ–funci´on de Tukey o funci´on bicuadrada:

ρ0c(x) = ( cte x1− x c 22 si|x| ≤c 0 si|x|>c Se suele tomarc = 4.685.

? ρ(x) =|x|=⇒ Estimador L1 o estimador de m´ınimas

(32)

ρ

–funciones

ρ(x) =x2 ρ(x) =|x|

(33)

Computacionalmente

Least Median of Squares (LMS)=⇒ Queda como tarea. M–estimadores de regresi´onSupongamos que ρ0= Ψ. Como queremos resolver arg min (a,b) n X i=1 ρ yi −(a+bxi) b σ = arg min (a,b)G(a,b)

Utilizaremos nuevamente las derivadas parciales.    Pn i=1Ψ y i−(a+bxi) b σ −1 b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ −xi b σ = 0 O bien   Pn i=1Ψ y i−(a+bxi) b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ xi = 0

(34)

   Pn i=1Ψ y i−(a+bxi) b σ yi−(a+bxi) b σ −1y i−(a+bxi) b σ = 0 Pn i=1Ψ yi−(a+bxi) b σ yi−(a+bxi) b σ −1 yi−(a+bxi) b σ xi = 0 Entonces, si definimosW(t) = Ψ(t)/t sit 6= 0 y Ψ0(0) sit= 0 y wi =W(ei/σb) entonces Pn i=1wi(yi−(a+bxi)) =Pni=1wiei = 0 Pn i=1wi(yi−(a+bxi)xi =Pni=1wieixi = 0

Por ´ultimo, si llamamos xi = (1,xi)t yβ = (a,b)t entonces el

problema anterior se reduce a buscarβ tal que

n

X

i=1

wixi(yi−xtiβ) =0

Observemos que se resuelve iterativamente dado quewi =wi,β.

Este procedimiento se llamaM´ınimos cuadrados pesados iterados (Iteratively reweighted least squares o IRWLS).

(35)

Utilicemos ahora elestimador LMS para ajustar una recta al ejemplo.

(36)

Usemos ahora la informaci´on obtenida por el estimador robusto para detectar los datos at´ıpicos.

(37)

Las observaciones detectadas por el boxplot como datos at´ıpicos son:

(38)

Las observaciones detectadas por el boxplot como datos at´ıpicos son:

(39)

Si ahora sacamos las 5 observaciones at´ıpicas detectadas y volvemos a usarm´ınimos cuadrados

(40)

Si hubi´esemos querido usar el boxplot de los residuos obtenidos por m´ınimos cuadrados:

(41)

Regresi´

on log´ıstica

En algunas ocasiones, la variable respuesta no es una variable continua sino que se sabe que tiene una distribuci´on discreta como puede ser una Poisson o una Binomial.

Supongamos que dadoX =x,Y tiene una distribuci´on Bernoulli de par´ametrop =p(x) entonces

Y =a+bX +ε

ya no pareciera tener mucho sentido...

Lo que se modela de manera lineal es la esperanza de la Bernoulli que esp. La funci´on de enlace o funci´on link es

g(p) = ln p 1−p : (0,1)→R entonces el modelo es g(p) =a+bx

(42)

Ejemplo: Un grupo de 20 alumnos estuvieron entre 0 y 6 horas estudiando para un examen. Nos preguntamos c´omo el n´umero de horas estudiando para un examen afecta la probabilidad del alumno de pasar el examen?

(43)

Estimando mediante alg´un procedimiento los par´ametros ayb resulta que

(44)

Como g(p(x)) = ln p(x) 1−p(x) =ba+bbx conba=−0.4077 ybb = 1.5046 entonces p(x) = e b a+bbx eba+bbx + 1

(45)

Como g(p(x)) = ln p(x) 1−p(x) =ba+bbx conba=−0.4077 ybb = 1.5046 entonces p(x) = e b a+bbx eba+bbx + 1

(46)

De esta manera, seg´un este modelo, si un alumno estudia x= 2.3 horas, entonces, comoba=−4.0777 ybb = 1.5046 entonces

b p = e b a+bb2.3 eba+bb2.3+ 1 = 0.3504

Por lo tanto, si tuvi´esemos que predecir el resultado del examen (es decir, el resultado deY) dir´ıamos que desaprueba (o sea Y = 0).

(47)

Estimaci´

on de los par´

ametros

La idea es hallar los estimadores de m´axima verosimilitud de ayb. Es decir, hallar

(ba,bb) = arg max`(a,b)

donde`es el logaritmo de la verosimilitud (densidad o funci´on de probabilidad conjunta). En nuestro caso, `(a,b) = n X i=1 yiln g−1(a+bxi) + (1−yi) ln 1−g−1(a+bxi) dondeg(p) = ln p 1−p .

(48)

Nuevamente, si todas las funciones son suficientemente buenas (en general lo son), (ba,bb) se hallan como los puntos cr´ıticos del

problema:          ∂` ∂a = 0 ∂` ∂b = 0 Que es un problemano lineal.

M´etodos

1. Newton Raphson =⇒ Paran grande seguro converge pero para muestras peque˜nas no necesariamente.

2. Algoritmo de Fisher–Scoring =⇒ Pide segundas derivadas. En cada paso iterativo se realiza un procedimiento de m´ınimos cuadrados pesados usando pseudo-observaciones.

(49)

Bibliograf´ıa

Apunte de regresi´on lineal. Mgs. Mar´ıa Eugenia Szretter Noste.

Robust Statistics: Theory and Methods. R. Maronna, R. Martin y V. Yohai. (2006). Wiley Series in Probability and Statistics.

Generalized Linear Models. Mc. Cullagh y Nelder. (1998). Londres: Chapman and Hall.

Referencias

Documento similar

Tras establecer un programa de trabajo (en el que se fijaban pre- visiones para las reuniones que se pretendían celebrar los posteriores 10 de julio —actual papel de los

En cuarto lugar, se establecen unos medios para la actuación de re- fuerzo de la Cohesión (conducción y coordinación de las políticas eco- nómicas nacionales, políticas y acciones

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación

Advi ´ertase que los resultados obtenidos coinciden con el estimador por m´ınimos cuadrados no lineales, por tanto, al igual que antes, no es posible dar una soluci ´on anal´ıtica

 Si se especifica una relaci ´on funcional err ´onea (por ejemplo, una relaci ´on lineal cuando no lo es), el t ´ermino de perturbaci ´on captar ´a tal efecto provo-

Por su parte, en reglamentos (por ejemplo, con intervenciones altamen- te especializadas en la administración del sector agrario o en la creación de un marco en el que la

En el Modelo Relacional se puede usar el c´ alculo de predicados de primer orden (CPPO) porque una BDR siempre puede verse como una interpretaci´ on (I) de un lenguaje de primer

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados