Estadística Inferencial, Aprendizaje de Máquina, y BIG DATA

(1)

Estad´ıstica Inferencial,

Aprendizaje de M ´aquina, y BIG DATA

20 a ˜nos de Ingenier´ıa en Estad´ıstica

Andr ´es G. Abad, Ph.D.

ESCUELA SUPERIOR POLIT ´ECNICA DEL LITORAL

(2)

Agenda

Estad´ıstica Inferencial Introducci ón Tres Revoluciones Aprendizaje de M áquina Introducci ón

Formalizaci ´on del Problema de Aprendizaje Temas Centrales al Aprendizaje de M ´aquina BIG DATA

Introducci ´on

Paradigma MapReduce BIG DATA en R

(3)

Agenda

Introducci ´on

Conclusiones

(4)

Introducci ´on a la Estad´ıstica Inferencial Param ´etrica I

Axiomas

Conclusi´on

Datos observados

Posibles hip´otesis

Razonamiento Deductivo

Razonamiento Inductivo

Def. Estad´ıstica Inferencial

Es una rama de la estad´ıstica que por medio de la inducci ´on

(5)

Introducci ´on a la Estad´ıstica Inferencial Param ´etrica II

Conocimiento incierto + Cuantificaci ´on de incertidumbre = Conocimiento ´util

Necesariamente para esto utilizamos el Teorema de Bayes

P(h|D) = P(D|h)P(h)

P(D)

I h: hip ´otesis

I D: observaciones Figure: Rev. Thomas

(6)

Tres Revoluciones en Estad´ıstica Inferencial I

I Primera Revlouci ´on (1774-1786): Laplace

I Segunda Revoluci ´on (1809-1828): Gauss y Laplace

I Tercera Revoluci ´on (1912-1956): Fisher

Probabilidad Probabilidad Funci ´on de

(7)

Primera Revlouci ´on (1774-1786): Laplace I

Se busca

E[Y|X].

Modelo Lineal

Considere Y ∈ Rn, X ∈ Rn×p, yβ ∈ Rp, tal que

Y = Xβ + ε

dondeε ∈ Rnes considerada aleatoria.

I Esfuerzos por establecer relaci ón entre funci ón de p érdida

y distribuci ´on de datos

I Minizar divergencia I Maximizar probabilidad

(8)

Primera Revlouci ´on (1774-1786): Laplace II

ˆ

β = arg maxβP(Y − Xβ|β) β = arg minˆ βL (Y − Xβ)

P generalmente rectangular, triangular, coseno cuadr ´atico,

semi-circular, exponencial

doble

(9)

Segunda Revoluci ´on (1809-1828): Gauss y Laplace I

Distribuci ´on Normal f (x;µ, Σ) = 1 Z exp −1 2(x −µ) T_Σ−1₍_{x −}_µ)_, donde Z =R Rpexp −1 2(x −µ) T_Σ−1₍_{x −}_µ) dx. Dos avances gigantes:

1. Distribuci ´on normal como distribuci ´on de observaciones

I Se establece la optimalidad del m ´etodo de m´ınimos cuadrados bajo errores normalmente distribuidos

2. Distribuci ón normal como aproximaci ón a la distribuci ón de la media muestral (Teorema del L´ımite Central)

(10)

Tercera Revoluci ´on (1912-1956): Fisher I

I Se definieron propiedades de los estimadores

I Consistencia I Eficiencia I Suficiencia

I Se trabaj ´o en t ´ecnicas para evitar el uso de la probabilidad

a priori P(h)

I Propuso que toda la informaci ´on relevante era contenida

en la funci ´on de verosimilitud

Funci ´on de Verosimilitud

(11)

Agenda

Formalizaci ´on del Problema de Aprendizaje Temas Centrales al Aprendizaje de M ´aquina

BIG DATA Introducci ´on

Conclusiones

(12)

Introducci ´on al Aprendizaje de M ´aquina I

´

Enfasis en entendimiento del sistema o en predicci ´on[Breiman,

2001]

(13)

Introducci ´on al Aprendizaje de M ´aquina II

Def. Aprendizaje de M ´aquina[Mitchell, 1997]

Una m ´aquina aprende con respecto a

I una tarea T ,

I una medida de desempe ˜no P, y

I un tipo de experiencia E,

si la m ´aquina confiablemente mejora su

(14)

Introducci ´on al Aprendizaje de M ´aquina III

El Aprendizaje de M ´aquina es una rama del Inteligencia Artificial

Def. Inteligencia Artificial (AI)

La Inteligencia Artificial es la ciencia que estudia la

representaci ´on de los procesos mentales relacionados a la inteligencia humana mediante modelos

El aprendizaje es inceustionablemente uno de los principales procesos del cerebro

(15)

Introducci ´on al Aprendizaje de M ´aquina IV

I Aprendizaje supervisado

I Aprendizaje no supervisado

I Aprendizaje semi-supervisado

(16)

Introducci ´on al Aprendizaje de M ´aquina V

Dos acercamientos:

1. Escribir un programa en el cual detallamos procesos para diferenciar entre un rostro masculino de uno femenino.

I Longitud del cabello, distancia entre ojos, medidas de nariz, area del rostro, tonalidad de labios, etc

2. Escribir un meta-programa que defina automaticamente un programa para realizar esta distinci ´on

(17)

Introducci ´on al Aprendizaje de M ´aquina VI

I Elementos de un algoritmo

1. Datos de entrada 2. Procedimientos 3. Salidas

Algoritmos Tradicionales Aprendizaje de M ´aquina

Entradas Entradas

+ +

Procedimientos Salidas

↓ ↓

(18)

Formalizaci ´on del Problema de Aprendizaje I

Considere (x1, y1), . . . , (xm, ym)donde xi ∈ X ⊆ Rn, yi ∈ Y ⊆ R.

Asumimos que existe una funci ´on no conocida f : X → Y

Seg ´un la naturaleza del conjunto Y tenemos los siguientes tipos de problemas

Y _{Tipo de problema}

R Regresi ´on

{c1, . . . , cn} Clasificaci ´on

(19)

Formalizaci ´on del Problema de Aprendizaje II

Buscamos una hip ´otesis

h : X → Y que tenga un bajo error de generalizaci ´on

 = P[h(x) , f(x)].

I Para regresi ´on generalmente usamos

= MSE(h) = _|X|1 X

x∈X

(f (x) − h(x))2

I Para clasificaci ´on generalmente usamos

= _|X|1 X

x∈X

(20)

M ´etodos de clasificaci ´on I

Algunos de los principales algoritmos para clasificaci ´on binaria

Figure: Clasificaci ´on Binaria

I Clasificador bayesiano ingenuo

I Arboles de clasificaci ´on (e.g.,

CART, C4.5)

I Regresi ´on log´ıstica

I M ´aquinas de Soporte Vectorial

I Redes Neuronales Artificiales

I An ´alisis de discriminantes (e.g., lineal, cuadr ´atico)

(21)

Clasificador bayesiano ingenuo I

Considera el criterio de maximo a posteriori (MAP) c = arg max

cj∈C

P(x1, . . . , xn|cj)P(cj).

Bajo el supuesto de independencia entre variables

c = arg max cj∈C P(cj) n Y i=1 P(xi|cj).

I No considera interacciones entre variables

I No sufre de la maldici ´on de la dimensionalidad

I Si la clase correcta tiene probabilidad alta es robusto al

(22)

´

Arboles de clasificaci ´on I

Basado en reglas del tipo: Si A1∧ · · · ∧ Am entonces cj

I Generalmente condici ´on Alde la forma xi ≥θ

I Algoritmos ID3[Quinlan, 1986]y C4.5[Quinlan, 1993]utilizan

H(S) = −P

(23)

An ´alisis de discriminante lineal I

Modelamos la densidad de cada clase con una distribuci ´on gaussiana multivariada fk(x) = 1 (2π)p/2|Σ_k|1/2exp −1 2(x −µk) T_Σ−1 k (x −µk) . Asumiremos que las clases tienen una matriz de covarianzas

com ´unΣk=Σ para todo k

δk(x) = xTΣ−1µk−

1 2µk

T_Σ−1_µ

(24)

Temas Centrales al Aprendizaje de M ´aquina I

Los siguientes son temas centrales al estudio del Aprendizaje de M ´aquina

I El teorema de “Nada Es Gratis” (No Free Lunch)

I Combinando Modelos (Ensembles)

(25)

El teorema de “Nada Es Gratis” (No Free Lunch) I

Teorema de “Nada Es Gratis”[Wolpert, 1996]

Para cualquier modelo, un desempe ˜no elevado en una clase de problemas es compensado por un bajo rendimiento en otra clase (el desempe ˜no promedio de cualquier modelo es igual.)

(26)

Combinando Modelos I

En la conferencia Predictive Analytics

World/Toronto (PAW) 2012a

M ´etodo Valor Diferencia

Real 362

-Ganador (persona) 352 10

Promedio (N = 61) 365 3

(27)

Combinando Modelos II

Combinando modelos de regresi ´on

H(x) = 1 T T X t=1 hi(x).

Combinando modelos de clasificaci ´on H(x) = ( cj si PTi=1h j i(x)> 1 2 Pl k =1 PT i=1hik(x) Rechazo si no.

(28)

Combinando Modelos III

I Utilizar un conjunto de datos de entrenamiento de alguna

manera diferente

I Seleccionar un subconjunto diferente de variables para

entrenar a la hip ´otesis

(29)

Principales m ´etodos de ensembles I

Principales m ´etodos de ensembles:

I Clasificador Bayesiano ´Optimo

I Bagging

I Boosting

(30)

Clasificador Bayesiano ´

Optimo I

Consideramos H como el espacio de todas las hip ´otesis y D una muestra c = arg max cj∈C X hi∈H P(cj|hi)P(hi|D)

Es el mejor clasificador en promedio considerando H y conocimiento a priori

Dificultades pr ´acticas

I H generalmente muy grande como para iterar

I Hip ´otesis h generalmente entregan clase y no

probabilidades P(c|h)

I Calcular probabilidades posterior P(h|D) es generalmente

(31)

Bagging I

El Bagging (Bootstrap AGGregatING) fue introducido enBreiman

[1996]

L = {(x1, y1), . . . , (xm, ym)}

1. Utilizando muestreo aleatorio con reposici ´on y obtenemos L_b _{= {(}_x_b

1, yb1), . . . , (xbm, ybm)},

para b = 1, . . . , B.

2. Aprendemos hb utilizando Lb

(32)

Boosting I

I EnKearns and Valiant [1989]se plantea la pregunta de si las

clases de complejidad: aprendedores d ´ebiles y aprendedores fuertes, son iguales

I Schapire [1990]responde a esa pregunta, su prueba es constructiva: Boosting

(33)

Boosting II

Suponga que h1, . . . , hT son clasificadores d ´ebiles utilizados

para aproximar una funci ´on f : Rk _{→ {−1}_{, +1}, tal que}

ε = P[h(x) , f(x)] = 0.5 − γ para x ∈ X;γ > 0

(34)

(35)

Boosting IV

(36)

Sobre-ajuste VS Generalizaci ´on I

Se utilizan modelos de alta complejidad y se evita el sobre-ajuste durante el entranamiento

(37)

Regularizaci ´on I

ˆ β = arg min β n L (Y − Xβ) + λkβkp o

Casos comunes incluyen p = 1 (regresi ´on LASSO[Tibshirani,

1996]) y p = 2 (caso particular de regresi ´on RIDGE[Hoerl and Kennard, 1970]).

(38)

Habilitadores del desarrollo del Aprendizaje de

M ´aquina I

Habilitadores del desarrollo del Aprendizaje de M áquina 1. Avances en optimizaci ón matem ática

2. Avances en poder de c ´omputo

(39)

Agenda

Formalizaci ´on del Problema de Aprendizaje Temas Centrales al Aprendizaje de M ´aquina

BIG DATA Introducci ´on

Conclusiones

(40)

Introducci ´on al BIG DATA I

Def. BIG DATA

Un t ´ermino extenso para denotar colecciones de conjunto de datos tan grandes y complejos que su procesamiento es desafiante utilizando t ´ecnicas tradicionales.

El desaf´ıo incluye: visualizar,analizar,capturar,sanar,buscar,

compartir,almacenar,transferir, asignarle una propiedad,

determinar su valor, y proteger su privacidad.

I Estad´ıstica y Aprendizaje de M ´aquina

I Ciencia de la Computaci ´on I Ciencias Sociales

(41)

(42)

Variedad de Datos en BIG DATA I

¿Qu ´e tipo/fuente de datos ha analizado en los ´ultimos 12

(43)

Volumen de Datos en BIG DATA I

¿Cu ´al ha sido el conjunto de datos m ´as grande que ha

(44)

Volumen de Datos en BIG DATA II

(a) (b) (c) (d) BIG DATA n p (variables)

I (a) Tabla de datos tradicional

(45)

Volumen de Datos en BIG DATA III

Tama ˜no de archivos en R

I 1 Mill ´on de registros: facilmente

procesados en R

I Entre 1 y 1000 Millones de registros:

procesados en R con esfuerzo adicional

I +1000 Millones de registros:

necesarios algoritmos siguiendo MapReduce

Tama ño del objeto m ás grande creado durante el an álisis es el relevante

(46)

Paradigma MapReduce I

Def. MapReduce

Paradigma de programaci ´on que permite el computo en paralelo en clusters de computadoras

Basado en funciones map() y reduce()

I Apache Hadoop es una

implementaci ´on popular open-source

I Paquete en R: “RHadoop”

o “hive” Hadoop InteractiVE

(47)

BIG DATA en R I

Algunas estrategias para usar R con BIG DATA

I Muestrear de datos

I Hardware m ´as potente (R en 32-bit direcciona hasta 2 GB

de RAM; en 64-bit hasta 8 TB de RAM)

I Almacenar en disco y analizar por partes (Paquetes “ff”,

“ffbase”, y “bigglm” en R; “scaleR” en Revolution R Enterprise)

I Integrar con lenguajes de desempe ˜no m ´as eficiente (C++,

(48)

Agenda

Introducci ´on

(49)

Conclusiones I

I El Aprendizaje de M ´aquina puede ser considerado como

una rama de la estad´ıstica cercana a la estad´ıstica inferencial

I El ´enfasis es en predicci ´on

I Los m ´etodos de Aprendizaje de M ´aquina pueden ser

escalados al BIG DATA

I El BIG DATA ofrece oportunidades y desaf´ıos

I Existen diversos paquetes en R para aplicar t ´ecnicas

(50)

Referencias Bibliogr ´aficas I

Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2):123–140. Breiman, L. (2001). Statistical Modeling: The Two Cultures. Statistical

Science, 16(3):199–215.

Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12(1):55–67. Kearns, M. and Valiant, L. (1989). Cryptographic Limitations on Learning

Boolean Formulae and Finite Automata.

Mitchell, T. (1997). Machine Learning. McGraw-Hill Education, New York, 1 edition edition.

Quinlan, J. R. (1986). Induction of Decision Trees. Machine Learning, 1(1):81–106.

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.

Schapire, R. E. (1990). The strength of weak learnability. Machine Learning, 5(2):197–227.

(51)

Referencias Bibliogr ´aficas II

Viola, P. and Jones, M. (2001). Rapid object detection using a boosted cascade of simple features. In Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001. CVPR 2001, volume 1, pages I–511–I–518 vol.1.

Wolpert, D. H. (1996). The Lack of A Priori Distinctions Between Learning Algorithms. Neural Computation, 8(7):1341–1390.