Estad´ıstica Inferencial,
Aprendizaje de M ´aquina, y BIG DATA
20 a ˜nos de Ingenier´ıa en Estad´ıstica
Andr ´es G. Abad, Ph.D.
ESCUELA SUPERIOR POLIT ´ECNICA DEL LITORAL
Agenda
Estad´ıstica Inferencial Introducci ´on Tres Revoluciones Aprendizaje de M ´aquina Introducci ´onFormalizaci ´on del Problema de Aprendizaje Temas Centrales al Aprendizaje de M ´aquina BIG DATA
Introducci ´on
Paradigma MapReduce BIG DATA en R
Agenda
Estad´ıstica Inferencial Introducci ´on Tres Revoluciones Aprendizaje de M ´aquina Introducci ´onFormalizaci ´on del Problema de Aprendizaje Temas Centrales al Aprendizaje de M ´aquina BIG DATA
Introducci ´on
Paradigma MapReduce BIG DATA en R
Conclusiones
Introducci ´on a la Estad´ıstica Inferencial Param ´etrica I
Axiomas
Conclusi´on
Datos observados
Posibles hip´otesis
Razonamiento Deductivo
Razonamiento Inductivo
Def. Estad´ıstica Inferencial
Es una rama de la estad´ıstica que por medio de la inducci ´on
Introducci ´on a la Estad´ıstica Inferencial Param ´etrica II
Conocimiento incierto + Cuantificaci ´on de incertidumbre = Conocimiento ´utilNecesariamente para esto utilizamos el Teorema de Bayes
P(h|D) = P(D|h)P(h)
P(D)
I h: hip ´otesis
I D: observaciones Figure: Rev. Thomas
Tres Revoluciones en Estad´ıstica Inferencial I
I Primera Revlouci ´on (1774-1786): Laplace
I Segunda Revoluci ´on (1809-1828): Gauss y Laplace
I Tercera Revoluci ´on (1912-1956): Fisher
Probabilidad Probabilidad Funci ´on de
Primera Revlouci ´on (1774-1786): Laplace I
Se busca
E[Y|X].
Modelo Lineal
Considere Y ∈ Rn, X ∈ Rn×p, yβ ∈ Rp, tal que
Y = Xβ + ε
dondeε ∈ Rnes considerada aleatoria.
I Esfuerzos por establecer relaci ´on entre funci ´on de p ´erdida
y distribuci ´on de datos
I Minizar divergencia I Maximizar probabilidad
Primera Revlouci ´on (1774-1786): Laplace II
ˆβ = arg maxβP(Y − Xβ|β) β = arg minˆ βL (Y − Xβ)
P generalmente rectangular, triangular, coseno cuadr ´atico,
semi-circular, exponencial
doble
Segunda Revoluci ´on (1809-1828): Gauss y Laplace I
Distribuci ´on Normal f (x;µ, Σ) = 1 Z exp −1 2(x −µ) TΣ−1(x −µ), donde Z =R Rpexp −1 2(x −µ) TΣ−1(x −µ) dx. Dos avances gigantes:1. Distribuci ´on normal como distribuci ´on de observaciones
I Se establece la optimalidad del m ´etodo de m´ınimos cuadrados bajo errores normalmente distribuidos
2. Distribuci ´on normal como aproximaci ´on a la distribuci ´on de la media muestral (Teorema del L´ımite Central)
Tercera Revoluci ´on (1912-1956): Fisher I
I Se definieron propiedades de los estimadores
I Consistencia I Eficiencia I Suficiencia
I Se trabaj ´o en t ´ecnicas para evitar el uso de la probabilidad
a priori P(h)
I Propuso que toda la informaci ´on relevante era contenida
en la funci ´on de verosimilitud
Funci ´on de Verosimilitud
Agenda
Estad´ıstica Inferencial Introducci ´on Tres Revoluciones Aprendizaje de M ´aquina Introducci ´onFormalizaci ´on del Problema de Aprendizaje Temas Centrales al Aprendizaje de M ´aquina
BIG DATA Introducci ´on
Paradigma MapReduce BIG DATA en R
Conclusiones
Introducci ´on al Aprendizaje de M ´aquina I
´
Enfasis en entendimiento del sistema o en predicci ´on[Breiman,
2001]
Introducci ´on al Aprendizaje de M ´aquina II
Def. Aprendizaje de M ´aquina[Mitchell, 1997]
Una m ´aquina aprende con respecto a
I una tarea T ,
I una medida de desempe ˜no P, y
I un tipo de experiencia E,
si la m ´aquina confiablemente mejora su
Introducci ´on al Aprendizaje de M ´aquina III
El Aprendizaje de M ´aquina es una rama del Inteligencia Artificial
Def. Inteligencia Artificial (AI)
La Inteligencia Artificial es la ciencia que estudia la
representaci ´on de los procesos mentales relacionados a la inteligencia humana mediante modelos
El aprendizaje es inceustionablemente uno de los principales procesos del cerebro
Introducci ´on al Aprendizaje de M ´aquina IV
I Aprendizaje supervisado
I Aprendizaje no supervisado
I Aprendizaje semi-supervisado
Introducci ´on al Aprendizaje de M ´aquina V
Dos acercamientos:
1. Escribir un programa en el cual detallamos procesos para diferenciar entre un rostro masculino de uno femenino.
I Longitud del cabello, distancia entre ojos, medidas de nariz, area del rostro, tonalidad de labios, etc
2. Escribir un meta-programa que defina automaticamente un programa para realizar esta distinci ´on
Introducci ´on al Aprendizaje de M ´aquina VI
I Elementos de un algoritmo
1. Datos de entrada 2. Procedimientos 3. Salidas
Algoritmos Tradicionales Aprendizaje de M ´aquina
Entradas Entradas
+ +
Procedimientos Salidas
↓ ↓
Formalizaci ´on del Problema de Aprendizaje I
Considere (x1, y1), . . . , (xm, ym)donde xi ∈ X ⊆ Rn, yi ∈ Y ⊆ R.
Asumimos que existe una funci ´on no conocida f : X → Y
Seg ´un la naturaleza del conjunto Y tenemos los siguientes tipos de problemas
Y Tipo de problema
R Regresi ´on
{c1, . . . , cn} Clasificaci ´on
Formalizaci ´on del Problema de Aprendizaje II
Buscamos una hip ´otesis
h : X → Y que tenga un bajo error de generalizaci ´on
= P[h(x) , f(x)].
I Para regresi ´on generalmente usamos
= MSE(h) = |X|1 X
x∈X
(f (x) − h(x))2
I Para clasificaci ´on generalmente usamos
= |X|1 X
x∈X
M ´etodos de clasificaci ´on I
Algunos de los principales algoritmos para clasificaci ´on binaria
Figure: Clasificaci ´on Binaria
I Clasificador bayesiano ingenuo
I Arboles de clasificaci ´on (e.g.,
CART, C4.5)
I Regresi ´on log´ıstica
I M ´aquinas de Soporte Vectorial
I Redes Neuronales Artificiales
I An ´alisis de discriminantes (e.g., lineal, cuadr ´atico)
Clasificador bayesiano ingenuo I
Considera el criterio de maximo a posteriori (MAP) c = arg max
cj∈C
P(x1, . . . , xn|cj)P(cj).
Bajo el supuesto de independencia entre variables
c = arg max cj∈C P(cj) n Y i=1 P(xi|cj).
I No considera interacciones entre variables
I No sufre de la maldici ´on de la dimensionalidad
I Si la clase correcta tiene probabilidad alta es robusto al
´
Arboles de clasificaci ´on I
Basado en reglas del tipo: Si A1∧ · · · ∧ Am entonces cj
I Generalmente condici ´on Alde la forma xi ≥θ
I Algoritmos ID3[Quinlan, 1986]y C4.5[Quinlan, 1993]utilizan
H(S) = −P
An ´alisis de discriminante lineal I
Modelamos la densidad de cada clase con una distribuci ´on gaussiana multivariada fk(x) = 1 (2π)p/2|Σk|1/2exp −1 2(x −µk) TΣ−1 k (x −µk) . Asumiremos que las clases tienen una matriz de covarianzas
com ´unΣk=Σ para todo k
δk(x) = xTΣ−1µk−
1 2µk
TΣ−1µ
Temas Centrales al Aprendizaje de M ´aquina I
Los siguientes son temas centrales al estudio del Aprendizaje de M ´aquina
I El teorema de “Nada Es Gratis” (No Free Lunch)
I Combinando Modelos (Ensembles)
El teorema de “Nada Es Gratis” (No Free Lunch) I
Teorema de “Nada Es Gratis”[Wolpert, 1996]
Para cualquier modelo, un desempe ˜no elevado en una clase de problemas es compensado por un bajo rendimiento en otra clase (el desempe ˜no promedio de cualquier modelo es igual.)
Combinando Modelos I
En la conferencia Predictive Analytics
World/Toronto (PAW) 2012a
M ´etodo Valor Diferencia
Real 362
-Ganador (persona) 352 10
Promedio (N = 61) 365 3
Combinando Modelos II
Combinando modelos de regresi ´on
H(x) = 1 T T X t=1 hi(x).
Combinando modelos de clasificaci ´on H(x) = ( cj si PTi=1h j i(x)> 1 2 Pl k =1 PT i=1hik(x) Rechazo si no.
Combinando Modelos III
I Utilizar un conjunto de datos de entrenamiento de alguna
manera diferente
I Seleccionar un subconjunto diferente de variables para
entrenar a la hip ´otesis
Principales m ´etodos de ensembles I
Principales m ´etodos de ensembles:
I Clasificador Bayesiano ´Optimo
I Bagging
I Boosting
Clasificador Bayesiano ´
Optimo I
Consideramos H como el espacio de todas las hip ´otesis y D una muestra c = arg max cj∈C X hi∈H P(cj|hi)P(hi|D)
Es el mejor clasificador en promedio considerando H y conocimiento a priori
Dificultades pr ´acticas
I H generalmente muy grande como para iterar
I Hip ´otesis h generalmente entregan clase y no
probabilidades P(c|h)
I Calcular probabilidades posterior P(h|D) es generalmente
Bagging I
El Bagging (Bootstrap AGGregatING) fue introducido enBreiman
[1996]
L = {(x1, y1), . . . , (xm, ym)}
1. Utilizando muestreo aleatorio con reposici ´on y obtenemos Lb = {(xb
1, yb1), . . . , (xbm, ybm)},
para b = 1, . . . , B.
2. Aprendemos hb utilizando Lb
Boosting I
I EnKearns and Valiant [1989]se plantea la pregunta de si las
clases de complejidad: aprendedores d ´ebiles y aprendedores fuertes, son iguales
I Schapire [1990]responde a esa pregunta, su prueba es constructiva: Boosting
Boosting II
Suponga que h1, . . . , hT son clasificadores d ´ebiles utilizados
para aproximar una funci ´on f : Rk → {−1, +1}, tal que
ε = P[h(x) , f(x)] = 0.5 − γ para x ∈ X;γ > 0
Boosting IV
Sobre-ajuste VS Generalizaci ´on I
Se utilizan modelos de alta complejidad y se evita el sobre-ajuste durante el entranamiento
Regularizaci ´on I
ˆ β = arg min β n L (Y − Xβ) + λkβkp oCasos comunes incluyen p = 1 (regresi ´on LASSO[Tibshirani,
1996]) y p = 2 (caso particular de regresi ´on RIDGE[Hoerl and Kennard, 1970]).
Habilitadores del desarrollo del Aprendizaje de
M ´aquina I
Habilitadores del desarrollo del Aprendizaje de M ´aquina 1. Avances en optimizaci ´on matem ´atica
2. Avances en poder de c ´omputo
Agenda
Estad´ıstica Inferencial Introducci ´on Tres Revoluciones Aprendizaje de M ´aquina Introducci ´onFormalizaci ´on del Problema de Aprendizaje Temas Centrales al Aprendizaje de M ´aquina
BIG DATA Introducci ´on
Paradigma MapReduce BIG DATA en R
Conclusiones
Introducci ´on al BIG DATA I
Def. BIG DATA
Un t ´ermino extenso para denotar colecciones de conjunto de datos tan grandes y complejos que su procesamiento es desafiante utilizando t ´ecnicas tradicionales.
El desaf´ıo incluye: visualizar,analizar,capturar,sanar,buscar,
compartir,almacenar,transferir, asignarle una propiedad,
determinar su valor, y proteger su privacidad.
I Estad´ıstica y Aprendizaje de M ´aquina
I Ciencia de la Computaci ´on I Ciencias Sociales
Variedad de Datos en BIG DATA I
¿Qu ´e tipo/fuente de datos ha analizado en los ´ultimos 12
Volumen de Datos en BIG DATA I
¿Cu ´al ha sido el conjunto de datos m ´as grande que ha
Volumen de Datos en BIG DATA II
(a) (b) (c) (d) BIG DATA n p (variables)I (a) Tabla de datos tradicional
Volumen de Datos en BIG DATA III
Tama ˜no de archivos en R
I 1 Mill ´on de registros: facilmente
procesados en R
I Entre 1 y 1000 Millones de registros:
procesados en R con esfuerzo adicional
I +1000 Millones de registros:
necesarios algoritmos siguiendo MapReduce
Tama ˜no del objeto m ´as grande creado durante el an ´alisis es el relevante
Paradigma MapReduce I
Def. MapReduce
Paradigma de programaci ´on que permite el computo en paralelo en clusters de computadoras
Basado en funciones map() y reduce()
I Apache Hadoop es una
implementaci ´on popular open-source
I Paquete en R: “RHadoop”
o “hive” Hadoop InteractiVE
BIG DATA en R I
Algunas estrategias para usar R con BIG DATA
I Muestrear de datos
I Hardware m ´as potente (R en 32-bit direcciona hasta 2 GB
de RAM; en 64-bit hasta 8 TB de RAM)
I Almacenar en disco y analizar por partes (Paquetes “ff”,
“ffbase”, y “bigglm” en R; “scaleR” en Revolution R Enterprise)
I Integrar con lenguajes de desempe ˜no m ´as eficiente (C++,
Agenda
Estad´ıstica Inferencial Introducci ´on Tres Revoluciones Aprendizaje de M ´aquina Introducci ´onFormalizaci ´on del Problema de Aprendizaje Temas Centrales al Aprendizaje de M ´aquina BIG DATA
Introducci ´on
Paradigma MapReduce BIG DATA en R
Conclusiones I
I El Aprendizaje de M ´aquina puede ser considerado como
una rama de la estad´ıstica cercana a la estad´ıstica inferencial
I El ´enfasis es en predicci ´on
I Los m ´etodos de Aprendizaje de M ´aquina pueden ser
escalados al BIG DATA
I El BIG DATA ofrece oportunidades y desaf´ıos
I Existen diversos paquetes en R para aplicar t ´ecnicas
Referencias Bibliogr ´aficas I
Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2):123–140. Breiman, L. (2001). Statistical Modeling: The Two Cultures. Statistical
Science, 16(3):199–215.
Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12(1):55–67. Kearns, M. and Valiant, L. (1989). Cryptographic Limitations on Learning
Boolean Formulae and Finite Automata.
Mitchell, T. (1997). Machine Learning. McGraw-Hill Education, New York, 1 edition edition.
Quinlan, J. R. (1986). Induction of Decision Trees. Machine Learning, 1(1):81–106.
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
Schapire, R. E. (1990). The strength of weak learnability. Machine Learning, 5(2):197–227.
Referencias Bibliogr ´aficas II
Viola, P. and Jones, M. (2001). Rapid object detection using a boosted cascade of simple features. In Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001. CVPR 2001, volume 1, pages I–511–I–518 vol.1.
Wolpert, D. H. (1996). The Lack of A Priori Distinctions Between Learning Algorithms. Neural Computation, 8(7):1341–1390.