Árboles de decisión y Bosques aleatorios

(1)

´

Arboles de decisi´

on y Bosques Aleatorios

Facultad de Estudios Superiores Acatl´

an

Sexto Coloquio de Estad´ıstica

Semestre 2019-1

(2)

Contenido

1 Introducci´

on

2 Arboles de decisi´

´

on

3 Bootstrap Aggregating

(3)

Contenido

1 Introducci´

on

2 Arboles de decisi´

´

on

3 Bootstrap Aggregating

(4)

Introducci´

on

Machine Learning

(Ciencias de la computaci´on y la

inteligen-cia anal´ıtica)

Conjunto de algoritmos,

mod-elos y procesos de inducci´

on

de conocimientos (An´

alisis de

datos), formados a partir de

la premisa de que

el hombre

aprende con base en la

experi-encia

.

(5)

Introducci´

on

Machine Learning

(Ciencias de la computaci´on y la

inteligen-cia anal´ıtica)

Sus algoritmos, modelos y

pro-cesos de aprenzaje an´

alitico se

pueden clasificar en dos tipos:

Aprendizaje supervisado.

Aprendizaje

no

super-visado.

(6)

Introducci´

on

Aprendizaje supervisado

(Los datos contienen variables objetivo)

El

algoritmo

produce

una

funci´

on que establece una

cor-respondencia entre las salidas

del sistema y las variables de

entrada (variables explicativas

X

i

) con base en las variables

objetivo

S

i

.

b

S

i

=

f

(

X

i

)

Donde

Si

representa

i

−

´

esima

salida para la

i

−

´

esima

obser-vaci´

on

X

.

(7)

Introducci´

on

Aprendizaje no supervisado

(Los datos no contienen variables objetivo)

El algoritmo se produce s´

olo

considerando variables de

en-trada al modelo sin considerar

una correspondencia con una

salida deseada.

Estos modelos son utiles para

conocer la estructura de los

datos analizados.

(8)

Introducci´

on

Machine Learning

(Aplicaciones)

Motores de b´

usqueda

Diagn´

osticos m´

edicos

Segmentaci´

on de mercado

Detecci´

on de fraudes

(9)

Introducci´

on

(10)

Introducci´

on

(11)

Introducci´

on

(12)

Introducci´

on

(13)

Introducci´

on

(14)

Contenido

1 Introducci´

on

2 Arboles de decisi´

´

on

3 Bootstrap Aggregating

(15)

Arboles de decisi´

on

Datos de entrenamiento

Definimos los datos de

entre-namiento como

{

(

Y

i

,

X

i

)

}

i∈Nm

,

un conjunto de

m

observacines

provinientes una recolecci´

on de

datos

aleatoria

u

observada,

donde

X

i

representa el

con-junto de variables explicativas y

dim

(

X

i

) =

n

, es decir, contamos

con

n

variables independientes y

Y

i

la variable explicada o

(16)

Arboles de decisi´

on

Estructura del modelo

El modelo estar´

a estructurado

con base en los niveles de las

variables explicativas, es decir,

por los valores de las variables

X

i

denotados por

X

ij

, donde

X

ij

representa el

j

−

´

esimo valor de

la

i

−

´

esima variable.

El arbol de decisi´

on tiene los

siguientes componentes:

(17)

Arboles de decisi´

on

Estructura del modelo

El arbol de decisi´

on tiene los

siguientes componentes:

(18)

Arboles de decisi´

on

Estructura del modelo

El arbol de decisi´

on tiene los

siguientes componentes:

Ra´ız.- Inicio del arbol.

Condicional.-

Condici´

on

de cambio.

(19)

Arboles de decisi´

on

Estructura del modelo

El arbol de decisi´

on tiene los

siguientes componentes:

Ra´ız.- Inicio del arbol.

Condicional.-

Condici´

on

de cambio.

Nodo.- Varoles de

discrim-inaci´

on del arbol.

(20)

Arboles de decisi´

on

Estructura del modelo

El arbol de decisi´

on tiene los

siguientes componentes:

Ra´ız.- Inicio del arbol.

Condicional.-

Condici´

on

de cambio.

Nodo.- Varoles de

discrim-inaci´

on del arbol.

Hoja.- Valor de

clasifi-caci´

on.

(21)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(22)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(23)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(24)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(25)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(26)

Arboles de decisi´

on

¿C´

omo generar arboles de decisi´

on?

Bajo un enfoque ”top-down” o ”Dividir y conquista” conocido Algoritmo de Hunt.

Algoritmo de Hunt

Si todos los registros

X

i

pertenecen a la misma clase

Y

i

, entonces

i

es un nodo

hoja que se etiqueta como

Y

i

.

Si

X

i

contiene registros que pertenecen a m´

as de una clase, se escoge una variable

(atributo) para dividir los datos en subconjuntos m´

as peque˜

nos.

Recursivamente se aplica el procedimiento a cada subconjunto.

(27)

Arboles de decisi´

on

¿C´

omo escoger la variable atributo y como dividir los datos?

Lo mas recomendable es generar la divisi´

on de los datos de forma binaria para una f´

acil

interpretaci´

on del ´

arbol (algoritmo CART).

(28)

Arboles de decisi´

on

¿C´

omo escoger la variable atributo y como dividir los datos?

Para elegir las variables puede utilizar alguno de los siguientes criterios que miden el

grado de impureza (GI) de la divisi´

on de la variable atributo:

Error de clasifiaci´

on

error

(

i

) = 1

−

max

(

p

(

j

|

i

))

´Indice de Gini

Gini

(

i

) = 1

−

P

p

(

j

|

i

)

2

´Indice de Entrop´ıa

Entropia

(

i

) =

−

P

(29)

Arboles de decisi´

on

¿C´

omo escoger la variable atributo y como dividir los datos?

El grado total de impureza en el nivel se calcula para cada uno de los criterios con las

formulas que se muestran a continuaci´

on:

Error de clasifiaci´

on

error

=

P

ni

n

error

(

i

)

´Indice de Gini

Gini

(

i

) =

P

ni

n

Gini

(

i

)

´Indice de Entrop´ıa

Entropia

(

i

) =

P

n_i

n

entropia

(

i

)

Donde

n

i

es el n´

umero de observaciones en el nodo

i

y

n

es el total de observaciones

(30)

Arboles de decisi´

on

Ejemplo

Considerando la siguiente tabla de datos, genere el ´

arbol de decisi´

on asociado

con-siderando el error de clasificaci´

on:

(31)

Arboles de decisi´

on

(32)

Arboles de decisi´

on

(33)

Arboles de decisi´

on

(34)

Arboles de decisi´

on

(35)

Arboles de decisi´

on

(36)

Arboles de decisi´

on

(37)

Arboles de decisi´

on

(38)

Arboles de decisi´

on

(39)

Arboles de decisi´

on

(40)

Arboles de decisi´

on

(41)

Arboles de decisi´

on

(42)

Arboles de decisi´

on

(43)

Arboles de decisi´

on

(44)

Arboles de decisi´

on

(45)

Arboles de decisi´

on

(46)

Arboles de decisi´

on

(47)

Arboles de decisi´

on

(48)

Arboles de decisi´

on

(49)

Contenido

1 Introducci´

on

2 Arboles de decisi´

´

on

3 Bootstrap Aggregating

(50)

Bootstrap Aggregating

Datos de entrenamiento

(Muestra de tamaño n)

Muestra 1 Muestra 1 Muestra m . . .

𝒇

𝟏

(𝒙)

𝒇

𝟐

(𝒙)

𝒇

𝒎

(𝒙)

Modelo de ensamble (resumen de un conjunto de m modelos de aprendizaje para mejorar el rendimiento predictivo)

𝑭 𝒙 = 𝑮(𝒇

𝟏

(𝒙), … , 𝒇

𝒎

(𝒙))

Donde G puede ser una medida de tendencia central en modelos de regresión o una proporción para modelos de clasificación. Ejemplo:

𝑮 𝒇𝟏𝒙 , … , 𝒇𝒎𝒙 = 𝟏

𝒎෍

𝒋 𝒇𝒋𝒙 Muestra bootstrap Ajuste de modelos

(51)

Bootstrap Aggregating

Muestra i

𝒇

𝒊

(𝒙)

Muestra bootstrap

Ajuste de modelos

Muestra de tamaño n con remplazo

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Datos de entrenamiento

4 25 27

10 30 8

15 9 17

6 35 28

15 7 35

10 22 30

15 31 20

29 36 19

18 36 15

11 15 26 21 19 12 34 31 23 Remuestreo i

(52)

Bootstrap Aggregating

Muestra 1 Muestra 1 Muestra m . . .

𝒇

𝟏

(𝒙)

𝒇

𝟐

(𝒙)

𝒇

𝒎

(𝒙)

Modelo de ensamble (resumen de un conjunto de m modelos de aprendizaje para mejorar el rendimiento predictivo)

𝑭 𝒙 = 𝑮(𝒇

𝟏

(𝒙), … , 𝒇

𝒎

(𝒙))

Donde G puede ser una medida de tendencia central en modelos de regresión o una proporción para modelos de clasificación. Ejemplo:

𝑮 𝒇𝟏𝒙 , … , 𝒇𝒎𝒙 = 𝟏

𝒎෍

𝒋 𝒇𝒋𝒙 Muestra bootstrap Ajuste de modelos

Muestra de tamaño n con remplazo

Puede presentar problemas de sobreajuste

(53)

Contenido

1 Introducci´

on

2 Arboles de decisi´

´

on

3 Bootstrap Aggregating

(54)

Bosques Aleatorios

Datos de entrenamiento (Muestra de tamaño

n con k variables)

Muestra 1 (k variables) Muestra 1 (k variables) Muestra m (k variables) . . .

𝒇𝟏(𝒙)

𝒇𝟐(𝒙)

𝒇𝒎(𝒙)

Muestra bootstrap Ajuste de modelos

Muestra de tamaño n con remplazo

Subespacio aleatorio

(𝒌variables)

Subespacio h´

(𝒌variables)

Subespacio 2

(𝒌variables)

Subespacio m

(𝒌variables)

. . .

Modelo de ensamble

(resumen de un conjunto de m modelos de aprendizaje para mejorar el rendimiento predictivo)

𝑭 𝒙 = 𝑮(𝒇𝟏(𝒙), … , 𝒇𝒎(𝒙))

Donde G puede ser una medida de tendencia central en modelos de regresióno una proporciónpara modelos de clasificación. Ejemplo:

𝑮 𝒇𝟏𝒙 , … , 𝒇𝒎𝒙 = 𝟏

𝒎෍

𝒋 𝒇𝒋𝒙

(55)

Bosques Aleatorios

Datos de entrenamiento (Muestra de tamaño

n con k variables)

Muestra 1 (k variables) Muestra m (k variables) . . .

𝒇

𝟏

(𝒙)

𝒇

𝒎

(𝒙)

Muestra bootstrap

Ajuste de modelos

Muestra de tamaño n con remplazo Split 1 Split h Split 1 Split h´ . . . . . .

Se genera un subespacio aleatorio para cada Split