• No se han encontrado resultados

Árboles de decisión y Bosques aleatorios

N/A
N/A
Protected

Academic year: 2020

Share "Árboles de decisión y Bosques aleatorios"

Copied!
55
0
0

Texto completo

(1)

´

Arboles de decisi´

on y Bosques Aleatorios

Facultad de Estudios Superiores Acatl´

an

Sexto Coloquio de Estad´ıstica

Semestre 2019-1

(2)

Contenido

1

Introducci´

on

2

Arboles de decisi´

´

on

3

Bootstrap Aggregating

(3)

Contenido

1

Introducci´

on

2

Arboles de decisi´

´

on

3

Bootstrap Aggregating

(4)

Introducci´

on

Machine Learning

(Ciencias de la computaci´on y la

inteligen-cia anal´ıtica)

Conjunto de algoritmos,

mod-elos y procesos de inducci´

on

de conocimientos (An´

alisis de

datos), formados a partir de

la premisa de que

el hombre

aprende con base en la

experi-encia

.

(5)

Introducci´

on

Machine Learning

(Ciencias de la computaci´on y la

inteligen-cia anal´ıtica)

Sus algoritmos, modelos y

pro-cesos de aprenzaje an´

alitico se

pueden clasificar en dos tipos:

Aprendizaje supervisado.

Aprendizaje

no

super-visado.

(6)

Introducci´

on

Aprendizaje supervisado

(Los datos contienen variables objetivo)

El

algoritmo

produce

una

funci´

on que establece una

cor-respondencia entre las salidas

del sistema y las variables de

entrada (variables explicativas

X

i

) con base en las variables

objetivo

S

i

.

b

S

i

=

f

(

X

i

)

Donde

Si

representa

i

´

esima

salida para la

i

´

esima

obser-vaci´

on

X

.

(7)

Introducci´

on

Aprendizaje no supervisado

(Los datos no contienen variables objetivo)

El algoritmo se produce s´

olo

considerando variables de

en-trada al modelo sin considerar

una correspondencia con una

salida deseada.

Estos modelos son utiles para

conocer la estructura de los

datos analizados.

(8)

Introducci´

on

Machine Learning

(Aplicaciones)

Motores de b´

usqueda

Diagn´

osticos m´

edicos

Segmentaci´

on de mercado

Detecci´

on de fraudes

(9)

Introducci´

on

(10)

Introducci´

on

(11)

Introducci´

on

(12)

Introducci´

on

(13)

Introducci´

on

(14)

Contenido

1

Introducci´

on

2

Arboles de decisi´

´

on

3

Bootstrap Aggregating

(15)

Arboles de decisi´

on

Datos de entrenamiento

Definimos los datos de

entre-namiento como

{

(

Y

i

,

X

i

)

}

i∈Nm

,

un conjunto de

m

observacines

provinientes una recolecci´

on de

datos

aleatoria

u

observada,

donde

X

i

representa el

con-junto de variables explicativas y

dim

(

X

i

) =

n

, es decir, contamos

con

n

variables independientes y

Y

i

la variable explicada o

(16)

Arboles de decisi´

on

Estructura del modelo

El modelo estar´

a estructurado

con base en los niveles de las

variables explicativas, es decir,

por los valores de las variables

X

i

denotados por

X

ij

, donde

X

ij

representa el

j

´

esimo valor de

la

i

´

esima variable.

El arbol de decisi´

on tiene los

siguientes componentes:

(17)

Arboles de decisi´

on

Estructura del modelo

El arbol de decisi´

on tiene los

siguientes componentes:

(18)

Arboles de decisi´

on

Estructura del modelo

El arbol de decisi´

on tiene los

siguientes componentes:

Ra´ız.- Inicio del arbol.

Condicional.-

Condici´

on

de cambio.

(19)

Arboles de decisi´

on

Estructura del modelo

El arbol de decisi´

on tiene los

siguientes componentes:

Ra´ız.- Inicio del arbol.

Condicional.-

Condici´

on

de cambio.

Nodo.- Varoles de

discrim-inaci´

on del arbol.

(20)

Arboles de decisi´

on

Estructura del modelo

El arbol de decisi´

on tiene los

siguientes componentes:

Ra´ız.- Inicio del arbol.

Condicional.-

Condici´

on

de cambio.

Nodo.- Varoles de

discrim-inaci´

on del arbol.

Hoja.- Valor de

clasifi-caci´

on.

(21)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(22)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(23)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(24)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(25)

Arboles de decisi´

on

Ejemplo de clasificaci´

on

Considerando el arbol de decisi´

on de la

derecha, clasifique la siguiente tupla:

(26)

Arboles de decisi´

on

¿C´

omo generar arboles de decisi´

on?

Bajo un enfoque ”top-down” o ”Dividir y conquista” conocido Algoritmo de Hunt.

Algoritmo de Hunt

Si todos los registros

X

i

pertenecen a la misma clase

Y

i

, entonces

i

es un nodo

hoja que se etiqueta como

Y

i

.

Si

X

i

contiene registros que pertenecen a m´

as de una clase, se escoge una variable

(atributo) para dividir los datos en subconjuntos m´

as peque˜

nos.

Recursivamente se aplica el procedimiento a cada subconjunto.

(27)

Arboles de decisi´

on

¿C´

omo escoger la variable atributo y como dividir los datos?

Lo mas recomendable es generar la divisi´

on de los datos de forma binaria para una f´

acil

interpretaci´

on del ´

arbol (algoritmo CART).

(28)

Arboles de decisi´

on

¿C´

omo escoger la variable atributo y como dividir los datos?

Para elegir las variables puede utilizar alguno de los siguientes criterios que miden el

grado de impureza (GI) de la divisi´

on de la variable atributo:

Error de clasifiaci´

on

error

(

i

) = 1

max

(

p

(

j

|

i

))

´Indice de Gini

Gini

(

i

) = 1

P

p

(

j

|

i

)

2

´Indice de Entrop´ıa

Entropia

(

i

) =

P

(29)

Arboles de decisi´

on

¿C´

omo escoger la variable atributo y como dividir los datos?

El grado total de impureza en el nivel se calcula para cada uno de los criterios con las

formulas que se muestran a continuaci´

on:

Error de clasifiaci´

on

error

=

P

ni

n

error

(

i

)

´Indice de Gini

Gini

(

i

) =

P

ni

n

Gini

(

i

)

´Indice de Entrop´ıa

Entropia

(

i

) =

P

ni

n

entropia

(

i

)

Donde

n

i

es el n´

umero de observaciones en el nodo

i

y

n

es el total de observaciones

(30)

Arboles de decisi´

on

Ejemplo

Considerando la siguiente tabla de datos, genere el ´

arbol de decisi´

on asociado

con-siderando el error de clasificaci´

on:

(31)

Arboles de decisi´

on

(32)

Arboles de decisi´

on

(33)

Arboles de decisi´

on

(34)

Arboles de decisi´

on

(35)

Arboles de decisi´

on

(36)

Arboles de decisi´

on

(37)

Arboles de decisi´

on

(38)

Arboles de decisi´

on

(39)

Arboles de decisi´

on

(40)

Arboles de decisi´

on

(41)

Arboles de decisi´

on

(42)

Arboles de decisi´

on

(43)

Arboles de decisi´

on

(44)

Arboles de decisi´

on

(45)

Arboles de decisi´

on

(46)

Arboles de decisi´

on

(47)

Arboles de decisi´

on

(48)

Arboles de decisi´

on

(49)

Contenido

1

Introducci´

on

2

Arboles de decisi´

´

on

3

Bootstrap Aggregating

(50)

Bootstrap Aggregating

Datos de entrenamiento

(Muestra de tamaño n)

Muestra 1 Muestra 1 Muestra m . . .

𝒇

𝟏

(𝒙)

𝒇

𝟐

(𝒙)

𝒇

𝒎

(𝒙)

Modelo de ensamble (resumen de un conjunto de m modelos de aprendizaje para mejorar el rendimiento predictivo)

𝑭 𝒙 = 𝑮(𝒇

𝟏

(𝒙), … , 𝒇

𝒎

(𝒙))

Donde G puede ser una medida de tendencia central en modelos de regresión o una proporción para modelos de clasificación. Ejemplo:

𝑮 𝒇𝟏𝒙 , … , 𝒇𝒎𝒙 = 𝟏

𝒎෍

𝒋 𝒇𝒋𝒙 Muestra bootstrap Ajuste de modelos

(51)

Bootstrap Aggregating

Datos de entrenamiento

(Muestra de tamaño n)

Muestra i

𝒇

𝒊

(𝒙)

Muestra bootstrap

Ajuste de modelos

Muestra de tamaño n con remplazo

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Datos de entrenamiento

4 25 27

10 30 8

15 9 17

6 35 28

15 7 35

10 22 30

15 31 20

29 36 19

18 36 15

11 15 26 21 19 12 34 31 23 Remuestreo i

(52)

Bootstrap Aggregating

Datos de entrenamiento

(Muestra de tamaño n)

Muestra 1 Muestra 1 Muestra m . . .

𝒇

𝟏

(𝒙)

𝒇

𝟐

(𝒙)

𝒇

𝒎

(𝒙)

Modelo de ensamble (resumen de un conjunto de m modelos de aprendizaje para mejorar el rendimiento predictivo)

𝑭 𝒙 = 𝑮(𝒇

𝟏

(𝒙), … , 𝒇

𝒎

(𝒙))

Donde G puede ser una medida de tendencia central en modelos de regresión o una proporción para modelos de clasificación. Ejemplo:

𝑮 𝒇𝟏𝒙 , … , 𝒇𝒎𝒙 = 𝟏

𝒎෍

𝒋 𝒇𝒋𝒙 Muestra bootstrap Ajuste de modelos

Muestra de tamaño n con remplazo

Puede presentar problemas de sobreajuste

(53)

Contenido

1

Introducci´

on

2

Arboles de decisi´

´

on

3

Bootstrap Aggregating

(54)

Bosques Aleatorios

Datos de entrenamiento (Muestra de tamaño

n con k variables)

Muestra 1 (k variables) Muestra 1 (k variables) Muestra m (k variables) . . .

𝒇𝟏(𝒙)

𝒇𝟐(𝒙)

𝒇𝒎(𝒙)

Muestra bootstrap Ajuste de modelos

Muestra de tamaño n con remplazo

Subespacio aleatorio

(𝒌variables)

Subespacio h´

(𝒌variables)

Subespacio 2

(𝒌variables)

Subespacio m

(𝒌variables)

. . .

Modelo de ensamble

(resumen de un conjunto de m modelos de aprendizaje para mejorar el rendimiento predictivo)

𝑭 𝒙 = 𝑮(𝒇𝟏(𝒙), … , 𝒇𝒎(𝒙))

Donde G puede ser una medida de tendencia central en modelos de regresióno una proporciónpara modelos de clasificación. Ejemplo:

𝑮 𝒇𝟏𝒙 , … , 𝒇𝒎𝒙 = 𝟏

𝒎෍

𝒋 𝒇𝒋𝒙

(55)

Bosques Aleatorios

Datos de entrenamiento (Muestra de tamaño

n con k variables)

Muestra 1 (k variables) Muestra m (k variables) . . .

𝒇

𝟏

(𝒙)

𝒇

𝒎

(𝒙)

Muestra bootstrap

Ajuste de modelos

Muestra de tamaño n con remplazo Split 1 Split h Split 1 Split h´ . . . . . .

Se genera un subespacio aleatorio para cada Split

Referencias

Documento similar

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)