cap 4 witen

(1)

Algoritmos: El Básicos Algoritmos: El Básicos Métodos Métodos CAPÍTULO CAPÍTULO 44

Ahora que hemos visto cómo se pueden representar las entradas y salidas, es

Ahora que hemos visto cómo se pueden representar las entradas y salidas, es el momentoel momento de

de

mirar a los algoritmos de aprendizaje propios. En este

mirar a los algoritmos de aprendizaje propios. En este capítulo se explican las ideas básicascapítulo se explican las ideas básicas detrás de las técnicas que se

detrás de las técnicas que se utilizan en la minería de utilizan en la minería de datos práctico. No vamos a ahondardatos práctico. No vamos a ahondar demasiado

demasiado

profundamente en las cuestiones más difíciles-avanzadas versiones de los algoritmos, profundamente en las cuestiones más difíciles-avanzadas versiones de los algoritmos, optimizaciones

optimizaciones

que son posibles, las complicaciones que surgen en la

que son posibles, las complicaciones que surgen en la práctica. Estos temas se difiepráctica. Estos temas se difieren aren a Capítulo 6, en el que

Capítulo 6, en el que luchar a brazo partido con las implementaciones reales deluchar a brazo partido con las implementaciones reales de aprendizaje automático

aprendizaje automático

esquemas como los incluidos en kits de

esquemas como los incluidos en kits de herramientas de minería de datos y utilizados paraherramientas de minería de datos y utilizados para el mundo real

el mundo real

aplicaciones. Es importante entender estos temas más avanzados para que aplicaciones. Es importante entender estos temas más avanzados para que saber lo que realmente está pasando cuando se analiza un conjunto de datos en saber lo que realmente está pasando cuando se analiza un conjunto de datos en particular.

particular.

En este capítulo nos fijamos en l

En este capítulo nos fijamos en las ideas básicas. Una de las leccias ideas básicas. Una de las lecciones más instructivas esones más instructivas es que las ideas simples a menudo funcionan muy bien,

que las ideas simples a menudo funcionan muy bien, y recomendamos encarecidamentey recomendamos encarecidamente la adopción de

la adopción de

una "simplicidad primer" metodología al analizar conjuntos de datos prácticos. Hay una "simplicidad primer" metodología al analizar conjuntos de datos prácticos. Hay muchos

muchos

diferentes tipos de estructura simple que los conjuntos de datos se pueden exhibir.

diferentes tipos de estructura simple que los conjuntos de datos se pueden exhibir. En unEn un conjunto de datos, hay

conjunto de datos, hay

podría ser un único atributo que hace todo el

podría ser un único atributo que hace todo el trabajo y los demás son irrelevantes otrabajo y los demás son irrelevantes o redundante. En otro conjunto de datos,

redundante. En otro conjunto de datos, los atributos pueden contribuir de los atributos pueden contribuir de formaforma independiente y

independiente y

igualmente para el resultado final. Un tercero podría tener una estructura l

igualmente para el resultado final. Un tercero podría tener una estructura lógica simple,ógica simple, que implica

(2)

sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En unun cuarto, puede haber

cuarto, puede haber

ser independientes unas pocas reglas que rigen la asignación de casos a diferentes ser independientes unas pocas reglas que rigen la asignación de casos a diferentes clases. Una quinta podría exhibir las dependencias entre los

clases. Una quinta podría exhibir las dependencias entre los diferentes subconjuntos dediferentes subconjuntos de atributos. la

atributos. la

sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que importa

importa

es una suma ponderada de

es una suma ponderada de valores de atributos con lvalores de atributos con los pesos elegidos adecuadamente.os pesos elegidos adecuadamente. En un séptimo,

En un séptimo,

clasificaciones apropiadas para regiones particulares del

clasificaciones apropiadas para regiones particulares del espacio instancia podrían serespacio instancia podrían ser gobernados

gobernados

por las distancias entre los propios casos. Y

por las distancias entre los propios casos. Y en una octava, podría ser queen una octava, podría ser que no se proporcionan valores de la clase: E

no se proporcionan valores de la clase: El aprendizaje es no supervisado.l aprendizaje es no supervisado.

En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán capaz es decir

capaz es decir

en busca de una clase de e

en busca de una clase de estructura puede perderse completamente regularidades de unastructura puede perderse completamente regularidades de una diferente

diferente

tipo, independientemente de cómo los rudimentario puede ser. El resultado es un

tipo, independientemente de cómo los rudimentario puede ser. El resultado es un estiloestilo barroco y

barroco y

estructura de clasificación opaca de un tipo en

estructura de clasificación opaca de un tipo en lugar de un simple, elegante, de inmediatolugar de un simple, elegante, de inmediato estructura comprensible de otro.

estructura comprensible de otro. Cada uno de los ocho ejemplos de

Cada uno de los ocho ejemplos de diferentes tipos de conjuntos de datos que acabamosdiferentes tipos de conjuntos de datos que acabamos de esbozar conduce a

de esbozar conduce a

un esquema de la máquina de aprendizaje diferente que es muy

un esquema de la máquina de aprendizaje diferente que es muy adecuado para eladecuado para el descubrimiento de la subyacente

descubrimiento de la subyacente concepto. Las secciones de este

concepto. Las secciones de este capítulo se miran el uno de capítulo se miran el uno de estas estructuras a su vez. Unestas estructuras a su vez. Un último sección presenta formas sencillas de hacer frente a

último sección presenta formas sencillas de hacer frente a los problemas de variaslos problemas de varias instancias, donde cada uno

instancias, donde cada uno

ejemplo comprende varios casos diferentes. ejemplo comprende varios casos diferentes.

(3)

sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En unun cuarto, puede haber

cuarto, puede haber

ser independientes unas pocas reglas que rigen la asignación de casos a diferentes ser independientes unas pocas reglas que rigen la asignación de casos a diferentes clases. Una quinta podría exhibir las dependencias entre los

clases. Una quinta podría exhibir las dependencias entre los diferentes subconjuntos dediferentes subconjuntos de atributos. la

atributos. la

sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que importa

importa

es una suma ponderada de

es una suma ponderada de valores de atributos con lvalores de atributos con los pesos elegidos adecuadamente.os pesos elegidos adecuadamente. En un séptimo,

En un séptimo,

clasificaciones apropiadas para regiones particulares del

clasificaciones apropiadas para regiones particulares del espacio instancia podrían serespacio instancia podrían ser gobernados

gobernados

por las distancias entre los propios casos. Y

por las distancias entre los propios casos. Y en una octava, podría ser queen una octava, podría ser que no se proporcionan valores de la clase: E

no se proporcionan valores de la clase: El aprendizaje es no supervisado.l aprendizaje es no supervisado.

En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán capaz es decir

capaz es decir

en busca de una clase de e

en busca de una clase de estructura puede perderse completamente regularidades de unastructura puede perderse completamente regularidades de una diferente

diferente

tipo, independientemente de cómo los rudimentario puede ser. El resultado es un

tipo, independientemente de cómo los rudimentario puede ser. El resultado es un estiloestilo barroco y

barroco y

estructura de clasificación opaca de un tipo en

estructura de clasificación opaca de un tipo en lugar de un simple, elegante, de inmediatolugar de un simple, elegante, de inmediato estructura comprensible de otro.

estructura comprensible de otro. Cada uno de los ocho ejemplos de

Cada uno de los ocho ejemplos de diferentes tipos de conjuntos de datos que acabamosdiferentes tipos de conjuntos de datos que acabamos de esbozar conduce a

de esbozar conduce a

un esquema de la máquina de aprendizaje diferente que es muy

un esquema de la máquina de aprendizaje diferente que es muy adecuado para eladecuado para el descubrimiento de la subyacente

descubrimiento de la subyacente concepto. Las secciones de este

concepto. Las secciones de este capítulo se miran el uno de capítulo se miran el uno de estas estructuras a su vez. Unestas estructuras a su vez. Un último sección presenta formas sencillas de hacer frente a

último sección presenta formas sencillas de hacer frente a los problemas de variaslos problemas de varias instancias, donde cada uno

instancias, donde cada uno

ejemplo comprende varios casos diferentes. ejemplo comprende varios casos diferentes.

(4)

4.1 INFERIR REGLAS rudimentaria 4.1 INFERIR REGLAS rudimentaria Aquí está una manera fácil de

Aquí está una manera fácil de encontrar reglas de clasificación muy simples de encontrar reglas de clasificación muy simples de unun conjunto de instancias.

conjunto de instancias.

Llamado 1Rfor 1-regla, se genera un árbol de decisión de un nivel expresado en la forma Llamado 1Rfor 1-regla, se genera un árbol de decisión de un nivel expresado en la forma de un conjunto de reglas que todas las

de un conjunto de reglas que todas las pruebas de un atributo particular. 1R es un pruebas de un atributo particular. 1R es un simple,simple, barato

barato

método que a menudo viene con muy buenas reglas para la

método que a menudo viene con muy buenas reglas para la caracterización de lacaracterización de la estructura

estructura

en datos. Resulta que las reglas simples con

en datos. Resulta que las reglas simples con frecuencia alcanzan sorprendentemente altafrecuencia alcanzan sorprendentemente alta precisión. Tal vez esto

precisión. Tal vez esto se debe a que la estructura que subyace se debe a que la estructura que subyace a muchas bases de datosa muchas bases de datos del mundo real

del mundo real

es bastante rudimentario, y sólo un atributo es suficiente para determinar la clase es bastante rudimentario, y sólo un atributo es suficiente para determinar la clase de una instancia con bastante precisión. En cualquier caso, siempre

de una instancia con bastante precisión. En cualquier caso, siempre es un buen plan paraes un buen plan para tratar el

tratar el

las cosas más simples primero. las cosas más simples primero. La idea es la

La idea es la siguiente: Hacemos reglas que ponen a prueba un solo atributo y sucursal ensiguiente: Hacemos reglas que ponen a prueba un solo atributo y sucursal en consecuencia. Cada rama corresponde a un valor diferente del atributo. Es

consecuencia. Cada rama corresponde a un valor diferente del atributo. Es obvioobvio

¿cuál es la mejor clasificación para dar a cada rama: Utilice la clase que se presenta con ¿cuál es la mejor clasificación para dar a cada rama: Utilice la clase que se presenta con mayor

mayor

a menudo en los datos de entrenamiento. Entonces la tasa de

a menudo en los datos de entrenamiento. Entonces la tasa de error de las normas seerror de las normas se puede determinar fácilmente.

puede determinar fácilmente.

Simplemente contar los errores que se producen en l

Simplemente contar los errores que se producen en los datos-que la formación es, elos datos-que la formación es, el número de casos

número de casos que no tienen la clase

que no tienen la clase mayoritaria.mayoritaria.

Cada atributo genera un conjunto diferente de reglas, una regla para cada valor de Cada atributo genera un conjunto diferente de reglas, una regla para cada valor de lala atribuir. Evaluar la tasa de error para el

atribuir. Evaluar la tasa de error para el conjunto de reglas de cada atributo y elegir conjunto de reglas de cada atributo y elegir lala mejor. es

mejor. es

así de simple! La Figura 4.1

así de simple! La Figura 4.1 muestra el algoritmo en forma de pseudocódigo.muestra el algoritmo en forma de pseudocódigo. Para ver el método 1R

Para ver el método 1R en el trabajo, tenga en cuenta los datos meteorológicos de en el trabajo, tenga en cuenta los datos meteorológicos de la Tablala Tabla 1.2 en la página 10

1.2 en la página 10

(vamos a encontrar muchas veces de nuevo al

(5)

trabajo). Para clasificar en la última columna, juego,

trabajo). Para clasificar en la última columna, juego, 1R considera cuatro conjuntos de1R considera cuatro conjuntos de reglas, una para

reglas, una para

cada atributo. Estas reglas se muestran en la Tabla 4.1.

cada atributo. Estas reglas se muestran en la Tabla 4.1. Un asterisco indica que unaUn asterisco indica que una elección al azar se

elección al azar se ha hecho entre dos resultados igualmente probables. El número deha hecho entre dos resultados igualmente probables. El número de los errores se dan para cada regla,

los errores se dan para cada regla, junto con el número total de errores junto con el número total de errores para el conjuntopara el conjunto de reglas como

de reglas como un todo. 1R elige

un todo. 1R elige el atributo que produce reglas con el menor número de el atributo que produce reglas con el menor número de errores, es decir,errores, es decir, el primer y tercer

el primer y tercer conjuntos de reglas. Arbitrariamente romper el empate entre estosconjuntos de reglas. Arbitrariamente romper el empate entre estos dos conjuntos de reglas da

dos conjuntos de reglas da

perspectivas: soleado → ninguna perspectivas: soleado → ninguna nublado → sí

nublado → sí lluvioso → sí lluvioso → sí

Observamos en primer lugar que el juego para los

Observamos en primer lugar que el juego para los datos de tiempo es indeterminado.datos de tiempo es indeterminado. extrañamente

extrañamente

suficiente, se jugó al parecer

suficiente, se jugó al parecer cuando está nublado o lluvioso, pero no cuando hace scuando está nublado o lluvioso, pero no cuando hace sol.ol. Tal vez es una búsqueda interior.

Tal vez es una búsqueda interior.

Valores perdidos y atributos numéricos Valores perdidos y atributos numéricos Aunque un esquema de aprendizaje muy

Aunque un esquema de aprendizaje muy rudimentaria, 1R no acomodar ambosrudimentaria, 1R no acomodar ambos desaparecidos

desaparecidos

valores y atributos numéricos. Se ocupa de estos en

valores y atributos numéricos. Se ocupa de estos en formas sencillas, pero eficaces.formas sencillas, pero eficaces. Missingis tratado como un valor de atributo de modo que, por ejemplo,

Missingis tratado como un valor de atributo de modo que, por ejemplo, si el tiemposi el tiempo

datos contenía valores que faltan para el atributo de perspectiva, un conjunto de reglas de datos contenía valores que faltan para el atributo de perspectiva, un conjunto de reglas de forma sobre

forma sobre

outlookwould especificar cuatro valores posibles de clase, uno para cada uno

outlookwould especificar cuatro valores posibles de clase, uno para cada uno de soleado,de soleado, nublado,

nublado,

y lluviosa, y un

y lluviosa, y un cuarto para faltar.cuarto para faltar.

Podemos convertir los atributos numéricos en los nominales utilizando un método de Podemos convertir los atributos numéricos en los nominales utilizando un método de discretización simple. En primer lugar, ordenar los

discretización simple. En primer lugar, ordenar los ejemplos de entrenamiento de acuerdoejemplos de entrenamiento de acuerdo con los valores de la

con los valores de la

atributo numérico. Esto produce una secuencia de valores de clase.

atributo numérico. Esto produce una secuencia de valores de clase. Por ejemplo, laPor ejemplo, la clasificación

(6)

la versión numérica de los datos del tiempo (Tabla 1.3, página 11) de acuerdo con la valores de temperatura produce la secuencia

Discretización implica la partición de esta secuencia mediante la colocación de los puntos de interrupción en el mismo.

Una posibilidad es colocar puntos de interrupción siempre que los cambios de clase, la producción de la

siguientes ocho categorías:

sí | no | sí sí sí | no no | sí sí sí | no | sí sí | no

La elección de los puntos de interrupción a mitad de camino entre los ejemplos a cada lado los coloca

en 64,5, 66,5, 70,5, 72, 77,5, 80,5 y 84. Sin embargo, los dos casos con

valor 72 causa un problema debido a que tienen el mismo valor de temperatura, pero caer en diferentes clases. La solución más sencilla es mover el punto de corte en 72 hasta un ejemplo, a 73,5, produciendo una partición mixto en el que no es la mayoría

clase.

Un problema más serio es que este procedimiento tiende a formar una excesivamente gran número de categorías. El método 1R, naturalmente gravitan hacia la elección de un atributo que se divide en varias categorías, ya que esta será la partición de la

conjunto de datos en muchas piezas, por lo que es más probable que los casos tendrán el mismo

clase como la mayoría en su partición. De hecho, el caso límite es un atributo que

tiene un valor diferente para cada instancia, es decir, una identificación que CodeAttribute señala los casos de forma única, y esto le dió una tasa de error cero en la formación

establecer porque cada partición contiene sólo un ejemplo. Por supuesto, altamente ramificación

atributos por lo general no funcionan bien en los ejemplos de ensayo; de hecho, la identificación

atributo código nunca recibirá ejemplos fuera del conjunto de entrenamiento correcto. este

(7)

fenómeno se conoce como overfitting; ya hemos descrito overfittingavoidance sesgo en el Capítulo 1, y vamos a encontrar este problema en varias ocasiones en

los capítulos siguientes.

Para 1R, overfitting es probable que se produzca cada vez que un atributo tiene un gran número

de valores posibles. En consecuencia, al discretizar un atributo numérico, un mínimo

No se impone límite en el número de ejemplos de la clase de la mayoría en cada partición. Supongamos que ese mínimo se fija en 3. Esto elimina todos menos dos de los anteriores particiones. En su lugar, se inicia el proceso de partición

sí no sí sí | sí ...

asegurar que hay tres apariciones de sí, la clase de la mayoría, en la primera partición. Sin embargo, debido a que el siguiente ejemplo es también sí, no perdemos nada al incluir que en la primera partición, también. Esto lleva a una nueva división de

sí no sí sí sí | no no sí sí sí | no sí sí no

donde cada partición contiene al menos tres instancias de la clase de la mayoría, excepto el último, que por lo general tienen menos. Límites de la partición siempre caen entre ejemplos de diferentes clases.

Siempre que sea particiones adyacentes tienen la misma clase de la mayoría, al igual que los dos primeros

particiones anteriores, que se pueden combinar juntos sin afectar el significado de la conjuntos de reglas. Por lo tanto, la discretización final es

sí no sí sí sí no no sí sí sí | no sí sí no lo que conduce al conjunto de reglas temperatura: ≤ 77,5 → sí

> 77,5 → ninguna

La segunda regla involucrada una elección arbitraria; como sucede, No¿Ha elegidos. si yeshad sido elegido en lugar, no habría necesidad de ningún punto de interrupción en absoluto, y

(8)

como ilustra este ejemplo, puede ser que sea mejor utilizar las categorías adyacentes para ayudar a

romper los lazos. De hecho, esta regla genera cinco errores en el conjunto de entrenamiento y por lo tanto es menos

efectiva que la regla anterior para la perspectiva. Sin embargo, el mismo procedimiento conduce a

esta regla para la humedad: Humedad: ≤ 82,5 → sí > 82,5 y 95,5 ≤ → ninguna > 95,5 → sí

Esto genera sólo tres errores en el conjunto de entrenamiento y es el mejor 1 -regla para los datos

en la Tabla 1.3.

Por último, si un atributo numérico tiene valores perdidos, una categoría adicional es creado para ellos, y el procedimiento de discretización se aplica sólo para los casos de que se define el valor del atributo.

discusión

En un artículo seminal titulado "reglas de clasificación muy simples funcionan bien en la mayoría

comúnmente utilizado conjuntos de datos "(Holte, 1993), un estudio exhaustivo de la actuación

del procedimiento 1R se informó en 16 conjuntos de datos utilizados con frecuencia por la máquina de aprendizaje

investigadores para evaluar sus algoritmos. La validación cruzada, una técnica de evaluación

que explicaremos en el capítulo 5, se utilizó para asegurar que los resultados fueron los mismos

como se obtendría en conjuntos de pruebas independientes. Después de un poco de experimentación, la

número mínimo de ejemplos en cada partición de un atributo numérico se fijó en seis, no tres como se utiliza en nuestra ilustración.

(9)

Sorprendentemente, a pesar de su simplicidad 1R fue bien en comparación con los sistemas de aprendizaje-el-arte stateof, y las reglas que produjo resultó ser sólo unos pocos

puntos porcentuales menos preciso, en casi todos los conjuntos de datos, de la dec isión árboles producidos por un esquema de árbol de decisión de la inducción del estado de la técnica. Estos árboles

eran, en general, considerablemente más grandes que las reglas de 1R. Reglas que ensayan una sola

atributo son a menudo una alternativa viable a las estructuras más complejas, y esta fuertemente

alienta una metodología simplicidad primero en el que el rendimiento de referencia es establecido el uso de técnicas simples, rudimentarias antes de pasar a sistemas de

aprendizaje más sofisticados, lo que inevitablemente genera salida que es más difícil para las personas

de interpretar.

El procedimiento 1R aprende un árbol de decisiones de un nivel cuyas hojas representan la

varias clases diferentes. Una técnica ligeramente más expresivo es utilizar una diferente gobernar para cada clase. Cada regla es un conjunto de pruebas, una para cada atr ibuto. para

numérico atribuye los controles de prueba si el valor se encuentra dentro de un intervalo dado;

para los nominales comprueba si está en un cierto subconjunto de los valores de ese atributo.

Estos dos tipos de pruebas, es decir, los intervalos y los subconjuntos se aprenden desde la

datos de entrenamiento que pertenecen a cada una de las clases. Para un atributo

numérico, el fin puntos del intervalo son los valores mínimos y máximos que se producen en el

datos de entrenamiento de esa categoría. Para un nominal, el subconjunto contiene sólo aquellos valores

que ocurren para ese atributo en los datos de entrenamiento para la clase individual. Reglas

(10)

que representan clases diferentes por lo general se superponen, y en tiempo de la predicción del uno con

las pruebas más coincidentes se predice. Esta sencilla técnica a menudo le da una útil primera impresión de un conjunto de datos. Es extremadamente rápido y puede ser aplicado a muy grande

cantidades de datos.

4.2 MODELADO ESTADÍSTICO

El método 1R utiliza un solo atributo como base para sus decisiones y elige el

uno que funcione mejor. Otra técnica sencilla es utilizar todos los atributos y permitirles a hacer contribuciones a la decisión que son igualmente independentof importantand entre sí, dada la clase. Esto no es realista, por supuesto: ¿Qué hace en la vida real conjuntos de datos interesante es que los atributos no son ciertamente igualmente importante o independiente. Pero lleva a un esquema simple que, de nuevo, funciona sorprendentemente bien en

práctica.

Tabla 4.2 muestra un resumen de los datos meteorológicos obtenidos contando cuántos veces cada par atributo-valor se produce con cada valor (Síy no) para el juego. para ejemplo, se puede ver en la Tabla 1.2 (página 10) que el panorama es soleado durante cinco

ejemplos, dos de los cuales tienen el juego = Síy tres de los cuales tienen el juego = no. la las células en la primera fila de la nueva tabla, simplemente cuentan estas ocurrencias para todos los valores posibles de cada atributo, y la figura juego en la columna final cuenta el

número total de ocurrencias de Síy no. La parte inferior de la tabla contiene la

misma información expresada en fracciones, o probabilidades observadas. Por ejemplo, de los nueve días que el juego es sí, la perspectiva es soleado para dos, dando una fracción de

9.2. Para reproducirThe fracciones son diferentes: son la proporción de días que jugar es Síy no, respectivamente.

(11)

Ahora supongamos que nos encontramos con un nuevo ejemplo con los valores que se muestran en

Tabla 4.3. Tratamos a las cinco características de la Tabla 4.2-perspectiva, la temperatura, la humedad,

viento, y la probabilidad global de que playis Sío no-como igualmente importantes piezas, independientes de pruebas y se multiplican las fracciones correspondientes. En cuanto a la

yesgives resultados

Probabilidad de sí = × × × × = 2 9 3 9 3 9 3 9 9 14 0 0053.

Las fracciones se toman de las entradas sí en la mesa de acuerdo a los valores

de los atributos para el nuevo día, y la final 9/14 es la fracción global que representa la proporción de días en que el juego es sí. Un cálculo similar para

el resultado no conduce a

Probabilidad de no = × × × × = 3 5 1 5 4 5 3 5 5 14 0

Esto indica que para el nuevo día, nois más probabilidades que sí-cuatro veces más

probable. Los números pueden convertirse en probabilidades por la normalización de ellos para que que suman 1: Probabilidad de sí = + = 0 0053 0 0053 0 0206 20 5 . . . . % Probabilidad de no = +

(12)

= 0 0206 0 0053 0 0206 79 5 . . . . %

Este método simple e intuitiva se basa en la regla de la probabilidad condicional de Bayes. La regla de Bayes dice que si usted tiene una evidencia Mano hipótesis Ethat osos en que hipótesis, entonces Pr [|] Pr [|] Pr [] Pr [] H E E H H E =

Utilizamos la notación que Pr [A] indica la probabilidad de un evento A y Pr [A | B] denota la probabilidad de Aconditional en otro evento B. La hipótesis Su

que reproducirWill ser, dicen, sí, y Pr [H | E] va a llegar a ser el 20,5%, al igual que determinado previamente. La evidencia E es la combinación particular de atributo valores para el nuevo día de Outlook = soleado, temperatura = frío, humedad = alta, y viento = true. Llamemos a estas cuatro piezas de evidencia E1

, E2 , E3 , Y E4

(13)

Suponiendo que estos elementos de prueba son independientes (dada la clase), su probabilidad combinada se obtiene multiplicando las probabilidades:

Pr [|] Pr [|] Pr [|] Pr [|] Pr [|] Pr [ Sí E E E sí sí sí E E sí y = × × × × 1 2 3 4 ees E ] Pr []

No te preocupes por el denominador: Vamos a ignorarlo y eliminarlo en el

etapa de normalización definitiva cuando hacemos las probabilidades para sí y no suma a 1,

tal como lo hicimos anteriormente. El Pr [sí] al final es la probabilidad de que un yesoutcome

sin saber nada de la evidencia E, es decir, sin saber nada de el día en cuestión, y se llama la previa probabilityof la hipótesis

H. En este caso, es sólo 9/14, ya que 9 de los 14 ejemplos de entrenamiento tenía un sí valor para el juego. La sustitución de las fracciones de la Tabla 4.2 para las pruebas apropiadas probabilidades conduce a Pr [|] Pr [] Sí E E = × × × × 2 9 3 9 3 9 3 9 9 14

(14)

cuando normalizamos.

Este método se conoce con el nombre de Naïve Bayesbecause Se basa en la regla de Bayes y "ingenuamente" asume la independencia sólo es válido para multiplicar las

probabilidades cuando

los eventos son independientes. La suposición de que los atributos son independientes (dado

la clase) en la vida real, sin duda es una simplista. Pero a pesar del nombre despectivo, Naïve Bayes funciona de manera muy eficaz cuando se probó en conjuntos de datos reales, sobre todo cuando

combinado con algunos de los procedimientos de selección de atributos, que se introducen en

Capítulo 7, que elimina redundante, y por lo tanto no-independiente, atribuye. Las cosas van mal mal en Naïve Bayes si un valor de atributo en particular no lo hace ocurrir en el conjunto de entrenamiento en conjunto con valor everyclass. Supongamos que en el

datos de entrenamiento la perspectiva de valor de atributo = soleado siempre se asoció con la

resultado que no. Entonces la probabilidad de perspectivas = ser soleado dado un sí, es decir,

Pr [perspectivas = soleado | sí] suerte con la cero, y porque las otras probabilidades son multiplicado por ello, la probabilidad final de Yesin el ejemplo anterior sería cero

no importa lo grande que eran. Las probabilidades de que sean cero tienen un derecho de veto sobre el otro

queridos. Esto no es una buena idea. Pero el error se puede arreglar fácilmente por pequeños ajustes

el método de cálculo de probabilidades de frecuencias.

Por ejemplo, la parte superior de la Tabla 4.2 muestra que para el juego = yes, outlookis sunnyfor dos ejemplos, overcastfor cuatro y rainyfor tres, y la parte inferior

da estos eventos probabilidades de 2/9, 4/9, y 3/9, respectivamente. En su lugar, podríamos

(15)

probabilidades de 3/12, 5/12, y 4/12, respectivamente. Esto asegurará que un atributo valor que se produce cero veces recibe una probabilidad que es distinto de cero, aunque pequeña.

La estrategia de la adición de 1 a cada recuento es una técnica estándar llamado el Laplace estimatorafter el gran matemático francés del siglo XVIII Pierre Laplace.

Aunque funciona bien en la práctica, no hay ninguna razón particular para la adición de 1 a la

recuentos: Podríamos elegir un lugar pequeño μand uso constante 2 3 9 4 3 9 3 3 9 + + + + + + μ μ μ μ μ μ , Y

(16)

Determina cómo influyente de los valores a priori de 1/3, 1/3, y 1/3 son para cada uno de los

tres posibles valores de los atributos. A grandes μsays que estos priores son muy importantes

en comparación con las nuevas pruebas que viene del conjunto de entrenamiento, mientras que una pequeña

uno les da menos influencia. Finalmente, no hay ninguna razón particular para dividir μ en tres equalparts en los numeradores: Podríamos utilizar en cambio, donde p1

, p2 , Y p3

resumir a 1. En efecto, estas tres cifras son, a priori,

probabilidades de los valores de la outlookattribute siendo soleado, nublado, lluvioso y, respectivamente.

Esto es ahora una formulación completamente bayesiano donde probabilidades previas han sido

asignado a todo a la vista. Tiene la ventaja de ser completamente riguroso, pero

la desventaja de que no es usualmente claro hasta qué punto estas probabilidades a priori debería

ser asignada. En la práctica, las probabilidades previas hacen poca diferencia siempre que hay un número razonable de casos de formación, y la gente en general, sólo estiman frecuencias utilizando el estimador de Laplace inicializando todos los cargos a 1 en lugar de 0.

Valores perdidos y atributos numéricos

Una de las cosas realmente buenas de Naïve Bayes es que los valores que faltan no son un problema

en absoluto. Por ejemplo, si el valor de outlookwere que falta en el ejemplo de la Tabla 4.3, el cálculo sería simplemente omitir este atributo, produciendo

Probabilidad de sí = × × × = 3 9 3 9 3 9 9 14 0 0238. Probabilidad de no = × × × = 1 5 4 5 3 5 5 14 0 0 343.

(17)

de las fracciones que falta. Pero eso no es un problema, ya que una fracción no se encuentra en

ambos casos, y estas probabilidades están sujetos a un proceso de normalización más. este

produce probabilidades para Síy Noof 41% y 59%, respectivamente.

Si falta un valor en una instancia de la formación, es simplemente no incluido en los conteos de frecuencia, y las relaciones de probabilidad se basa en el número de valores que

en realidad producirse más que en el número total de casos.

Los valores numéricos son generalmente tramitadas por el supuesto de que tienen un "normal" o

Distribución de probabilidad "Gaussian". Tabla 4.4 ofrece un resumen de los datos meteorológicos

con características numéricas de la Tabla 1.3. Para los atributos nominales, calculamos cuenta como

antes, mientras que para los numéricos simplemente una lista de los valores que se producen. Entonces, en lugar de

la normalización de los recuentos en probabilidades como lo hacemos para atributos nominales, calculamos

la media y la desviación estándar para cada clase y cada atributo numérico. la

valor medio de los temperatureover yesinstances es 73, y su desviación estándar es de 6.2. La media es simplemente el promedio de los valores, es decir, la suma dividida por el número de valores. La desviación estándar es la raíz cuadrada de la varianza de la

muestra,

que se calcula de la siguiente manera: Restar la media de cada valor, la cuadratura del resultado,

suman juntas, y luego dividir por uno menos el número thanthe de valores. Después de que

haber encontrado este "varianza de la muestra," tomar su raíz cuadrada para obtener la desviación estándar.

Esta es la forma estándar de cálculo de la media y la desviación estándar de un conjunto de números. (El "uno menos que" tiene que ver con el número de grados de libertad

(18)

en la muestra, una noción estadística que no queremos entrar en aquí.)

La función de densidad de probabilidad para una distribución normal con media μ y desviación estándar σis dada por la expresión más formidable

f x correo x () () = -1 2 2 2 2 πσ μ σ

Pero no temas! Todo esto significa es que si estamos considerando un resultado que sí cuando

temperaturehas un valor de, por ejemplo, de 66 años, sólo tenemos que conectar x = 66, μ = 73 y σ =

6,2 en la fórmula. Así que el valor de la función de densidad de probabilidad es temperatura f sí e (|)

. . () . = =

(19)

× = -× 66 1 2 6 2 0 0340 66 73 2 6 2 2 2 π

Y por la misma razón, humidityhas la densidad de probabilidad de una yesoutcome cuando

un valor de, digamos, 90, se calcula de la misma manera: f humedad sí (|). = = 0 90 0221

La función de densidad de probabilidad para un evento está muy estrechamente relacionado con su probabilidad. Sin embargo, no es exactamente lo mismo. Si la temperatura es una escala continua,

la probabilidad de que la temperatura siendo exactly66-o exactlyany otro valor, tales como 63.14159262-es cero. El verdadero significado de la función de densidad f (x) es que la

probabilidad de que la cantidad se encuentra dentro de una pequeña región alrededor de x, es decir, entre x -ε / 2

y x + ε / 2, es ε × f (x). Se podría pensar que deberíamos tener en cuenta la cifra precisión ε cuando se utilizan estos valores de densidad, pero eso no es necesario. El mismo

(20)

tanto en el nolikelihoods Síy que siguen y anulan cuando las probabilidades se calcularon.

El uso de estas probabilidades para el nuevo día en la Tabla 4.5 rendimientos Probabilidad de sí = × × × × = 2 9 0 0340 0 0221 3 9 9 14 0 000 036. . .

Probabilidad de no = × × × × = 3 5 0 0279 0381 0 3 5 5 14 0 000 137. . . lo que conduce a las probabilidades

Probabilidad de sí = + = 0 000036 0 000036 0 000137 20 8

Estas cifras están muy cerca de las probabilidades calculadas anteriormente para el nuevo día

en la Tabla 4.3, porque los humidityvalues temperatureand de 66 y 90 rendimiento similar probabilidades a los highvalues cooland utilizados antes.

El supuesto normal de distribución hace que sea fácil de extender la Naïve Bayes

clasificador tratar con atributos numéricos. Si los valores de los atributos numéricos son desaparecidos, los cálculos de la media y la desviación estándar se basan sólo en los que están presentes.

Naïve Bayes para la clasificación de documentos

Un dominio importante para el aprendizaje de la máquina es la clasificación de documentos, en el que cada

instancia representa un documento y la clase de la instancia es el tema del documento. Los documentos podrían ser noticias y las clases podrían ser noticia nacional, el extranjero noticias, noticias financieras, y deportes. Los documentos se car acterizan por las palabras que

aparece en ellos, y una manera de aplicar la máquina de aprendizaje para documentar la clasificación es

(21)

para el tratamiento de la presencia o ausencia de cada palabra como un atributo booleano. Naïve Bayes es

una técnica popular para esta aplicación, ya que es muy rápido y muy exacto. Sin embargo, esto no tiene en cuenta el número de ocurrencias de cada

palabra, que es información potencialmente útil para determinar la categoría de un documento. En lugar de ello, un documento puede ser visto como una bolsa de palabras: un conjunto que contiene

todas las palabras en el documento, con varias apariciones de una palabra que aparece varias veces (técnicamente, un setincludes cada uno de sus miembros sólo una vez, mientras que una bolsa

puede tener elementos repetidos). Frecuencias de palabras se pueden acomodar mediante la aplicación de

una forma modificada de Naïve Bayes llama multinominalNaïve Bayes.

Supongamos que n1, n2, ..., NKIS el número de veces ioccurs de palabras en el documento, y P1, P2,

..., PKI la probabilidad de obtener la palabra de muestreo ICuando de todos los documentos

categoría H. Supongamos que la probabilidad es independiente del contexto de la palabra y la posición

en el documento. Estos supuestos conducen a un documento distributionfor multinomial probabilidades. Para esta distribución, la probabilidad de un documento Egiven su clase H -in

Es decir, la fórmula para el cálculo de la probabilidad Pr [E | H] en Bayes regla- es Pr [] E H N P n yo n i i k i

(22)

|! ! = × = Π 1

donde N = n1 + n2 + ... + NKIS el número de palabras en el documento. La razón de la factoriales es para tener en cuenta el hecho de que el orden de las ocurrencias de cada palabra es

inmaterial de acuerdo con el modelo de bolsa-de-palabras. PII estimado calculando la relación

frecuencia de palabra iin el texto de todos los documentos de formación relacionados con la categoría H. En

realidad, no podría ser un término más que da la probabilidad de que el modelo de la categoría

Hgenerates un documento cuya longitud es la misma que la longitud de E, pero es común a

asumir que este es el mismo para todas las clases y por lo tanto se puede descartar. Por ejemplo, supongamos que hay solamente dos palabras, yellowand azul, en el

vocabulario, y una clase particular documento HHA Pr [amarillo | H] = 75% y Pr [azul | H] = 25% (se podría llamar clase hthe de greendocuments amarillento). Supongamos que el Eis

documentar azul bluewith amarilla una longitud de N = 3 palabras. Hay cuatro posibles bolsas de tres palabras. Uno de ellos es {amarillo amarillo amarillo}, y su probabilidad de acuerdo con la fórmula anterior es Pr [{} |]! . ! .

(23)

!

amarillo amarillo amarillo H = × × = 3 0 75 3 0 25 0 27 64 3 0

Los otros tres, con sus probabilidades, son Pr [{azul azul azul H} |] =

1 64

Pr [{amarillo amarillo azul H} |] = 27

64

Pr [{H amarillo azul azul} |] = 9

64

Ecorresponds a este último caso (recuerdan que en una bolsa de palabras, el orden es indiferente);

por lo tanto, su probabilidad de ser generados por el modelo greendocument amarillento es

9/64, o el 14%. Supongamos otra clase, greendocuments muy azulados (lo llaman H '), tiene

Pr [amarillo | H '] = 10% y Pr [azul | H'] = 90%. La probabilidad de que Eis generado por este modelo es del 24%.

(24)

clase de documento? No necesariamente. La regla de Bayes, dado anteriormente, dice que usted tiene que

tener en cuenta la probabilidad a priori de cada hipótesis. Si usted sabe que, de hecho, muy greendocuments azulados son dos veces tan raro como greenones amarillentas, esto ser sólo suficiente para compensar la disparidad de 14 a 24% e inclinar la balanza a favor de la greenclass amarillento.

Los factoriales en la fórmula de probabilidad no necesitan realmente ser computado porque, al ser el mismo para todas las clases, que haya que dejar en el proceso de normalización

de todos modos. Sin embargo, la fórmula todavía implica multiplicar juntos muchas probabilidades pequeñas, que pronto se produce extremadamente pequeños números que causan underflow en gran

documentos. El problema se puede evitar mediante el uso de los logaritmos de las probabilidades

en lugar de los propios probabilidades.

En la formulación Naïve Bayes multinomial se determina la clase de un documento no sólo por las palabras que ocurren en él, sino también por el número de veces que se producen. en

general, funciona mejor que el modelo de Naïve Bayes ordinario para la clasificación de documentos, en particular para grandes tamaños de diccionario.

discusión

Naïve Bayes da un enfoque simple, con una semántica clara, a representar, utilizando, y el aprendizaje de conocimiento probabilístico. Se puede lograr resultados

impresionantes. La gente a menudo

encontrar que Naïve Bayes rivales, y de hecho supera, clasificadores más sofisticados en muchos conjuntos de datos. La moraleja es, siempre trato de las cosas simples primero. Una y otra vez

otra vez la gente ha finalmente, después de una lucha prolongada, logró obtener una buena

resultados utilizando esquemas de aprendizaje sofisticadas, sólo para descubrir más tarde que sencilla

(25)

métodos como 1R y Naïve Bayes hacen igual de bien o incluso mejor.

Hay muchos conjuntos de datos para el que Naïve Bayes no lo hace bien, sin embargo, y es fácil ver por qué. Debido a que los atributos son tratados como si fueran

independientes

dada la clase, la adición de los redundantes sesga el proceso de aprendizaje. como ejemplo extremo, si usted fuera a incluir un nuevo atributo con los mismos valores que la temperatura a los datos de tiempo, el efecto de la temperatura sería atributo

multiplicada: Todas sus probabilidades serían cuadrados, lo que supone una gran cantidad más

influencia en la decisión. Si se va a añadir 10 tales atributos, las decisiones haría

efectivamente hacerse en temperaturealone. Las dependencias entre atributos reducen inevitablemente el poder de Naïve Bayes para discernir lo que está pasando. Ellos pueden, sin embargo, ser mejorado mediante el uso de un subconjunto de los atributos en el

procedimiento de decisión,

hacer una selección cuidadosa de cuáles usar. Capítulo 7 muestra cómo.

El supuesto de distribución normal para los atributos numéricos es otra restricción

en Naïve Bayes como hemos formulado aquí. Muchas de las funciones simplemente no se distribuyen normalmente. Sin embargo, no hay nada que nos impida el uso de otros

distribuciones no hay nada mágico acerca de la distribución normal. Si conoces

que un atributo particular, es probable que siga alguna otra distribución, procedimientos de estimación estándar para que la distribución se pueden utilizar en su lugar. Si usted sospecha que no es

normal, pero no sé la distribución real, existe un procedimiento para "kernel

estimación de la densidad "que no asume ninguna distribución particular para el atributo valores. Otra posibilidad es simplemente para discretizar los datos primero.

4.3 de divide y vencerás: CONSTRUCCIÓN ÁRBOLES DE DECISIÓN

El problema de construir un árbol de decisión se puede expresar de forma recursiva. En primer lugar,

(26)

valor. Esto divide el

valor. Esto divide el ejemplo conjunto en subconjuntos, uno para cada valor del atributo.ejemplo conjunto en subconjuntos, uno para cada valor del atributo. Ahora, el proceso se puede repetir de

Ahora, el proceso se puede repetir de forma recursiva para cada rama, utilizando sóloforma recursiva para cada rama, utilizando sólo aquellos

aquellos

instancias que en realidad llegan a la rama.

instancias que en realidad llegan a la rama. Si en cualquier momento todos los casos en unSi en cualquier momento todos los casos en un nodo tienen

nodo tienen

la misma clasificación, se detiene el desarrollo de esa parte del árbol. la misma clasificación, se detiene el desarrollo de esa parte del árbol. Lo único que queda es cómo

Lo único que queda es cómo determinar qué atributo para dividir en, dado un conjunto dedeterminar qué atributo para dividir en, dado un conjunto de ejemplos con diferentes clases. Considere la posibilidad de

ejemplos con diferentes clases. Considere la posibilidad de (otra vez!) Los datos(otra vez!) Los datos meteorológicos. Hay cuatro

meteorológicos. Hay cuatro

posibilidades para cada división, y en el nivel

posibilidades para cada división, y en el nivel superior que producen los árboles en lasuperior que producen los árboles en la Figura 4.2.

Figura 4.2.

¿Cuál es la mejor opción? El número de noclasses Síy se muestra en las hojas. ¿Cuál es la mejor opción? El número de noclasses Síy se muestra en las hojas. Cualquier hoja con una sola clase-Sío

Cualquier hoja con una sola clase-Sío no-no tendrá que dividirse aún más, y lano-no tendrá que dividirse aún más, y la

proceso recursivo abajo esa rama terminará. Porque buscamos árboles pequeños, que proceso recursivo abajo esa rama terminará. Porque buscamos árboles pequeños, que le gustaría que esto suceda tan pronto como sea posible.

le gustaría que esto suceda tan pronto como sea posible. Si tuviéramos una medida de laSi tuviéramos una medida de la pureza de cada

pureza de cada

nodo, podríamos elegir el atributo que produce los nodos hija más puros. tome nodo, podríamos elegir el atributo que produce los nodos hija más puros. tome unun

momento para mirar a la figura 4.2 y reflexionar que atribuir crees que es la mejor opción. momento para mirar a la figura 4.2 y reflexionar que atribuir crees que es la mejor opción. La medida de la pureza que vamos a

La medida de la pureza que vamos a utilizar se llama el utilizar se llama el informationand se mideinformationand se mide en unidades llamadas bits. Asociado a cada nodo del árbol, que

en unidades llamadas bits. Asociado a cada nodo del árbol, que representa la esperarepresenta la espera cantidad de información que sería necesaria para especificar si una nueva instancia cantidad de información que sería necesaria para especificar si una nueva instancia deben clasificarse Sí o no, dado que el ejemplo alcanzó ese nodo. A diferencia de la deben clasificarse Sí o no, dado que el ejemplo alcanzó ese nodo. A diferencia de la bits en la memoria del

bits en la memoria del ordenador, la cantidad esperada de información por lo generalordenador, la cantidad esperada de información por lo general implica fracciones de bits y es a menudo menos de 1! Se calcula con base en el número de implica fracciones de bits y es a menudo menos de 1! Se calcula con base en el número de sí

sí

y noclasses en el nodo. Vamos a ver los detalles del cálculo en breve, pero y noclasses en el nodo. Vamos a ver los detalles del cálculo en breve, pero

primero vamos a ver cómo se utiliza. Al evaluar el primer árbol en la Figura 4.2, el número primero vamos a ver cómo se utiliza. Al evaluar el primer árbol en la Figura 4.2, el número de noclasses Síy en los nodos hoja son [2, 3], [4, 0], y [3, 2], respectivamente, y

de noclasses Síy en los nodos hoja son [2, 3], [4, 0], y [3, 2], respectivamente, y los valores de la información de estos nodos son Información tro

los valores de la información de estos nodos son Información trozos ([,]) 0,2 3 0 971 =zos ([,]) 0,2 3 0 971 = Información trozos ([,]) 0,4 0 0 0 =

(27)

Información trozos ([,]) 0,3 2 0 971 = Información trozos ([,]) 0,3 2 0 971 =

Se calcula el valor medio de la información de estos, teniendo en cuenta la Se calcula el valor medio de la información de estos, teniendo en cuenta la número de instancias que bajan cada rama y cinco

número de instancias que bajan cada rama y cinco por la primera y tercera ypor la primera y tercera y cuatro por el segundo:

cuatro por el segundo: info ([,], [,], [,]) (). () (). info ([,], [,], [,]) (). () (). .. 2 3 4 0 3 2 5 2 3 4 0 3 2 5 14 0 971 4 14 0 5 14 0 97114 0 971 4 14 0 5 14 0 971 00 = × + × + × = × + × + × = 6693 bits de = 6693 bits de

Este promedio representa la cantidad de información que esperamos que sería nec

Este promedio representa la cantidad de información que esperamos que sería necesarioesario especificar la clase de

especificar la clase de una nueva instancia, dada la estructura de árbol en la Figura 4.2 una nueva instancia, dada la estructura de árbol en la Figura 4.2 (a).(a). Antes de cualquiera de las estructuras de árboles nacientes en la

Antes de cualquiera de las estructuras de árboles nacientes en la figura 4.2 se han creado,figura 4.2 se han creado, la formación

la formación

ejemplos en la raíz componen nueve sí y cinco no hay nodos, lo que corresponde a un ejemplos en la raíz componen nueve sí y cinco no hay nodos, lo que corresponde a un valor de la información de

valor de la información de

Información trozos ([,]) 0,9 5 0 940 = Información trozos ([,]) 0,9 5 0 940 = Por lo tanto, el árbol

Por lo tanto, el árbol en la Figura 4.2 (a) een la Figura 4.2 (a) es responsable de un aumento de la informacións responsable de un aumento de la información de

de

ganancia () info info perspectivas = - = - ([,]) ([,], [,],

ganancia () info info perspectivas = - = - ([,]) ([,], [,], [,]). . 9 5 2 3 4 [,]). . 9 5 2 3 4 0 3 2 0 940 0 66930 3 2 0 940 0 6693 0 = 247. pedacitos

0 = 247. pedacitos

que puede ser interpretado como el valor informativo de

que puede ser interpretado como el valor informativo de la creación de una sucursal en lala creación de una sucursal en la outlookattribute.

outlookattribute. El camino a seguir

El camino a seguir está claro. Calculamos la ganancia de información para cada atributoestá claro. Calculamos la ganancia de información para cada atributo y dividido en el que gana la mayoría de la información. En la situación que se muestra y dividido en el que gana la mayoría de la información. En la situación que se muestra en la Figura 4.2:

en la Figura 4.2:

• Ganancia (perspectiva) = 0.247 bits de • Ganancia (perspectiva) = 0.247 bits de • ganancia (temperatura) = 0.029 bits de • ganancia (temperatura) = 0.029 bits de

(28)

• Ganancia (humedad) = 0.152 bits de • Ganancia (humedad) = 0.152 bits de • Ganancia (viento) = 0.048

• Ganancia (viento) = 0.048 bits debits de

Por lo tanto, seleccionamos outlookas el atributo de división en

Por lo tanto, seleccionamos outlookas el atributo de división en la raíz del árbol.la raíz del árbol. Esperemos que esto concuerda con su intuición como el

Esperemos que esto concuerda con su intuición como el mejor para seleccionar. Es lamejor para seleccionar. Es la única opción

única opción

para los que un nodo hija es

para los que un nodo hija es completamente pura, y esto le da un cocompletamente pura, y esto le da un co nsiderablensiderable ventaja sobre los otros atributos. La humedad es la siguiente mejor opción,

ventaja sobre los otros atributos. La humedad es la siguiente mejor opción, ya queya que produce un nodo hija más grande que es casi

produce un nodo hija más grande que es casi completamente puro.completamente puro.

Luego continuamos, de forma recursiva. La Figura 4.3 muestra las posibilidades de una Luego continuamos, de forma recursiva. La Figura 4.3 muestra las posibilidades de una ulterior

ulterior

rama en el nodo alcanza cuando la perspectiva es soleado.

rama en el nodo alcanza cuando la perspectiva es soleado. Claramente, una división másClaramente, una división más adelante outlookwill producir nada nuevo, por lo que sólo tenemos en

adelante outlookwill producir nada nuevo, por lo que sólo tenemos en cuenta los otroscuenta los otros tres atributos.

tres atributos.

La ganancia de información para cada resulta ser La ganancia de información para cada resulta ser • ganancia (temperatu

• ganancia (temperatura) = 0.571 bits dera) = 0.571 bits de • Ganancia (humedad) = 0.971 bits de • Ganancia (humedad) = 0.971 bits de • Ganancia (viento) = 0.020 bits de • Ganancia (viento) = 0.020 bits de

Por lo tanto, seleccionamos humidityas el atributo de división en

Por lo tanto, seleccionamos humidityas el atributo de división en este punto. No hayeste punto. No hay necesidad

necesidad

dividir estos nodos más lejos, por lo

dividir estos nodos más lejos, por lo que esta rama está terminado.que esta rama está terminado. La aplicación continuada de la misma idea conduce al

La aplicación continuada de la misma idea conduce al árbol de decisión de la Figura 4.4árbol de decisión de la Figura 4.4 para

para

los datos del tiempo. Idealmente, el proceso termina

los datos del tiempo. Idealmente, el proceso termina cuando todos los nodos de hoja quecuando todos los nodos de hoja que son

son

puros-es decir, cuando contienen casos que todos tienen la

es decir, cuando contienen casos que todos tienen la misma clasificación. Sin embargo,misma clasificación. Sin embargo, podría

podría

que no sea posible llegar a

que no sea posible llegar a esta feliz situación, porque no hay nada que detenga elesta feliz situación, porque no hay nada que detenga el conjunto de entrenamiento que contiene dos ejemplos con conjuntos idénticos de conjunto de entrenamiento que contiene dos ejemplos con conjuntos idénticos de atributos pero diferentes clases.

atributos pero diferentes clases.

En consecuencia, nos detenemos cuando los datos no se

En consecuencia, nos detenemos cuando los datos no se pueden dividir más.pueden dividir más. Alternativamente, uno

(29)

podría detenerse si la ganancia de información es cero.

podría detenerse si la ganancia de información es cero. Esto es un poco más conservadorEsto es un poco más conservador porque es posible encontrar casos en que los datos se pueden di

porque es posible encontrar casos en que los datos se pueden dividir en subconjuntos quevidir en subconjuntos que presentan

presentan

distribuciones de clase idénticas, lo que haría l

distribuciones de clase idénticas, lo que haría la información de ganancia cero.a información de ganancia cero. Información de Cálculo

Información de Cálculo

Ahora es el momento de explicar

Ahora es el momento de explicar la forma de calcular la medida de la forma de calcular la medida de información que seinformación que se utiliza como

utiliza como

la base para la evaluación de diferentes divisiones. Se

la base para la evaluación de diferentes divisiones. Se describe la idea básica de estadescribe la idea básica de esta sección,

sección,

a continuación, en la siguiente examinamos una corrección que se

a continuación, en la siguiente examinamos una corrección que se hace por lo hace por lo generalgeneral para hacer frente a un sesgo hacia

para hacer frente a un sesgo hacia

seleccionar divide en atributos con un gran número de

seleccionar divide en atributos con un gran número de posibles valores.posibles valores. Antes de examinar la fórmula detallada para el

Antes de examinar la fórmula detallada para el cálculo de la cantidad de informacióncálculo de la cantidad de información requerido para especificar la clase de un

requerido para especificar la clase de un ejemplo dado que se alcanza un nodo del ejemplo dado que se alcanza un nodo del árbolárbol con una

con una

cierto número de síes y

cierto número de síes y noes, considerar en primer lugar el tipo noes, considerar en primer lugar el tipo de propiedades que lode propiedades que lo haríamos

haríamos

esperar esta cantidad para tener esperar esta cantidad para tener

1. Cuando el número de cualquiera de sí o no de es cero, la información es cero. 1. Cuando el número de cualquiera de sí o no de es cero, la información es cero. 2. Cuando el número de de sí y no de es igual, la información llega a un

2. Cuando el número de de sí y no de es igual, la información llega a un máximo.

máximo.

Por otra parte, la medida debe ser

Por otra parte, la medida debe ser aplicable a situaciones multiclase, no sólo aplicable a situaciones multiclase, no sólo para twoclasspara twoclass queridos.

queridos.

La medida de información se refiere

La medida de información se refiere a la cantidad de información obtenida pora la cantidad de información obtenida por de tomar una decisión, y una propiedad más sutil de

de tomar una decisión, y una propiedad más sutil de la información puede ser obtenidala información puede ser obtenida por

por

teniendo en cuenta la naturaleza de las decisiones.

teniendo en cuenta la naturaleza de las decisiones. Las decisiones se pueden hacer en unaLas decisiones se pueden hacer en una sola etapa, o

sola etapa, o

puede hacerse en varias etapas, y la

puede hacerse en varias etapas, y la cantidad de información en cuestión es el mismocantidad de información en cuestión es el mismo en ambos casos. Por ejemplo, la

en ambos casos. Por ejemplo, la decisión implicado endecisión implicado en info ([,,]) 2 3 4

(30)

se puede hacer en dos etapas. En primer lugar decidir si es el primer caso o una de la otra dos casos:

y luego decidir cuál de los otros dos casos es: info ([,]) 3 4

En algunos casos no será necesario la segunda decisión a tomar, es decir, cuando la decisión resulta ser la primera. Teniendo en cuenta esto conduce a la ecuación info info info ([,,]) ([,]) () ([,]) 2 3 4 2 7 7 9 3 4 = + ×

Por supuesto, no hay nada especial acerca de estos números particulares, y similares relación debe mantener independientemente de los valores reales. Por lo tanto, podríamos añadir otros

criterio de la lista anterior:

3. La información que debe obedecer a la propiedad de varias etapas que hemos ilustrado. Sorprendentemente, resulta que sólo hay una función que satisface todos estos

propiedades, y se la conoce como la entropía de información valueor: entropía (,,,) log log log pppppppppnnn 1 2 1 1 2 2 ... ... =

-La razón de los signos menos es que los logaritmos de las fracciones p1 , p2

, ..., Pn son

negativa, por lo que la entropía es en realidad positiva. Por lo general, los logaritmos se expresan

en la base 2, y luego la entropía está en unidades llamadas bits de sólo el tipo habitual de bits

utilizado con las computadoras. El p1 argumentos

, p2

, ... De la fórmula de la entropía se expresan como fracciones que añadir hasta 1, de modo que, por ejemplo,

(31)

Por lo tanto, la propiedad de decisión de múltiples etapas se puede escribir en general como

entropía (,,) entropía (,) () entropía, pqrpqrqr q q r r q r = + + + × + + donde p + q + r = 1.

Debido a la forma en que la función de registro de obras, se puede calcular la información medir sin tener que trabajar fuera de las fracciones individuales:

info ([,,]) log log log [Log log l

2 3 4 2 9 2 9 3 9 3 9 4 9 4 9 2 2 3 3 4

= - × - × - ×

= - - - Registro oog] 4 9 9 9 +

Esta es la forma en que la medida de información se calcula normalmente en la práctica. así

el valor de la información para el primer nodo de la figura 4.2 (a) es información pedacitos

(32)

Atributos altamente ramificación

Cuando algunos atributos tienen un gran número de posibles valores, dando lugar a una rama de múltiples vías con muchos nodos secundarios, surge un problema con l a ganancia de información

cálculo. El problema puede ser mejor apreciada en el caso extremo cuando un atributo tiene un valor diferente para cada instancia en el conjunto de datos como, por ejemplo, una

atributo código de identificación podría.

Tabla 4.6 da los datos del tiempo con este atributo adicional. La ramificación de código de identificación

produce el tocón de un árbol en la Figura 4.5. La información necesaria para especificar la clase

dado el valor de este atributo se

info info info info info ([,]) ([,]) ([,]) ([,]) ([, 0 1 0 1 1 0 1 0 0 + + + + + ... 11])

que es 0 porque cada uno de los 14 términos es 0. Esto no es sorprendente: El código de ID

atributo identifica la instancia, que determina la clase sin ningún

ambigüedad-al iguambigüedad-al que la Tabla 4.6 muestra. En consecuencia, el aumento de la información de este atributo es sólo

la información en la raíz, información ([9,5]) = 0.940 bits. Esta es mayor que la ganancia de información de cualquier otro atributo, y para que el código ID inevitablemente será elegido como el

atributo división. Pero la ramificación en el código de identificación no es bueno para la predicción

la clase de casos desconocidos y no dice nada acerca de la estructura de la decisión, que después de todo son los dos objetivos de aprendizaje automático.

El efecto general es que la medida de ganancia de información tiende a preferir atributos con un gran número de posibles valores. Para compensar esto, una modificación de la medida llamada el ratiois ganancia ampliamente utilizado. La relación de ganancia se deriva teniendo en

(33)

conjunto de datos, sin tener en cuenta cualquier información acerca de la clase. En la situación mostrada en

Figura 4.5, todos los cargos tienen un valor de 1, por lo que el valor de la información de la división es

info ([,,,]) log 1 1 1 1 1 14 14 14 ... = - × ×

debido a que la misma fracción, 1/14, aparece 14 veces. Esto equivale a iniciar la sesión 14, o 3.807

bits, que es un valor muy alto. Esto es porque el valor de la información de una división es el número de bits necesarios para determinar a qué rama se asigna cada caso,

y las ramas más haya, mayor es este valor. La relación de ganancia se calcula

dividiendo la ganancia de información original, 0.940 en este caso, por el valor de la información

del atributo, 3.807-produciendo un valor de la relación de ganancia de 0,247 para el código de identificación

atribuir.

Volviendo a los tocones de los datos meteorológicos en la Figura 4.2, outlooksplits el conjunto de datos en tres subconjuntos de tamaño 5, 4, y 5, y por lo tanto tiene una información intrínseca

valor de

info ([,,]) 0,5 4 5 1 577 =

sin prestar atención a las clases que participan en los subconjuntos. Como hemos visto, este valor la información intrínseca es mayor para un atributo más alto de ramificación tales

como el código de ID hipotética. Una vez más, podemos corregir la ganancia de información dividiendo

por el valor intrínseco de información para obtener la relación de ganancia.

Los resultados de estos cálculos para los tocones de los árboles de la figura 4.2 se resumen en la Tabla 4.7. Perspectivas todavía viene a la cabeza, pero la humedad es ahora una mucho más cerca

contender porque divide los datos en dos subconjuntos en lugar de tres. En este particular,

(34)

ejemplo, el CodeAttribute Identificación hipotética, con una relación de ganancia de 0,247, todavía haría

preferible a cualquiera de estos cuatro. Sin embargo, su ventaja se reduce en gran medida. en

implementaciones prácticas, podemos utilizar una prueba ad hoc para evitar la división en un atributo tan inútil.

Lamentablemente, en algunas situaciones la modificación relación de ganancia compensa en exceso

y puede llevar a preferir un atributo sólo porque su información es intrínseca

mucho menor que para los otros atributos. Una solución estándar es elegir el atributo que maximiza la relación de ganancia, siempre que la ganancia de información para que

atributo es al menos tan grande como el promedio de ganancia de información para todos los atributos

examinado. discusión

El enfoque de divide y vencerás a la inducción de árbol de decisión, a veces llamado

inducción de arriba abajo de los árboles de decisión, se ha desarrollado y perfeccionado a lo largo de muchos años por

Ross Quinlan en la Universidad de Sydney en Australia. Aunque otros han

trabajado en métodos similares, la investigación de Quinlan siempre ha estado a la vanguardia

de árbol de decisión de inducción. El esquema que se ha descrito el uso de la información criterio de ganancia es esencialmente el mismo como uno conocido como ID3. El uso de la relación de ganancia

era una de las muchas mejoras que se hicieron a lo largo de varios años ID3; Quinlan descrito como robusto bajo una amplia variedad de circunstancias. Aunque una práctica solución, se sacrifica parte de la elegancia y la motivación teórica limpio de la

Criterio de Información de ganancia.

Una serie de mejoras a ID3 culminó en un sistema práctico e influyente

para la inducción de árbol de decisión denominada C4.5. Estas mejoras incluyen métodos para

(35)

tratar con atributos numéricos, valores perdidos, datos ruidosos, y la generación de reglas de los árboles, y se describen en la Sección 6.1.

4.4 ALGORITMOS RELATIVO A: REGLAS QUE CONSTRUYEN

Como hemos visto, los algoritmos de árbol de decisión se basan en un divide y vencerás enfoque para el problema de clasificación. Ellos trabajan de arriba hacia abajo, buscando en cada etapa

un atributo para dividir en que mejor separa las clases, y entonces el procesamiento de forma recursiva

los subproblemas que resultan de la división. Esta estrategia genera un árbol de decisión, que pueden, si es necesario convertir en un conjunto de reglas de clasificación, aunque si es producir normas eficaces, la conversión no es trivial.

Un enfoque alternativo es tomar cada clase a su vez y buscar una manera de cubrir

todos los casos en que, en los mismos instantes de tiempo excluyendo no en la clase. Esto se llama

un coveringapproach porque en cada etapa a identificar una norma que "cubre" algunos de

los casos. Por su propia naturaleza, este enfoque conduce a la cubierta de un conjunto de reglas en vez

que a un árbol de decisión.

El método que cubre fácilmente se puede visualizar en un espacio bidimensional de

instancias como se muestra en la Figura 4.6 (a). En primer lugar, hacer una regla que cubre la una de. para el

primera prueba en la regla, se dividió el espacio en vertical como se muestra en la imagen central. este

da el inicio de una regla: Si x> 1.2 entonces class = una

Sin embargo, la regla cubre muchos de b, así como de, por lo que se añade una nueva prueba que le

dividir aún más el espacio horizontalmente como se muestra en el tercer diagrama: Si x> y 1,2 y> 2,6 entonces class = una

(36)

Esto da una regla que cubre todas menos una de la una de. Es probable que sea conveniente dejar

en eso, pero si se considera necesario para cubrir la final de una, otra regla sería es necesario, quizás

Si x> y 1,4 y <2,4 entonces class = una

El mismo procedimiento se lleva a dos normas que regulan las b de: Si x ≤ 1.2 a continuación class = b

Si x> 1,2 y 2,6 y ≤ entonces class = b

Una vez más, uno ais erróneamente cubierto por estas reglas. Si fuera necesario excluir que, más pruebas tendría que ser añadido a la segunda regla, y las reglas adicionales ser necesario para cubrir las b de que estas nuevas pruebas excluyen.

Reglas contra árboles

Un algoritmo de arriba hacia abajo de divide y vencerás opera en los mismos datos de forma

es decir, al menos superficialmente, bastante similar a un algoritmo de cobertura. En primer lugar, podría

dividir el conjunto de datos utilizando la XAttribute, y probablemente terminará su división en el

mismo lugar, x = 1.2. Sin embargo, mientras que el algoritmo que cubre sólo se refiere cubriendo con una sola clase, la división tomaría ambas clases en cuenta

porque algoritmos divide y vencerás crean una sola descripción concepto que

se aplica a todas las clases. La segunda división también podría ser en el mismo lugar, y = 2,6,

que conduce al árbol de decisión de la Figura 4.6 (b). Este árbol corresponde exactamente a la

conjunto de reglas, y en este caso no hay ninguna diferencia en el efecto entre la cubierta y los algoritmos de divide y vencerás.

Pero en muchas situaciones hay isa diferencia entre las normas y los árboles en términos de

(37)

problema subárbol en la Sección 3.4, observamos que las reglas pueden ser simétricas, mientras que los árboles

debe seleccionar un atributo para dividir en primer lugar, y esto puede conducir a los árboles que son mucho más grande que un conjunto equivalente de reglas. Otra diferencia es que, en el multiclase

caso, una fracción de árbol de decisiones toma todas las clases en cuenta al tratar de maximizar el

pureza de la división, mientras que el método de la regla de generación se concentra en una clase a

un momento, sin tener en cuenta lo que ocurre con las otras clases. Un algoritmo simple Covering

Cubriendo algoritmos operan mediante la adición de pruebas a la regla que está en construcción,

siempre con el objetivo de crear una regla con la máxima precisión. En contraste, los

algoritmos divide y vencerás operan mediante la adición de pruebas para el árbol que está en construcción, siempre

esforzarse para maximizar la separación entre las clases. Cada uno de ellos consiste en la búsqueda de un atributo de dividir sucesivamente. Sin embargo, el criterio para la mejor atributo es diferente en

cada caso. Mientras que los algoritmos divide y vencerás como ID3 elegir un atributo a maximizar la ganancia de información, el algoritmo de recubrimiento vamos a describir elige una

par de atributo-valor para maximizar la probabilidad de que la clasificación deseada. Figura 4.7 da una idea de la situación, que muestra el espacio que contiene todos los casos, una regla parcialmente construido, y la misma regla después de un nuevo término ha sido

añadido. El nuevo plazo restringe la cobertura de la regla: La idea es incluir la mayor cantidad

instancias de la clase deseada como sea posible y excluyen a la mayor cantidad de casos de otra

clases como sea posible. Supongamos que la nueva norma cubrirá un total de tinstances, de los cuales p