Algoritmos: El Básicos Algoritmos: El Básicos Métodos Métodos CAPÍTULO CAPÍTULO 44
Ahora que hemos visto cómo se pueden representar las entradas y salidas, es
Ahora que hemos visto cómo se pueden representar las entradas y salidas, es el momentoel momento de
de
mirar a los algoritmos de aprendizaje propios. En este
mirar a los algoritmos de aprendizaje propios. En este capítulo se explican las ideas básicascapítulo se explican las ideas básicas detrás de las técnicas que se
detrás de las técnicas que se utilizan en la minería de utilizan en la minería de datos práctico. No vamos a ahondardatos práctico. No vamos a ahondar demasiado
demasiado
profundamente en las cuestiones más difíciles-avanzadas versiones de los algoritmos, profundamente en las cuestiones más difíciles-avanzadas versiones de los algoritmos, optimizaciones
optimizaciones
que son posibles, las complicaciones que surgen en la
que son posibles, las complicaciones que surgen en la práctica. Estos temas se difiepráctica. Estos temas se difieren aren a Capítulo 6, en el que
Capítulo 6, en el que luchar a brazo partido con las implementaciones reales deluchar a brazo partido con las implementaciones reales de aprendizaje automático
aprendizaje automático
esquemas como los incluidos en kits de
esquemas como los incluidos en kits de herramientas de minería de datos y utilizados paraherramientas de minería de datos y utilizados para el mundo real
el mundo real
aplicaciones. Es importante entender estos temas más avanzados para que aplicaciones. Es importante entender estos temas más avanzados para que saber lo que realmente está pasando cuando se analiza un conjunto de datos en saber lo que realmente está pasando cuando se analiza un conjunto de datos en particular.
particular.
En este capítulo nos fijamos en l
En este capítulo nos fijamos en las ideas básicas. Una de las leccias ideas básicas. Una de las lecciones más instructivas esones más instructivas es que las ideas simples a menudo funcionan muy bien,
que las ideas simples a menudo funcionan muy bien, y recomendamos encarecidamentey recomendamos encarecidamente la adopción de
la adopción de
una "simplicidad primer" metodología al analizar conjuntos de datos prácticos. Hay una "simplicidad primer" metodología al analizar conjuntos de datos prácticos. Hay muchos
muchos
diferentes tipos de estructura simple que los conjuntos de datos se pueden exhibir.
diferentes tipos de estructura simple que los conjuntos de datos se pueden exhibir. En unEn un conjunto de datos, hay
conjunto de datos, hay
podría ser un único atributo que hace todo el
podría ser un único atributo que hace todo el trabajo y los demás son irrelevantes otrabajo y los demás son irrelevantes o redundante. En otro conjunto de datos,
redundante. En otro conjunto de datos, los atributos pueden contribuir de los atributos pueden contribuir de formaforma independiente y
independiente y
igualmente para el resultado final. Un tercero podría tener una estructura l
igualmente para el resultado final. Un tercero podría tener una estructura lógica simple,ógica simple, que implica
sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En unun cuarto, puede haber
cuarto, puede haber
ser independientes unas pocas reglas que rigen la asignación de casos a diferentes ser independientes unas pocas reglas que rigen la asignación de casos a diferentes clases. Una quinta podría exhibir las dependencias entre los
clases. Una quinta podría exhibir las dependencias entre los diferentes subconjuntos dediferentes subconjuntos de atributos. la
atributos. la
sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que importa
importa
es una suma ponderada de
es una suma ponderada de valores de atributos con lvalores de atributos con los pesos elegidos adecuadamente.os pesos elegidos adecuadamente. En un séptimo,
En un séptimo,
clasificaciones apropiadas para regiones particulares del
clasificaciones apropiadas para regiones particulares del espacio instancia podrían serespacio instancia podrían ser gobernados
gobernados
por las distancias entre los propios casos. Y
por las distancias entre los propios casos. Y en una octava, podría ser queen una octava, podría ser que no se proporcionan valores de la clase: E
no se proporcionan valores de la clase: El aprendizaje es no supervisado.l aprendizaje es no supervisado.
En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán capaz es decir
capaz es decir
en busca de una clase de e
en busca de una clase de estructura puede perderse completamente regularidades de unastructura puede perderse completamente regularidades de una diferente
diferente
tipo, independientemente de cómo los rudimentario puede ser. El resultado es un
tipo, independientemente de cómo los rudimentario puede ser. El resultado es un estiloestilo barroco y
barroco y
estructura de clasificación opaca de un tipo en
estructura de clasificación opaca de un tipo en lugar de un simple, elegante, de inmediatolugar de un simple, elegante, de inmediato estructura comprensible de otro.
estructura comprensible de otro. Cada uno de los ocho ejemplos de
Cada uno de los ocho ejemplos de diferentes tipos de conjuntos de datos que acabamosdiferentes tipos de conjuntos de datos que acabamos de esbozar conduce a
de esbozar conduce a
un esquema de la máquina de aprendizaje diferente que es muy
un esquema de la máquina de aprendizaje diferente que es muy adecuado para eladecuado para el descubrimiento de la subyacente
descubrimiento de la subyacente concepto. Las secciones de este
concepto. Las secciones de este capítulo se miran el uno de capítulo se miran el uno de estas estructuras a su vez. Unestas estructuras a su vez. Un último sección presenta formas sencillas de hacer frente a
último sección presenta formas sencillas de hacer frente a los problemas de variaslos problemas de varias instancias, donde cada uno
instancias, donde cada uno
ejemplo comprende varios casos diferentes. ejemplo comprende varios casos diferentes.
sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En unun cuarto, puede haber
cuarto, puede haber
ser independientes unas pocas reglas que rigen la asignación de casos a diferentes ser independientes unas pocas reglas que rigen la asignación de casos a diferentes clases. Una quinta podría exhibir las dependencias entre los
clases. Una quinta podría exhibir las dependencias entre los diferentes subconjuntos dediferentes subconjuntos de atributos. la
atributos. la
sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que importa
importa
es una suma ponderada de
es una suma ponderada de valores de atributos con lvalores de atributos con los pesos elegidos adecuadamente.os pesos elegidos adecuadamente. En un séptimo,
En un séptimo,
clasificaciones apropiadas para regiones particulares del
clasificaciones apropiadas para regiones particulares del espacio instancia podrían serespacio instancia podrían ser gobernados
gobernados
por las distancias entre los propios casos. Y
por las distancias entre los propios casos. Y en una octava, podría ser queen una octava, podría ser que no se proporcionan valores de la clase: E
no se proporcionan valores de la clase: El aprendizaje es no supervisado.l aprendizaje es no supervisado.
En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán capaz es decir
capaz es decir
en busca de una clase de e
en busca de una clase de estructura puede perderse completamente regularidades de unastructura puede perderse completamente regularidades de una diferente
diferente
tipo, independientemente de cómo los rudimentario puede ser. El resultado es un
tipo, independientemente de cómo los rudimentario puede ser. El resultado es un estiloestilo barroco y
barroco y
estructura de clasificación opaca de un tipo en
estructura de clasificación opaca de un tipo en lugar de un simple, elegante, de inmediatolugar de un simple, elegante, de inmediato estructura comprensible de otro.
estructura comprensible de otro. Cada uno de los ocho ejemplos de
Cada uno de los ocho ejemplos de diferentes tipos de conjuntos de datos que acabamosdiferentes tipos de conjuntos de datos que acabamos de esbozar conduce a
de esbozar conduce a
un esquema de la máquina de aprendizaje diferente que es muy
un esquema de la máquina de aprendizaje diferente que es muy adecuado para eladecuado para el descubrimiento de la subyacente
descubrimiento de la subyacente concepto. Las secciones de este
concepto. Las secciones de este capítulo se miran el uno de capítulo se miran el uno de estas estructuras a su vez. Unestas estructuras a su vez. Un último sección presenta formas sencillas de hacer frente a
último sección presenta formas sencillas de hacer frente a los problemas de variaslos problemas de varias instancias, donde cada uno
instancias, donde cada uno
ejemplo comprende varios casos diferentes. ejemplo comprende varios casos diferentes.
4.1 INFERIR REGLAS rudimentaria 4.1 INFERIR REGLAS rudimentaria Aquí está una manera fácil de
Aquí está una manera fácil de encontrar reglas de clasificación muy simples de encontrar reglas de clasificación muy simples de unun conjunto de instancias.
conjunto de instancias.
Llamado 1Rfor 1-regla, se genera un árbol de decisión de un nivel expresado en la forma Llamado 1Rfor 1-regla, se genera un árbol de decisión de un nivel expresado en la forma de un conjunto de reglas que todas las
de un conjunto de reglas que todas las pruebas de un atributo particular. 1R es un pruebas de un atributo particular. 1R es un simple,simple, barato
barato
método que a menudo viene con muy buenas reglas para la
método que a menudo viene con muy buenas reglas para la caracterización de lacaracterización de la estructura
estructura
en datos. Resulta que las reglas simples con
en datos. Resulta que las reglas simples con frecuencia alcanzan sorprendentemente altafrecuencia alcanzan sorprendentemente alta precisión. Tal vez esto
precisión. Tal vez esto se debe a que la estructura que subyace se debe a que la estructura que subyace a muchas bases de datosa muchas bases de datos del mundo real
del mundo real
es bastante rudimentario, y sólo un atributo es suficiente para determinar la clase es bastante rudimentario, y sólo un atributo es suficiente para determinar la clase de una instancia con bastante precisión. En cualquier caso, siempre
de una instancia con bastante precisión. En cualquier caso, siempre es un buen plan paraes un buen plan para tratar el
tratar el
las cosas más simples primero. las cosas más simples primero. La idea es la
La idea es la siguiente: Hacemos reglas que ponen a prueba un solo atributo y sucursal ensiguiente: Hacemos reglas que ponen a prueba un solo atributo y sucursal en consecuencia. Cada rama corresponde a un valor diferente del atributo. Es
consecuencia. Cada rama corresponde a un valor diferente del atributo. Es obvioobvio
¿cuál es la mejor clasificación para dar a cada rama: Utilice la clase que se presenta con ¿cuál es la mejor clasificación para dar a cada rama: Utilice la clase que se presenta con mayor
mayor
a menudo en los datos de entrenamiento. Entonces la tasa de
a menudo en los datos de entrenamiento. Entonces la tasa de error de las normas seerror de las normas se puede determinar fácilmente.
puede determinar fácilmente.
Simplemente contar los errores que se producen en l
Simplemente contar los errores que se producen en los datos-que la formación es, elos datos-que la formación es, el número de casos
número de casos que no tienen la clase
que no tienen la clase mayoritaria.mayoritaria.
Cada atributo genera un conjunto diferente de reglas, una regla para cada valor de Cada atributo genera un conjunto diferente de reglas, una regla para cada valor de lala atribuir. Evaluar la tasa de error para el
atribuir. Evaluar la tasa de error para el conjunto de reglas de cada atributo y elegir conjunto de reglas de cada atributo y elegir lala mejor. es
mejor. es
así de simple! La Figura 4.1
así de simple! La Figura 4.1 muestra el algoritmo en forma de pseudocódigo.muestra el algoritmo en forma de pseudocódigo. Para ver el método 1R
Para ver el método 1R en el trabajo, tenga en cuenta los datos meteorológicos de en el trabajo, tenga en cuenta los datos meteorológicos de la Tablala Tabla 1.2 en la página 10
1.2 en la página 10
(vamos a encontrar muchas veces de nuevo al
trabajo). Para clasificar en la última columna, juego,
trabajo). Para clasificar en la última columna, juego, 1R considera cuatro conjuntos de1R considera cuatro conjuntos de reglas, una para
reglas, una para
cada atributo. Estas reglas se muestran en la Tabla 4.1.
cada atributo. Estas reglas se muestran en la Tabla 4.1. Un asterisco indica que unaUn asterisco indica que una elección al azar se
elección al azar se ha hecho entre dos resultados igualmente probables. El número deha hecho entre dos resultados igualmente probables. El número de los errores se dan para cada regla,
los errores se dan para cada regla, junto con el número total de errores junto con el número total de errores para el conjuntopara el conjunto de reglas como
de reglas como un todo. 1R elige
un todo. 1R elige el atributo que produce reglas con el menor número de el atributo que produce reglas con el menor número de errores, es decir,errores, es decir, el primer y tercer
el primer y tercer conjuntos de reglas. Arbitrariamente romper el empate entre estosconjuntos de reglas. Arbitrariamente romper el empate entre estos dos conjuntos de reglas da
dos conjuntos de reglas da
perspectivas: soleado → ninguna perspectivas: soleado → ninguna nublado → sí
nublado → sí lluvioso → sí lluvioso → sí
Observamos en primer lugar que el juego para los
Observamos en primer lugar que el juego para los datos de tiempo es indeterminado.datos de tiempo es indeterminado. extrañamente
extrañamente
suficiente, se jugó al parecer
suficiente, se jugó al parecer cuando está nublado o lluvioso, pero no cuando hace scuando está nublado o lluvioso, pero no cuando hace sol.ol. Tal vez es una búsqueda interior.
Tal vez es una búsqueda interior.
Valores perdidos y atributos numéricos Valores perdidos y atributos numéricos Aunque un esquema de aprendizaje muy
Aunque un esquema de aprendizaje muy rudimentaria, 1R no acomodar ambosrudimentaria, 1R no acomodar ambos desaparecidos
desaparecidos
valores y atributos numéricos. Se ocupa de estos en
valores y atributos numéricos. Se ocupa de estos en formas sencillas, pero eficaces.formas sencillas, pero eficaces. Missingis tratado como un valor de atributo de modo que, por ejemplo,
Missingis tratado como un valor de atributo de modo que, por ejemplo, si el tiemposi el tiempo
datos contenía valores que faltan para el atributo de perspectiva, un conjunto de reglas de datos contenía valores que faltan para el atributo de perspectiva, un conjunto de reglas de forma sobre
forma sobre
outlookwould especificar cuatro valores posibles de clase, uno para cada uno
outlookwould especificar cuatro valores posibles de clase, uno para cada uno de soleado,de soleado, nublado,
nublado,
y lluviosa, y un
y lluviosa, y un cuarto para faltar.cuarto para faltar.
Podemos convertir los atributos numéricos en los nominales utilizando un método de Podemos convertir los atributos numéricos en los nominales utilizando un método de discretización simple. En primer lugar, ordenar los
discretización simple. En primer lugar, ordenar los ejemplos de entrenamiento de acuerdoejemplos de entrenamiento de acuerdo con los valores de la
con los valores de la
atributo numérico. Esto produce una secuencia de valores de clase.
atributo numérico. Esto produce una secuencia de valores de clase. Por ejemplo, laPor ejemplo, la clasificación
la versión numérica de los datos del tiempo (Tabla 1.3, página 11) de acuerdo con la valores de temperatura produce la secuencia
Discretización implica la partición de esta secuencia mediante la colocación de los puntos de interrupción en el mismo.
Una posibilidad es colocar puntos de interrupción siempre que los cambios de clase, la producción de la
siguientes ocho categorías:
sí | no | sí sí sí | no no | sí sí sí | no | sí sí | no
La elección de los puntos de interrupción a mitad de camino entre los ejemplos a cada lado los coloca
en 64,5, 66,5, 70,5, 72, 77,5, 80,5 y 84. Sin embargo, los dos casos con
valor 72 causa un problema debido a que tienen el mismo valor de temperatura, pero caer en diferentes clases. La solución más sencilla es mover el punto de corte en 72 hasta un ejemplo, a 73,5, produciendo una partición mixto en el que no es la mayoría
clase.
Un problema más serio es que este procedimiento tiende a formar una excesivamente gran número de categorías. El método 1R, naturalmente gravitan hacia la elección de un atributo que se divide en varias categorías, ya que esta será la partición de la
conjunto de datos en muchas piezas, por lo que es más probable que los casos tendrán el mismo
clase como la mayoría en su partición. De hecho, el caso límite es un atributo que
tiene un valor diferente para cada instancia, es decir, una identificación que CodeAttribute señala los casos de forma única, y esto le dió una tasa de error cero en la formación
establecer porque cada partición contiene sólo un ejemplo. Por supuesto, altamente ramificación
atributos por lo general no funcionan bien en los ejemplos de ensayo; de hecho, la identificación
atributo código nunca recibirá ejemplos fuera del conjunto de entrenamiento correcto. este
fenómeno se conoce como overfitting; ya hemos descrito overfittingavoidance sesgo en el Capítulo 1, y vamos a encontrar este problema en varias ocasiones en
los capítulos siguientes.
Para 1R, overfitting es probable que se produzca cada vez que un atributo tiene un gran número
de valores posibles. En consecuencia, al discretizar un atributo numérico, un mínimo
No se impone límite en el número de ejemplos de la clase de la mayoría en cada partición. Supongamos que ese mínimo se fija en 3. Esto elimina todos menos dos de los anteriores particiones. En su lugar, se inicia el proceso de partición
sí no sí sí | sí ...
asegurar que hay tres apariciones de sí, la clase de la mayoría, en la primera partición. Sin embargo, debido a que el siguiente ejemplo es también sí, no perdemos nada al incluir que en la primera partición, también. Esto lleva a una nueva división de
sí no sí sí sí | no no sí sí sí | no sí sí no
donde cada partición contiene al menos tres instancias de la clase de la mayoría, excepto el último, que por lo general tienen menos. Límites de la partición siempre caen entre ejemplos de diferentes clases.
Siempre que sea particiones adyacentes tienen la misma clase de la mayoría, al igual que los dos primeros
particiones anteriores, que se pueden combinar juntos sin afectar el significado de la conjuntos de reglas. Por lo tanto, la discretización final es
sí no sí sí sí no no sí sí sí | no sí sí no lo que conduce al conjunto de reglas temperatura: ≤ 77,5 → sí
> 77,5 → ninguna
La segunda regla involucrada una elección arbitraria; como sucede, No¿Ha elegidos. si yeshad sido elegido en lugar, no habría necesidad de ningún punto de interrupción en absoluto, y
como ilustra este ejemplo, puede ser que sea mejor utilizar las categorías adyacentes para ayudar a
romper los lazos. De hecho, esta regla genera cinco errores en el conjunto de entrenamiento y por lo tanto es menos
efectiva que la regla anterior para la perspectiva. Sin embargo, el mismo procedimiento conduce a
esta regla para la humedad: Humedad: ≤ 82,5 → sí > 82,5 y 95,5 ≤ → ninguna > 95,5 → sí
Esto genera sólo tres errores en el conjunto de entrenamiento y es el mejor 1 -regla para los datos
en la Tabla 1.3.
Por último, si un atributo numérico tiene valores perdidos, una categoría adicional es creado para ellos, y el procedimiento de discretización se aplica sólo para los casos de que se define el valor del atributo.
discusión
En un artículo seminal titulado "reglas de clasificación muy simples funcionan bien en la mayoría
comúnmente utilizado conjuntos de datos "(Holte, 1993), un estudio exhaustivo de la actuación
del procedimiento 1R se informó en 16 conjuntos de datos utilizados con frecuencia por la máquina de aprendizaje
investigadores para evaluar sus algoritmos. La validación cruzada, una técnica de evaluación
que explicaremos en el capítulo 5, se utilizó para asegurar que los resultados fueron los mismos
como se obtendría en conjuntos de pruebas independientes. Después de un poco de experimentación, la
número mínimo de ejemplos en cada partición de un atributo numérico se fijó en seis, no tres como se utiliza en nuestra ilustración.
Sorprendentemente, a pesar de su simplicidad 1R fue bien en comparación con los sistemas de aprendizaje-el-arte stateof, y las reglas que produjo resultó ser sólo unos pocos
puntos porcentuales menos preciso, en casi todos los conjuntos de datos, de la dec isión árboles producidos por un esquema de árbol de decisión de la inducción del estado de la técnica. Estos árboles
eran, en general, considerablemente más grandes que las reglas de 1R. Reglas que ensayan una sola
atributo son a menudo una alternativa viable a las estructuras más complejas, y esta fuertemente
alienta una metodología simplicidad primero en el que el rendimiento de referencia es establecido el uso de técnicas simples, rudimentarias antes de pasar a sistemas de
aprendizaje más sofisticados, lo que inevitablemente genera salida que es más difícil para las personas
de interpretar.
El procedimiento 1R aprende un árbol de decisiones de un nivel cuyas hojas representan la
varias clases diferentes. Una técnica ligeramente más expresivo es utilizar una diferente gobernar para cada clase. Cada regla es un conjunto de pruebas, una para cada atr ibuto. para
numérico atribuye los controles de prueba si el valor se encuentra dentro de un intervalo dado;
para los nominales comprueba si está en un cierto subconjunto de los valores de ese atributo.
Estos dos tipos de pruebas, es decir, los intervalos y los subconjuntos se aprenden desde la
datos de entrenamiento que pertenecen a cada una de las clases. Para un atributo
numérico, el fin puntos del intervalo son los valores mínimos y máximos que se producen en el
datos de entrenamiento de esa categoría. Para un nominal, el subconjunto contiene sólo aquellos valores
que ocurren para ese atributo en los datos de entrenamiento para la clase individual. Reglas
que representan clases diferentes por lo general se superponen, y en tiempo de la predicción del uno con
las pruebas más coincidentes se predice. Esta sencilla técnica a menudo le da una útil primera impresión de un conjunto de datos. Es extremadamente rápido y puede ser aplicado a muy grande
cantidades de datos.
4.2 MODELADO ESTADÍSTICO
El método 1R utiliza un solo atributo como base para sus decisiones y elige el
uno que funcione mejor. Otra técnica sencilla es utilizar todos los atributos y permitirles a hacer contribuciones a la decisión que son igualmente independentof importantand entre sí, dada la clase. Esto no es realista, por supuesto: ¿Qué hace en la vida real conjuntos de datos interesante es que los atributos no son ciertamente igualmente importante o independiente. Pero lleva a un esquema simple que, de nuevo, funciona sorprendentemente bien en
práctica.
Tabla 4.2 muestra un resumen de los datos meteorológicos obtenidos contando cuántos veces cada par atributo-valor se produce con cada valor (Síy no) para el juego. para ejemplo, se puede ver en la Tabla 1.2 (página 10) que el panorama es soleado durante cinco
ejemplos, dos de los cuales tienen el juego = Síy tres de los cuales tienen el juego = no. la las células en la primera fila de la nueva tabla, simplemente cuentan estas ocurrencias para todos los valores posibles de cada atributo, y la figura juego en la columna final cuenta el
número total de ocurrencias de Síy no. La parte inferior de la tabla contiene la
misma información expresada en fracciones, o probabilidades observadas. Por ejemplo, de los nueve días que el juego es sí, la perspectiva es soleado para dos, dando una fracción de
9.2. Para reproducirThe fracciones son diferentes: son la proporción de días que jugar es Síy no, respectivamente.
Ahora supongamos que nos encontramos con un nuevo ejemplo con los valores que se muestran en
Tabla 4.3. Tratamos a las cinco características de la Tabla 4.2-perspectiva, la temperatura, la humedad,
viento, y la probabilidad global de que playis Sío no-como igualmente importantes piezas, independientes de pruebas y se multiplican las fracciones correspondientes. En cuanto a la
yesgives resultados
Probabilidad de sí = × × × × = 2 9 3 9 3 9 3 9 9 14 0 0053.
Las fracciones se toman de las entradas sí en la mesa de acuerdo a los valores
de los atributos para el nuevo día, y la final 9/14 es la fracción global que representa la proporción de días en que el juego es sí. Un cálculo similar para
el resultado no conduce a
Probabilidad de no = × × × × = 3 5 1 5 4 5 3 5 5 14 0
Esto indica que para el nuevo día, nois más probabilidades que sí-cuatro veces más
probable. Los números pueden convertirse en probabilidades por la normalización de ellos para que que suman 1: Probabilidad de sí = + = 0 0053 0 0053 0 0206 20 5 . . . . % Probabilidad de no = +
= 0 0206 0 0053 0 0206 79 5 . . . . %
Este método simple e intuitiva se basa en la regla de la probabilidad condicional de Bayes. La regla de Bayes dice que si usted tiene una evidencia Mano hipótesis Ethat osos en que hipótesis, entonces Pr [|] Pr [|] Pr [] Pr [] H E E H H E =
Utilizamos la notación que Pr [A] indica la probabilidad de un evento A y Pr [A | B] denota la probabilidad de Aconditional en otro evento B. La hipótesis Su
que reproducirWill ser, dicen, sí, y Pr [H | E] va a llegar a ser el 20,5%, al igual que determinado previamente. La evidencia E es la combinación particular de atributo valores para el nuevo día de Outlook = soleado, temperatura = frío, humedad = alta, y viento = true. Llamemos a estas cuatro piezas de evidencia E1
, E2 , E3 , Y E4
Suponiendo que estos elementos de prueba son independientes (dada la clase), su probabilidad combinada se obtiene multiplicando las probabilidades:
Pr [|] Pr [|] Pr [|] Pr [|] Pr [|] Pr [ Sí E E E sí sí sí E E sí y = × × × × 1 2 3 4 ees E ] Pr []
No te preocupes por el denominador: Vamos a ignorarlo y eliminarlo en el
etapa de normalización definitiva cuando hacemos las probabilidades para sí y no suma a 1,
tal como lo hicimos anteriormente. El Pr [sí] al final es la probabilidad de que un yesoutcome
sin saber nada de la evidencia E, es decir, sin saber nada de el día en cuestión, y se llama la previa probabilityof la hipótesis
H. En este caso, es sólo 9/14, ya que 9 de los 14 ejemplos de entrenamiento tenía un sí valor para el juego. La sustitución de las fracciones de la Tabla 4.2 para las pruebas apropiadas probabilidades conduce a Pr [|] Pr [] Sí E E = × × × × 2 9 3 9 3 9 3 9 9 14
cuando normalizamos.
Este método se conoce con el nombre de Naïve Bayesbecause Se basa en la regla de Bayes y "ingenuamente" asume la independencia sólo es válido para multiplicar las
probabilidades cuando
los eventos son independientes. La suposición de que los atributos son independientes (dado
la clase) en la vida real, sin duda es una simplista. Pero a pesar del nombre despectivo, Naïve Bayes funciona de manera muy eficaz cuando se probó en conjuntos de datos reales, sobre todo cuando
combinado con algunos de los procedimientos de selección de atributos, que se introducen en
Capítulo 7, que elimina redundante, y por lo tanto no-independiente, atribuye. Las cosas van mal mal en Naïve Bayes si un valor de atributo en particular no lo hace ocurrir en el conjunto de entrenamiento en conjunto con valor everyclass. Supongamos que en el
datos de entrenamiento la perspectiva de valor de atributo = soleado siempre se asoció con la
resultado que no. Entonces la probabilidad de perspectivas = ser soleado dado un sí, es decir,
Pr [perspectivas = soleado | sí] suerte con la cero, y porque las otras probabilidades son multiplicado por ello, la probabilidad final de Yesin el ejemplo anterior sería cero
no importa lo grande que eran. Las probabilidades de que sean cero tienen un derecho de veto sobre el otro
queridos. Esto no es una buena idea. Pero el error se puede arreglar fácilmente por pequeños ajustes
el método de cálculo de probabilidades de frecuencias.
Por ejemplo, la parte superior de la Tabla 4.2 muestra que para el juego = yes, outlookis sunnyfor dos ejemplos, overcastfor cuatro y rainyfor tres, y la parte inferior
da estos eventos probabilidades de 2/9, 4/9, y 3/9, respectivamente. En su lugar, podríamos
probabilidades de 3/12, 5/12, y 4/12, respectivamente. Esto asegurará que un atributo valor que se produce cero veces recibe una probabilidad que es distinto de cero, aunque pequeña.
La estrategia de la adición de 1 a cada recuento es una técnica estándar llamado el Laplace estimatorafter el gran matemático francés del siglo XVIII Pierre Laplace.
Aunque funciona bien en la práctica, no hay ninguna razón particular para la adición de 1 a la
recuentos: Podríamos elegir un lugar pequeño μand uso constante 2 3 9 4 3 9 3 3 9 + + + + + + μ μ μ μ μ μ , Y
Determina cómo influyente de los valores a priori de 1/3, 1/3, y 1/3 son para cada uno de los
tres posibles valores de los atributos. A grandes μsays que estos priores son muy importantes
en comparación con las nuevas pruebas que viene del conjunto de entrenamiento, mientras que una pequeña
uno les da menos influencia. Finalmente, no hay ninguna razón particular para dividir μ en tres equalparts en los numeradores: Podríamos utilizar en cambio, donde p1
, p2 , Y p3
resumir a 1. En efecto, estas tres cifras son, a priori,
probabilidades de los valores de la outlookattribute siendo soleado, nublado, lluvioso y, respectivamente.
Esto es ahora una formulación completamente bayesiano donde probabilidades previas han sido
asignado a todo a la vista. Tiene la ventaja de ser completamente riguroso, pero
la desventaja de que no es usualmente claro hasta qué punto estas probabilidades a priori debería
ser asignada. En la práctica, las probabilidades previas hacen poca diferencia siempre que hay un número razonable de casos de formación, y la gente en general, sólo estiman frecuencias utilizando el estimador de Laplace inicializando todos los cargos a 1 en lugar de 0.
Valores perdidos y atributos numéricos
Una de las cosas realmente buenas de Naïve Bayes es que los valores que faltan no son un problema
en absoluto. Por ejemplo, si el valor de outlookwere que falta en el ejemplo de la Tabla 4.3, el cálculo sería simplemente omitir este atributo, produciendo
Probabilidad de sí = × × × = 3 9 3 9 3 9 9 14 0 0238. Probabilidad de no = × × × = 1 5 4 5 3 5 5 14 0 0 343.
de las fracciones que falta. Pero eso no es un problema, ya que una fracción no se encuentra en
ambos casos, y estas probabilidades están sujetos a un proceso de normalización más. este
produce probabilidades para Síy Noof 41% y 59%, respectivamente.
Si falta un valor en una instancia de la formación, es simplemente no incluido en los conteos de frecuencia, y las relaciones de probabilidad se basa en el número de valores que
en realidad producirse más que en el número total de casos.
Los valores numéricos son generalmente tramitadas por el supuesto de que tienen un "normal" o
Distribución de probabilidad "Gaussian". Tabla 4.4 ofrece un resumen de los datos meteorológicos
con características numéricas de la Tabla 1.3. Para los atributos nominales, calculamos cuenta como
antes, mientras que para los numéricos simplemente una lista de los valores que se producen. Entonces, en lugar de
la normalización de los recuentos en probabilidades como lo hacemos para atributos nominales, calculamos
la media y la desviación estándar para cada clase y cada atributo numérico. la
valor medio de los temperatureover yesinstances es 73, y su desviación estándar es de 6.2. La media es simplemente el promedio de los valores, es decir, la suma dividida por el número de valores. La desviación estándar es la raíz cuadrada de la varianza de la
muestra,
que se calcula de la siguiente manera: Restar la media de cada valor, la cuadratura del resultado,
suman juntas, y luego dividir por uno menos el número thanthe de valores. Después de que
haber encontrado este "varianza de la muestra," tomar su raíz cuadrada para obtener la desviación estándar.
Esta es la forma estándar de cálculo de la media y la desviación estándar de un conjunto de números. (El "uno menos que" tiene que ver con el número de grados de libertad
en la muestra, una noción estadística que no queremos entrar en aquí.)
La función de densidad de probabilidad para una distribución normal con media μ y desviación estándar σis dada por la expresión más formidable
f x correo x () () = -1 2 2 2 2 πσ μ σ
Pero no temas! Todo esto significa es que si estamos considerando un resultado que sí cuando
temperaturehas un valor de, por ejemplo, de 66 años, sólo tenemos que conectar x = 66, μ = 73 y σ =
6,2 en la fórmula. Así que el valor de la función de densidad de probabilidad es temperatura f sí e (|)
. . () . = =
× = -× 66 1 2 6 2 0 0340 66 73 2 6 2 2 2 π
Y por la misma razón, humidityhas la densidad de probabilidad de una yesoutcome cuando
un valor de, digamos, 90, se calcula de la misma manera: f humedad sí (|). = = 0 90 0221
La función de densidad de probabilidad para un evento está muy estrechamente relacionado con su probabilidad. Sin embargo, no es exactamente lo mismo. Si la temperatura es una escala continua,
la probabilidad de que la temperatura siendo exactly66-o exactlyany otro valor, tales como 63.14159262-es cero. El verdadero significado de la función de densidad f (x) es que la
probabilidad de que la cantidad se encuentra dentro de una pequeña región alrededor de x, es decir, entre x -ε / 2
y x + ε / 2, es ε × f (x). Se podría pensar que deberíamos tener en cuenta la cifra precisión ε cuando se utilizan estos valores de densidad, pero eso no es necesario. El mismo
tanto en el nolikelihoods Síy que siguen y anulan cuando las probabilidades se calcularon.
El uso de estas probabilidades para el nuevo día en la Tabla 4.5 rendimientos Probabilidad de sí = × × × × = 2 9 0 0340 0 0221 3 9 9 14 0 000 036. . .
Probabilidad de no = × × × × = 3 5 0 0279 0381 0 3 5 5 14 0 000 137. . . lo que conduce a las probabilidades
Probabilidad de sí = + = 0 000036 0 000036 0 000137 20 8
Estas cifras están muy cerca de las probabilidades calculadas anteriormente para el nuevo día
en la Tabla 4.3, porque los humidityvalues temperatureand de 66 y 90 rendimiento similar probabilidades a los highvalues cooland utilizados antes.
El supuesto normal de distribución hace que sea fácil de extender la Naïve Bayes
clasificador tratar con atributos numéricos. Si los valores de los atributos numéricos son desaparecidos, los cálculos de la media y la desviación estándar se basan sólo en los que están presentes.
Naïve Bayes para la clasificación de documentos
Un dominio importante para el aprendizaje de la máquina es la clasificación de documentos, en el que cada
instancia representa un documento y la clase de la instancia es el tema del documento. Los documentos podrían ser noticias y las clases podrían ser noticia nacional, el extranjero noticias, noticias financieras, y deportes. Los documentos se car acterizan por las palabras que
aparece en ellos, y una manera de aplicar la máquina de aprendizaje para documentar la clasificación es
para el tratamiento de la presencia o ausencia de cada palabra como un atributo booleano. Naïve Bayes es
una técnica popular para esta aplicación, ya que es muy rápido y muy exacto. Sin embargo, esto no tiene en cuenta el número de ocurrencias de cada
palabra, que es información potencialmente útil para determinar la categoría de un documento. En lugar de ello, un documento puede ser visto como una bolsa de palabras: un conjunto que contiene
todas las palabras en el documento, con varias apariciones de una palabra que aparece varias veces (técnicamente, un setincludes cada uno de sus miembros sólo una vez, mientras que una bolsa
puede tener elementos repetidos). Frecuencias de palabras se pueden acomodar mediante la aplicación de
una forma modificada de Naïve Bayes llama multinominalNaïve Bayes.
Supongamos que n1, n2, ..., NKIS el número de veces ioccurs de palabras en el documento, y P1, P2,
..., PKI la probabilidad de obtener la palabra de muestreo ICuando de todos los documentos
categoría H. Supongamos que la probabilidad es independiente del contexto de la palabra y la posición
en el documento. Estos supuestos conducen a un documento distributionfor multinomial probabilidades. Para esta distribución, la probabilidad de un documento Egiven su clase H -in
Es decir, la fórmula para el cálculo de la probabilidad Pr [E | H] en Bayes regla- es Pr [] E H N P n yo n i i k i
|! ! = × = Π 1
donde N = n1 + n2 + ... + NKIS el número de palabras en el documento. La razón de la factoriales es para tener en cuenta el hecho de que el orden de las ocurrencias de cada palabra es
inmaterial de acuerdo con el modelo de bolsa-de-palabras. PII estimado calculando la relación
frecuencia de palabra iin el texto de todos los documentos de formación relacionados con la categoría H. En
realidad, no podría ser un término más que da la probabilidad de que el modelo de la categoría
Hgenerates un documento cuya longitud es la misma que la longitud de E, pero es común a
asumir que este es el mismo para todas las clases y por lo tanto se puede descartar. Por ejemplo, supongamos que hay solamente dos palabras, yellowand azul, en el
vocabulario, y una clase particular documento HHA Pr [amarillo | H] = 75% y Pr [azul | H] = 25% (se podría llamar clase hthe de greendocuments amarillento). Supongamos que el Eis
documentar azul bluewith amarilla una longitud de N = 3 palabras. Hay cuatro posibles bolsas de tres palabras. Uno de ellos es {amarillo amarillo amarillo}, y su probabilidad de acuerdo con la fórmula anterior es Pr [{} |]! . ! .
!
amarillo amarillo amarillo H = × × = 3 0 75 3 0 25 0 27 64 3 0
Los otros tres, con sus probabilidades, son Pr [{azul azul azul H} |] =
1 64
Pr [{amarillo amarillo azul H} |] = 27
64
Pr [{H amarillo azul azul} |] = 9
64
Ecorresponds a este último caso (recuerdan que en una bolsa de palabras, el orden es indiferente);
por lo tanto, su probabilidad de ser generados por el modelo greendocument amarillento es
9/64, o el 14%. Supongamos otra clase, greendocuments muy azulados (lo llaman H '), tiene
Pr [amarillo | H '] = 10% y Pr [azul | H'] = 90%. La probabilidad de que Eis generado por este modelo es del 24%.
clase de documento? No necesariamente. La regla de Bayes, dado anteriormente, dice que usted tiene que
tener en cuenta la probabilidad a priori de cada hipótesis. Si usted sabe que, de hecho, muy greendocuments azulados son dos veces tan raro como greenones amarillentas, esto ser sólo suficiente para compensar la disparidad de 14 a 24% e inclinar la balanza a favor de la greenclass amarillento.
Los factoriales en la fórmula de probabilidad no necesitan realmente ser computado porque, al ser el mismo para todas las clases, que haya que dejar en el proceso de normalización
de todos modos. Sin embargo, la fórmula todavía implica multiplicar juntos muchas probabilidades pequeñas, que pronto se produce extremadamente pequeños números que causan underflow en gran
documentos. El problema se puede evitar mediante el uso de los logaritmos de las probabilidades
en lugar de los propios probabilidades.
En la formulación Naïve Bayes multinomial se determina la clase de un documento no sólo por las palabras que ocurren en él, sino también por el número de veces que se producen. en
general, funciona mejor que el modelo de Naïve Bayes ordinario para la clasificación de documentos, en particular para grandes tamaños de diccionario.
discusión
Naïve Bayes da un enfoque simple, con una semántica clara, a representar, utilizando, y el aprendizaje de conocimiento probabilístico. Se puede lograr resultados
impresionantes. La gente a menudo
encontrar que Naïve Bayes rivales, y de hecho supera, clasificadores más sofisticados en muchos conjuntos de datos. La moraleja es, siempre trato de las cosas simples primero. Una y otra vez
otra vez la gente ha finalmente, después de una lucha prolongada, logró obtener una buena
resultados utilizando esquemas de aprendizaje sofisticadas, sólo para descubrir más tarde que sencilla
métodos como 1R y Naïve Bayes hacen igual de bien o incluso mejor.
Hay muchos conjuntos de datos para el que Naïve Bayes no lo hace bien, sin embargo, y es fácil ver por qué. Debido a que los atributos son tratados como si fueran
independientes
dada la clase, la adición de los redundantes sesga el proceso de aprendizaje. como ejemplo extremo, si usted fuera a incluir un nuevo atributo con los mismos valores que la temperatura a los datos de tiempo, el efecto de la temperatura sería atributo
multiplicada: Todas sus probabilidades serían cuadrados, lo que supone una gran cantidad más
influencia en la decisión. Si se va a añadir 10 tales atributos, las decisiones haría
efectivamente hacerse en temperaturealone. Las dependencias entre atributos reducen inevitablemente el poder de Naïve Bayes para discernir lo que está pasando. Ellos pueden, sin embargo, ser mejorado mediante el uso de un subconjunto de los atributos en el
procedimiento de decisión,
hacer una selección cuidadosa de cuáles usar. Capítulo 7 muestra cómo.
El supuesto de distribución normal para los atributos numéricos es otra restricción
en Naïve Bayes como hemos formulado aquí. Muchas de las funciones simplemente no se distribuyen normalmente. Sin embargo, no hay nada que nos impida el uso de otros
distribuciones no hay nada mágico acerca de la distribución normal. Si conoces
que un atributo particular, es probable que siga alguna otra distribución, procedimientos de estimación estándar para que la distribución se pueden utilizar en su lugar. Si usted sospecha que no es
normal, pero no sé la distribución real, existe un procedimiento para "kernel
estimación de la densidad "que no asume ninguna distribución particular para el atributo valores. Otra posibilidad es simplemente para discretizar los datos primero.
4.3 de divide y vencerás: CONSTRUCCIÓN ÁRBOLES DE DECISIÓN
El problema de construir un árbol de decisión se puede expresar de forma recursiva. En primer lugar,
valor. Esto divide el
valor. Esto divide el ejemplo conjunto en subconjuntos, uno para cada valor del atributo.ejemplo conjunto en subconjuntos, uno para cada valor del atributo. Ahora, el proceso se puede repetir de
Ahora, el proceso se puede repetir de forma recursiva para cada rama, utilizando sóloforma recursiva para cada rama, utilizando sólo aquellos
aquellos
instancias que en realidad llegan a la rama.
instancias que en realidad llegan a la rama. Si en cualquier momento todos los casos en unSi en cualquier momento todos los casos en un nodo tienen
nodo tienen
la misma clasificación, se detiene el desarrollo de esa parte del árbol. la misma clasificación, se detiene el desarrollo de esa parte del árbol. Lo único que queda es cómo
Lo único que queda es cómo determinar qué atributo para dividir en, dado un conjunto dedeterminar qué atributo para dividir en, dado un conjunto de ejemplos con diferentes clases. Considere la posibilidad de
ejemplos con diferentes clases. Considere la posibilidad de (otra vez!) Los datos(otra vez!) Los datos meteorológicos. Hay cuatro
meteorológicos. Hay cuatro
posibilidades para cada división, y en el nivel
posibilidades para cada división, y en el nivel superior que producen los árboles en lasuperior que producen los árboles en la Figura 4.2.
Figura 4.2.
¿Cuál es la mejor opción? El número de noclasses Síy se muestra en las hojas. ¿Cuál es la mejor opción? El número de noclasses Síy se muestra en las hojas. Cualquier hoja con una sola clase-Sío
Cualquier hoja con una sola clase-Sío no-no tendrá que dividirse aún más, y lano-no tendrá que dividirse aún más, y la
proceso recursivo abajo esa rama terminará. Porque buscamos árboles pequeños, que proceso recursivo abajo esa rama terminará. Porque buscamos árboles pequeños, que le gustaría que esto suceda tan pronto como sea posible.
le gustaría que esto suceda tan pronto como sea posible. Si tuviéramos una medida de laSi tuviéramos una medida de la pureza de cada
pureza de cada
nodo, podríamos elegir el atributo que produce los nodos hija más puros. tome nodo, podríamos elegir el atributo que produce los nodos hija más puros. tome unun
momento para mirar a la figura 4.2 y reflexionar que atribuir crees que es la mejor opción. momento para mirar a la figura 4.2 y reflexionar que atribuir crees que es la mejor opción. La medida de la pureza que vamos a
La medida de la pureza que vamos a utilizar se llama el utilizar se llama el informationand se mideinformationand se mide en unidades llamadas bits. Asociado a cada nodo del árbol, que
en unidades llamadas bits. Asociado a cada nodo del árbol, que representa la esperarepresenta la espera cantidad de información que sería necesaria para especificar si una nueva instancia cantidad de información que sería necesaria para especificar si una nueva instancia deben clasificarse Sí o no, dado que el ejemplo alcanzó ese nodo. A diferencia de la deben clasificarse Sí o no, dado que el ejemplo alcanzó ese nodo. A diferencia de la bits en la memoria del
bits en la memoria del ordenador, la cantidad esperada de información por lo generalordenador, la cantidad esperada de información por lo general implica fracciones de bits y es a menudo menos de 1! Se calcula con base en el número de implica fracciones de bits y es a menudo menos de 1! Se calcula con base en el número de sí
sí
y noclasses en el nodo. Vamos a ver los detalles del cálculo en breve, pero y noclasses en el nodo. Vamos a ver los detalles del cálculo en breve, pero
primero vamos a ver cómo se utiliza. Al evaluar el primer árbol en la Figura 4.2, el número primero vamos a ver cómo se utiliza. Al evaluar el primer árbol en la Figura 4.2, el número de noclasses Síy en los nodos hoja son [2, 3], [4, 0], y [3, 2], respectivamente, y
de noclasses Síy en los nodos hoja son [2, 3], [4, 0], y [3, 2], respectivamente, y los valores de la información de estos nodos son Información tro
los valores de la información de estos nodos son Información trozos ([,]) 0,2 3 0 971 =zos ([,]) 0,2 3 0 971 = Información trozos ([,]) 0,4 0 0 0 =
Información trozos ([,]) 0,3 2 0 971 = Información trozos ([,]) 0,3 2 0 971 =
Se calcula el valor medio de la información de estos, teniendo en cuenta la Se calcula el valor medio de la información de estos, teniendo en cuenta la número de instancias que bajan cada rama y cinco
número de instancias que bajan cada rama y cinco por la primera y tercera ypor la primera y tercera y cuatro por el segundo:
cuatro por el segundo: info ([,], [,], [,]) (). () (). info ([,], [,], [,]) (). () (). .. 2 3 4 0 3 2 5 2 3 4 0 3 2 5 14 0 971 4 14 0 5 14 0 97114 0 971 4 14 0 5 14 0 971 00 = × + × + × = × + × + × = 6693 bits de = 6693 bits de
Este promedio representa la cantidad de información que esperamos que sería nec
Este promedio representa la cantidad de información que esperamos que sería necesarioesario especificar la clase de
especificar la clase de una nueva instancia, dada la estructura de árbol en la Figura 4.2 una nueva instancia, dada la estructura de árbol en la Figura 4.2 (a).(a). Antes de cualquiera de las estructuras de árboles nacientes en la
Antes de cualquiera de las estructuras de árboles nacientes en la figura 4.2 se han creado,figura 4.2 se han creado, la formación
la formación
ejemplos en la raíz componen nueve sí y cinco no hay nodos, lo que corresponde a un ejemplos en la raíz componen nueve sí y cinco no hay nodos, lo que corresponde a un valor de la información de
valor de la información de
Información trozos ([,]) 0,9 5 0 940 = Información trozos ([,]) 0,9 5 0 940 = Por lo tanto, el árbol
Por lo tanto, el árbol en la Figura 4.2 (a) een la Figura 4.2 (a) es responsable de un aumento de la informacións responsable de un aumento de la información de
de
ganancia () info info perspectivas = - = - ([,]) ([,], [,],
ganancia () info info perspectivas = - = - ([,]) ([,], [,], [,]). . 9 5 2 3 4 [,]). . 9 5 2 3 4 0 3 2 0 940 0 66930 3 2 0 940 0 6693 0 = 247. pedacitos
0 = 247. pedacitos
que puede ser interpretado como el valor informativo de
que puede ser interpretado como el valor informativo de la creación de una sucursal en lala creación de una sucursal en la outlookattribute.
outlookattribute. El camino a seguir
El camino a seguir está claro. Calculamos la ganancia de información para cada atributoestá claro. Calculamos la ganancia de información para cada atributo y dividido en el que gana la mayoría de la información. En la situación que se muestra y dividido en el que gana la mayoría de la información. En la situación que se muestra en la Figura 4.2:
en la Figura 4.2:
• Ganancia (perspectiva) = 0.247 bits de • Ganancia (perspectiva) = 0.247 bits de • ganancia (temperatura) = 0.029 bits de • ganancia (temperatura) = 0.029 bits de
• Ganancia (humedad) = 0.152 bits de • Ganancia (humedad) = 0.152 bits de • Ganancia (viento) = 0.048
• Ganancia (viento) = 0.048 bits debits de
Por lo tanto, seleccionamos outlookas el atributo de división en
Por lo tanto, seleccionamos outlookas el atributo de división en la raíz del árbol.la raíz del árbol. Esperemos que esto concuerda con su intuición como el
Esperemos que esto concuerda con su intuición como el mejor para seleccionar. Es lamejor para seleccionar. Es la única opción
única opción
para los que un nodo hija es
para los que un nodo hija es completamente pura, y esto le da un cocompletamente pura, y esto le da un co nsiderablensiderable ventaja sobre los otros atributos. La humedad es la siguiente mejor opción,
ventaja sobre los otros atributos. La humedad es la siguiente mejor opción, ya queya que produce un nodo hija más grande que es casi
produce un nodo hija más grande que es casi completamente puro.completamente puro.
Luego continuamos, de forma recursiva. La Figura 4.3 muestra las posibilidades de una Luego continuamos, de forma recursiva. La Figura 4.3 muestra las posibilidades de una ulterior
ulterior
rama en el nodo alcanza cuando la perspectiva es soleado.
rama en el nodo alcanza cuando la perspectiva es soleado. Claramente, una división másClaramente, una división más adelante outlookwill producir nada nuevo, por lo que sólo tenemos en
adelante outlookwill producir nada nuevo, por lo que sólo tenemos en cuenta los otroscuenta los otros tres atributos.
tres atributos.
La ganancia de información para cada resulta ser La ganancia de información para cada resulta ser • ganancia (temperatu
• ganancia (temperatura) = 0.571 bits dera) = 0.571 bits de • Ganancia (humedad) = 0.971 bits de • Ganancia (humedad) = 0.971 bits de • Ganancia (viento) = 0.020 bits de • Ganancia (viento) = 0.020 bits de
Por lo tanto, seleccionamos humidityas el atributo de división en
Por lo tanto, seleccionamos humidityas el atributo de división en este punto. No hayeste punto. No hay necesidad
necesidad
dividir estos nodos más lejos, por lo
dividir estos nodos más lejos, por lo que esta rama está terminado.que esta rama está terminado. La aplicación continuada de la misma idea conduce al
La aplicación continuada de la misma idea conduce al árbol de decisión de la Figura 4.4árbol de decisión de la Figura 4.4 para
para
los datos del tiempo. Idealmente, el proceso termina
los datos del tiempo. Idealmente, el proceso termina cuando todos los nodos de hoja quecuando todos los nodos de hoja que son
son
puros-es decir, cuando contienen casos que todos tienen la
es decir, cuando contienen casos que todos tienen la misma clasificación. Sin embargo,misma clasificación. Sin embargo, podría
podría
que no sea posible llegar a
que no sea posible llegar a esta feliz situación, porque no hay nada que detenga elesta feliz situación, porque no hay nada que detenga el conjunto de entrenamiento que contiene dos ejemplos con conjuntos idénticos de conjunto de entrenamiento que contiene dos ejemplos con conjuntos idénticos de atributos pero diferentes clases.
atributos pero diferentes clases.
En consecuencia, nos detenemos cuando los datos no se
En consecuencia, nos detenemos cuando los datos no se pueden dividir más.pueden dividir más. Alternativamente, uno
podría detenerse si la ganancia de información es cero.
podría detenerse si la ganancia de información es cero. Esto es un poco más conservadorEsto es un poco más conservador porque es posible encontrar casos en que los datos se pueden di
porque es posible encontrar casos en que los datos se pueden dividir en subconjuntos quevidir en subconjuntos que presentan
presentan
distribuciones de clase idénticas, lo que haría l
distribuciones de clase idénticas, lo que haría la información de ganancia cero.a información de ganancia cero. Información de Cálculo
Información de Cálculo
Ahora es el momento de explicar
Ahora es el momento de explicar la forma de calcular la medida de la forma de calcular la medida de información que seinformación que se utiliza como
utiliza como
la base para la evaluación de diferentes divisiones. Se
la base para la evaluación de diferentes divisiones. Se describe la idea básica de estadescribe la idea básica de esta sección,
sección,
a continuación, en la siguiente examinamos una corrección que se
a continuación, en la siguiente examinamos una corrección que se hace por lo hace por lo generalgeneral para hacer frente a un sesgo hacia
para hacer frente a un sesgo hacia
seleccionar divide en atributos con un gran número de
seleccionar divide en atributos con un gran número de posibles valores.posibles valores. Antes de examinar la fórmula detallada para el
Antes de examinar la fórmula detallada para el cálculo de la cantidad de informacióncálculo de la cantidad de información requerido para especificar la clase de un
requerido para especificar la clase de un ejemplo dado que se alcanza un nodo del ejemplo dado que se alcanza un nodo del árbolárbol con una
con una
cierto número de síes y
cierto número de síes y noes, considerar en primer lugar el tipo noes, considerar en primer lugar el tipo de propiedades que lode propiedades que lo haríamos
haríamos
esperar esta cantidad para tener esperar esta cantidad para tener
1. Cuando el número de cualquiera de sí o no de es cero, la información es cero. 1. Cuando el número de cualquiera de sí o no de es cero, la información es cero. 2. Cuando el número de de sí y no de es igual, la información llega a un
2. Cuando el número de de sí y no de es igual, la información llega a un máximo.
máximo.
Por otra parte, la medida debe ser
Por otra parte, la medida debe ser aplicable a situaciones multiclase, no sólo aplicable a situaciones multiclase, no sólo para twoclasspara twoclass queridos.
queridos.
La medida de información se refiere
La medida de información se refiere a la cantidad de información obtenida pora la cantidad de información obtenida por de tomar una decisión, y una propiedad más sutil de
de tomar una decisión, y una propiedad más sutil de la información puede ser obtenidala información puede ser obtenida por
por
teniendo en cuenta la naturaleza de las decisiones.
teniendo en cuenta la naturaleza de las decisiones. Las decisiones se pueden hacer en unaLas decisiones se pueden hacer en una sola etapa, o
sola etapa, o
puede hacerse en varias etapas, y la
puede hacerse en varias etapas, y la cantidad de información en cuestión es el mismocantidad de información en cuestión es el mismo en ambos casos. Por ejemplo, la
en ambos casos. Por ejemplo, la decisión implicado endecisión implicado en info ([,,]) 2 3 4
se puede hacer en dos etapas. En primer lugar decidir si es el primer caso o una de la otra dos casos:
y luego decidir cuál de los otros dos casos es: info ([,]) 3 4
En algunos casos no será necesario la segunda decisión a tomar, es decir, cuando la decisión resulta ser la primera. Teniendo en cuenta esto conduce a la ecuación info info info ([,,]) ([,]) () ([,]) 2 3 4 2 7 7 9 3 4 = + ×
Por supuesto, no hay nada especial acerca de estos números particulares, y similares relación debe mantener independientemente de los valores reales. Por lo tanto, podríamos añadir otros
criterio de la lista anterior:
3. La información que debe obedecer a la propiedad de varias etapas que hemos ilustrado. Sorprendentemente, resulta que sólo hay una función que satisface todos estos
propiedades, y se la conoce como la entropía de información valueor: entropía (,,,) log log log pppppppppnnn 1 2 1 1 2 2 ... ... =
-La razón de los signos menos es que los logaritmos de las fracciones p1 , p2
, ..., Pn son
negativa, por lo que la entropía es en realidad positiva. Por lo general, los logaritmos se expresan
en la base 2, y luego la entropía está en unidades llamadas bits de sólo el tipo habitual de bits
utilizado con las computadoras. El p1 argumentos
, p2
, ... De la fórmula de la entropía se expresan como fracciones que añadir hasta 1, de modo que, por ejemplo,
Por lo tanto, la propiedad de decisión de múltiples etapas se puede escribir en general como
entropía (,,) entropía (,) () entropía, pqrpqrqr q q r r q r = + + + × + + donde p + q + r = 1.
Debido a la forma en que la función de registro de obras, se puede calcular la información medir sin tener que trabajar fuera de las fracciones individuales:
info ([,,]) log log log [Log log l
2 3 4 2 9 2 9 3 9 3 9 4 9 4 9 2 2 3 3 4
= - × - × - ×
= - - - Registro oog] 4 9 9 9 +
Esta es la forma en que la medida de información se calcula normalmente en la práctica. así
el valor de la información para el primer nodo de la figura 4.2 (a) es información pedacitos
Atributos altamente ramificación
Cuando algunos atributos tienen un gran número de posibles valores, dando lugar a una rama de múltiples vías con muchos nodos secundarios, surge un problema con l a ganancia de información
cálculo. El problema puede ser mejor apreciada en el caso extremo cuando un atributo tiene un valor diferente para cada instancia en el conjunto de datos como, por ejemplo, una
atributo código de identificación podría.
Tabla 4.6 da los datos del tiempo con este atributo adicional. La ramificación de código de identificación
produce el tocón de un árbol en la Figura 4.5. La información necesaria para especificar la clase
dado el valor de este atributo se
info info info info info ([,]) ([,]) ([,]) ([,]) ([, 0 1 0 1 1 0 1 0 0 + + + + + ... 11])
que es 0 porque cada uno de los 14 términos es 0. Esto no es sorprendente: El código de ID
atributo identifica la instancia, que determina la clase sin ningún
ambigüedad-al iguambigüedad-al que la Tabla 4.6 muestra. En consecuencia, el aumento de la información de este atributo es sólo
la información en la raíz, información ([9,5]) = 0.940 bits. Esta es mayor que la ganancia de información de cualquier otro atributo, y para que el código ID inevitablemente será elegido como el
atributo división. Pero la ramificación en el código de identificación no es bueno para la predicción
la clase de casos desconocidos y no dice nada acerca de la estructura de la decisión, que después de todo son los dos objetivos de aprendizaje automático.
El efecto general es que la medida de ganancia de información tiende a preferir atributos con un gran número de posibles valores. Para compensar esto, una modificación de la medida llamada el ratiois ganancia ampliamente utilizado. La relación de ganancia se deriva teniendo en
conjunto de datos, sin tener en cuenta cualquier información acerca de la clase. En la situación mostrada en
Figura 4.5, todos los cargos tienen un valor de 1, por lo que el valor de la información de la división es
info ([,,,]) log 1 1 1 1 1 14 14 14 ... = - × ×
debido a que la misma fracción, 1/14, aparece 14 veces. Esto equivale a iniciar la sesión 14, o 3.807
bits, que es un valor muy alto. Esto es porque el valor de la información de una división es el número de bits necesarios para determinar a qué rama se asigna cada caso,
y las ramas más haya, mayor es este valor. La relación de ganancia se calcula
dividiendo la ganancia de información original, 0.940 en este caso, por el valor de la información
del atributo, 3.807-produciendo un valor de la relación de ganancia de 0,247 para el código de identificación
atribuir.
Volviendo a los tocones de los datos meteorológicos en la Figura 4.2, outlooksplits el conjunto de datos en tres subconjuntos de tamaño 5, 4, y 5, y por lo tanto tiene una información intrínseca
valor de
info ([,,]) 0,5 4 5 1 577 =
sin prestar atención a las clases que participan en los subconjuntos. Como hemos visto, este valor la información intrínseca es mayor para un atributo más alto de ramificación tales
como el código de ID hipotética. Una vez más, podemos corregir la ganancia de información dividiendo
por el valor intrínseco de información para obtener la relación de ganancia.
Los resultados de estos cálculos para los tocones de los árboles de la figura 4.2 se resumen en la Tabla 4.7. Perspectivas todavía viene a la cabeza, pero la humedad es ahora una mucho más cerca
contender porque divide los datos en dos subconjuntos en lugar de tres. En este particular,
ejemplo, el CodeAttribute Identificación hipotética, con una relación de ganancia de 0,247, todavía haría
preferible a cualquiera de estos cuatro. Sin embargo, su ventaja se reduce en gran medida. en
implementaciones prácticas, podemos utilizar una prueba ad hoc para evitar la división en un atributo tan inútil.
Lamentablemente, en algunas situaciones la modificación relación de ganancia compensa en exceso
y puede llevar a preferir un atributo sólo porque su información es intrínseca
mucho menor que para los otros atributos. Una solución estándar es elegir el atributo que maximiza la relación de ganancia, siempre que la ganancia de información para que
atributo es al menos tan grande como el promedio de ganancia de información para todos los atributos
examinado. discusión
El enfoque de divide y vencerás a la inducción de árbol de decisión, a veces llamado
inducción de arriba abajo de los árboles de decisión, se ha desarrollado y perfeccionado a lo largo de muchos años por
Ross Quinlan en la Universidad de Sydney en Australia. Aunque otros han
trabajado en métodos similares, la investigación de Quinlan siempre ha estado a la vanguardia
de árbol de decisión de inducción. El esquema que se ha descrito el uso de la información criterio de ganancia es esencialmente el mismo como uno conocido como ID3. El uso de la relación de ganancia
era una de las muchas mejoras que se hicieron a lo largo de varios años ID3; Quinlan descrito como robusto bajo una amplia variedad de circunstancias. Aunque una práctica solución, se sacrifica parte de la elegancia y la motivación teórica limpio de la
Criterio de Información de ganancia.
Una serie de mejoras a ID3 culminó en un sistema práctico e influyente
para la inducción de árbol de decisión denominada C4.5. Estas mejoras incluyen métodos para
tratar con atributos numéricos, valores perdidos, datos ruidosos, y la generación de reglas de los árboles, y se describen en la Sección 6.1.
4.4 ALGORITMOS RELATIVO A: REGLAS QUE CONSTRUYEN
Como hemos visto, los algoritmos de árbol de decisión se basan en un divide y vencerás enfoque para el problema de clasificación. Ellos trabajan de arriba hacia abajo, buscando en cada etapa
un atributo para dividir en que mejor separa las clases, y entonces el procesamiento de forma recursiva
los subproblemas que resultan de la división. Esta estrategia genera un árbol de decisión, que pueden, si es necesario convertir en un conjunto de reglas de clasificación, aunque si es producir normas eficaces, la conversión no es trivial.
Un enfoque alternativo es tomar cada clase a su vez y buscar una manera de cubrir
todos los casos en que, en los mismos instantes de tiempo excluyendo no en la clase. Esto se llama
un coveringapproach porque en cada etapa a identificar una norma que "cubre" algunos de
los casos. Por su propia naturaleza, este enfoque conduce a la cubierta de un conjunto de reglas en vez
que a un árbol de decisión.
El método que cubre fácilmente se puede visualizar en un espacio bidimensional de
instancias como se muestra en la Figura 4.6 (a). En primer lugar, hacer una regla que cubre la una de. para el
primera prueba en la regla, se dividió el espacio en vertical como se muestra en la imagen central. este
da el inicio de una regla: Si x> 1.2 entonces class = una
Sin embargo, la regla cubre muchos de b, así como de, por lo que se añade una nueva prueba que le
dividir aún más el espacio horizontalmente como se muestra en el tercer diagrama: Si x> y 1,2 y> 2,6 entonces class = una
Esto da una regla que cubre todas menos una de la una de. Es probable que sea conveniente dejar
en eso, pero si se considera necesario para cubrir la final de una, otra regla sería es necesario, quizás
Si x> y 1,4 y <2,4 entonces class = una
El mismo procedimiento se lleva a dos normas que regulan las b de: Si x ≤ 1.2 a continuación class = b
Si x> 1,2 y 2,6 y ≤ entonces class = b
Una vez más, uno ais erróneamente cubierto por estas reglas. Si fuera necesario excluir que, más pruebas tendría que ser añadido a la segunda regla, y las reglas adicionales ser necesario para cubrir las b de que estas nuevas pruebas excluyen.
Reglas contra árboles
Un algoritmo de arriba hacia abajo de divide y vencerás opera en los mismos datos de forma
es decir, al menos superficialmente, bastante similar a un algoritmo de cobertura. En primer lugar, podría
dividir el conjunto de datos utilizando la XAttribute, y probablemente terminará su división en el
mismo lugar, x = 1.2. Sin embargo, mientras que el algoritmo que cubre sólo se refiere cubriendo con una sola clase, la división tomaría ambas clases en cuenta
porque algoritmos divide y vencerás crean una sola descripción concepto que
se aplica a todas las clases. La segunda división también podría ser en el mismo lugar, y = 2,6,
que conduce al árbol de decisión de la Figura 4.6 (b). Este árbol corresponde exactamente a la
conjunto de reglas, y en este caso no hay ninguna diferencia en el efecto entre la cubierta y los algoritmos de divide y vencerás.
Pero en muchas situaciones hay isa diferencia entre las normas y los árboles en términos de
problema subárbol en la Sección 3.4, observamos que las reglas pueden ser simétricas, mientras que los árboles
debe seleccionar un atributo para dividir en primer lugar, y esto puede conducir a los árboles que son mucho más grande que un conjunto equivalente de reglas. Otra diferencia es que, en el multiclase
caso, una fracción de árbol de decisiones toma todas las clases en cuenta al tratar de maximizar el
pureza de la división, mientras que el método de la regla de generación se concentra en una clase a
un momento, sin tener en cuenta lo que ocurre con las otras clases. Un algoritmo simple Covering
Cubriendo algoritmos operan mediante la adición de pruebas a la regla que está en construcción,
siempre con el objetivo de crear una regla con la máxima precisión. En contraste, los
algoritmos divide y vencerás operan mediante la adición de pruebas para el árbol que está en construcción, siempre
esforzarse para maximizar la separación entre las clases. Cada uno de ellos consiste en la búsqueda de un atributo de dividir sucesivamente. Sin embargo, el criterio para la mejor atributo es diferente en
cada caso. Mientras que los algoritmos divide y vencerás como ID3 elegir un atributo a maximizar la ganancia de información, el algoritmo de recubrimiento vamos a describir elige una
par de atributo-valor para maximizar la probabilidad de que la clasificación deseada. Figura 4.7 da una idea de la situación, que muestra el espacio que contiene todos los casos, una regla parcialmente construido, y la misma regla después de un nuevo término ha sido
añadido. El nuevo plazo restringe la cobertura de la regla: La idea es incluir la mayor cantidad
instancias de la clase deseada como sea posible y excluyen a la mayor cantidad de casos de otra
clases como sea posible. Supongamos que la nueva norma cubrirá un total de tinstances, de los cuales p