Arboles de decisi´ ´ on - Universidad de Deusto. Tesis doctoral presentada por Javier Nieves de

3.3 Sumario

4.1.5 Arboles de decisi´ ´ on

• Kernel Radial Basis Function RBF. [AW99] la ecuaci´on utilizada

para sustituir el producto escalar es:

k(xi, xi) = expr(−γ · kxi, xjk2) para γ > 0 (4.15)

• Kernel Pearson VII. [ ÜMB06] se realiza una sustitución del producto escalar por la siguiente ecuación:

k(xi, xi) = 1 " 1 + pkxi− xjk 2_·p₂_ω1 _{− 1} δ !2#ω (4.16)

Desde su creaci´on, los SVM se utilizan ampliamente y han conseguido lograr muy buenos resultados por ejemplo, en la categorizaci´on de textos [PZH08].

4.1.5 ´Arboles de decisi´on

Estos clasificadores [Qui86] constituyen una herramienta de soporte a la toma de decisiones que es representada como un árbol (ver la Figura 4.5). También son utilizados para modelar las decisiones y las posibles consecuencias que pueden surgir una vez hayan sido tomadas. En este sentido, los árboles de decisión se componen de nodos de diferentes tipos:

4. Predicci´on del estado estacionario t + 1

• Nodos de decisi´on: Son lo nodos en los que hay que tomar una decisi´on basada en unos valores que se han obtenido. Es decir, evaluar condiciones para poder continuar a delante.

• Nodos finales: Los nodos finales son los que marcan el resultado. En el caso de la clasificación indicarán el grupo al que pertenece la evidencia que está siendo clasificada.

Figura 4.5: Representación gráfica de un árbol de decisión.

Los árboles pueden ser aprendidos mediante la división del conjunto de datos de prueba en diferentes subconjuntos basados en la prueba de valor de un atributo. El proceso es repetido en cada subconjunto derivado de una forma recursiva, conocido con el nombre de particionamiento recursivo (del inglés “recursive patitioning”). Este proceso llegará a su fin cuando el subconjunto de un nodo sea el mismo que la variable objetivo, o cuando la división no aporte valor a las predicciones. Normalmente, los algoritmos utilizados trabajan de una forma top-down eligiendo la variable que se va a usar en la división del conjunto de datos. El concepto de “mejor” es definido por cómo de buena es la división de la variable para obtener una serie de subconjuntos homogéneos que representen lo mismo con respecto a la variable objetivo. Dependiendo de los algoritmos utilizados, el cálculo será realizado según diferentes fórmulas.

Para la miner´ıa de datos pueden ser descritos como la combinación de técnicas matemáticas y computacionales para ayudar a la descripción, catego- rización y generalización del conjunto de datos dado. De esta forma, los datos

4.1 M´etodos de aprendizaje supervisado

llegan como registros en la forma (x, Y ) = (x1, x2, x3, ..., xk, Y ). La variable

dependiente, Y , es la variable objetivo que se est´a intentando comprender, cla- sificar o generalizar. El vector x est´a compuesto por las variables de entrada xk utilizadas en la tarea con la que estamos trabajando.

Los árboles de decisión tienen una serie de ventajas y de inconvenientes [Qui86]. En primer lugar, entre sus ventajas se cuentan (i) la simplicidad de entendimiento y de interpretación, (ii) los datos no requieren de grandes preparaciones, (iii) son capaces de gestionar tanto datos numéricos como no- minales, (iv) es posible validar el modelo, con lo que se convierte en mucho más confiable y robusto y (v) el tiempo necesario para el análisis de grandes cantidades de datos es muy bajo. Por el contrario, entre sus limitaciones se encuentran aspectos tan reseñables como: (i) el problema del aprendizaje de un árbol de decisión es NP-complejo, con lo que los métodos utilizados se basan en heur´ısticas, obteniendo unos resultados no totalmente óptimos; (ii) los métodos de aprendizaje pueden crear árboles demasiado complejos que no se acaban ajustando perfectamente a los datos y (iii) existen formas que son dif´ıciles de representar con los árboles de decisión, como podr´ıan ser los condicionamientos basados en la operación XOR.

De entre todos los algoritmos de aprendizaje supervisado existentes, para la realización de los experimentos de esta tesis doctoral, hemos utilizado el J48 (la implementación del Weka [Gar95] del algoritmo C4.5 desarrollado por Ross Quinlan [Qui93]). Igualmente, hemos empleado los bosques aleatorios (traducción del inglés “random forests”), que es una combinación de varios ´

arboles generados al azar con el fin de buscar la creaci´on de un clasificador mucho m´as fuerte [Bre01].

4.1.5.1 El algoritmo C4.5

Utilizando el algoritmo C4.5 [Qui93] se realiza una construcción de árboles de decisión de la misma forma que con el método ID31 _{(de la voz inglesa}

“Iterative Dichotomiser 3”) [Qui86], en el que para realizar la división de los nodos se utiliza el concepto de la entrop´ıa de la información representada en la ecuación 4.17:

1_{El algoritmo de aprendizaje ID3, desarrollado por Ross Quinlan, es el precursor del}

algoritmo C4.5. De forma resumida, el algoritmo ID3 toma los atributos no utilizados y calcula los valores de la entrop´ıa concernientes a las muestras de prueba. Posteriormente, elige el atributo para el que la entrop´ıa es m´ınima y genera un nodo conteniendo ese atributo.

4. Predicci´on del estado estacionario t + 1 E(S) = − n X j=1 fS(j) log2fS(j) (4.17)

donde E(S) es la entrop´ıa del conjunto de datos S, n se trata del n´umero de diferentes valores que tiene un atributo del conjunto S (la entrop´ıa se calcula para un atributo dado), fS(j) es la frecuencia del valor j dentro del conjunto de

datos S. As´ı, en el c´alculo de la entrop´ıa, un valor de 0 identifica un conjunto clasificado perfectamente.

Partiendo de esta premisa de c´alculo, en los datos de entrenamiento, el conjunto S = {s1, s2, ...} de instancias ya clasificadas, cada muestra si =

{x1, x2, ...} es un vector en el que cada xj representa los atributos o las ca-

racter´ısticas de la muestra. Estos datos pasar´an a ser aumentados a trav´es de un vector C = {c1, c2, ...} donde cada ci representa la clase a la que pertenece

cada muestra.

Entonces, el algoritmo C4.5, en cada nodo selecciona el atributo que divide de forma más efectiva ese conjunto de muestras en los consecuentes subconjuntos de una clase o de la otra. Su criterio es la normalización de la ganancia de información resultante de elegir un atributo en ese proceso de división. El atributo con el mayor valor será el elegido para realizar la decisión.

El algoritmo C4.5 tiene una serie de casos base que utiliza para realizar su proceso de aprendizaje [Qui93]. El primero de ellos es “todas las muestras del conjunto de datos de entrenamiento S pertenecen a la misma clase”. Cuando se da esta situación, el algoritmo simplemente crea un nodo hoja indicando que ese es el resultado de la clasificación. El segundo caso base es “ninguna de las caracter´ısticas proporciona valor en el cálculo de la ganancia de la información”. Para esta situación, el algoritmo crea un nodo de decisión en la parte alta del árbol utilizando el valor esperado de la clase. Y finalmente, el tercero de ellos es “encontrase una instancia perteneciente a una clase que desconoc´ıa”. Al igual que en el caso anterior, el algoritmo C4.5 crea un nodo de decisión en la parte alta del árbol utilizando el valor esperado de la clase.

4.1.5.2 El m´etodo de bosques aleatorios

Los bosques aleatorios, o en inglés “random forests”, es un clasificador que consiste en un conjunto de varios árboles de decisión pero que realiza la salida de la clasificación como si se tratase de un único árbol de decisión. El algoritmo para inducir el bosque aleatorio fue presentado por Leo Breiman en [Bre01].

In document Universidad de Deusto. Tesis doctoral presentada por Javier Nieves dentro del Programa de Doctorado en Sistemas de Información (página 137-141)