• No se han encontrado resultados

3.3 Sumario

4.1.5 Arboles de decisi´ ´ on

• Kernel Radial Basis Function RBF. [AW99] la ecuaci´on utilizada

para sustituir el producto escalar es:

k(xi, xi) = expr(−γ · kxi, xjk2) para γ > 0 (4.15)

• Kernel Pearson VII. [ ¨UMB06] se realiza una sustituci´on del pro- ducto escalar por la siguiente ecuaci´on:

k(xi, xi) = 1 " 1 + pkxi− xjk 2·p2ω1 − 1 δ !2#ω (4.16)

Desde su creaci´on, los SVM se utilizan ampliamente y han conseguido lograr muy buenos resultados por ejemplo, en la categorizaci´on de textos [PZH08].

4.1.5 ´Arboles de decisi´on

Estos clasificadores [Qui86] constituyen una herramienta de soporte a la toma de decisiones que es representada como un ´arbol (ver la Figura 4.5). Tambi´en son utilizados para modelar las decisiones y las posibles consecuencias que pueden surgir una vez hayan sido tomadas. En este sentido, los ´arboles de decisi´on se componen de nodos de diferentes tipos:

4. Predicci´on del estado estacionario t + 1

• Nodos de decisi´on: Son lo nodos en los que hay que tomar una decisi´on basada en unos valores que se han obtenido. Es decir, evaluar condiciones para poder continuar a delante.

• Nodos finales: Los nodos finales son los que marcan el resultado. En el caso de la clasificaci´on indicar´an el grupo al que pertenece la evidencia que est´a siendo clasificada.

Figura 4.5: Representaci´on gr´afica de un ´arbol de decisi´on.

Los ´arboles pueden ser aprendidos mediante la divisi´on del conjunto de datos de prueba en diferentes subconjuntos basados en la prueba de valor de un atributo. El proceso es repetido en cada subconjunto derivado de una forma recursiva, conocido con el nombre de particionamiento recursivo (del ingl´es “recursive patitioning”). Este proceso llegar´a a su fin cuando el subconjunto de un nodo sea el mismo que la variable objetivo, o cuando la divisi´on no aporte valor a las predicciones. Normalmente, los algoritmos utilizados trabajan de una forma top-down eligiendo la variable que se va a usar en la divisi´on del conjunto de datos. El concepto de “mejor” es definido por c´omo de buena es la divisi´on de la variable para obtener una serie de subconjuntos homog´eneos que representen lo mismo con respecto a la variable objetivo. Dependiendo de los algoritmos utilizados, el c´alculo ser´a realizado seg´un diferentes f´ormulas.

Para la miner´ıa de datos pueden ser descritos como la combinaci´on de t´ecnicas matem´aticas y computacionales para ayudar a la descripci´on, catego- rizaci´on y generalizaci´on del conjunto de datos dado. De esta forma, los datos

4.1 M´etodos de aprendizaje supervisado

llegan como registros en la forma (x, Y ) = (x1, x2, x3, ..., xk, Y ). La variable

dependiente, Y , es la variable objetivo que se est´a intentando comprender, cla- sificar o generalizar. El vector x est´a compuesto por las variables de entrada xk utilizadas en la tarea con la que estamos trabajando.

Los ´arboles de decisi´on tienen una serie de ventajas y de inconvenientes [Qui86]. En primer lugar, entre sus ventajas se cuentan (i) la simplicidad de entendimiento y de interpretaci´on, (ii) los datos no requieren de grandes preparaciones, (iii) son capaces de gestionar tanto datos num´ericos como no- minales, (iv) es posible validar el modelo, con lo que se convierte en mucho m´as confiable y robusto y (v) el tiempo necesario para el an´alisis de grandes cantidades de datos es muy bajo. Por el contrario, entre sus limitaciones se encuentran aspectos tan rese˜nables como: (i) el problema del aprendizaje de un ´arbol de decisi´on es NP-complejo, con lo que los m´etodos utilizados se basan en heur´ısticas, obteniendo unos resultados no totalmente ´optimos; (ii) los m´etodos de aprendizaje pueden crear ´arboles demasiado complejos que no se acaban ajustando perfectamente a los datos y (iii) existen formas que son dif´ıciles de representar con los ´arboles de decisi´on, como podr´ıan ser los condicionamientos basados en la operaci´on XOR.

De entre todos los algoritmos de aprendizaje supervisado existentes, para la realizaci´on de los experimentos de esta tesis doctoral, hemos utilizado el J48 (la implementaci´on del Weka [Gar95] del algoritmo C4.5 desarrollado por Ross Quinlan [Qui93]). Igualmente, hemos empleado los bosques aleatorios (traducci´on del ingl´es “random forests”), que es una combinaci´on de varios ´

arboles generados al azar con el fin de buscar la creaci´on de un clasificador mucho m´as fuerte [Bre01].

4.1.5.1 El algoritmo C4.5

Utilizando el algoritmo C4.5 [Qui93] se realiza una construcci´on de ´arboles de decisi´on de la misma forma que con el m´etodo ID31 (de la voz inglesa

“Iterative Dichotomiser 3”) [Qui86], en el que para realizar la divisi´on de los nodos se utiliza el concepto de la entrop´ıa de la informaci´on representada en la ecuaci´on 4.17:

1El algoritmo de aprendizaje ID3, desarrollado por Ross Quinlan, es el precursor del

algoritmo C4.5. De forma resumida, el algoritmo ID3 toma los atributos no utilizados y calcula los valores de la entrop´ıa concernientes a las muestras de prueba. Posteriormente, elige el atributo para el que la entrop´ıa es m´ınima y genera un nodo conteniendo ese atributo.

4. Predicci´on del estado estacionario t + 1 E(S) = − n X j=1 fS(j) log2fS(j) (4.17)

donde E(S) es la entrop´ıa del conjunto de datos S, n se trata del n´umero de diferentes valores que tiene un atributo del conjunto S (la entrop´ıa se calcula para un atributo dado), fS(j) es la frecuencia del valor j dentro del conjunto de

datos S. As´ı, en el c´alculo de la entrop´ıa, un valor de 0 identifica un conjunto clasificado perfectamente.

Partiendo de esta premisa de c´alculo, en los datos de entrenamiento, el conjunto S = {s1, s2, ...} de instancias ya clasificadas, cada muestra si =

{x1, x2, ...} es un vector en el que cada xj representa los atributos o las ca-

racter´ısticas de la muestra. Estos datos pasar´an a ser aumentados a trav´es de un vector C = {c1, c2, ...} donde cada ci representa la clase a la que pertenece

cada muestra.

Entonces, el algoritmo C4.5, en cada nodo selecciona el atributo que divide de forma m´as efectiva ese conjunto de muestras en los consecuentes subcon- juntos de una clase o de la otra. Su criterio es la normalizaci´on de la ganancia de informaci´on resultante de elegir un atributo en ese proceso de divisi´on. El atributo con el mayor valor ser´a el elegido para realizar la decisi´on.

El algoritmo C4.5 tiene una serie de casos base que utiliza para realizar su proceso de aprendizaje [Qui93]. El primero de ellos es “todas las muestras del conjunto de datos de entrenamiento S pertenecen a la misma clase”. Cuando se da esta situaci´on, el algoritmo simplemente crea un nodo hoja indicando que ese es el resultado de la clasificaci´on. El segundo caso base es “ninguna de las caracter´ısticas proporciona valor en el c´alculo de la ganancia de la informaci´on”. Para esta situaci´on, el algoritmo crea un nodo de decisi´on en la parte alta del ´arbol utilizando el valor esperado de la clase. Y finalmente, el tercero de ellos es “encontrase una instancia perteneciente a una clase que desconoc´ıa”. Al igual que en el caso anterior, el algoritmo C4.5 crea un nodo de decisi´on en la parte alta del ´arbol utilizando el valor esperado de la clase.

4.1.5.2 El m´etodo de bosques aleatorios

Los bosques aleatorios, o en ingl´es “random forests”, es un clasificador que consiste en un conjunto de varios ´arboles de decisi´on pero que realiza la salida de la clasificaci´on como si se tratase de un ´unico ´arbol de decisi´on. El algoritmo para inducir el bosque aleatorio fue presentado por Leo Breiman en [Bre01].