Extensiones al ambiente de aprendizaje automatizado Weka para datos de alta dimensión

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas. Facultad Matemática, Física y Computación Licenciatura en Ciencia de la Computación. Trabajo de Diploma. Extensiones al ambiente de aprendizaje automatizado Weka para datos de alta dimensión AUTOR: Enrique Carbonell Muela TUTOR: Dr. Carlos Morell Pérez. Ing. Yoisel Campos Hidalgo. 2010 “Año 52 de la Revolución”.

(2) A mi familia..

(3) A Dios, por su inmensa generosidad. A mis padres, por su amor y todos los sacrificios en aras de mi formación profesional. A mi novia Yadira por su dedicación en este trabajo. A mi tutor, por guiarme y brindarme su experiencia. A mi hermana por la revisión literaria del informe. A mis amistades por su apoyo en la realización de este trabajo..

(4) “La inteligencia humana tiene como leyes la investigación y el análisis”. José Martí.

(5) Resumen. Resumen Actualmente muchos procesos generan conjuntos de datos de alta dimensión, significando un reto para los métodos convencionales del aprendizaje automatizado; en el que las métricas, modelos y técnicas se desempeñan pobremente. Estudios recientes sugieren que las tareas de predicción en conjuntos de datos de alta dimensionalidad que emplean técnicas de aprendizaje supervisado, deben incluir la utilización de técnicas de selección de rasgos basada en Incertidumbre Simétrica, en Información Mutua Condicional, selección embebida empleando Bosques Aleatorios y técnicas de ensamble para la clasificación. En la presente investigación, se incluye el grupo de técnicas anteriores en el ambiente para el aprendizaje automático Weka, quedando a disposición de los investigadores una nueva versión que incorpora la capacidad de tratar con conjuntos de datos de alta dimensión. A partir de varios conjuntos de datos recopilados de los desafíos NIPS2003 y RSCTC2010, se hace una validación de los algoritmos seleccionados..

(6) Abstract. Abstract Nowadays many processes generate high dimension groups of data meaning a challenge for the conventional methods of the machine learning, where the metrics, models and techniques act poorly. Recent studies suggest that the prediction tasks in high-dimensionality groups of data that use techniques of supervised learning should include the use of preselection techniques based on Symmetrical Uncertainty, based on Conditional Mutual Information; embedded selection using Random Forests and assembles techniques for clasification. On present investigation, the techniques are included in the environment for Weka machine learning. It offers to investigators a new version that incorporates the capacity of try with groups of high dimension data. The selected algorithms are validated starting from several groups of collected data of the challenges NIPS2003 and RSCTC2010..

(7) Índice. Índice INTRODUCCIÓN...................................................................................................................................... 1 CAPÍTULO 1: MARCO TEÓRICO ........................................................................................................ 4 1.1. PROBLEMAS DE LOS CONJUNTOS DE DATOS DE ALTA DIMENSIÓN .................................................... 4. 1.2. ADAPTACIONES Y TÉCNICAS PARA ENFRENTAR LOS DATOS DE ALTA DIMENSIÓN ............................ 5. 1.2.1. Escalado de técnicas............................................................................................................. 5. 1.2.2. Reducción de la dimensionalidad ......................................................................................... 6. 1.2.2.1. Selección de rasgos ................................................................................................................................ 7. 1.2.2.2. Extracción de rasgos.............................................................................................................................10. 1.2.3. 1.3. Técnicas de Ensamble......................................................................................................... 11. 1.2.3.1. Diversidad, su relación con la exactitud y formas de lograrla........................................................... 14. 1.2.3.2. Combinación de decisiones múltiples................................................................................................. 19. CONSIDERACIONES FINALES DEL CAPÍTULO .................................................................................. 24. CAPÍTULO 2: TÉCNICAS PARA LA SELECCIÓN DE RASGOS EN CONJUNTOS DE DATOS DE ALTA DIMENSIÓN.......................................................................................................................... 27 2.1. SELECCIÓN DE RASGOS.................................................................................................................. 27. 2.1.1. Selección de rasgos basada en la Información Mutua Condicional (CMI) ....................... 28. 2.1.2. Selección de rasgos basada en la selección embebida a partir de Bosque Aleatorio (RF) 31. 2.1.3. Selección por ajuste del Rankeo Probabilístico (PR) ......................................................... 35. 2.2. VALIDACIÓN DE LAS TÉCNICAS DE SELECCIÓN DE RASGOS ............................................................ 36. 2.3. CONCLUSIONES DEL CAPÍTULO ...................................................................................................... 42. CAPÍTULO 3: TÉCNICAS DE ENSAMBLE ....................................................................................... 43 3.1. SUBESPACIOS ALEATORIOS (RS)................................................................................................... 43. 3.2. BOSQUES ALEATORIOS (RF) ......................................................................................................... 45. 3.3. CLASIFICACIÓN POR ENSAMBLE DESDE PARTICIONES ALEATORIAS (CERP).................................. 48. 3.4. VALIDACIÓN DE LAS TÉCNICAS DE ENSAMBLE DE CLASIFICADORES .............................................. 50. 3.5. CONCLUSIONES DEL CAPÍTULO ...................................................................................................... 53.

(8) Índice. CONCLUSIONES GENERALES .......................................................................................................... 54 RECOMENDACIONES.......................................................................................................................... 55 REFERENCIAS BIBLIOGRÁFICAS ................................................................................................... 56.

(9) Índice. Lista de figuras Figura 1: Resumen de las técnicas abordadas en Capítulo 1 ........................................... 26 Figura 2: CMIM implementado en Weka........................................................................ 31 Figura 3: RF utilizando un ensamblado de Árboles Aleatorios....................................... 34 Figura 4: RF utilizando un ensamblado de SimpleCartRandomAtt (nueva clase integrada a Weka). ........................................................................................................................... 34 Figura 5: Cálculos de la selección por ajuste del RP....................................................... 36 Figura 6: Experimentos utilizando selección de rasgos mediante CMIM y Rankeo Probabilístico clasificando con Naives Bayes. ................................................................ 38 Figura 7: Experimentos utilizando selección de rasgos mediante Bosques Aleatorios basados en Árboles Aleatorios y Rankeo Probabilístico clasificando con Naives Bayes. ......................................................................................................................................... 38 Figura 8: Experimentos utilizando selección de rasgos mediante Bosques Aleatorios basados en Árboles CART simples y Rankeo Probabilístico clasificando con Naives Bayes................................................................................................................................ 39 Figura 9: Experimentos utilizando selección de rasgos mediante la Tasa de Ganancia de Información y Rankeo Probabilístico clasificando con Naives Bayes. ........................... 40 Figura 10: Experimentos utilizando selección de rasgos mediante Ganancia de Información y Rankeo Probabilístico clasificando con Naives Bayes. ........................... 40 Figura 11: Experimentos utilizando selección de rasgos mediante Incertidumbre Simétrica y Rankeo Probabilístico clasificando con Naives Bayes................................. 41 Figura 12: RS utilizando un ensamblado de diez árboles J48 con dimensión de cada subespacio igual a la mitad de la dimensión del espacio de entrada. .............................. 44 Figura 13: Esquema de funcionamiento de CERP........................................................... 49 Figura 14: CERP con un ensamblado de árboles J48 con dimensión de cada partición igual a la mitad del espacio de entrada. ........................................................................... 50.

(10) Índice. Lista de Tablas Tabla 1: Descripción de los datos de alta dimensión considerados en el estudio............ 37 Tabla 2: Resultados del test de Friedman sobre los resultados de las técnicas de selección de rasgos en el percentil veinticinco con el clasificador Naives Bayes. .......... 41 Tabla 3: Porciento que representa la cantidad de rasgos seleccionados por cada técnica en el percentil veinticinco. ............................................................................................... 42 Tabla 4: Experimentos de la primera configuración........................................................ 51 Tabla 5: Resultados del test de Friedman sobre primera configuración de experimentos. ......................................................................................................................................... 52 Tabla 6: Resumen de diferencias entre los meta-clasificadores incorporados contra el Naive Bayes. .................................................................................................................... 53.

(11) Introducción. Introducción En años recientes, el aprendizaje automático se ha convertido en una disciplina establecida dentro de las ciencias de la computación. Su objetivo es el diseño y desarrollo de algoritmos que permitan aprender a partir de datos. El énfasis principal en la investigación en este campo, lo constituye la creación de programas capaces de generalizar comportamientos, a partir de una información no estructurada suministrada en forma de ejemplos. El aprendizaje supervisado es un caso específico, cuando los ejemplos están previamente etiquetados y el algoritmo se invoca para encontrar una función (explícita o implícita), estableciendo una correspondencia entre las entradas y las salidas deseadas del sistema. Varias técnicas se destacan en esta esfera, tales como, las Redes neuronales artificiales, Árboles de decisión y Razonamiento basado en instancias, entre otras. El campo de aplicación de estas técnicas se ha extendido a prácticamente todos los dominios. Los que recientemente han aparecido están caracterizados por la alta dimensión de los datos (gran número de rasgos) unido a una muestra de aprendizaje con una cardinalidad mucho menor. Ejemplos de tales dominios, lo constituyen las aplicaciones sobre la minería de textos, aplicaciones bioinformáticas y el diseño de fármacos asistido por computadoras. En esta última área de aplicación, a menudo se necesita la obtención de modelos QSAR, que se centran en predecir la actividad biológica de un compuesto a partir de una representación vectorial de su estructura molecular. Una deficiencia común, es la dificultad para inferir un modelo de predicción, debido a la alta dimensión del espacio de entrada con pocos ejemplos disponibles para el entrenamiento. Es un fenómeno bien conocido la inestabilidad de los modelos construidos a partir de decenas (o cientos, o miles) de variables predictoras (m) y una muestra relativamente pequeña (N).. 1.

(12) Introducción. Problema científico: Las técnicas diseñadas para datos de alta dimensión no están disponibles en el ambiente de aprendizaje automatizado Weka1. Objetivo: Poner a disposición del investigador las técnicas específicas del aprendizaje automatizado con datos de alta dimensión en el ambiente Weka. Preguntas de investigación:  ¿Qué técnicas existen para tratar con datos con alta dimensión?  ¿Cómo ofrecerle al investigador la opción de trabajar con datos de alta dimensión en la herramienta de aprendizaje automatizado Weka? Objetivos específicos: . Proporcionar una explicación formal de los diferentes algoritmos de selección con buen comportamiento en presencia de datos de alta dimensión. . Incorporar los diferentes algoritmos de selección de rasgos a la jerarquía de objetos de Weka.. . Proporcionar una explicación formal de los diferentes algoritmos de clasificación con buen comportamiento en presencia de datos de alta dimensión. . Incorporar los diferentes algoritmos de clasificación a la jerarquía de objetos de Weka.. . Comprobar la eficiencia de las técnicas implementadas utilizando conjuntos de datos de alta dimensión.. La presente investigación se estructura en tres capítulos. El primero se dedica al estudio del estado del arte en técnicas de aprendizaje automático diseñadas o adaptadas para datos de alta dimensión con muestras pequeñas, realizando un bosquejo de las principales técnicas que los investigadores han tratado en el campo, en aras de mejorar la. 1. WEKA es una herramienta de http://www.cs.waikato.ac.nz/˜ml/weka/.. código. abierto. escrita. en. Java.. Está. disponible. en. 2.

(13) Introducción. predicción de rasgos. Las técnicas seleccionadas se agrupan, en el capítulo dos las de selección de rasgos y en el tercero, las de ensamble de clasificadores. En ambos se tienen en cuenta aspectos de análisis, diseño y prueba de las técnicas sobre varios conjuntos de datos de alta dimensión de los desafíos NIPS20032 y de RSCTC20103.. 2. Los talleres NIPS2003 (Fundación. de Sistemas Neuronales de Procesamiento de Información). incluyeron un concurso de selección de rasgos organizado por los autores. Se ofrecían a los participantes cinco conjuntos de datos de diferentes dominios de aplicación y se exhortaba a que la clasificación resultante fuese con el número mínimo de rasgos. El concurso se llevo a cabo durante un periodo de trece semanas y atrajo a setenta y ocho grupos de investigación. Luego del periodo de competencia el sitio del evento se ha mantenido abierto para probar nuevas propuestas que surjan. Puede encontrarse información sobre el tema en: www.nipsfsc.ecs.soton.ac.uk 3. La competencia RSCTC2010 es un evento especial de Conjuntos Aproximados y tendencias actuales en. Informática cuyas conferencias tendrán lugar en Varsovia, Polonia, del 28 a 30 junio del 2010. La tarea está relacionada con la función de la selección en el análisis de datos de microarrays de ADN y la clasificación de los pacientes con el propósito de lograr el diagnóstico médico y su correspondiente tratamiento.. 3.

(14) Capítulo 1. Capítulo 1: Marco Teórico 1.1. Problemas de los conjuntos de datos de alta dimensión. Obtener nuevas muestras es una tarea difícil si se entiende que pudiera tomar tiempo y valiosos recursos, justificando en la mayoría de los casos, la presencia de conjuntos de datos de alta dimensión y baja cantidad de ejemplos. Sin embargo, explotar los tipos de conjuntos de datos precitados, para extraer el conocimiento fundamental mediante la formulación de modelos, podría mejorar los procesos tecnológicos y sociales. Es posible utilizar tal conocimiento para estimar o predecir las conductas futuras, llevando al ahorro de tiempo y esfuerzo. El aprendizaje automatizado supervisado, está dirigido a proporcionar las técnicas a fin de descubrir el conocimiento escondido en los datos. Sin embargo, cuando se dispone de un conjunto de datos de alta dimensión del espacio de entrada con pocos ejemplos disponibles para el entrenamiento, surgen dificultades para inferir un modelo de predicción. Cuando la dimensionalidad crece, algunas propiedades de los espacios de alta dimensión, se muestran más evidentes. Estas propiedades afectan la actuación del aprendizaje automatizado de diferentes formas. Los problemas que se suscitan durante el aprendizaje con conjuntos de datos de alta dimensión, son llamados frecuentemente “maldición de la dimensionalidad". Con este supuesto, François (2007) describe algunos fenómenos relacionados: a) La concentración de las distancias, coincidiendo con otros que analizaron esta problemática (Beyer et al., 1999). Las medidas de distancia tradicionales, como la norma Euclidiana, en espacios de alta dimensión, dan resultados menos intuitivos. A medida que el número de dimensiones aumenta, también lo hace la medición de la distancia. La distancia al vecino más próximo (NN, del inglés nearest neighbor) se acerca más a la distancia del vecino más lejano, que a cero. Por lo que se dice que las distancias entre puntos de datos vecinos sufren una concentración. El hecho que todas las distancias se vuelvan casi iguales, podría. 4.

(15) Capítulo 1. afectar la búsqueda NN y ser un problema para los métodos que utilizan la distancia como una medida de similitud. (Ver Anexo 1 y 2) b) El fenómeno de espacio vacío. Cuando la dimensionalidad crece, se necesitan muchos puntos de datos para cubrir una región en el hiperespacio. Pero ya que a menudo no se tienen tantos datos de prueba, la región bajo estudio será menos densamente cubierta. Para las miles de dimensiones, el espacio parece casi vacío, independientemente de cuántos datos de prueba se tengan. Esto afecta la estimación exacta de la función de densidad de probabilidad para los datos con muchas variables. (Ver Anexo 3) c) El fenómeno Hughes. Mostró cómo la exactitud de un modelo de clasificación es afectado por la dimensionalidad. El entrenamiento de un modelo con pocos rasgos puede producir una actuación pobre, dado a que existen insuficientes rasgos para discriminar las clases. Cuando se adicionan más rasgos, el modelo se nutre de información y aumenta la exactitud. Si se mantiene la adición, la exactitud alcanza una cumbre y cae, debido a que los nuevos rasgos se hacen irrelevantes, redundantes y ruidosos, para la discriminación exacta de las clases. Por este motivo, se le conoce también como el fenómeno "peaking".. 1.2. Adaptaciones y técnicas para enfrentar los datos de alta dimensión. Se han propuesto varias adaptaciones y técnicas para superar la “maldición de la dimensionalidad". Sin embargo, tres estrategias generales han mostrado resultados exitosos al entrenar modelos supervisados con conjuntos de datos de alta dimensión y con bajo tamaño de muestra. La primera consiste en el escalado de modelos. La segunda y tercera estrategias, son la reducción de la dimensionalidad y la creación de modelos robustos con comportamientos más estables.. 1.2.1 Escalado de técnicas La concentración de las distancias podría llevar a efectos indeseables en algunas técnicas del aprendizaje automatizado. Las técnicas basadas en distancia se pueden clasificar en dos grupos: en ordenamiento de rangos y en kernel. Las primeras, son técnicas que sólo 5.

(16) Capítulo 1. usan la distancia a algún punto dado para ordenar las muestras de los datos (por ejemplo búsqueda basada en NN y el clasificador k-NN); y las segundas, utilizan el valor real de la distancia como un parámetro pesado en la estimación del valor de la respuesta, como es el caso de Máquina de Vector de Soporte (SVM). Los métodos basados en ordenamiento de rangos, son menos afectados por la concentración, que los fundamentados en kernel Gaussiano, dado que la habilidad de ordenar según la distancia permanece inalterada. No obstante, para lograr la robustez ante el ruido en los espacios de alta dimensión, François (2007) propone medidas de distancia alternativas a considerar en lugar de la intuitiva distancia Euclidiana. Sus resultados muestran cómo otras normas distintas a L2 (Euclidiana), como la familia de las normas Minkowski (Deza and Deza, 2006, François, 2007, Payne, 1999), son más robustas, sobre todo cuando con. ; mientras que, para los métodos basados en. kernel, se propone el uso de del kernel Gaussiano Generalizado. Junto con la concentración de distancias, el fenómeno de vacío espacial deteriora la actuación de métodos de aprendizaje supervisado. Sobre todo cuando el tamaño de la muestra es pequeño, resulta muy difícil la estimación de densidad de probabilidad (Fukunaga, 1990, Silverman, 1986). Una estimación de densidad más fiable y exacta podría obtenerse si se reduce la dimensionalidad del problema.. 1.2.2 Reducción de la dimensionalidad Una vez analizados los fenómenos relacionados con la “maldición de dimensionalidad", se comprende que en los espacios de alta dimensión, como se cuenta con un gran número de rasgos, es muy probable la existencia de dimensiones casi alineadas. Las mismas se corresponden a los rasgos altamente correlacionados, representando casi la misma información. Debido al fenómeno del vacío espacial, concurren muchas dimensiones vacías o casi vacías, en que la proyección del conjunto de datos no diversifica. Por tanto, son dimensiones con pobre participación en la distribución del conjunto de datos real e indican rasgos con bajo poder discriminatorio. Finalmente, el. 6.

(17) Capítulo 1. fenómeno de Hughes, lleva a entrenar un modelo de aprendizaje supervisado con un número de rasgos, para que su exactitud alcance una cresta. En tales condiciones, es necesaria la búsqueda de los rasgos más relevantes, discriminantes y a su vez no redundantes. Dos estrategias generales de reducción de dimensionalidad son: selección de rasgos y extracción de rasgos. La selección prefiere a menudo que no se afecte la interpretabilidad de los resultados o los datos y las técnicas de extracción representan la distribución de los datos fundamentales.. 1.2.2.1. Selección de rasgos. La selección de rasgos es un procesamiento común de datos como herramienta para conjuntos de datos de alta dimensión. Su objetivo es dado un conjunto de m rasgos, encontrar el menor subconjunto. , que cause. la pérdida de información mínima, a fin de lograr que los modelos subyacentes no pierdan efectividad. Específicamente en el aprendizaje supervisado, se trata de encontrar un subespacio en el espacio de rasgos originales, con la menor cantidad de dimensiones posibles; donde la proyección de los datos de entrenamiento permita un reconocimiento más fácil de los modelos reales. Se logra entonces reforzar la habilidad de predicción de estos, acortando su tiempo de cómputo y consumo de memoria. Para encontrar tal subconjunto, debe realizarse una búsqueda entre todos los posibles subconjuntos de A, considerando el conjunto potencia de A. Aquí se tiene en cuenta relevancia y redundancia, puesto que el subconjunto óptimo será uno que contenga los más relevantes y menos mutuamente redundantes (dependiendo si la predicción escogida del modelo se beneficias de la redundancia o no). De esta manera, en el método de búsqueda, el criterio de relevancia y redundancia son los conceptos importantes en la selección del rasgo. Cada uno de ellos es crucial al tratar con datos de alta dimensión. El conjunto potencia de A consiste en 2m subconjuntos. Es claro que para conjuntos de datos con altos valores de m, la cantidad de posibles subconjuntos es considerablemente grande. Por lo que, construir una búsqueda exhaustiva, evaluando todas las posibilidades de subconjuntos, se convierte en un problema computacionalmente intratable. La opción 7.

(18) Capítulo 1. más viable sería entonces una búsqueda parcial, aspirando a encontrar un sub-óptimo, que pudiera ser la óptima solución. Los métodos de selección de rasgos que utilizan la actuación de un modelo como el criterio de relevancia para un determinado subconjunto de rasgos, se denominan métodos wrapper. En el aprendizaje supervisado, la exactitud de un método es considerada la métrica de evaluación de relevancia ideal, puesto que la exactitud más alta corresponde a los rasgos más útiles para la predicción. Esto implica el entrenamiento y prueba de un modelo para cada subconjunto de rasgos a ser evaluado, conduciendo a un alto costo de tiempo y memoria, dependiendo del método de aprendizaje y la cardinalidad del subconjunto.(Duch et al., 2004, Fleuret, 2004) Además, rasgos seleccionados por una técnica wrapper, son dependientes del modelo y su utilidad para entrenar un modelo diferente no se garantiza. Atendiendo a esta restricción, debe considerarse la actuación de un modelo como el criterio de relevancia para los subconjuntos de rasgos en las condiciones de alta dimensión, ya que la exactitud y eficacia de algunos algoritmos de aprendizaje se ve muy afectada por la alta cardinalidad del subconjunto. En cambio, podrían emplearse métricas interiores calculadas sin la intervención de cualquier algoritmo de aprendizaje. Para la selección de rasgos, los métodos de filtrado se centran en el cálculo de la métrica de relevancia directamente sobre el conjunto de datos, por ejemplo: la correlación y entropía. Comúnmente, el cómputo de este valor de relevancia para determinado subconjunto de rasgo será más rápido que usando un método wrapper, puesto que ningún modelo tiene que ser entrenado y probado. Sin embargo, los métodos de filtro asumen que la distribución y relación de los datos determinan el poder discriminatorio de un subconjunto de rasgos, lo cual no es necesariamente cierto.(Yu and Liu, 2003, Duch et al., 2004) Según François (2007) existen dos medidas de relevancia acordes a la selección de rasgo en las condiciones de alta dimensión. La primera es la Información Mutua (MI) entre un subconjunto de rasgo y el rasgo de decisión. Esta medida cuantifica la dependencia mutua de dos variables, refiriéndose a sus incertidumbres (su entropía), empleada para. 8.

(19) Capítulo 1. medir la utilidad de un subconjunto de rasgo para predecir el valor de la respuesta. El segundo criterio de relevancia, es la estimación de variación de ruido (la prueba Gamma) el cual da una medida de cuantos datos similares, corresponden a valores de respuestas similares. Un subconjunto de rasgos con la variación del ruido alta, es considerado incoherente y así no fiable para la predicción. Se reconoce la correlación lineal como una manera popular de estimar las interacciones entre dos variables, pero este criterio parcializa la relevancia al solo medir cómo es la relación lineal, mientras asume una distribución a priori de las variables. Por la misma razón, Yu y Liu (2003) usaron una medida de la correlación basada en MI, definido como la Incertidumbre Simétrica (SU). Utilizan SU como criterio de relevancia para proponer un método de filtro, que intenta seleccionar un subconjunto de rasgos con la relevancia alta y redundancia baja (FCBF). Para la relevancia, ordenan jerárquicamente todos los rasgos y ponen un umbral, para definir un subconjunto A’ de rasgos relevantes. Para la reducción de redundancia introducen el concepto “correlación predominante” y también presentan algunas heurísticas para evitar las correlaciones que forman pares para cada par de rasgos en A’, que podría ser intratable en las condiciones de alta dimensión. La maximización de la Información Mutua Condicional (CMIM) es el criterio de selección de rasgos por filtro para la clasificación de dos clases, propuesta por Fleuret (2004). Su estudio experimental a fondo, resultó que CMIM supera a otros métodos de selección de rasgos para casi todos los clasificadores empleados. Al igual que los de Fleuret , se pueden encontrar otros estudios experimentales sobre conjuntos de datos de alta dimensión, utilizando diferentes criterios de relevancia y algoritmos de clasificación (Guyon et al., 2004, Duch et al., 2004). Algunas técnicas de aprendizaje automatizado podrían ser fuentes de subconjuntos de rasgos, integrando un paso de selección de características en sus procesos. Un caso típico de integración de selección de rasgos, es la construcción de los árboles de decisión, que selecciona la característica más relevante de un subconjunto dado en cada iteración, de acuerdo a una medida de importancia definida internamente.. 9.

(20) Capítulo 1. Ratanamahatana y Gunopulos (2003) y posteriormente Liu et al. (2006), utilizaron un árbol de decisión construido con el algoritmo C4.5 para determinar la relevancia de rasgos, basado en su aparición en el nivel superior del árbol: un nivel superior y mayor frecuencia de ocurrencia corresponden a una mayor relevancia. Este enfoque ha sido incluido en estudios experimentales (Hall et al., 2009), mostrando un rendimiento aceptable. Otra variante fue sugerida por Torkkola and Tuv (2006) con la selección embebida a partir de Bosques Aleatorios (RF), donde los rasgos son ordenados en función del valor del Gini index para el rasgo más discriminante en cada división. Una comparación entre varios filtros integrados y métodos wrapper para la alta dimensión, fue presentado con unos conjuntos de datos del desafío NIPS2003 por Guyon et al. en un estudio experimental (2005). En la investigación se clasifican los métodos de selección de rasgos en: lineal o no lineal, univariados o multivariados, de acuerdo con los supuestos de los métodos acerca de la linealidad y la cantidad de rasgos con los que se trabaja. Los experimentos demuestran que los métodos multivariados pueden proporcionar subconjuntos de rasgos más compactos para una idéntica o incluso mejor clasificación, siendo la aproximación lineal multivariada más cerca al ranking de los mejores métodos. El estudio no abarca los métodos no lineales univariados. por. emplearse raramente. Sin embargo, después del desafío NIPS2003 se han propuesto muchos métodos de filtrado no lineal univariados (Duch et al., 2004, Fleuret, 2004).. 1.2.2.2. Extracción de rasgos. El proceso de extracción de rasgos consiste en la creación de nuevas características como funciones de las originales. En la clasificación, la extracción busca producir un rasgo más pequeño con un mayor potencial discriminatorio, basado en la distribución de los datos de la muestra. Métodos lineales populares para la extracción de características se han utilizado ampliamente durante muchos años. Tal es el caso de Análisis de Componentes Principales (PCA), Análisis discriminante de Fisher y la búsqueda de proyección, entre otros. La linealidad difícilmente se encuentra en los datos del mundo real. La presencia de datos incompletos, ruido y la alta dimensión, también es inherente a los procesos de 10.

(21) Capítulo 1. información actual. Por tanto, para superar la aparición de valores atípicos (outliers), la “maldición de la dimensionalidad” y otros fenómenos, las técnicas de extracción de rasgos clásicas se han ampliado y adaptado llegando a formar técnicas más robustas. Tomando en consideración que los rasgos extraídos podrían no ser factibles para la interpretación de los resultados de los modelos, se ha decidido no analizar este tipo de técnicas en el presente trabajo.. 1.2.3 Técnicas de Ensamble La combinación de múltiples modelos de aprendizaje supervisado, es decir, un ensamble de modelos encaminado a mejorar la actuación global, no es una nueva idea (Ahn et al., 2007, Dietterich, 2000a, Ferri et al., 2004, Kuncheva, 2004, Opitz and Maclin, 1999, Dietterich, 2000b, Ferri and Hernández Orallo, 2004, Ho, 1998, Beyer et al., 1999).En las diversas áreas de conocimiento, un comité de expertos, toma preferentemente las decisiones. al. compararlas. con. las. asumidas. individualmente.. Los. estudios. experimentales en la clasificación (Kuncheva, 2004, Dietterich, 2000b, Opitz and Maclin, 1999, Berk, 2006) muestran que, combinando modelos diversos y bien construidos, se obtienen resultados mejores que utilizando cualquiera de los modelos base exclusivamente. En la presente investigación, se toma como referencia la siguiente definición dada por Dietterich (2000a) acerca de ensamble de clasificadores, los que enuncia como: un conjunto de clasificadores cuyas decisiones individuales son combinadas de alguna forma (típicamente por pesado o no de votos) para clasificar nuevos ejemplos. Para la construcción acertada de ensambles, en aras de que trabajen mejor que un clasificador individual, se toman en consideración los siguientes aspectos (Dietterich, 2000a): 1. La razón estadística. Los algoritmos de aprendizaje pueden verse como la búsqueda del espacio de hipótesis H, para identificar la mejor hipótesis del espacio. El problema estadístico surge cuando la cantidad de datos de entrenamiento disponible es muy pequeño comparado con el tamaño del espacio. 11.

(22) Capítulo 1. de hipótesis. Sin suficientes datos, el algoritmo de aprendizaje puede buscar muchas hipótesis diferentes en H, donde todas tienen semejante exactitudes en el conjunto de entrenamiento. Por la construcción de las salidas del ensamble de todos los clasificadores exactos, el algoritmo puede “promediar” sus votos y reducir el riesgo de seleccionar clasificadores equivocados (Ver Anexo 4). 2. La razón computacional. Muchos algoritmos de aprendizaje trabajan por desarrollar alguna forma de búsqueda local óptima. Por ejemplo, algoritmos de redes neuronales utilizan gradiente descendente para minimizar la función de error sobre datos de entrenamiento y árboles de decisión utilizan regla greedy spliting para construirlo. En los casos donde hay suficientes datos de entrenamiento (donde el problema estadístico está ausente), puede ser aún más difícil computacionalmente para los algoritmos de aprendizaje la búsqueda de la mejor hipótesis. De hecho, el entrenamiento óptimo de redes neuronales y árboles de decisión, resulta NP-hard. Un ensamble construido corriendo búsqueda local desde diferentes puntos de partida, puede proveer una mejor aproximación a la desconocida función de verdad que cualquiera de los clasificadores individuales como se muestra en el Anexo 4. 3. La razón figurativa. En muchas aplicaciones del aprendizaje automatizado, la función de verdad ƒ no puede representarse por ninguna de las hipótesis en H. Pero formando sumas pesadas de hipótesis basadas en H, puede ser posible la expansión del espacio de búsqueda de funciones representables (Ver Anexo 4). El tema representacional es algo delicado, debido a la existencia de muchos algoritmos de aprendizaje para los que H es, en principio, el espacio de todos los posibles clasificadores. Por ejemplo, las redes neuronales y los árboles de decisión son algoritmos muy flexibles. Suponiendo suficientes datos de entrenamiento, ellos exploran el espacio de todos los posibles clasificadores y varias personas tienen demostrado teoremas de representación asintótica para ellos, como aseguran Hornik, Stinchcombe y White, citados por Dietterich (2000a). Aún así, con una muestra de entrenamiento finita, estos algoritmos. 12.

(23) Capítulo 1. exploran solamente un conjunto de hipótesis finito y pueden parar la búsqueda cuando encuentran un hipótesis que ajusta el conjunto de entrenamiento. Una de las áreas más activas de la investigación en el aprendizaje automatizado, ha sido el estudio de métodos para la construcción de buenos ensambles de clasificadores. Varias investigaciones teóricas y empíricas han demostrado que un buen ensamble, es uno donde sus clasificadores individuales son exactos y cometen los errores en diferentes partes del espacio de entradas (Opitz and Maclin, 1999). Lo que equivale a plantear que un ensamble es más exacto que cualquiera de sus miembros individuales, si sus clasificadores base son exactos y diversos (Dietterich, 2000a, Kuncheva, 2004). La predicción basada en ensamble típicamente ha tenido una más baja generalización de la tasa de error que utilizando modelos simples. La diferencia está dada por el tipo de clasificador base utilizado, las dimensiones del ensamblado. y la diversidad o. correlación entre los clasificadores base. Se ha demostrado que una baja o negativa correlación. de. clasificadores,. mejora. la. exactitud. sobre. los. positivamente. correlacionados (Ahn et al., 2007). Los métodos de ensamble por combinación de clasificadores pueden ser divididos en tres categorías: . Ensambles que combinen clasificadores con el mismo tipo de entrenamiento en diferentes tipos de rasgos (combinación paralela).. . Ensambles que combinen clasificadores de diferentes tipos de entrenamiento en el mismo conjunto de rasgos (combinación apilada o stacking).. . Ensambles que combinen clasificadores del mismo tipo de entrenamiento en el mismo conjunto (o subconjuntos del mismo conjunto) de rasgos (combinación débil).. En los últimos años las investigaciones se han enfocado en modelos comprendidos en la tercera categoría, ejemplo de estos son: boosting, bagging (Kuncheva, 2004, Dietterich, 2000b) y Subespacio Aleatorio (RS) (Ho, 1998) los cuales serán tratados posteriormente.. 13.

(24) Capítulo 1. De las declaraciones teóricas de Kuncheva (2004), se puede conocer que los modelos individuales son aproximaciones al clasificador óptimo para un problema dado. Combinando múltiples modelos, podrían llevar a un clasificador que es una aproximación mejor al óptimo que cualquier di individual. En consecuencia, se puede considerar la existencia de dos aspectos fundamentales: cómo lograr la diversidad y cómo combinar las decisiones de modelos múltiples en un conjunto.. 1.2.3.1. Diversidad, su relación con la exactitud y formas de lograrla. En la práctica, es difícil definir una medida simple de diversidad y más aún, una relacionada con el desempeño del ensamble en una dependencia clara y expresiva. Existen dos ideas fundamentales o enfoques de medidas de diversidad que brinda (Kuncheva, 2004): 1. Las apareadas: consideran un par de clasificadores a la vez. Teniendo en cuenta que en un ensamble de L clasificadores se producirán L(L-1)/2 pares de valores de diversidad. Para obtener un valor sencillo se promedian todos los pares. Algunas de estas medidas se relacionan a continuación: a. Medida de discrepancia. b. Medida de doble fallo. 2. Las medidas no apareadas: consideran todos los clasificadores juntos y calcula directamente el valor de diversidad para el ensamble. Dentro de las cuales se puede encontrar: a. Medida de entropía E. Sus estudios han logrado mostrar la relación de la exactitud con la diversidad para diferentes conjuntos de datos. Aunque la diversidad es percibida como la característica más importante de un ensamble, existen disímiles opiniones al respecto. El problema podría ser en la filosofía del concepto de diversidad. Tres modos de ver la diversidad son detallados a continuación:. 14.

(25) Capítulo 1. 1) Diversidad como una característica del conjunto de clasificadores. Se tiene un conjunto de clasificadores pero no está decidido que combinación utilizar todavía. No se involucra información acerca de si los votos de los clasificadores fueron o no correctos. Esta vista parece ser la más limpia. Provee información adicional de la tasa de errores individual y del ensamble. De alguna forma se mide la diversidad para descubrir cómo esta contribuye al éxito del ensamble. 2) Diversidad como característica del conjunto de clasificadores y de la combinación. En este caso la salida del ensamble está además disponible. Se puede encontrar qué clasificador desvía más y cuales menos desde la salida del ensamble, midiendo la diversidad para cada una de las bases individuales. Diferentes combinaciones podrían conducir a diferentes valores de diversidad para el mismo conjunto de clasificadores. 3) Diversidad como característica del conjunto de clasificadores, la combinación y los errores. La diversidad es vista como un componente del error del ensamble y las fórmulas se buscan para relacionarla con la habilidad del mismo, para mejorar los desempeños individuales de los clasificadores. Aquí se pretende buscar una relación entre diversidad y el error del ensamble, que pueda guiar en la construcción de mejores ensambles. El problema versa sobre la medida clara de diversidad, podría ser poco utilizada debido a la débil relación con la exactitud del ensamble. Por otro lado, mientras más se involucre el desempeño del ensamble en la definición de diversidad, más se correrá el riesgo de tratar de remplazar el cálculo simple del error del ensamble, por lo difícil de manejar o poco acertada que es la diversidad. La interpretabilidad de la medida de diversidad,. podría perderse en el camino de tratar de empatarlo con el error del. ensamble. Una de las maneras más intuitivas de lograr la diversidad, es entrenar cada clasificador base con datos diferentes. Esto podría realizarse por el submuestreo del conjunto de datos original, para proporcionar diferentes muestras de los datos a cada clasificador base. Los algoritmos submuestreo que normalmente se aplican para la construcción del. 15.

(26) Capítulo 1. ensamble son bagging (Kuncheva, 2004, Dietterich, 2000b, Ahn et al., 2007, Berk, 2004, Breiman, 2001) y boosting (Kuncheva, 2004, Opitz and Maclin, 1999, Breiman, 2001, Berk, 2004). El primero crea un “bag” de clasificadores, entrenando cada uno con un subconjunto de las muestras originales seleccionadas al azar con reemplazo. Bagging es un algoritmo paralelo en sus dos etapas: entrenamiento y operacional, donde los miembros del ensamblado pueden ser tratados en procesadores independientes. Por otra parte boosting crea modelos individuales de forma iterativa, teniendo el clasificador di entrenado con una muestra aleatoria parcial, donde las muestras mal clasificadas por los clasificadores anteriores dk (k = 1,..., i-1) tienen más probabilidades de ser elegidas. Sin embargo, cuando se trata con datos de alta dimensión y un tamaño de muestra pequeño, el submuestreo podría no ser la opción correcta. Como se ha mencionado en las secciones anteriores, es difícil estimar la función de densidad de probabilidad con precisión en estas condiciones. El submuestreo podría llevar a una situación aún más dura y con riesgo de sobreajuste de los datos de entrenamiento, mientras baja la habilidad de generalización de los clasificadores. Entrenar cada clasificador base con diferentes subconjuntos de rasgos, podría ser otra estrategia para lograr la diversidad. Esto ha demostrado ser más exitoso para los problemas de alta dimensión. Los clasificadores en un ensamble pueden construirse desde diferentes subconjuntos de rasgos, más disjuntos o solapados. La selección de rasgos se dirige a obtener una mejor exactitud y eficiencia computacional del ensamble. En la literatura consultada (Kuncheva, 2004) se puede encontrar diferentes formas de agrupar los rasgos dado un conjunto de datos: 1. Agrupando. de forma natural. En algunos problemas los rasgos están. naturalmente agrupados. Por ejemplo, en la identificación de la voz, diferentes grupos de rasgos son relacionados con la pendiente o tono de la señal y por el espectro de la voz. El espectro de la voz puede ser caracterizado por coeficientes predictivos lineales. En lugar de utilizar todos los rasgos y construir una decisión. 16.

(27) Capítulo 1. centralizada, se pueden utilizar clasificadores individuales y sus decisiones serían tomadas en cuenta para la clasificación. 2. Selección aleatoria. La selección de subconjuntos aleatorios de rasgos es a lo que comúnmente se llama métodos de Subespacio Aleatorio (RS). Cada clasificador en el ensamble es construido sobre una selección aleatoria del conjunto de rasgos de tamaño d. Ho (1998) sugiere buenos resultados obtenidos por la construcción de árboles de clasificación sobre d, aproximadamente igual a n/2 rasgos, donde n es la cantidad total de rasgos. El método de subespacio aleatorio funciona bien, cuando la información redundante se dispersa por todos los rasgos, en lugar de centrase en un subconjunto de ellos. Otros de los enfoques generales de los algoritmos de subespacio para la construcción de ensamble, son los Bosques Aleatorios y Particiones Aleatorias. Los Bosques Aleatorios, son una propuesta de combinar bagging con selección aleatoria del espacio de rasgos (Ahn et al., 2007, Kuncheva, 2004, Breiman, 2001, Berk, 2004). En la construcción de los árboles bases se efectúan muestreos con remplazo del conjunto de entrenamiento cada vez que se construye un nuevo nodo. Una extensión al método de RS es crear una partición aleatoria del conjunto de rasgos originales, obteniendo así el no solapamiento de los subconjuntos. Este último suceso, aumenta la diversidad, puesto que cada clasificador individual se entrenará en una proyección completamente diferente del conjunto de datos. Sin embargo, esta selección al azar podría prevenir características que son individualmente irrelevantes, pero muy útiles de conjunto para ser seleccionadas en el mismo subconjunto. 3. Selección no aleatoria.  Modelo de clase favorita. Un algoritmo simple para la selección de subconjuntos de rasgos que es el denominado en inglés input decimation. El ensamble consiste en L = c clasificadores donde c es el número de clases. Cada clasificador tiene una clase favorita. Para buscar el subconjunto para el 17.

(28) Capítulo 1. clasificador Di con la clase favorita wi, calculamos la correlación entre cada rasgo y la etiqueta clase de la variable. La etiqueta clase de la variable fue cero para todos los objetos que no están en la clase wi y uno, para todos los que si están. Seleccionando los subconjuntos de esta forma, se crea diversidad dentro del ensamble.  Algoritmo genético. Los GA ofrecen una búsqueda aleatoria guiada en el espacio de todos los posibles subconjuntos de rasgos. Dependiendo de la codificación, existen dos vías generales para utilizar un GA en la selección de L subconjuntos de rasgos; de los que solamente se mencionarán los que utilizan la precisión del ensamble en la evolución. Denominada en la bibliografía como metodología B, la característica fundamental es que cada individuo en la población representa un ensamble completo. Considerando utilizar subconjuntos disjuntos (metodología B1) es posible tomar la longitud del vector (el cromosoma) como n y utilizar enteros entre cero y L. El valor de la posición i-ésima denota el clasificador que utiliza el rasgo xi. Un valor cero significaría que ningún clasificador utiliza ese xi. Valores enteros GA pueden utilizarse para producir por evolución poblaciones de ensambles. La fitness de los cromosomas puede ser directamente una medida de la exactitud del ensamble representada por los cromosomas. Por ejemplo, sea X un conjunto de diez rasgos. Considerando un ensamble de cuatro clasificadores. Un cromosoma [1,1,4,0,3,3,1,2,3,3] denota un ensamble de donde D1 utiliza x1,x2 y x7; D2 utiliza x8; D3 a x5, x6, x9 y x10; y D4 a x3. El rasgo x4 no es empleado por ningún clasificador. La aproximación B es computacionalmente más costosa que otra que no incluya la evaluación en cada paso de la exactitud del ensamble. En todas las implementaciones de GA, debe tener un especial cuidado para asegurarse de la construcción de cromosomas válidos. Por ejemplo, en B1, podría suceder que no. 18.

(29) Capítulo 1. todos los L clasificadores recibieran un subconjunto de rasgos. Entonces el ensamble tendría menos miembros que en un inicio. En consecuencia, es posible considerar adicionar la restricción de eliminar o descartar aquellos cromosomas que no contemplen, aunque sea un entero a los L clasificadores. A pesar de que es posible construir clasificadores desde espacios solapados, Kuncheva (2004) arriba a las siguientes conclusiones: 1. La correlación entre los clasificadores construidos (salidas) con muestras independientes es más baja que los bagging, pero no llega a ser cero. 2. La salida de clasificadores independientes pueden ser dependientes. 3. El índice de error de los clasificadores construidos con muestras independientes, es menor que los de bagging. Por lo que los ensambles con baja correlación son más diversos que los de alta correlación. En el Anexo 5 se puede verificar el beneficio de tener ensambles más diversos, mostrando como con los mismos clasificadores bases, método de poda y la forma de combinar los resultados se obtienen índices de error diferentes. La mejora del índice de error, se. atribuye a la alta diversidad en el ensamble que utilizó conjuntos de. entrenamientos independientes. La utilización de diferentes clasificadores base para formar el ensamble, se dice que es otra forma de lograr la diversidad (Malek et al., 2002); aunque la práctica más común es usar el mismo clasificador base para modelos individuales. Dado que los clasificadores de base diferentes tienen desiguales sesgos inductivos, se supone que ocupan posiciones diferentes en el espacio de búsqueda de hipótesis. Con cualquier estrategia que se escoja para construir los modelos individuales, todavía se tienen varios modos de combinar sus resultados.. 1.2.3.2. Combinación de decisiones múltiples. Para combinar decisiones múltiples, existen dos aproximaciones fundamentales. Se puede seleccionar un modelo individual específico para tomar la decisión o agregar cualquier decisión de los modelos individuales de diferentes formas, realizando la fusión 19.

(30) Capítulo 1. de sus rendimientos. Los estudios de Kuncheva (2002) contienen información sobre la decisión entre la selección y fusión en la combinación de los clasificadores base. Las estrategias de selección de clasificador están basadas en algún criterio de competencia individual. Dado una muestra no clasificada, el modelo más competente se selecciona para clasificarlo. Tomando en consideración los sucesos de la vida cotidiana, donde una mala decisión de predicción dada por un clasificador trae generalmente consecuencias negativas, es deseable utilizar un clasificador escasamente errático. De forma dual, esto significa tener un clasificador que sea casi siempre correcto. En la praxis, para la asistencia en la construcción de una decisión, el experto puede consultar terceras personas y arriba a una conclusión o pospone su decisión. Esto es común para evitar cometer errores. En este contexto, se consideran algunos expertos cuando dan respuestas acertadas frecuentemente. César Ferri y José Hernández Orallo (2004), brindan una noción de los clasificadores cautelosos. Un clasificador cauteloso, puede construir la predicción seleccionando entre las posibles clases del problema y una adicional “no estoy seguro”. Este tipo de clasificador abre una serie de temas tal como: la evaluación de los modelos teniendo en cuenta el rango de error frente al rango de abstenciones, cómo buscar el compromiso máximo y cómo el aprendizaje sensitivo al costo puede ser extendido para considerar este tipo de clasificador. Otro enfoque cercano es el clasificador por delegación (Ferri et al., 2004). Este puede resumirse en “dejar que otros hagan lo que uno no hace bien”. Con los clasificadores por delegación, se evitan algunos de los problemas de los métodos de ensamble; en particular la pérdida de comprensibilidad y el uso excesivo de recursos computacionales. La idea del clasificador por delegación, deja algunas preguntas sobre dos problemas principales. Primeramente, se tiene que determinar el umbral o la regla de decisión para decidir cuándo aplicar el primer clasificador y cuándo delegar al segundo. Posteriormente, se tienen que determinar buenas técnicas que se desempeñen mejor que el primero para los ejemplos que este ha delegado.. 20.

(31) Capítulo 1. Para enfrentar la interrogantes precitadas, se ha propuesto un método simple, con las siguientes características: (1) La decisión de si un ejemplo es tomado por el primer o segundo clasificador, es construida por el primero en sí mismo, por una estimación de fiabilidad. Con este se puede utilizar un buen método de ordenamiento de rangos (por ejemplo, un buen estimador de probabilidad) como primer clasificador. (2) El segundo clasificador se especializó en los ejemplos para los que el primero se desarrolló mal, entrenándose con los ejemplos rechazados. Los clasificadores por delegación iterativos, sugieren una relación con los otros métodos de ensamble o combinación, como boosting y stacking (Wolpert, 1992; citado en Ferri et al., 2004). Boosting asigna altos pesos a los ejemplos incorrectamente clasificados y bajos pesos a los que son correctamente clasificados por cada iteración. Un clasificador por delegación, por otra parte, elimina los ejemplos que son clasificados con una alta confidencia de clasificación para las siguientes iteraciones. Los clasificadores stacking introducen un clasificador en un segundo nivel para mejorar la predicción decidiendo qué clasificador base utilizar. Otros métodos como los clasificadores en cascada. generan nuevos rasgos de la. estimación de probabilidad de clase, dado por el clasificador base o por previa divisiones del árbol de decisión. En contraste, la clasificación por delegación produce modelos que son completa y exclusivamente definidos en términos de los rasgos originales y la clase. El clasificador por delegación es por tanto un método serial (no paralelo), transferente (sin combinación), preservador de rasgos, arbitrado en sí mismo y multiclasificador. Las ventajas del enfoque de clasificación por delegación son: cada clasificador guarda parte de los ejemplos para entrenamiento (de aquí, que el proceso sea más eficiente que otros métodos de ensamble); el resultado general no es por la combinación de clasificadores, sino por una lista de decisiones (si se utiliza un árbol de decisión como clasificador base, la clasificación general es un árbol de decisión y estas decisiones pueden ser rastreadas y comprendidas); y ya que algunas partes del modelo pueden no utilizarse por ciertos ejemplos, se puede simplificar en estos casos.. 21.

(32) Capítulo 1. Cuando una muestra que x necesita ser clasificada, el clasificador d1 sólo realiza la tarea si la fiabilidad de su decisión (es decir, la probabilidad que x pertenece a la clase), es más alta que un umbral dado. De otra forma, delega la tarea al d2. Lo mismo ocurre y para cada di, así sucesivamente. Aunque la selección del clasificador pudiera permitir una mejor interpretación, la clasificación todavía se realiza por un solo modelo. Por lo que, sobre todo en los problemas alto-dimensionales, la fusión de decisión podría ser una opción positiva. En este sentido (Kuncheva, 2004) denota, dado X € Rn el vector de rasgos y , el conjunto de etiquetas clase. Cada clasificador Di en el ensamble tiene de salida c grados de soporte. Sin perder generalidad, se puede asumir, que de todas las c están en el intervalo [0,1], siendo formalmente Di: Rn→[0,1]c. Denotando di,j(x) el soporte del clasificador Di dando la hipótesis que x resulta de clase wj. A mayor soporte, mayor etiqueta clase wj. La salida de L clasificadores para la entrada particular x puede ser organizada en un DP(x) (decision profile) como la matriz mostrada en el Anexo 6. Los métodos aquí descritos utilizan DP(x) para encontrar el soporte general para cada clase y subsecuentemente, etiquetar la entrada x con el soporte más alto. Existen dos aproximaciones generales, 1- Utilizando los valores en la columna j que son soportes individuales para la clase wj y obteniendo como resultado el valor del soporte global para la clase. Denotando por µj(x) el grado general de soporte para wj dado por el ensamble. Los métodos de combinación que utilizan una columna de DP(x), son denominados con conciencia de clase o clasistas (Ej. de este grupo son el promedio pesado simple, producto y entre otros). 2- Alternativamente, muchos incorporan el contexto de DP(x) y tratan los valores di,j(x), como rasgos en un nuevo espacio de rasgos, que llamamos espacio intermedio de rasgos. La decisión final es construida por otro clasificador, que. 22.

(33) Capítulo 1. toma el espacio intermedio de rasgos como entrada y da como salida la etiqueta clase. Este tipo de método se denomina indiferente de clase. Las combinaciones consientes de clase se pueden analizar desde dos enfoques generales. Las combinaciones desentrenadas sugieren que la combinación no necesita parámetros extras para el entrenamiento, el ensamble estará listo tan pronto los clasificadores base estén entrenados. Combinaciones simples desentrenadas, calculan el soporte por clase wj utilizando solamente la p-ésima columna de DP(x) por: µj(x) = Ғ(d1,j(x),..., dL,j(x)), donde Ғ es una función de combinación. La etiqueta clase de x es encontrada como el índice del máximo µj(x). La función de combinación se selecciona de diferentes formas. Las elecciones más populares son: A) Media simple (Ғ = promedio). B) Min/Máx/Media. C) Producto. D) Media generalizada. Es necesario tener en cuenta en D) que el valor de α denota el grado de optimismo de la combinación. Ejemplo cuando α → -∞ es equivalente al min en B) siendo la opción más. 23.

(34) Capítulo 1. pesimista y cuando α → ∞ es equivalente a max en B) siendo la más optimista. (Kuncheva, 2004) Las estrategias de fusión más comunes para la clasificación son voto mayoritario y la votación pesada. Con el primero, una muestra se asigna a la clase con más votos de los clasificadores individuales. Con el último, a cada modelo di se asigna un wi de peso a su decisión, sea él un voto o una probabilidad. Varias aproximaciones se centran en determinar el vector de peso óptimo W = (w1,…,wL) para lograr la exactitud de la clasificación más alta. Algunos de los acercamientos para encontrar el W óptimo son las redes neurales. Una medida de la competencia de cada modelo para clasificar una muestra dada se puede utilizar también como un vector de peso, en forma similar a algunas estrategias de clasificador de selección. No hay ninguna estrategia más acertada para resolver todo problema, se debe determinar la combinación de estrategias y parámetros que bien se ajustan al problema. Por otro lado, agregando los rendimientos de clasificadores individuales se podría provocar problemas en la interpretación. Adicionalmente al estudio de las técnicas para tratar con datos de alta dimensión, se consultaron diferentes fuentes sobre las particularidades de Weka como herramienta de aprendizaje automatizado (Witten and Frank, 2005, Morell et al., 2006) para la familiarización con su estructura de clases.. 1.3. Consideraciones finales del capítulo. En el análisis del desafío de NIPS2003, se esbozaron varias perspectivas. El uso de los métodos de ensamble ha sido intensamente estudiado desde entonces en combinación con la selección embebida de rasgos. Se han propuesto las extensiones y mejoras a algoritmos específicos de aprendizaje. En este punto, se puede encontrar que afinar la reducción de dimensionalidad embebida en conjuntos de modelos de predicción, junto con las nuevas técnicas de fusión basadas en confianza, son temas dignos de estudio.. 24.

(35) Capítulo 1. En la Figura 1 se presentan los enfoques más exitosos para el aprendizaje automático supervisado con un tamaño de muestra pequeño y de conjuntos de datos de alta dimensión. Por lo que el autor de la investigación determina, extender la herramienta de aprendizaje automatizado Weka (versión 3.6), con las siguientes técnicas de del aprendizaje supervisado: . Métodos de selección de rasgos : o basada en la Información Mutua Condicional (CMI). o basada en la selección embebida a partir de Bosques Aleatorios (RF).. . Métodos de ensamble de clasificadores: o Meta clasificador Subespacio Aleatorio (RS). o Meta clasificador Bosque Aleatorio (RF). o Meta clasificador Particiones Aleatorias (CERP).. Adicionalmente a estos métodos, se propone una nueva técnica de selección de rasgos basada en la probabilidad acumulada denominada Ranqueo Probabilístico.. 25.

(36) Capítulo 1. Figura 1: Resumen de las técnicas abordadas en Capítulo 1. 26.

(37) Capítulo 2. Capítulo 2: Técnicas para la selección de rasgos en conjuntos de datos de alta dimensión. 2.1. Selección de rasgos. La selección de rasgos es utilizada frecuentemente como paso de procesamiento en el aprendizaje automatizado. Seleccionándose el subconjunto de rasgos que reducen el espacio óptimamente de acuerdo a la evaluación de un criterio de certeza. La selección de rasgos provee una efectiva eliminación de los rasgos irrelevantes y redundantes lo que conlleva a: (1) incrementar la eficiencia en las tareas, (2) mejorar el desarrollo en el aprendizaje y la exactitud de la predicción, (3) aumentar la comprensibilidad de los resultados aprendidos. Dentro de las técnicas de filtro, los algoritmos de selección de rasgos se pueden categorizar en dos grupos: algoritmos de pesado y algoritmos de búsqueda de subconjunto; basados en las evaluaciones de los rasgos individuales o mediante subconjuntos de rasgos. Los algoritmos de pesado de rasgos asignan un peso a los rasgos y ordenan estos en base a su relevancia. En la literatura del aprendizaje automatizado existe un gran número de definiciones de relevancia de rasgos (Yu and Liu, 2003, Duch et al., 2004). Algunos métodos de selección de rasgos tienen en cuenta que un rasgo es bueno y seleccionable si su peso de relevancia es mayor que un valor de umbral dado; ejemplo de ello es el algoritmo extensamente utilizado Relief. Sin embargo, muchos algoritmos de este tipo presentan el problema de no eliminar redundancia aunque detectan eficazmente la relevancia de rasgos. Se puede concluir entonces que en el contexto de la selección de rasgos para datos de alta dimensión, donde pueden existir muchos rasgos redundantes, los algoritmos de pesado basados en relevancia no se desarrollan eficazmente. Dentro de las técnicas de filtrado que se recomienda para tratar datos de alta dimensión se encuentran algunas basadas en: Información Mutua Condicional y la selección embebida a partir de Bosques Aleatorios. A continuación se describirá brevemente cada una de las medidas y técnicas empleadas. 27.

(38) Capítulo 2. 2.1.1 Selección. de. rasgos. basada. en. la. Información. Mutua. Condicional (CMI) El criterio de Maximización de Información Mutua Condicional (CMIM) no selecciona una característica similar a las ya recogidas, aunque de forma individual sean de gran alcance, puesto que no aporta información adicional acerca de la clase a predecir. Por lo que garantiza un buen equilibrio entre independencia y discriminación. Los experimentos previos (Fleuret, 2004) demuestran que CMIM supera otros métodos de selección de rasgos como el FCBF; señalando además que un clasificador NaiveBayes, basándose en los rasgos elegidos por este criterio, alcanza tasas de errores similares o inferiores a AdaBoost y SVMS. Asimismo se ha comprobado la solidez de estos métodos cuando son desafiados por una serie de entrenamientos ruidosos. Para tener una idea más precisa del funcionamiento de la metodología propuesta, se brindan a continuación algunas definiciones. Tómense tres variables aleatorias finitas denotadas por U, V, W. La selección de rasgos que se considera está basada en la información mutua condicional:. Este valor es un estimado de la cantidad de información compartida entre U y V, cuando W se conoce. También puede verse, como la diferencia entre la incertidumbre media restante de U cuando W es conocida y la misma incertidumbre cuando W y V son conocidas. Si V y W llevan la misma información sobre U, las dos condiciones en la derecha son iguales, y la CMI es igual a cero, aún cuando ambos W y V sean individualmente informativos. Al contrario si V trae la información sobre U que ya no se contiene en W la diferencia es grande. La estimación de la entropía condicional, información mutua o información mutua condicional, puede ser determinada por la suma y sustracción de la estimación de las entropías de familia de uno a tres variables. Sea x, y, z tres vectores booleanos y u, v y w. 28.

(39) Capítulo 2. tres valores booleanos. Se denota por ||.|| la cardinalidad del conjunto y se definen tres funciones contadoras:. Se define. , con la convención de. .. Y por definición se tiene:. 29.

(40) Capítulo 2. Finalmente, los cálculos se basan en el número de ocurrencias de ciertos patrones de bits en las familias de uno a tres vectores y las evaluaciones de ξ en valores enteros entre cero y T. En la literatura consultada (Fleuret, 2004) aparece una propuesta de filtro para la selección de un subconjunto de dimensión k (rasgos); su pseudocódigo puede ser revisado a continuación4: Algoritmo 1: Implementación de CMIM. Entrada: ( 1 , Salida: 1 2. 2, … ,. , ) */ conjunto de datos de entrenamiento /*. begin for n = 1 to N do. 3. s[n] = mut_inf(n). 4. k = N;. 5 6. while ( k ≥ 0 & argmaxn s[n] ≠ 0 ) do nu[k] = argmaxn s[n]. 7. for n = 1 to N do. 8. s[n] = min(s[n], cond_mut_inf(n,nu[k])). 9 10. */ conjunto de K rasgos óptimos /*. k--; end;. 11 end. La idea que se persigue con CMIM, se puede ser formalizada como:. 4. La función mut_inf(n) calcula. y cond_mut_inf(n,m) calcula. .. 30.

(41) Capítulo 2. Esta idea se integró al Weka (versión 3.6) dentro de los métodos de selección de rasgos. Para ello se creó la clase CMIM como evaluador de rasgos. A continuación se muestra como queda la configuración en el Weka con este evaluador (Ver Figura 2).. Figura 2: CMIM implementado en Weka.. 2.1.2 Selección de rasgos basada en la selección embebida a partir de Bosque Aleatorio (RF) Para la mayoría de los conjuntos de datos del desafío NIPS2003 se ha notado una mejora significativa en la exactitud cuando sólo se utiliza un pequeño pero importante fragmento de las variables originales en la construcción del kernel.(Torkkola and Tuv, 2006). 31.

(42) Capítulo 2. Para ello se han propuesto técnicas exploratorias basadas en árboles para el filtrado de los rasgos. Una de las propiedades más importantes de un CART (Breiman et al., 1984 citado en Berk, 2004) es su habilidad embebida de seleccionar las variables más importantes durante la construcción del árbol empleando particiones ávidas recursivas, donde la reducción de impureza se maximiza en cada paso. La impureza mide la falta de uniformidad de la distribución de clase. Si el dato de un nodo en un árbol de decisión pertenece a una sola clase esta es pura, o, la impureza iguala el cero. Si cada clase es igualmente probable, la impureza está en el máximo. La entropía es considerada una de estas medidas. CART utiliza el Gini index. , donde. es la. probabilidad de la clase q estimada por los datos del nodo t. La importancia de la variable puede estimarse como la suma de todos los nodos del árbol.. Donde variable. es la disminución en la impureza debido al split real o potencial en la a un nodo t del árbol T óptimamente podado. La suma anterior se toma sobre. todos los nodos interiores de un árbol donde. fue el splitter primario o la variable. sustituta. Por consiguiente, no se necesita ningún esfuerzo adicional para su cálculo. Uno de los adelantos en los ensambles de árboles es el precitado RF (Breiman, 2001), heredando todas las propiedades buenas de un árbol simple y logrando proporcionar una estimación más fiable cuando la medida de importancia se promedia sobre. árboles en. el ensamble. 32.

(43) Capítulo 2. No es necesario normalizar las importancias individuales. El máximo de. está. escalado hasta cien. RF construye los árboles máximos pero escoge un subconjunto aleatorio pequeño de variables en cada split y maneja fácilmente miles de variables en conjuntos de datos de tamaño moderado5. Es importante destacar que el índice de importancia de la variable definido en la medida anterior es la contribución global de una variable al modelo de aprendizaje. En estudios previos sobre los conjuntos de datos ofrecidos por NIPS2003 el bosque crecía utilizando los datos de entrenamiento hasta lograr la mejora de la generalización del error. El límite estaba alrededor de cien árboles. Cuando un árbol individual se forma, una muestra aleatoria de las variables se selecciona para determinar el mejor corte, en lugar de considerar todas las variables. El tamaño de la muestra recomendado en los estudios es , donde. es el número de variables originales.. La selección embebida a partir de RF se implementó como evaluador de rasgos dentro de la sección de selección de rasgos del Weka (versión 3.6). Obteniendo los resultados de los cálculos basados en entropía o en Gini index. de las corridas de los RF. seleccionados según sea el caso. En las Figura 3 y Figura 4, se muestran como queda configurado en Weka los dos evaluadores.. 5. Tamaño moderado, se está refiriendo a conjuntos de datos con pocas muestras o ejemplos.. 33.

(44) Capítulo 2. Figura 3: RF utilizando un ensamblado de Árboles Aleatorios.. Figura 4: RF utilizando un ensamblado de SimpleCartRandomAtt (nueva clase integrada a Weka).. 34.