• No se han encontrado resultados

Construcción de sistemas multiclasificadores usando optimización de Colonias de Hormigas

N/A
N/A
Protected

Academic year: 2020

Share "Construcción de sistemas multiclasificadores usando optimización de Colonias de Hormigas"

Copied!
106
0
0

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Matemática, Física y Computación Departamento Ciencia de la Computación. TRABAJO DE DIPLOMA Título: Construcción de sistemas multiclasificadores usando Optimización de Colonias de Hormigas.. Autor: Lester René Santos Martínez Tutores: MSc. Leidys Cabrera Hernández Dra. Gladys Casas Cardoso Consultantes: MSc. Gonzalo Nápoles Ruiz Lic. Alejandro Morales Hernández. “Año 57 de la Revolución” Santa Clara 2015.

(2) Dictamen. DICTAMEN El que subscribe, Lester René Santos Martínez, hago constar que el trabajo titulado “Construcción de sistemas multiclasificadores usando Optimización de Colonias de Hormigas” fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de los estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la Universidad.. ____________________ Firma del autor. Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. ____________________. ____________________. Firma del tutor. Firma del Jefe de Seminario. ____________________ Fecha II.

(3) Resumen. RESUMEN Las técnicas de clasificación están siendo muy utilizadas en la solución de diferentes problemas de la sociedad. Existen varios modelos de clasificación reportados en la literatura como las redes neuronales, árboles de clasificación, análisis discriminante, entre otros. En investigaciones recientes muchos autores introducen el término multiclasificador como un “clasificador” que combina las salidas de un conjunto de clasificadores individuales, utilizando algún criterio (ej.: promedio, voto mayoritario, mínimo, etc.). Cuando se combinan clasificadores es importante garantizar la diversidad entre ellos ya que no tendría sentido combinar clasificadores cuya clasificación es la misma. Existen varios modelos para construir un multiclasificador y todos garantizan esta diversidad de diferentes formas. En el caso de aquellos que usan distintos clasificadores bases, existen algunas medidas estadísticas que pueden ser usadas para estimar cuán diversos son, ellas se denominan medidas de diversidad. La selección de los distintos clasificadores bases para un sistema multiclasificador es una tarea compleja, precisamente por las grandes cantidades de clasificadores individuales y las múltiples combinaciones que ellos pueden generar, ante este problema combinatorio se propone el uso de las meta heurísticas con las medidas de diversidad para obtener una combinación de clasificadores diversos y una exactitud en la combinación superior a la mejor individual. El curso pasado se desarrolló la investigación (Hernández, 2014), en la que se usaron específicamente los Algoritmos Genéticos para lograr lo explicado anteriormente, como resultado de la misma se obtuvo la primera versión de un sistema llamado: Splicing v1.2. En este trabajo se realizan las modificaciones necesarias sobre ese sistema para obtener una versión más completa donde se implementa una nueva meta heurística, en este caso, la meta heurística ACO 1 , con distintas variantes y varias heurísticas, para resolver exactamente el problema anterior.. 1. En inglés se conoce como Ant Colony Optimization.. I.

(4) Resumen. Se demuestra que los resultados obtenidos son tan buenos como los de Algoritmos Genéticos en cuanto a la exactitud en la clasificación del multiclasificador implementado, las soluciones obtenidas en esta investigación contienen menor cantidad de clasificadores, por tanto son sistemas menos complejos. Las variantes de ACO muestran resultados muy similares entre ellas aunque la mejor fue MMAS2, específicamente con la heurística de la diversidad. Finalmente, se muestra una aplicación en el campo de la medicina.. 2. En inglés se conoce como Max-Min Ant System.. II.

(5) Abstract. ABSTRACT Classification techniques are being widely used in solving different problems in society. There exist several classification models referenced in the literature such as neural networks, classification trees and discriminant analysis, among others. In recent researches, many authors introduce the term “multiple classifier” as a "classifier" which combines the outputs of a set of individual classifiers using certain criteria (e.g., average, majority vote, minimum, etc.). When combining classifiers is important to ensure diversity among them, because it would not make sense to combine classifiers whose classification is the same. There are several models for constructing a multiple classifier system and all ensure the diversity of different ways. For those who use different base classifiers, there are some statistical measures that can be used to estimate how diverse they are, they are called diversity measure. The selection of the different base classifiers for a multiple classifier system is a complex task, precisely for the big amount of individual classifiers and the multiple combinations that they can generate. In order to address this combining problem, there is proposed the use of the metaheuristics with the diversity measures to obtain a combination of different classifiers and an accuracy in the superior combination to the best individual. Last school year a research (Hernández, 2014) was carried out, in which the Genetic Algorithms were specifically used to obtain the above explained; as a result, the first version of a system called Splicing v1.2 was obtained. In the present work, some needed modifications on that system to obtain a more complete version are developed, where a new metaheuristic is implemented, in this case, the metaheuristic ACO, with different variants and some heuristics, to solve exactly the stated problem. It is demonstrated that the obtained results are as good as the ones of the Genetic Algorithms according to the accuracy in the classification of the implemented multiclassifier, the obtained solutions in this research contain less amount of classifiers, therefore they are less complex systems..

(6) Abstract. The variants of ACO show very similar results among them, although the best was MMAS, specifically with the heuristic of diversity. Finally, an application in the field of medicine is showed..

(7) Tabla de Contenidos. TABLA DE CONTENIDOS RESUMEN .......................................................................................................................................... I ABSTRACT ..................................................................................................................................... IV TABLA DE CONTENIDOS............................................................................................................ V INTRODUCCIÓN............................................................................................................................. 1 CAPÍTULO 1. MÉTODOS DE CLASIFICACIÓN, MEDIDAS DE DIVERSIDAD Y LA META HEURÍSTICA OPTIMIZACIÓN DE COLONIAS DE HORMIGAS............................ 7 1.1. Métodos de Clasificación ............................................................................................................ 7 1.1.1. Algoritmos basados en casos ................................................................................................ 8 1.1.2. Árboles de decisión .............................................................................................................. 9 1.1.3. Redes bayesianas .................................................................................................................. 9 1.1.4. Redes neuronales artificiales .............................................................................................. 10 1.1.5. Análisis Discriminante ....................................................................................................... 11 1.1.6. Regresión logística ............................................................................................................. 11 1.2. Modelos de construcción de multiclasificadores ...................................................................... 12 1.3. Medidas de diversidad como criterio para seleccionar los clasificadores de base .................... 14 1.3.1. Medidas de diversidad en forma de pares (pairwise) ......................................................... 14 1.3.1.1 Coeficiente de correlación (ρ) ...................................................................................... 15 1.3.1.2 El estadístico Q ............................................................................................................ 16 1.3.1.3 Medida de diferencias .................................................................................................. 16 1.3.1.4 Medida de doble fallo .................................................................................................. 16 1.3.1.5 Combinación de la medida de diferencia y medida de doble fallo .............................. 17 1.3.2. Medidas de diversidad para todo el conjunto (non-pairwise)............................................. 17 1.3.2.1 Entropía ........................................................................................................................ 17 1.3.2.2 Varianza de Kohavi-Wolpert ....................................................................................... 18 1.3.2.3 Medida de desacuerdo entre expertos .......................................................................... 18 1.3.2.4 Medida de dificultad .................................................................................................... 18 1.3.2.5 Medida de diversidad generalizada .............................................................................. 19 1.3.2.6 Medida de diversidad de coincidencia de fallos .......................................................... 20 1.3.2.7 Medida de diversidad de distintos fallos ...................................................................... 20 1.3.2.8 Medida de la diversidad global .................................................................................... 21 1.3.2.9 Medida de variabilidad................................................................................................. 22.

(8) Tabla de Contenidos. 1.4. Combinación de varias medidas de diversidad ......................................................................... 22 1.4.1. Estandarización de las Medidas de Diversidad .................................................................. 22 1.4.2. Agrupamiento de las medidas en un solo valor .................................................................. 23 1.5. Evaluación de la clasificación ................................................................................................... 23 1.6. Optimización combinatoria: procedimientos meta heurísticos ................................................. 25 1.7. Las Colonias de Hormigas Naturales ........................................................................................ 26 1.7.1. De las Hormigas Naturales a la Meta heurística de Optimización Basada en Colonias de Hormigas ....................................................................................................................................... 28 1.7.2. La Hormiga Artificial ......................................................................................................... 29 1.7.3. Similitudes y Diferencias entre las Hormigas Naturales y Artificiales .............................. 30 1.7.4. Modo de Funcionamiento y Estructura Genérica de un Algoritmo de ACO...................... 31 1.7.5. Búsqueda Local .................................................................................................................. 34 1.7.6. Pasos a Seguir para Resolver un Problema Mediante ACO ............................................... 35 1.8. Modelos de Optimización Basada en Colonias de Hormigas ................................................... 36 1.8.1. El Sistema de Hormigas (AS) ............................................................................................. 36 1.8.2. El Sistema de Colonias de Hormigas (ACS) ...................................................................... 39 1.8.3. El Sistema de Hormigas Max-Min (MMAS) ..................................................................... 42 1.9. Aplicaciones de la meta-heurística ACO .................................................................................. 44 1.10. Consideraciones finales del capítulo ......................................................................................... 46 CAPÍTULO 2. DISEÑO E IMPLEMENTACIÓN DE LAS VARIANTES DE ACO PARA LA CONSTRUCCIÓN DE UN SISTEMA MULTICLASIFICADOR. ........................................... 50 2.1. Diseño e implementación del software Splicing v1.2 ............................................................... 50 2.2. Modelación de la Meta Heurística ACO ................................................................................... 51 2.2.1. Diseño del individuo........................................................................................................... 52 2.2.2. Diseño de la función de calidad de la solución................................................................... 53 2.2.3. Estimación de la información heurística ............................................................................ 55 2.2.4. Diseño de la restricciones ................................................................................................... 56 2.3. Diseño e implementación del nuevo módulo ............................................................................ 56 2.4. Búsqueda Local ......................................................................................................................... 61 2.5. Modificaciones implementadas para reducir el tiempo de ejecución ....................................... 61 2.6. Estudio para definir valores eficientes del parámetro μ en la función de calidad ..................... 62 2.7. Consideraciones finales del capítulo ......................................................................................... 65.

(9) Tabla de Contenidos. CAPÍTULO 3. DISEÑO DE EXPERIMENTOS Y ANÁLISIS DE LOS RESULTADOS. APLICACIÓN EN PROBLEMAS DE LA MEDICINA. ............................................................ 67 3.1. Descripción general de los experimentos .................................................................................. 67 3.2. Primer experimento ................................................................................................................... 69 3.3. Comparación entre los resultados de ACO y Algoritmos Genéticos ........................................ 76 3.4. Utilización de la meta heurística ACO para la predicción de la Hipertensión Arterial en niños 80 3.4.1. Discusión de los resultados ................................................................................................ 84 3.5. Consideraciones finales del capítulo ......................................................................................... 85 CONCLUSIONES ........................................................................................................................... 82 RECOMENDACIONES ................................................................................................................. 84 BIBLIOGRAFÍA ............................................................................................................................. 85 ANEXOS .......................................................................................................................................... 90.

(10) Introducción. INTRODUCCIÓN La Inteligencia Artificial es un campo de la ciencia muy estudiado por los investigadores de la actualidad. Dentro de ella hay varios sub-campos que se encargan del estudio de aspectos específicos, uno de ellos es el aprendizaje de máquinas3. Este último está relacionado con el diseño y desarrollo de algoritmos que permitan a las computadoras mejorar su rendimiento en el tiempo sobre la base de los datos (Mitchell, 1997b). Existen varios tipos de aprendizaje: supervisado, no supervisado y reforzado. En el primero de ellos, al algoritmo se le proporciona un conjunto de instancias para “aprender” de ellas e inferir una representación de una función que permita trabajar de forma general con datos que no se conocen. En caso de que el valor pronosticado sea continuo se trata de un problema de regresión y si fuese un valor discreto pues se habla de un problema de clasificación (Russell and Norvig, 2002, Raynor, 1999). Los problemas de clasificación están cobrando particular importancia en la actualidad pues en muchos casos se precisa de agrupar elementos que presenten un conjunto de características específicas. Actualmente las técnicas de clasificación se dividen en dos grandes grupos: los clasificadores individuales (ej. las redes neuronales, redes bayesianas, árboles de clasificación y análisis discriminante) y los sistemas multiclasificadores. Un multiclasificador es un sistema que combina las salidas de un conjunto de clasificadores individuales, utilizando algún criterio específico (ej.; promedio, voto mayoritario, mínimo, etc.) para obtener un solo valor como resultado. Teóricamente, un buen multiclasificador es aquel en el que los clasificadores elegidos son diversos entre sí, pues si estos son idénticos no se obtiene ninguna mejora en la. 3. En inglés se conoce como Machine Learning..

(11) Introducción. clasificación resultante de combinarlos. Esta diversidad es garantizada por algunos modelos multiclasificadores de diferentes maneras. En los modelos que utilizan varios clasificadores base, es importante conocer si existe diversidad entre ellos, para esto existen ciertas medidas estadísticas enunciadas por diferentes autores y conocidas como medidas de diversidad, que ayudan a conocer cuán diverso es un conjunto de clasificadores individuales, estas medidas son divididas en dos grupos: medidas pareadas y medidas grupales o no pareadas. Entre los principales modelos existentes para construir un multiclasificador se encuentran Bagging, Boosting, Stacking y Vote (Breiman, 1996, Freund and Schapire, 1995, Schapire, 1990, Witten and Frank, 2005, Wolpert, 1992); además de la utilización de algunas meta heurísticas como, Artificial Bee Colony (ABC), Reinforcement Learning, Genetics Algorithms (AGs) y Ant Colony Optimization (ACO) (Yijun, 2011, Palanisamy and Kanmani, 2012, Kuncheva and Jain, 2000, Impedovo et al., 2012, Partalas et al., 2009, Partalas et al., 2006). Esta última se destaca por ser ampliamente usada en una gran variedad de técnicas de modelación u optimización con el objetivo de elegir un óptimo. Las colonias de hormigas, son organizaciones sociales altamente estructuradas. Este hecho permite a las hormigas realizar tareas complejas a pesar de su simpleza individual. La meta heurística ACO persigue, precisamente, explotar esta realidad: a través de un conjunto de agentes individuales simples (hormigas), trabajando en conjunto (colonia), se pretende obtener soluciones a problemas de optimización complejos. En concreto, los algoritmos ACO simulan el comportamiento de recolección de comida de una colonia de hormigas. Debido a que estos insectos no tienen una visión desarrollada, su comunicación con el entorno se lleva a cabo a través de feromonas, en particular, en el caso de la recolección, a través de un rastro de feromonas, que marcan las rutas a seguir por los individuos del nido a la fuente de alimento (Dorigo, 1992). La generación de soluciones en los algoritmos ACO se basa en la adición de componentes a una solución parcial hasta que se obtiene una solución completa. Estos algoritmos generan un gran número de soluciones. Son procedimientos iterativos donde cada una de las hormigas de la colonia artificial genera una solución por cada iteración, y éstas se suceden hasta alcanzar una condición de fin. También es necesario añadir al algoritmo la.

(12) Introducción. actualización del rastro de feromonas en cada iteración para poder mantener la información obtenida con las soluciones generadas. La elección del siguiente componente es pseudo-aleatoria donde a cada componente se le asigna una probabilidad de ser escogido y se basa en la experiencia acumulada con las soluciones anteriores. La probabilidad es una función, depende del rastro artificial de feromonas y simula el comportamiento de las hormigas en la naturaleza en la elección de las rutas. Finalmente, también se puede incorporar un proceso de búsqueda local al procedimiento para la mejora de las soluciones generadas (Guirao, 2012). Existen varios motivos por los cuales la elección de un multiclasificador debe arrojar mejores resultados que un solo clasificador, en (Dietterich, 2000) se sugieren tres de ellas. La primera es estadística, pues si efectivamente por cada clasificador tenemos una hipótesis, la idea de combinar estas hipótesis, da como resultado una hipótesis que puede no ser la mejor, pero al menos evita seleccionar la peor de ellas. La segunda justificación es computacional, ya que algunos algoritmos ejecutan búsquedas que pueden llevar a diferentes óptimos locales: cada clasificador comienza la búsqueda desde un punto diferente y termina cercano al óptimo. Existe la expectativa de que alguna vía de combinación puede llevar a un multiclasificador a obtener una mejor aproximación. La última justificación es figurativa ya que es posible que el espacio de hipótesis considerado no contenga la hipótesis óptima; pero la aproximación de varias fronteras de decisión puede dar como consecuencia una nueva hipótesis fuera del espacio inicial y que se aproxime más a la óptima. Como se ha mencionado anteriormente, es importante elegir adecuadamente los clasificadores que se van a combinar en un multiclasificador, garantizando que exista entre ellos diversidad y que el resultado que se obtenga supere el mejor obtenido por los clasificadores individuales. La gran cantidad de clasificadores individuales existentes hace difícil la elección de cuáles de ellos combinar, con tan solo un pequeño número de ellos se pueden generar grandes cantidades de combinaciones y por lo tanto es muy difícil buscar la mejor combinación que cumpla con los criterios anteriores. Precisamente las meta heurísticas ofrecen la posibilidad de no tener que explorar todo el espacio de esas “posible soluciones”..

(13) Introducción. En (Hernández, 2014) se probaron los Algoritmos Genéticos, como una meta heurística de mejora para dar solución al problema anterior y obtener como resultado final un óptimo, que si bien puede no ser global, que sea lo suficientemente cercano a él. Como resultado de dicha investigación, desarrollada el pasado año, se obtuvo un sistema llamado Splicing v1.2. En este trabajo se pretende implementar la meta heurística ACO sobre ese sistema para darle solución al mismo problema, debido a que se desconoce si los resultados pueden ser mejores a los anteriormente obtenidos con Algoritmos Genéticos y de esta manera obtener una nueva versión del software más completa. Por todo lo anterior, se plantea el siguiente: Objetivo General: Implementar en un sistema integrado la meta heurística Optimización de Colonias de Hormigas para obtener una combinación que garantice una exactitud superior a la mejor clasificación individual usando la información de la diversidad entre los clasificadores elegidos. Este objetivo puede ser dividido en los siguientes: Objetivos específicos: 1. Modelar el problema usando los conceptos principales de la meta heurística basada en Optimización de Colonias de Hormigas y sus distintas variantes: Sistema de Hormigas (AS) 4, Sistema de Colonia de Hormigas (ACS)5 y Sistema de Hormiga Max-Min (MMAS). 2. Desarrollar alternativas de implementación de esta meta heurística para reducir su costo computacional. 3. Comparar los resultados del multiclasificador implementado con los resultados obtenidos en investigaciones previas usando Algoritmos Genéticos.. 4 5. En inglés se conoce como Ant System. En inglés se conoce como Ant Colony System..

(14) Introducción. 4. Evaluar los resultados obtenidos, dando solución a un problema real. Los objetivos específicos se pueden reformular en las siguientes: Preguntas de Investigación: 1. ¿Cómo pueden adaptarse los conceptos principales de Optimización de Colonias de Hormigas al problema que se presenta? 2. ¿Qué alternativas se podrían implementar para reducir el tiempo de ejecución del software? 3. ¿De qué forma podría efectuarse una validación del algoritmo propuesto? 4. ¿Resolverá el nuevo algoritmo propuesto, de manera eficiente algún problema de la vida real? A continuación se plantea la siguiente: Hipótesis de investigación: La utilización de la meta heurística Optimización de Colonias de Hormigas en la construcción de multiclasificadores facilita la obtención de una combinación de clasificadores que garantiza una exactitud superior a la mejor exactitud individual usando la información de la diversidad entre los clasificadores elegidos. El trabajo que se presenta a continuación se estructura de la siguiente forma: Capítulo 1: Métodos de clasificación, medidas de diversidad y la meta heurística Optimización de Colonias de Hormigas. Este capítulo está dividido en tres secciones principales. La primera de ellas recoge los conceptos esenciales de un conjunto de clasificadores que se han utilizado ampliamente en la solución de problemas reales con éxito; que van desde los algoritmos basados en casos hasta la regresión logística. Le sigue un estudio de los diversos modelos de combinación de clasificadores reportados en la literatura, entre los que pueden mencionarse: Bagging, Boosting, Stacking y Vote. En la segunda sección, se presentan las medidas de diversidad que se reportan en la literatura; agrupándolas por pares o grupales y se explica el intervalo de valores esperados, el extremo de mayor diversidad y la forma en que los valores de.

(15) Introducción. distintas medidas pueden ser combinados luego de haberlos estandarizados, esto último según la investigación realizada en (Hernández, 2014). Posteriormente se analiza la viabilidad de utilizar determinadas meta heurísticas en problemas de optimización combinatoria para encontrar una solución que sea lo bastante buena como para no tener que explorar todo el espacio de búsqueda. Se profundiza principalmente en la meta heurística Optimización de Colonias de Hormigas pues el objetivo principal de nuestra investigación es el uso de la misma. Además se describen las técnicas de representación de esta meta heurística y los operadores que se usan para obtener nuevas soluciones así como todas sus potencialidades. Capítulo 2: Diseño e implementación de las variantes de ACO para la construcción de un sistema multiclasificador. En este capítulo se presenta un breve resumen del funcionamiento del software Splicing v1.2 como antecedente de este trabajo, para comprender mejor su funcionamiento así como el diseño e implementación del mismo. Además se discute la modelación de la meta heurística ACO y sus variantes (AS, ACS y MMAS), para solucionar el problema que se plantea. Finalmente, se presenta la herramienta Splicing v1.4 como un sistema integrado que brinda las mismas facilidades de la versión anterior del software y además permite usar una nueva meta heurística para obtener las soluciones del problema, en este caso, la meta heurística ACO, la cual ha sido incorporada teniendo en cuenta sus tres variantes. También se muestra el diagrama de clases del sistema, haciendo énfasis en los nuevos módulos implementados. Capítulo 3: Diseño de experimentos y análisis de los resultados. Aplicación en problemas de la medicina. En este capítulo se muestra el diseño de varios experimentos para validar los resultados así como una comparación con los obtenidos previamente con la heurística Algoritmos Genéticos. Finalmente, se presenta un ejemplo de aplicación en el campo de la medicina..

(16) Introducción. El trabajo culmina con la presentación de las conclusiones y varias recomendaciones para la continuación de esta investigación. Finalmente se presentan las referencias bibliográficas y algunos anexos que complementan los estudios realizados..

(17) CAPÍTULO 1..

(18) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO. CAPÍTULO 1. MÉTODOS DE CLASIFICACIÓN, MEDIDAS DE. DIVERSIDAD. Y. LA. META. HEURÍSTICA. OPTIMIZACIÓN DE COLONIAS DE HORMIGAS. En este capítulo se presenta la teoría relativa a los métodos de clasificación existentes así como los modelos clásicos de multiclasificación. Además se explican detalladamente las medidas de diversidad reportadas en la literatura para determinar cuán diverso es un grupo de clasificadores y por último se muestran los elementos principales relacionados con la meta heurística Optimización de Colonias de Hormigas y sus variantes.. 1.1. Métodos de Clasificación Actualmente existen diversos métodos matemáticos de clasificación disponibles, que se utilizan en la solución de problemas reales. Estos métodos están caracterizados fundamentalmente porque se conoce la información acerca de la clase a la que pertenece cada uno de los objetos. Cuando la variable de decisión, función o hipótesis a predecir es continua, a los algoritmos relacionados con los problemas supervisados se les conoce como métodos de regresión. Si por el contrario la variable de decisión, función o hipótesis es discreta, ellos se conocen como métodos de clasificación o simplemente clasificadores. En un problema de clasificación se tienen un conjunto de objetos, elementos, instancias u observaciones divididos en clases o etiquetados. Dado un elemento del conjunto, un especialista le asigna una clase de acuerdo a los rasgos, características o variables que lo describen. Esta relación entre los descriptores y la clase puede estar dada por un conjunto de reglas. La mayoría de las veces este conjunto de reglas no se conoce y la única información que se tiene es el conjunto de ejemplos etiquetados, de forma tal que las etiquetas representan las clases. De manera general, se puede decir que los métodos de clasificación son un mecanismo de aprendizaje, donde la tarea es tomar cada instancia y asignarla a una clase en particular.. 7.

(19) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO La clasificación puede dividirse en tres procesos fundamentales: pre-procesamiento de los datos, selección del modelo de clasificación y, entrenamiento y prueba del clasificador (Bonet, 2008). Entre los métodos de clasificación más usados están los algoritmos basados en casos, los árboles de decisión, las redes bayesianas, las redes neuronales artificiales, el análisis discriminante y la regresión logística, pero estos no son los únicos. A continuación se presenta una breve descripción de los mencionados.. 1.1.1. Algoritmos basados en casos El razonamiento basado en casos se basa en el principio de usar experiencias viejas para resolver problemas nuevos. Muchos algoritmos usan este razonamiento para resolver los problemas y entre los más comunes están los de clasificación. Aunque todos los métodos de clasificación se basan en casos, existe un conjunto que se conoce como algoritmos basados en casos, o también como métodos de aprendizaje perezoso. Estos algoritmos deben contar con una serie de ejemplos ya conocidos y cuando van a resolver un problema nuevo, lo hacen buscando la semejanza entre éste y los ejemplos almacenados. No necesitan crear reglas, ni árboles, ni ajustar parámetros. A cada ejemplo se le conoce como instancia y a la colección de ejemplos como base de casos. Una nueva instancia se compara con el resto de la base de casos a través de una medida de similitud. La clase de la nueva instancia será la misma que la del caso que más cercano esté a la nueva instancia. A este proceso se le conoce con el nombre de método del “vecino más cercano” (nearest neighbor). Si en lugar de usar el caso más cercano se utilizan los k casos más similares, entonces se habla de los k-vecinos más cercanos6 y la clase asignada a la nueva instancia será la más común entre las k instancias más cercanas encontradas en la base de casos (Mitchell, 1997a).. 6. kNN por sus siglas en inglés (k Nearest Neighbors). Conocido además como IBk (IB1 cuando el número de vecinos es 1) en la plataforma inteligente para aprendizaje Waikato Environment for Knowledge AnalysisWEKA.. 8.

(20) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO. 1.1.2. Árboles de decisión El aprendizaje usando árboles de decisión es un método para aproximar funciones. Un árbol de decisión clasifica las instancias ordenándolas de la raíz a las hojas. Cada nodo interior del árbol especifica una prueba de algún atributo y las hojas son las clases en las cuales se clasifican las instancias, cada rama descendiente de un nodo interior corresponde a un valor posible del atributo probado en ese nodo. Un árbol de decisión representa una disyunción de conjunciones sobre los valores de los atributos. Así, cada rama, de la raíz a un nodo hoja, corresponde a una conjunción de atributos y el árbol en sí, a una disyunción de estas conjunciones. La familia de algoritmos ID3 (Quinlan, 1986) es el paradigma de los métodos para descubrir reglas usando árboles de decisión; a pesar de esto, tiene algunas limitaciones. Una variante para la solución de estas limitaciones es el algoritmo C4.5 (Quinlan, 1993)7, que usa puntos de corte e introduce varias medidas para evitar el sobre entrenamiento, en particular los criterios de parada de la división y de poda del árbol. Otros árboles de decisión son el CHAID (Chi Square Automatic Interaction Detector) en el que la segmentación ocurre siguiendo criterios chi-cuadrados y el CRT (Classification and Regression Tree) en el que se dividen los casos en segmentos que son lo más homogéneos posibles con respecto a la variable dependiente. Varios de estos árboles se pueden encontrar en WEKA; por ejemplo: J48, Id3, BFTree, NBTree, entre otros.. 1.1.3. Redes bayesianas Una red bayesiana es un modelo gráfico probabilístico que representa un conjunto de variables y sus dependencias probabilísticas. Las redes bayesianas permiten declarar supuestos de independencia condicionales que son aplicados a subconjuntos de variables. Son representadas por un grafo acíclico dirigido, donde cada variable se representa por un nodo de la red, y de ella se especifican dos tipos de información: . 7. la estructura de dependencias condicionales que son los arcos de la red. Conocido como ADTree en WEKA.. 9.

(21) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO . las distribuciones de probabilidad correspondientes.. Una red bayesiana puede calcular la distribución de probabilidad para cualquier subconjunto de variables de la red, dado los valores o distribuciones de las variables restantes (Mitchell, 1997a). Cuando no se conocen todos los valores de las variables en el conjunto de entrenamiento, el aprendizaje con una red bayesiana puede ser más difícil. Este tipo de clasificador no es muy sensible a los cambios de sus parámetros, ya que se basa en información de toda la base, lo cual hace que pequeños cambios en la base no sean necesariamente significativos (Chavez, 2008). En WEKA hay varias de estas redes implementadas, las más sobresalientes son NaiveBayes y sus variantes.. 1.1.4. Redes neuronales artificiales Una red neuronal es un modelo computacional que pretende simular el funcionamiento del cerebro a partir del desarrollo de una arquitectura que toma rasgos del funcionamiento de las neuronas sin llegar a desarrollar una réplica del mismo (Bello et al., 2001). Es una herramienta matemática para la modelación de problemas, que permite obtener las relaciones funcionales subyacentes entre los datos involucrados en problemas de clasificación, reconocimiento de patrones, regresión, etc. Este tipo de método se considera como un excelente aproximador de funciones, esencialmente no lineales, siendo capaces de aprender las características relevantes de un conjunto de datos, para luego reproducirlas en entornos ruidosos o incompletos (Wolpert, 1992). En los últimos años se han producido una amplia variedad de arquitecturas de redes neuronales, encontrándose entre las más utilizadas, las redes multicapa de alimentación hacia adelante (Feed-Forward Neuronal Networks, FFN), las cuales se distinguen porque sus neuronas están conectadas a manera de grafo acíclico dirigido (todos los arcos hacia adelante). Las redes Multi-Layer Perceptron (MLP) constituyen un ejemplo genérico de las redes FFN, y se encuentran formadas por un conjunto de capas de neuronas ordenadas secuencialmente. Primero una capa de entrada, luego un conjunto de capas intermedias denominadas capas ocultas y por último una capa de salida. Las MLP usando neuronas ocultas con funciones no lineales, son capaces de aproximar cualquier tipo de función continua y brindar excelentes resultados en las tareas de clasificación (Salazar, 2005). 10.

(22) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO. 1.1.5. Análisis Discriminante El análisis discriminante es una técnica matemática que ayuda a identificar las características que discriminan a dos o más grupos y a crear una función capaz de distinguir con la mayor precisión posible a los miembros de uno u otro grupo. Obviamente, para llegar a conocer en qué se diferencian los grupos se necesita disponer de la información (cuantificada en una serie de variables) en las que se supone que se diferencian. El análisis discriminante es una técnica estadística capaz de determinar cuáles variables permiten diferenciar a los grupos y cuántas de estas variables son necesarias para alcanzar la mejor clasificación posible. La pertenencia a los grupos, conocida de antemano, se utiliza como variable dependiente (una variable categórica con tantos valores discretos como grupos). Las variables en las que suponemos que se diferencian los grupos se utilizan como variables independientes o variables de clasificación (también llamadas variables discriminantes). Ellas deben ser variables cuantitativas continuas o, al menos, admitir un tratamiento numérico ordinal. El objetivo último del análisis discriminante es encontrar la combinación lineal de las variables independientes que mejor permite diferenciar (discriminar) a los grupos. Una vez encontrada esa combinación (la función discriminante) podrá ser utilizada para clasificar nuevos casos.. 1.1.6. Regresión logística La regresión logística es un instrumento estadístico de análisis multivariado, de uso tanto explicativo como predictivo. Resulta útil su empleo cuando se tiene una variable dependiente dicotómica (un atributo cuya ausencia o presencia se ha puntuado con los valores cero y uno, respectivamente) y un conjunto de variables predictoras o independientes, que pueden ser cuantitativas o categóricas. En este último caso, se requiere que sean transformadas en variables “dummy”; es decir, variables simuladas. El propósito del análisis consiste en predecir la probabilidad de que a alguien le ocurra cierto “evento”. Puede, además, determinar cuáles variables pesan más para aumentar o disminuir la probabilidad de que a alguien le suceda el evento en cuestión. Esta asignación de probabilidad de ocurrencia del evento a un cierto sujeto, así como la determinación del 11.

(23) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO peso de cada una de las variables dependientes en esta probabilidad, se basan en las características que presentan los sujetos a los que, efectivamente, les ocurren o no estos sucesos. La regresión logística sólo resuelve problemas de clasificación binarios. Si el problema fuese más general, entonces se puede aplicar un modelo más general basado en los mismos principios, denominado regresión multinomial, precisamente este criterio es el que utiliza la función “Logistic”, implementada en WEKA. Como se ha visto, se han desarrollado un gran número de clasificadores, pero determinar cuál de ellos logra encontrar una mejor frontera de decisión para separar las clases es el mayor problema. En la búsqueda de mejores métodos de clasificación aparece una tendencia a combinar varios de estos clasificadores. Los algoritmos llamados multiclasificadores se basan en esta idea; utilizar varios clasificadores y combinar sus diferentes salidas (Polikar, 2006) con el objetivo de alcanzar un mejor resultado.. 1.2. Modelos de construcción de multiclasificadores La combinación de clasificadores es en la actualidad un área activa de investigación en el aprendizaje automatizado y el reconocimiento de patrones. Se han publicado numerosos estudios teórico y empíricos que demuestran las ventajas del paradigma de combinación de clasificadores por encima de los modelos individuales (Kuncheva, 2004). Existen varias formas en las cuales se pueden construir multiclasificadores. Hay una serie de algoritmos desarrollados, algunos para problemas generales como Bagging y Boosting y otros para problemas específicos, pero todos tienen como partes fundamentales: la selección de los clasificadores de base y la elección de la forma de combinar las salidas (Bonet, 2008). Entre los modelos más populares que combinan clasificadores están Bagging, Boosting, Stacking, métodos basados en rasgos y Vote. . Bagging: Es uno de los primeros algoritmos de multiclasificación. Se basa en crear diferentes conjuntos de entrenamiento, extraídos del conjunto inicial de manera aleatoria y con remplazo, con lo cual asegura la diversidad. Este modelo necesita la selección de un modelo de clasificador inestable, o sea, un modelo que con 12.

(24) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO pequeños cambios obtenga valores diferentes. Además usa un único modelo de clasificador y la combinación de los clasificadores resultantes se realiza con la técnica de voto mayoritario (Breiman, 1996, Witten and Frank, 2005). . Boosting: Es parecido a Bagging porque usa el método de crear bases de entrenamiento aleatorias con reemplazo, a partir de la base original y un único modelo de clasificación para los clasificadores de base, de ahí que la diversidad la garantice de la misma forma. Sin embargo, este algoritmo se realiza de manera secuencial, donde los clasificadores se van entrenando uno detrás del otro porque usan información del anterior. Otra diferencia es que Boosting le da un peso al modelo por su rendimiento, en lugar de dar peso igual a todos los modelos. El reemplazo se realiza estratégicamente de forma que los casos mal clasificados tienen mayor probabilidad, que los bien clasificados, de pertenecer al conjunto de entrenamiento del siguiente clasificador del sistema (Schapire, 1990)..  Stacking: Es un método diferente a los anteriores pues la diversidad se determina con el empleo de diversos modelos de clasificación. Es menos utilizado que Bagging y Boosting, ya que es difícil de analizar teóricamente. Stacking combina múltiples clasificadores generados por diferentes algoritmos para un mismo conjunto de datos en una primera fase. Para combinar las salidas no utiliza voto mayoritario, sino que introduce un meta clasificador que aprende la relación entre las salidas de los clasificadores de base y la clase original (Wolpert, 1992). . Métodos basados en rasgos: En la construcción de un multiclasificador, los clasificadores de base pueden ser obtenidos a partir de subconjuntos de rasgos diferentes, lo cual es otra forma de buscar diversidad. La selección de rasgos tiene como objetivo lograr una mayor eficiencia en los cálculos así como una mayor exactitud del multiclasificador. De esa manera puede que los clasificadores individuales no sean tan precisos o exactos, pero sí sean más diversos. Existen muchos modelos de multiclasificadores que utilizan subconjuntos de rasgos diferentes como los descritos por (Kuncheva, 2004).. . Vote: Al igual que Stacking, establece la diversidad con la utilización de diferentes modelos de clasificación como clasificadores base. Las salidas de estos 13.

(25) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO clasificadores están dadas por vectores con una distribución de probabilidad para cada una de las clases. Vote combina estas probabilidades utilizando diferentes criterios como voto mayoritario y promedio, mínimo, máximo o mediana de las probabilidades. En la construcción de estos sistemas, resulta intuitivo garantizar la diversidad entre los clasificadores individuales que se usen dado que si fuesen idénticos no tendría sentido crear un sistema que los combinara (Shipp and Kuncheva, 2002). Como se nota, en todos los modelos anteriores se garantiza la diversidad, ya sea a través de una selección de rasgos, usando distintos modelos de clasificadores base, usando diferentes conjuntos de bases de entrenamiento o una combinación de ellos. En el caso de la utilización de distintos clasificadores base, se han reportado en la literatura un conjunto de medidas que permiten determinar cuán diverso es un grupo de clasificadores.. 1.3. Medidas de diversidad como criterio para seleccionar los clasificadores de base La diversidad en un grupo de clasificadores base es una condición necesaria para la mejora del desempeño de un ensamblado de clasificadores (Kuncheva, 2004), ya que de esto dependerá en gran medida el resultado final del multiclasificador. La diversidad de los errores de los clasificadores puede dar una medida del mayor valor posible que se puede aspirar con la combinación de esos modelos. Sin embargo, en algunos casos puede que no se logre una gran diversidad, de ahí que sea necesario el uso de algunas medidas estadísticas que permiten hacer estimación de cuán diversos son los clasificadores. En (Kuncheva and Whitaker, 2003) se plantea que no hay una medida de diversidad involucrada en forma explícita en los métodos de generación de clasificadores, aunque asumen que la diversidad es el punto clave en cualquiera de los métodos. Las medidas pueden ser clasificadas como medidas en forma de pares (pairwise) y medidas para todo el conjunto (non-pairwise).. 1.3.1. Medidas de diversidad en forma de pares (pairwise) Las medidas en forma de pares se calculan por pares de clasificadores usando sus salidas, las cuales son binarias (1,0) que indica si la instancia fue correctamente clasificada o no por 14.

(26) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO el clasificador. A continuación se indica el resultado de dos clasificadores (Ci, Cj) para una instancia en cuanto si la clasificaron correctamente o no. Cj correcto (1) Cj incorrecto (0) Ci correcto (1) a b Ci incorrecto (0) c d a+b+c+d=1 Tabla 1.1: Clasificación entre los resultados de los clasificadores Ci y Cj para una instancia.. Si se suman para todas las instancias los valores de a, b, c, d entre el par de clasificadores (Ci, Cj) se obtendrá el siguiente resultado, a partir del cual se calculan las medidas en forma de pares: Cj correcto (1) Cj incorrecto (0) A B C D. Ci correcto (1) Ci incorrecto (0). A +B + C + D = N Tabla 1.2: Clasificación entre los resultados de los clasificadores Ci y Cj para todo el conjunto de instancias.. Donde A sería igual a la suma total de los valores de a para todas las instancias y así respectivamente con los valores de B, C y D. N es el número total de casos. Un conjunto de L clasificadores produce 𝐿 ∗. 𝐿−1 2. pares de valores. Para obtener un único. resultado habría que promediar estos valores. 1.3.1.1 Coeficiente de correlación (ρ) El coeficiente de correlación entre dos clasificadores Ci y Cj se calcula como:. 𝐶 ,𝐶 = 𝑖. 𝑗. 𝐴∗𝐷−𝐵∗𝐶 √(𝐴 + 𝐵) ∗ (𝐶 + 𝐷) ∗ (𝐴 + 𝐶) ∗ (𝐵 + 𝐷). , −1 ≤  ≤ 1. Eq. 1.1. El valor final de la medida para un conjunto de clasificadores sería el promedio de los valores asociados a cada combinación de dos clasificadores que se extraiga del conjunto. Mientras menor sea el valor de ρ, mayor será la diversidad.(Kuncheva, 2004). 15.

(27) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO 1.3.1.2. El estadístico Q. El estadístico Q (Q Statistics) es otra de las medidas para pares de clasificadores. Se calcula de la siguiente forma: 𝑄𝐶𝑖 ,𝐶𝑗 =. 𝐴∗𝐷−𝐵∗𝐶 , −1 ≤ 𝑄 ≤ 1 𝐴∗𝐷+𝐵∗𝐶. Eq. 1.2. Para un par de clasificadores estadísticamente independientes, su valor de 𝑄𝐶𝑖 ,𝐶𝑗 va a ser 0. En general, el valor de Q va a oscilar entre −1 y 1. Aquellos clasificadores que tienden a reconocer los mismos objetos correctamente tendrán un valor positivo de Q, y aquellos que comentan errores en diferentes objetos poseerán un valor negativo de Q. La mayor diversidad de esta medida se alcanza mientras menor sea su valor. (Kuncheva, 2004) Para cualquier par de clasificadores, los valores de ρ y Q tendrán el mismo signo y se puede probar que   Q (Kuncheva and Whitaker, 2003). 1.3.1.3. Medida de diferencias. La medida de diferencias (The Disagreement Measure) introducida por (Skalak, 1996), es la más intuitiva de las medidas entre un par de clasificadores, y es igual a la probabilidad de que los dos clasificadores discrepen en sus predicciones. Mientras mayor sea su valor mayor será la diversidad. 𝐷𝐶𝑖 ,𝐶𝑗 =. 𝐵+𝐶 ,0 ≤ 𝐷 ≤ 1 𝑁 1.3.1.4. Eq. 1.3. Medida de doble fallo. La medida de doble fallo (The Double-Fault Measure) fue introducida por (Giacinto and Roli, 2001) y considera el fallo de los dos clasificadores al mismo tiempo. En (Ruta and Gabrys, 2001) definen a esta medida como una medida no-simétrica. Esto quiere decir que si se intercambian los unos con los ceros en los resultados de los clasificadores, el valor de la medida no va a ser el mismo. Esta medida está basada en el concepto de que es más importante conocer cuando errores simultáneos son cometidos que cuando ambos tienen clasificación correcta. Mientras menor sea el valor mayor será la diversidad. 16.

(28) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO. 𝐷𝐹𝐶𝑖 ,𝐶𝑗 =. 𝐷 , 0 ≤ 𝐷𝐹 ≤ 1 𝑁 1.3.1.5. Eq. 1.4. Combinación de la medida de diferencia y medida de doble fallo. La última de las medidas para pares de clasificadores es una propuesta de una combinación entre la medida de diferencias y la medida de doble fallo (Franco, 2011). Mientras mayor sea el valor de esta medida mayor será la diversidad entre los clasificadores. 𝑅𝐶𝑖 ,𝐶𝑗 =. 𝐷𝐶𝑖 ,𝐶𝑗 𝐷𝐹𝐶𝑖 ,𝐶𝑗. Eq. 1.5. ,0 ≤ 𝑅 ≤ 1. Como D y DF son medidas que difieren en el extremo hacia el cual alcanzan la mayor diversidad, es necesario llevar una de ellas hacia el extremo contrario. Este proceso se realizó restando a 1 la medida DF; lo cual forma parte del método de estandarización de las medidas de diversidad que se propone en (Hernández, 2014) y se explica más adelante en este documento.. 1.3.2. Medidas de diversidad para todo el conjunto (non-pairwise) Las medidas de diversidad que se basan en todo el conjunto consideran la salida de todos los clasificadores a la vez y calculan un único valor de diversidad para todo el conjunto. 1.3.2.1. Entropía. La medida de Entropía (The Entropy Measure) (Kuncheva and Whitaker, 2003) se basa en la idea intuitiva de que en un conjunto de N casos y L clasificadores la mayor diversidad se obtendrá si L/2 de los clasificadores clasifican una instancia correctamente y los otros LL/2 la clasifican incorrectamente. Fue introducida por (Cunningham and Carney, 2000). 𝑁. 𝐿. 𝐿. 𝑗=1. 𝑖=1. 𝑖=1. 1 2 𝐸= ∙ ∑ 𝑚𝑖𝑛 {(∑ 𝑦𝑗,𝑖 ) , (𝐿 − ∑ 𝑦𝑗,𝑖 )} , 𝑦𝑗,𝑖 ∈ {0,1}, 0 ≤ 𝐸 ≤ 1 𝑁 𝐿−1. Eq. 1.6. Donde 𝑦𝑗,𝑖 tendrá valor 1 si el clasificador i clasificó correctamente el caso j y 0 en caso contrario. Si E tiene valor 0 esto indica que no hay diferencia entre los clasificadores y un valor 1 indica la mayor diversidad posible. 17.

(29) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO 1.3.2.2. Varianza de Kohavi-Wolpert. La varianza de Kohavi-Wolpert (Kohavi-Wolpert Variance), fue inicialmente propuesta por (Kohavi and Wolpert, 1996). Esta medida es originada de la descomposición de la varianza del sesgo del error de un clasificador. Kuncheva y Whitaker presentaron en (Kuncheva and Whitaker, 2003) una modificación para medir la diversidad de un ensamblado compuesto por clasificadores binarios, quedando la medida de diversidad como: 𝑁. 𝐿. 𝑗=1. 𝑖=1. 1 𝐾𝑊 = ∑ 𝑌(𝑧𝑗 ) (𝐿 − 𝑌(𝑧𝑗 )) , 0 ≤ KW ≤ 1 𝑑𝑜𝑛𝑑𝑒 𝑌(𝑧𝑗 ) = ∑ 𝑦𝑖,𝑗 𝑁𝐿2. Eq. 1.7. Con esta medida, la diversidad disminuye a medida que el valor de KW aumenta. 1.3.2.3. Medida de desacuerdo entre expertos. La medida de desacuerdo entre expertos (Measurement Interrater Agreement) (Fleiss, 1981) es otra de las medidas de diversidad que se basan en todo el conjunto. Se desarrolla como una medida de fiabilidad entre clasificadores. Puede usarse para medir el nivel de acuerdo dentro de un conjunto de clasificadores, por consiguiente está también basada en el supuesto que un conjunto de clasificadores debe discrepar entre sí para ser diverso. La diversidad disminuye cuando el valor de k aumenta. El k se calcula por: 1 𝑁 ∑𝑗=1 𝑌(𝑍𝑗 ) (𝐿 − 𝑌(𝑍𝑗 )) 𝑘 =1−𝐿 , −1 ≤ 𝑘 ≤ 1 𝑁(𝐿 − 1)𝑝(1 − 𝑝). Eq. 1.8. Donde el término de la derecha es la medida de concordancia de Kendall y p es la media de la exactitud de la clasificación individual, y se calcula como: 𝑁. 𝐿. 1 𝑝= ∙ ∑ ∑ 𝑦𝑗,𝑖 𝑁∙𝐿. Eq. 1.9. 𝑗=1 𝑖=1. 1.3.2.4. Medida de dificultad. La medida de dificultad (The Measure of "difficulty" ө) viene del estudio realizado por Hansen y Salamon (Hansen and P., 1990. ). Se calcula a través de la varianza de una 18.

(30) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO variable aleatoria discreta que toma valores en el conjunto {0⁄𝐿, 1⁄𝐿, 2⁄𝐿, … ,1 } y denota la probabilidad de que exactamente i clasificadores hayan clasificado bien todas las instancias. Para conveniencia, θ suele ser escalada linealmente en el intervalo [0,1] tomando 𝑝(1 − 𝑝) como el mayor valor posible, donde p es la precisión individual de cada clasificador. La diversidad del ensamblado aumenta con el decremento del valor de la medida de dificultad. La intuición de esta medida puede ser explicada de la siguiente manera: un ensamblado de clasificadores diverso tiene un valor pequeño de medida de dificultad, dado que cada muestra de entrenamiento puede al menos ser clasificada correctamente por una proporción de todos los clasificadores base, lo cual es más probable con una baja varianza de X. Eq. 1.10.  = 𝑉𝑎𝑟(𝑥) 1.3.2.5. Medida de diversidad generalizada. La medida de diversidad generalizada (Generalized Diversity) se enunció por Partridge y Krzanowski (Partridge and Krzanowski, 1997). Sea Y una variable aleatoria que representa la proporción de clasificadores que clasificaron incorrectamente una muestra x ϵ Rⁿ extraída aleatoriamente del conjunto de datos. Denotemos por 𝑝𝑖 la probabilidad de que 𝑌 = 𝑖/𝐿 y 𝑝(𝑖) la probabilidad de que i clasificadores extraídos de manera aleatoria fallen en clasificar correctamente un objeto X extraído aleatoriamente. Supongamos que dos clasificadores son tomados de forma aleatoria del ensamblado D, Partridge y Krzanowski exponen en su trabajo que la máxima diversidad es lograda cuando uno de los dos clasificadores se equivoca en clasificar un objeto y el otro lo clasifica correctamente. En este caso la probabilidad de equivocarse los dos clasificadores es 𝑝(2) = 0. Por otra parte argumentan que la mínima diversidad se lograría cuando el fallo de un clasificador es siempre acompañado con el fallo del otro, entonces la probabilidad de que los dos clasificadores fallen es la misma que la probabilidad de que un clasificador escogido de forma aleatoria falle, esto es 𝑝(1). 𝐺𝐷 = 1 −. 𝑝(2) , 0 ≤ 𝐺𝐷 ≤ 1, 𝑝(1). donde. Eq. 1.11. 19.

(31) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO. 𝐿. 𝐿. 𝑖 𝑖 ∗ (𝑖 − 1) 𝑝(1) = ∑ ∗ 𝑝[𝑖] , 𝑝(2) = ∑ ∗ 𝑝[𝑖] 𝐿 𝐿 ∗ (𝐿 − 1) 𝑖=1. Eq. 1.12. 𝑖=1. El valor de GD varía entre 0 y 1, siendo 0 la menor diversidad cuando 𝑝(2) = 𝑝(1) y 1 la mayor diversidad cuando 𝑝(2) = 0 y L la cantidad de clasificadores. 1.3.2.6. Medida de diversidad de coincidencia de fallos. Esta medida (Coincident Failure. Diversity) se enuncia. por Partridge y Krzanowski. (Partridge and Krzanowski, 1997), como una mejora a la medida anterior. Esta medida está diseñada de tal forma que tenga un valor mínimo 0 cuando todos los clasificadores siempre clasifiquen correctamente o cuando todos los clasificadores lo mismo clasifiquen correcta o incorrectamente al mismo tiempo. Su máximo valor 1 es alcanzado cuando todos los errores de clasificación son únicos, es decir cuando al menos un clasificador va a clasificar incorrectamente cualquier objeto aleatorio. 0, 𝐶𝐹𝐷 = {. 𝑝[0] = 1 𝐿. 1 𝐿−𝑖 ∗∑ × 𝑝[𝑖] , 1 − 𝑝[0] 𝐿−1. Eq. 1.13. 𝑝[0] < 1. 𝑖=1. p[0]=1 cuando todos los clasificadores siempre son simultáneamente correctos o incorrectos, p[i] es el mismo término de la medida anterior y L es la cantidad de clasificadores. El valor de CFD está entre 0 y 1 y mientras mayor sea, mayor será la diversidad. 1.3.2.7. Medida de diversidad de distintos fallos. Esta medida (Distintic Failure. Diversity) fue igualmente enunciada por Partridge y. Krzanowski (Partridge and Krzanowski, 1997), como una mejora a la medida anterior, pues ahora se va a tener en cuenta todas las instancias donde los clasificadores no coinciden en las clases asignadas, es decir, se consideran las distintas posibilidades de fallo teniendo en cuenta las clases.. 20.

(32) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO 0,. 𝑡[𝑖] = 0. 𝐿. 𝐿−𝑖 𝐷𝐹𝐷 = { ∑ × 𝑡[𝑖] , 𝐿−1. Eq. 1.14. 𝑡[𝑖] > 0. 𝑖=1. Aquí t es un vector de probabilidades en el que cada posición se calcula determinando la cantidad de i clasificadores que hayan fallado en asignar la clase correcta dividido por el total de fallos ocurridos y L es la cantidad de clasificadores. El valor de DFD está entre 0 y 1 y mientras mayor sea, mayor será la diversidad. 1.3.2.8. Medida de la diversidad global. La medida de la diversidad global (Overall Diversity) fue enunciada por (Partridge and Krzanowski, 1997) como una versión “pesada” de la medida de diversidad de distintos fallos. Dicha medida se calcula como: 0, 𝑂𝐷 = {. 𝐿. ∑ 𝑖=1. 𝑡[𝑖] = 0 𝐿−𝑖 × 𝑡[𝑖] × 𝑤[𝑖] , 𝐿−1. Eq. 1.15. 𝑡[𝑖] > 0. Cada posición de w representa el promedio de valores d para cada fila donde i clasificadores fallaron. Los valores d se calculan para cada instancia como; 𝐾. 𝐶𝑘𝑖 𝑑𝑖 = ∑ [√ 2 ] 𝑛𝑖. Eq. 1.16. 𝑗=0. Donde K es la cantidad de clases o categorías que se asignan a los casos, 𝐶𝑘 indica la cantidad de clasificadores que asignaron la clase k a la instancia i, siendo k una clase incorrecta y ni es el total de fallos ocurridos en la instancia i. Por ejemplo, en la Tabla 1.3 se muestra una matriz de incidencias de un sistema constituido por cinco clasificadores que clasifica a dos instancias, a las cuales puede ser asignada una de 6 categorías. Número de instancia 1 2. Cantidad de clasificadores que asignaron la categoría i 1 2 3 4 5 6 0 0 0 3 1 1 2 0 0 0 1 2. Categoría correcta. Total de fallos. 1 2. 5 3. Tabla 1.3: Matriz de incidencia para un sistema con cinco clasificadores. 21.

(33) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO Los valores de d para estas dos instancias son: 𝑑1 = √. 3 1 1 + √ 2 + √ 2 = 0.745 2 5 5 5. 𝑑2 = √. 1 2 + √ 2 = 0.804 2 3 3. El valor de OD está entre 0 y 1 y mientras mayor sea, mayor será la diversidad. 1.3.2.9. Medida de variabilidad. Esta medida (The Measure of Variability) tiene en cuenta si las clases asignadas por los clasificadores en cada instancia son distintas o no. Mientras mayor sea su valor, mayor será la diversidad. ∑𝑁 𝑖=1 𝑎 0 𝑠𝑖 𝐸1 (𝑖) = 𝐸2 (𝑖) = ⋯ = 𝐸𝐿 (𝑖) 𝑉𝑎𝑟 = 𝑑𝑜𝑛𝑑𝑒 𝑎 = { 𝑁 1 𝑒. 𝑜. 𝑐. Eq. 1.17. Donde N es el total de instancias y 𝐸𝐿 (𝑖) es la etiqueta (clase) asignada a la instancia i, por el clasificador i-ésimo.. 1.4. Combinación de varias medidas de diversidad Para hacer posible el trabajo con más de una medida de diversidad, es necesario garantizar primero su estandarización, de forma que todas se ubiquen en un mismo intervalo y alcancen la mayor diversidad hacia un mismo extremo de dicho intervalo; y segundo utilizar alguna función que agrupe cada uno de estos valores en uno solo. A continuación se explica el proceso de estandarización de las medidas propuesto en (Hernández, 2014), así como las formas de combinarlas, propuestas también en dicha investigación.. 1.4.1. Estandarización de las Medidas de Diversidad Para llevar cada una de las medidas anteriores a un mismo intervalo, se puede emplear la siguiente transformación lineal. Sea el intervalo (a; b) y x un real cualquiera. La representación de x en el intervalo (a; b) está dada por la fórmula: 𝑥′ =. 𝑥−𝑎 𝑏−𝑎. Eq. 1.18. 22.

(34) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO Luego, la transformación del extremo del intervalo en el que alcanzan la diversidad a otro puede hacerse restando la medida estandarizada al extremo más a la derecha. O sea, si fuese en el intervalo (0; 1) sería 1- x’.. 1.4.2. Agrupamiento de las medidas en un solo valor Para combinar varias medidas de diversidad y obtener un solo valor pueden utilizarse los siguientes operadores: . Average: Calcula el promedio de un conjunto de medidas. . Max: Determina el máximo de un conjunto de medidas. . Prod: Calcula el producto de un conjunto de medidas. . Fuzzy operator: Utiliza los conceptos de Inteligencia Artificial referentes a los conjuntos borrosos. Calcula el promedio de pertenencia de cada una de las medidas a los conjuntos borrosos (se usan funciones triangulares para su construcción) y retorna el máximo estandarizado de esos valores. Los términos lingüísticos manejados por este operador son baja diversidad y alta diversidad.. 1.5. Evaluación de la clasificación Para evaluar la clasificación, existen una serie de medidas que se calculan a partir de los resultados de las predicciones del modelo cuando se prueban en un conjunto de datos que no intervienen en el entrenamiento. Entre estas medidas podemos destacar el error, la exactitud, la razón de verdaderos positivos y la razón de falsos positivos. Si bien con las medidas antes mencionadas se puede determinar qué tan bueno es un modelo de clasificación, la forma de dividir los datos en conjunto de entrenamiento y prueba es también muy importante. Existen diferentes técnicas para esto, como es el método hold-out el cual reserva una cierta cantidad de casos para probar y usa el resto para entrenamiento, por lo general se entrena con 2/3 de los datos y se utiliza 1/3 para prueba. Tiene como dificultad que si hay una cantidad de datos pequeña los ejemplos pueden no ser representativos ya que puede ocurrir que haya pocas o ninguna instancia de algunas clases, 23.

(35) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO también puede dar una solución “buena” a partir de haber hecho una división de la base muy oportuna. Con el objetivo de buscar una mayor precisión en el método hold-out se creó el hold-out repeated que es repetir hold-out varias veces creando de manera aleatoria los conjuntos de entrenamiento y prueba, los errores de cada iteración se promedian para dar el resultado final. Otra alternativa es usar el conjunto de datos de entrenamiento para prueba, esto nos puede traer el problema conocido como overfitting o sobre entrenamiento, además de que puede llegar a conclusiones apresuradas pues no se está teniendo en cuenta cómo reacciona el modelo ante casos que no ha visto antes, que es lo que le daría la medida de generalización. El método de validación cruzada con k subconjuntos (k-fold cross-validation) es uno de los más usados, este método se basa en dividir la base en k partes iguales. Se realizan k entrenamientos del modelo, tomando siempre una parte para prueba y las restantes para entrenamiento, se mide el error con los ejemplos de prueba. Tiene la ventaja que todos los ejemplos de la base de casos son, eventualmente usados para ambos procesos, entrenamiento y prueba. Como inconveniente podemos señalar que en grandes volúmenes de datos la validación es muy lenta (Efron and Tibshirani, 1993). Este problema también suele pasar en bases de casos muy grandes y que además son ejecutadas por multiclasificadores en donde puede haber clasificadores individuales que por su implementación pueden ralentizar aún más el proceso de clasificación. Si a esto se le suma la idea de que no se sabe de antemano la combinación exacta con la que se va a superar la clasificación individual de los clasificadores, entonces esta búsqueda de la mejor “combinación” se convierte un tanto difícil de ejecutar ya que la cantidad de combinaciones a explorar para un número alto de clasificadores individuales es bastante alta. Es por eso que para problemas de este tipo, en el que explorar la totalidad del espacio de búsqueda es complejo, se utilizan técnicas de Inteligencia Artificial que permitan encontrar una solución que si no es la óptima esté bastante cercana a ella (Hernández, 2014). Precisamente, las meta heurísticas son una de estas técnicas.. 24.

(36) Capítulo 1 – Métodos de clasificación, medidas de diversidad y meta heurística ACO. 1.6. Optimización combinatoria: procedimientos meta heurísticos Los algoritmos heurísticos intentan encontrar o descubrir la solución de algún problema sin necesidad de explorar todo el espacio de soluciones y son ampliamente usados en el ámbito de la optimización. De forma informal, optimizar significa poco más que mejorar. Sin embargo, científicamente se traduce como el proceso de encontrar la mejor solución posible para un determinado problema. En un problema de optimización existen diferentes soluciones y un criterio para discriminar entre ellas. De forma más precisa, este problema consiste en encontrar el valor de unas variables de decisión para las cuales una determinada función objetivo alcanza su valor máximo o mínimo. En (Fernández et al., 1996) se expresa que “un método heurístico es un procedimiento para resolver un problema de optimización bien definido mediante una aproximación intuitiva, en la que la estructura del problema se utiliza de forma inteligente para obtener una buena solución”. En contraposición a los métodos exactos que proporcionan una solución óptima del problema, los métodos heurísticos se limitan a proporcionar una buena solución no necesariamente óptima. Lógicamente, el tiempo invertido por un método exacto para encontrar la solución óptima de un problema difícil es de un orden de magnitud muy superior al del heurístico (pudiendo llegar a ser tan grande que en muchos casos resulta inaplicable). Existen varias razones para utilizar métodos heurísticos, entre las que podemos destacar: . El problema es de una naturaleza tal que no se conoce ningún método exacto para su resolución.. . Aunque existe un método exacto para resolver el problema, su uso es computacionalmente muy costoso.. . El método heurístico es más flexible que un método exacto, permitiendo, por ejemplo, la incorporación de condiciones de difícil modelación.. . El método heurístico se utiliza como parte de un procedimiento global que garantiza el óptimo de un problema. Existen dos posibilidades: -. El método heurístico proporciona una buena solución inicial de partida.. -. El método heurístico participa en un paso intermedio del procedimiento. 25.

Figure

Tabla 1.1: Clasificación entre los resultados de los clasificadores Ci y Cj para una instancia
Tabla 1.3: Matriz de incidencia para un sistema con cinco clasificadores
Fig. 1.1: El comportamiento de la colonia termina por obtener el camino más corto entre dos puntos
Fig. 2.1: Diagrama de Clases del Paquete Ant.
+7

Referencias

Documento similar

La moral especial (o institucional, la M de G ARZÓN ) parece ofrecer de- masiados pretextos; terminaría por justificar cualquier tipo de acción requerida por ra- zones

La determinación molecular es esencial para continuar optimizando el abordaje del cáncer de pulmón, por lo que es necesaria su inclusión en la cartera de servicios del Sistema

No había pasado un día desde mi solemne entrada cuando, para que el recuerdo me sirviera de advertencia, alguien se encargó de decirme que sobre aquellas losas habían rodado

Después de una descripción muy rápida de la optimización así como los problemas en los sistemas de fabricación, se presenta la integración de dos herramientas existentes

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y