Algoritmos que combinan conjuntos aproximados y optimización basada en colonias de hormigas para la selección de rasgos Extensión a múltiples fuentes de datos

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Matemática, Física y Computación Centro de Estudios de Informática Departamento de Computación. Algoritmos que combinan conjuntos aproximados y optimización basada en colonias de hormigas para la selección de rasgos. Extensión a múltiples fuentes de datos.. Tesis en opción al título de Doctor en Ciencias Técnicas Especialidad Informática. Autor: MSc. Yudel Rodrigo Gómez Díaz Tutores: Dr. Rafael Esteban Bello Pérez Dra. Ann Nowé Santa Clara, 2010.

(2) DEDICATORIA. ¡Todo este trabajo está dedicado a mi familia! … y eso incluye a mis amigos. A la memoria de mis seres queridos..

(3) AGRADECIMIENTOS. Estoy eternamente agradecido a todas las personas que me han ayudado a llegar a este momento. Afortunadamente en el camino he encontrado mucha gente a quien he dicho innumerables veces "gracias", pero no puedo nombrarlas todas aquí… se llevan un agradecimiento anónimo.. A mis colegas del Laboratorio de Inteligencia Artificial y del Departamento. A los estudiantes que durante años han trabajado conmigo. A Fidel Sanz, quien me introdujo en el mundo de la computación. Al profesor y amigo Grau, imprescindible. To my advisor and also friend Ann Nowé for her effort and courage. A Bello quien no sólo es tutor, también es el padre de este proyecto. A mi esposa. Y al impulso de toda mi vida: mis padres..

(4) SÍNTESIS. En muchos dominios de aplicación, las fuentes de datos se encuentran esparcidas con grandes volúmenes de información y no es factible centralizar los datos en un único repositorio con la finalidad de descubrimiento de conocimiento. En este contexto de datos y sistemas distribuidos la Minería de Datos Distribuida es la disciplina que dedica el estudio a esta problemática. Un elemento clave en estos procesos es la correcta selección de los atributos principales que describen los datos. Sin embargo, hay determinados argumentos que demuestran aspectos en este campo donde la ciencia aún no ha dado respuestas concluyentes. Como una cuestión importante en esta investigación se ha explicado y validado como combinar con eficiencia la Optimización mediante Colonias de Hormigas (Ant Colony Optimization, ACO) y la Teoría de Conjuntos Aproximados (Rough Set Theory, RST) para obtener algoritmos de selección rasgos que operen en contexto distribuido o no. Un análisis del comportamiento del algoritmo ha establecido criterios sobre los parámetros, y se ofrecen alternativas para agilizar su tiempo de ejecución. El fundamento del contexto distribuido está basado en la cooperación entre subsistemas que comparten algún tipo de información sobre los datos que operan. En esta tesis se ha extendido la metaheurística ACO convirtiéndola en ACO multicolonias mediante intercambios de feromona; donde cada colonia representa un algoritmo ACO resolviendo un problema con un comportamiento colaborativo entre hormigas de otras colonias mediante intercambios "frecuentes" de feromona. Los algoritmos obtenidos han sido aplicados con éxitos al problema de predicciones de infarto agudo del miocardio en pacientes cardiópatas..

(5) ABSTRACT. In several application domains the data source are distributed storing a lot of information and it is not viable to centralize all data in one main repository to knowledge discovering. In this context involving distributed data and systems, Distributed Data Mining is the field dedicated to study these topics. A key question in these processes is the right selection of the main attributes describing the data. However, there are specific studies showing concerns in this field, where science has not given conclusive answers. As important issue, in this research, it has been explained and validated how to efficiently combine Ant Colony Optimization with Rough Set Theory to create feature selection algorithms working in distributed or not distributed context. An experimental study has been carried out to evaluate the algorithms, and establishing rules of thumb for setting its parameters. A statistic analysis of these algorithms has originated some criteria about algorithms' parameters, and two alternatives are offered to speed-up the runtime. The principle of distributed context is based on cooperation among subsystems sharing some kind of information about the working data. In this research, it has been established how to extend ACO becoming in a multi-colony ACO by means of interchanges of pheromone. Each colony represents an ACO algorithm solving a problem with collaborative behavior among ants from other colonies by means of “frequent” interchanges of pheromone. The algorithms proposed have been successfully applied to predict acute heart attack in cardiopaths..

(6) Tabla de Contenido Síntesis .......................................................................................................................................................... 1 Abstract ......................................................................................................................................................... 4 INTRODUCCIÓN ............................................................................................................................................. 1 1. Métodos de selección de rasgos y sus componentes ......................................................................... 11 1.1 Selección de rasgos en el contexto del aprendizaje automatizado .................................................. 12 1.2 Conjuntos aproximados .................................................................................................................... 18 1.3 Inteligencia Colectiva aplicada al problema de selección de rasgos ................................................ 23 Optimización basada en Colonias de Hormigas .................................................................................. 24 ACO Multicolonias............................................................................................................................... 31 1.4 Consideraciones parciales ................................................................................................................. 31. 2. Inteligencia colectiva aplicada a la selección de rasgos...................................................................... 33 2.1 Solución al problema de selección de rasgos. Algoritmo ACO-RST-FSP ........................................... 33 2.2 Estrategias de ahorro del tiempo de ejecución en la implementación ACO .................................... 47 2.2.1 Codificación de la función de evaluación ................................................................................... 47 2.2.2 Decremento de la exploración ................................................................................................... 51 2.3 Solución al problema de la selección de rasgos sobre múltiples fuentes de datos. El algoritmo D.ACO-RST-FSP ........................................................................................................................................ 56 2.4 Consideraciones parciales ................................................................................................................. 64. 3. Caso de estudio: "El problema de cardiopatías"................................................................................. 65 3.1 Descripción del problema ................................................................................................................. 66 3.2 Algoritmos de selección de rasgos presentados aplicados al problema de cardiopatías ................. 71 3.3 Solución al pronóstico de infarto agudo del miocardio con un clasificador ..................................... 74 3.4 Consideraciones parciales ................................................................................................................ 80. CONCLUSIONES ........................................................................................................................................... 81 RECOMENDACIONES ................................................................................................................................... 83 REFERENCIAS ............................................................................................................................................... 84 PRODUCCIÓN CIENTÍFICA DEL AUTOR SOBRE EL TEMA DE LA TESIS .......................................................... 95 Anexos ......................................................................................................................................................... 97 Anexo 1. Características de los conjuntos de datos ................................................................................ 97 Anexo 2. Resultados experimentales de la estrategia de ahorro ........................................................... 98.

(7) Introducción. INTRODUCCIÓN “We are drowning in information but starving for knowledge.” – John Naisbitt En los últimos años se ha producido un importante crecimiento de las bases de datos en todas las áreas del conocimiento humano. Este incremento, cuantitativo y cualitativo, se posibilita gracias principalmente al progreso en las tecnologías para la adquisición y almacenamiento de los datos. A la vez, estos beneficios han superado significativamente nuestra capacidad de analizarlos, resumirlos y obtener conocimiento de estos. Existen diversos dominios donde se almacenan grandes volúmenes de información en bases de datos centralizadas y distribuidas, como por ejemplo bibliotecas digitales, archivos de imágenes, centros de investigaciones en bioinformática, cuidados médicos, finanzas e inversión, fabricas, redes de telecomunicación, etc. Es conocida la frase: "los datos en bruto raramente son beneficiosos directamente". Su verdadero valor se basa en la habilidad para extraer información útil, la toma de decisiones o la exploración y la comprensión del fenómeno gobernante en la fuente de datos. En muchos dominios, el análisis de datos fue tradicionalmente un proceso manual. Analistas familiarizados con los datos, con la ayuda de técnicas estadísticas, proporcionaban resúmenes y generaban informes. Sin embargo, tal enfoque cambió como consecuencia del crecimiento del volumen de datos y la diferenciación cualitativa de estos. Cuando la escala de manipulación de datos, exploración e inferencia va más allá del alcance de la estadística clásica, se necesita la ayuda de nuevas técnicas y herramientas computacionales para el descubrimiento y el análisis de la información. En el centro de esta problemática se encuentra el proceso de descubrimiento de conocimiento, conocido en la comunidad como Descubrimiento de Conocimiento en Bases de datos (del inglés Knowledge Discovery in Databases, KDD) (Fayyad, Piatetsky-Shapiro, & Smyth, 1996). Según Fayyad, KDD es el proceso global no trivial de identificar patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos. Un paso particular en este proceso es la Minería de Datos (Data Mining, DM), como la aplicación de algoritmos específicos para la. 1.

(8) Introducción extracción de patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad. El objetivo de la minería de datos es extraer conocimiento de los datos. Este es un campo interdisciplinario cuyo centro está en la intersección de aprendizaje automatizado, estadísticas y bases de datos; con la meta de descubrir conocimiento no sólo preciso sino entendible. La DM comenzó a desarrollarse a partir de grandes volúmenes de información, esencialmente como técnicas de análisis de los datos, o a decir de Kargupta (Kargupta, 2003), como la necesidad de metodologías de análisis inteligente de datos que puedan descubrir conocimiento útil de los mismos. En diversos dominios de aplicación, los datos se encuentran distribuidos en varios nodos ubicados en sitios geográficamente esparcidos. En muchos de estos entornos se encuentran fuentes de información con grandes volúmenes de datos y múltiples unidades de cómputo. En estos casos, por lo general, no es posible o factible centralizar todos los datos del sistema de información distribuido en un único repositorio, con el propósito de realizar tareas de minería de datos, debido a restricciones económicas, técnicas o legales. Con las nuevas aplicaciones en contextos distribuidos a las que aplicar técnicas de DM sobre múltiples fuentes de datos surge el, aún emergente, campo de la Minería de Datos Distribuida Distribuida (Distributed Data Mining, DDM) (Aflori & Leon, 2004; Aounallah & Mineau, 2007; Park & Kargupta, 2002; Ye, 2003), muy activo, con una atención creciente desde su comienzo y todavía surgiendo como un problema computacional fundamental. Un primer paso en el desarrollo de soluciones en este campo es identificar, formalmente, cómo estaban distribuidos los datos. En DDM las fuentes de datos se pueden clasificar en homogéneas o heterogéneas. En las homogéneas las diferentes fuentes de datos representan exactamente la misma información con los mismos rasgos. En las heterogéneas las diferentes fuentes de datos que almacenan la información están representadas por conjuntos de rasgos diferentes, posiblemente con algunos rasgos comunes. Un sistema en DDM involucra varios subsistemas (vistos como sistemas más reducidos que están interrelacionados y establecen algún mecanismo de comunicación) e inmersos, en obtener un modelo o esquema. Existen varias alternativas, pero este trabajo se enmarca en un medio 2.

(9) Introducción donde no se pueden agrupar todos los datos para llevar a cabo la tarea de minería. El modelo que se presenta trata con conjuntos de datos homogéneos. El fundamento del contexto distribuido está basado en la cooperación entre subsistemas que comparten algún tipo de información acerca de los conjuntos de datos sobre los que operan, para llegar a un mejor resultado. Paralelamente, el asunto de la privacidad está creciendo en importancia en un rol protagónico en las aplicaciones emergentes de minería de datos (Silva, Giannella, Bhargava, Kargupta, & Klusch, 2005). Por ejemplo, considere un consorcio de diferentes bancos que quiere colaborar para detectar fraudes, entonces un sistema de minería de datos centralizado parece requerir la recolección de todos los datos de cada banco en un mismo lugar; pero esto evidentemente amenaza la privacidad. Sin embargo, ello no es necesario si la minería de datos distribuida es la tecnología elegida. Los sistemas en DDM pueden ser capaces de aprender modelos desde fuentes de datos distribuidas sin intercambiar los datos en sí, lo cual satisface en el ejemplo, las dos pretensiones: la detección central de fraudes y la preservación de la privacidad de cada una de las transacciones de datos de los bancos involucrados. Un desafío considerable consiste en encontrar qué tipo de meta-información1 debe ser compartida para lograr este propósito. Otra técnica relacionada con DDM es la Minería de Datos Paralela (parallel data mining, PDM); un sistema de minería de datos paralelo es un sistema fuertemente acoplado en el que se incluyen máquinas de memoria compartida, máquinas de memoria distribuida, o un híbrido entre estas dos arquitecturas, que en sentido general se caracterizan por contar con una red de interconexión muy rápida. Por el contrario, un sistema de DDM es un sistema ligeramente acoplado; en tales sistemas se incluye también sistemas distribuidos geográficamente sobre una red de área ancha similar a Internet (Palancar, 2004). Según (Provost, 1999) algunas de las principales ideas que surgen de los trabajos existentes sobre la minería de datos distribuidos son las siguientes: (i) Distribuir el espacio de búsqueda puede ser problemático. (ii) Operar sobre las instancias distribuidas puede ser efectivo y muy eficiente. (iii) La colaboración entre procesos distribuidos permite realizar minería efectiva, incluso sin un control centralizado.. 1. Entiéndase como información sobre los datos o sobre el comportamiento del algoritmo en cuestión.. 3.

(10) Introducción Existen dos técnicas principales para la cooperación que han sido particularmente eficaces. En la primera los procesadores pueden funcionar de manera independiente sobre subconjuntos de los datos y a continuación combinar sus modelos. En la segunda un procesador puede también compartir el conocimiento potencial al ser descubierto, con el fin de obtener las opiniones de los otros procesadores (por ejemplo, sus evaluaciones estadísticas). Esta última técnica es la que más se ajusta al trabajo presentado, debido a la existencia de la voluntad de cooperación entre los subsistemas, la manera de colaboración encontrada consiste en enviar sólo información de los datos (metadatos) de un procesador a otro. Un paso importante en el descubrimiento de conocimiento en general, es preparar los datos para la DM, de igual forma si se trata de DDM. El pre-procesamiento de datos en DDM debe funcionar de manera que la distribución de los datos sea una fortaleza, no una debilidad. Puede considerarse que muchas de las técnicas de pre-procesamiento de datos centralizados pueden ser directamente aplicadas sin descargar todos los conjuntos de datos hacia un solo sitio (Kargupta, 2003). Dentro de los procesos o tareas más notables del preprocesamiento se destaca la elección correcta de las características, propiedades o atributos que caracterizan los datos. Teóricamente el tener más atributos daría más poder discriminatorio; sin embargo, la experiencia con algoritmos de aprendizaje ha demostrado que no es siempre así, detectándose algunos problemas: tiempos de ejecución muy elevados, aparición de muchos atributos redundantes y/o irrelevantes, y la degradación en el error de la clasificación. El planteamiento anterior da lugar a investigaciones en la creación de métodos de selección de rasgos. Las investigaciones relacionadas con esta temática intentan reducir el espacio de hipótesis en los conjuntos de datos2 en tareas concretas, con una pretensión de encontrar subconjuntos de atributos que proporcionen un mejor rendimiento de los algoritmos de aprendizaje. Existen en la literatura, un gran número de propuestas para resolver el conocido problema de selección de rasgos, aunque no se ha encontrado aún un algoritmo para realizar esta tarea obteniendo resultados globales óptimos. La búsqueda de subconjuntos óptimos de atributos para realizar el proceso de aprendizaje, dada su complejidad computacional, se basa en una 2. Conjuntos de datos es el término más apropiado encontrado para la traducción de la expresión data set. comúnmente usada en aprendizaje automatizado.. 4.

(11) Introducción busqueda heurística, y tal como plantea el Teorema No Free Lunch(Wolpert & Macready, 1997), no existe un método que garantice ser mejor que los demás, lo que conlleva la continua aparición de nuevos métodos o la aplicación de selección de rasgos en nuevos entornos. A la vez, la complejidad que implica la solución de este problema da indicios de que una solución universal no será encontrada. El problema de la selección de rasgos en contexto distribuido, en general, es similar al problema clásico de selección de rasgos, pero existe la expectativa de desarrollar algoritmos para la selección de rasgos que consigan ser más eficientes, y más eficaces, que los obtenidos en un ambiente no distribuido con el mismo objetivo. En general, todo algoritmo de selección de rasgos consta de dos componentes básicos: función de evaluación y método de búsqueda o generación de subconjuntos. La variedad de técnicas de selección de rasgos está dada precisamente por la diversidad de algoritmos utilizados como métodos de búsqueda en la generación de los subconjuntos candidatos o la exploración del espacio de búsqueda como otra interpretación y las disímiles variantes de evaluación de estos subconjuntos. Los algoritmos estudiados en esta tesis utilizan la combinación de la Optimización basada en Colonias de Hormigas, como método de búsqueda, y una medida de la Teoría de Conjuntos Aproximados, como función de evaluación. La Optimización basada en Colonias de Hormigas es una metaheurística poblacional que puede ser usada para encontrar soluciones aproximadas a problemas complejos de optimización discreta (Marco Dorigo & Stutzle, 2004). En ACO, durante cada ciclo, un número de hormigas artificiales construyen secuencialmente soluciones de una forma combinada aleatoria y golosa. Cada hormiga selecciona el próximo elemento a ser incorporado en su solución parcial actual sobre la base de alguna evaluación heurística y la cantidad de feromona asociada con este elemento. La heurística provee el valor de una solución candidata específica. La feromona representa la memoria del sistema, y está relacionada con la presencia de ese elemento en soluciones previamente construidas (de esta forma la intensidad del rastro de feromona está relacionado con cuantas hormigas habían decidido anteriormente seguir ese camino). La aleatoriedad (el hecho de hacer algún tipo de selección al azar) es usada para facilitar la construcción de una variedad de soluciones diferentes. Se define una distribución de 5.

(12) Introducción probabilidad sobre todos los elementos que pueden ser incoporados a la solución parcial actual favoreciendo los mejores elementos. En particular, un elemento con una buena evaluación heurística y un alto nivel de feromona es más propenso a ser seleccionado. Cada vez que una hormiga selecciona un elemento actualiza el nivel de feromona de éste, primero substrayendo una fracción de su valor, imitando la evaporación de la feromona y luego adicionando un nuevo valor. Cuando todas las hormigas han construido una solución completa, el procedimiento se reinicia manteniendo los valores del nivel de feromona actualizado. Esto es repetido para un número prestablecido de ciclos o hasta algún otro criterio de parada. La Teoría de Conjuntos Aproximados fue introducida por Z. Pawlak en 1982 (Pawlak, 1982). La filosofía de los conjuntos aproximados se basa en la suposición de que con todo objeto de un universo está asociada una cierta cantidad de información, expresada por medio de algunos atributos que describen el objeto (J. Bazan & Son, 2003). En esta teoría, la estructura de información básica es el Sistema de Información; esto es, una tabla de datos representando un universo de ejemplos (objetos, entidades, situaciones o estados) descritos por atributos, donde uno de estos atributos tiene un carácter distintivo indicando la decisión tomada en ese estado o situación o definiendo la clase de un objeto. Un aspecto importante en la RST es la reducción de atributos basada en el concepto de reductos. Un reducto es un conjunto reducido de atributos que preserva la partición del universo (Jensen, 2005; Komorowski & Pawlak, 1999; Zhong & Dong, 2001). El problema de encontrar reductos ha sido tema de varias investigaciones (Alpigini, Peters, Skowronek, & Zhong, 2002; Swiniarski & Skowron, 2003; Ziarko, 2002). La reducción de atributos a través de los conjuntos aproximados se basa en comparaciones generadas por conjuntos de atributos siguiendo ciertas particularidades que son detalladas en epígrafes posteriores. En la construcción de un reducto se seleccionan atributos de manera sucesiva hasta que se obtenga un conjunto reducido tal que provea la misma calidad de la clasificación supervisada que el original. Un conjunto de datos puede tener varios reductos. Un objetivo importante en el cálculo de reductos es encontrar un subconjunto mínimo de éstos; o sea, un subconjunto reducto con mínima cardinalidad (Thangavel & Pethalakshmi, 2009).. 6.

(13) Introducción. Formulación del problema Muchas de las investigaciones en el aprendizaje inductivo se concentran en problemas con cantidades, relativamente pequeñas o medianas, de datos y concentradas en un único conjunto de datos. Como se ha planteado, con el auge de las redes de computadoras y el desarrollo de Internet, la magnitud de los datos y su localización física en posibles ambientes geográficamente distribuidos, demanda métodos de aprendizaje acorde a estos nuevos dominios de problemas del mundo real. Entre las acciones principales comprendidas están el pre-procesamiento de los datos y la obtención de modelos de clasificación y/o pronóstico. Un elemento clave que incluye el preprocesamiento es la selección de los rasgos principales que describen los datos. Lo planteado constituye una problemática que la ciencia aún no ha dado respuestas concluyentes, por lo que se formula el siguiente problema de investigación: Los métodos existentes actualmente no han resuelto totalmente la selección de atributos con un costo computacional adecuado y hasta el momento el problema de la selección de rasgos en ambientes distribuidos no ha sido abordado suficientemente. Esto afecta a los algoritmos de aprendizaje automatizado encargados de extraer el conocimiento inherente a los datos. El problema de investigación se concretó en las siguientes preguntas de investigación: ¿Si se combina la metaheurística Optimización basada en Colonias de Hormigas con elementos de la Teoría de Conjuntos Aproximados, se lograrán buenos resultados con alta eficiencia en el proceso de selección de atributos relevantes en ambientes distribuidos? ¿Qué efecto provoca en el proceso de selección de rasgos, el uso de información adicional proveniente de subsistemas que efectúan la misma tarea, en un contexto distribuido con colaboración? ¿Qué resultados o ventajas pueden alcanzarse al emplear las propuestas presentadas, en la selección de rasgos para la realización de pronósticos en algunas aplicaciones concretas, aún cuando hayan sido competitivamente estudiados, pero no en forma distribuida? La respuesta a la tercera pregunta de investigación pretende ser ejemplificada con una aplicación específica a la predicción de Infarto Masivo del Miocardio (IMA) entre enfermos de cardiopatías 7.

(14) Introducción de la provincia de Villa Clara. La investigación tiene antecedentes, con resultados muy positivos en el pronóstico con un preprocesamiento estadístico, excelente y envidiable, de selección (transformación de rasgos) con el cual se pretende competir, aprovechando las nuevas técnicas y el ambiente distribuido. Del planteamiento del problema y la formulación de las preguntas de investigación emerge el siguiente Objetivo general: Diseñar métodos de selección de rasgos, combinando la Optimización basada en Colonias de Hormigas y la Teoría de Conjuntos Aproximados en problemas de aprendizaje supervisado tanto en contexto local como distribuido que permitan encontrar, una o varias, colecciones reducidas de atributos, capaces de representar la información necesaria para el aprendizaje, y en última instancia, facilitar su aplicación ante nuevos casos. Este objetivo anterior se desglosa en los siguientes objetivos específicos: 1. Formular un algoritmo que combine Optimización basada en Colonias de Hormigas y la Teoría de Conjuntos Aproximados para selección de rasgos mejorando la eficiencia con respecto al costo en tiempo de ejecución. 2. Proponer una variante del algoritmo formulado en el objetivo específico anterior para resolver el problema de la selección de rasgos en contexto distribuido. 3. Valorar la aplicación de los algoritmos propuestos en la solución de un problema de aplicación, concretamente, la selección de riesgos relevantes para el pronóstico de infarto agudo del miocardio en pacientes con cardiopatías. Después de haber construido el marco teórico se formularon las siguientes hipótesis de investigación: H1: La combinación de la metaheurística Optimización basada en Colonias de Hormigas con elementos de la Teoría de Conjuntos Aproximados permite lograr un nuevo algoritmo de selección de rasgos suficientemente efectivo, y la introducción de estrategias en la. 8.

(15) Introducción implementación de la búsqueda que ejecutan las hormigas en la metaheurística ACO mejora la eficiencia del algoritmo, al menos, preservando la calidad de las soluciones. H2: El uso de información adicional, que refiere el funcionamiento del algoritmo, proveniente de subsistemas que efectúan el proceso de selección de rasgos en un contexto distribuido, con colaboración, perfecciona la calidad global del sistema.. Novedad científica La novedad científica radica en la creación de métodos de selección de rasgos con alternativas para elevar su eficiencia, tanto en contexto local como distribuido, basados en la combinación de la metaheurística Optimización basada en Colonias de Hormigas y la Teoría de Conjuntos Aproximados. El valor práctico está relacionado con la obtención de dos algoritmos de selección de rasgos que pueden ser utilizados, en general, en el preprocesamiento de conjuntos de datos. Como ejemplo de aplicación concreta, se muestra la selección de rasgos en el pronóstico de infarto masivo del miocardio en pacientes con cardiopatías. Como valor social se considera que el trabajo realizado promueve el desarrollo de nuevas investigaciones en el campo de la minería de datos, particularmente en la temática de selección de rasgos y fomenta la experimentación en la búsqueda de mejores soluciones. Es, además, fuente de estudio para estudiantes de las carreras afines. De otra parte, los resultados obtenidos en la selección de riesgos para el pronóstico de infarto masivo del miocardio, tienen sobre todo, una importancia social, porque permiten que dicho pronóstico esté al alcance de los médicos del Nivel Primario de Salud, sin las complicaciones matemáticas de criterios diagnósticos anteriores y sin embargo, fiabilidad compatible con ellos. La tesis que se presenta está estructurada en tres capítulos: El Capítulo 1 realiza un análisis crítico sobre la selección de atributos relevantes en el contexto del aprendizaje automatizado. Se describen, además, los aspectos fundamentales de la 9.

(16) Introducción metaheurística Optimización basada en Colonias de Hormigas y la Teoría de los Conjuntos Aproximados. En el Capítulo 2 se proponen dos métodos para la selección de rasgos: el primero combina la metaheurística Optimización basada en Colonias de Hormigas y la Teoría de los Conjuntos Aproximados con dos variantes para reducir el tiempo de ejecución y el segundo es una variante para enfrentar el problema en contexto distribuido. En el Capítulo 3 se validan los resultados teóricos de la investigación en el preprocesamiento de los datos y se ilustra la aplicación al problema de pronóstico de IMA en pacientes cardiópatas a partir de factores de riesgo correlacionados. Este documento culmina con las conclusiones, recomendaciones, referencias bibliográficas, la producción científica del autor sobre el tema de la tesis, y algunos anexos considerados convenientes.. 10.

(17) Capítulo 1: Métodos de selección de rasgos y sus componentes. 1 Métodos de selección de rasgos y sus componentes Hay varios factores que motivan la inserción de un paso de reducción de dimensionalidad en una variedad de sistemas de solución de problemas (Carreira-Perpinñan, 2001). La reducción de dimensionalidad se debe a la preferencia por los modelos más sencillos frente a los más complejos. Esta preferencia ha sido utilizada con bastante frecuencia en la ciencia moderna y tiene sus orígenes en el denominado Principio de la Navaja de Occam (Occam’s Razor) (Gamberger & Lavrac., 1997). Existen dos formas de reducir la dimensión del espacio de datos de entrada en la dirección vertical. Una de estas consiste en extraer rasgos construyendo combinaciones lineales y no lineales de una dimensión menor a la de la entrada original, este proceso se denomina extracción de rasgos. La otra se fundamenta en seleccionar los rasgos a partir de su capacidad de generalización, y se nombra selección de rasgos. Aunque la extracción de rasgos no es el tema central de esta investigación, se ofrece una visión general de esta técnica con el propósito de mostrar la principal diferencia entre estos métodos. Cuando se aplica la extracción de rasgos se trata de encontrar la mejor combinación de rasgos, lineal o no lineal, para satisfacer un criterio de reducción de dimensionalidad. Existen métodos de extracción de rasgos que usan Análisis de Componentes Principales (Principal Component Analysis, PCA) (Devijver & Kittler, 1982a; Xue, Godden, Gao, & Bajorath, 1999) , Análisis de Componentes Principales combinada con Recocido Simulado(Meiri & Zahavi, 2006), Regresión Dinámica Discriminante (HDR), Análisis de Componentes Independientes (Comon, 1994; Hyvarinen & Oja, 2000), Multidimensional Scaling (MDS) (Cox & Cox, 1994) y Mínimos Cuadrados Parciales (PLS). Probablemente la técnica más ampliamente utilizada en extracción de rasgos sea PCA (Duda, Hart, & Stork, 2001). Consiste en construir nuevos rasgos no correlacionados llamados factores maximizando la varianza. La eficiencia de estos métodos ha sido demostrada en un rango amplio de dominios de aplicaciones, pero la interpretación de los nuevos rasgos no es obvia y requiere un esfuerzo importante del usuario.. 11.

(18) Capítulo 1: Métodos de selección de rasgos y sus componentes La selección de rasgos o atributos se ha convertido en el foco de muchas investigaciones en áreas de aplicación. Estas áreas incluyen con especial relevancia el Reconocimiento de Patrones (Devijver & Kittler, 1982b; Jain & Zongker, 1997; Siedlecki & Sklansky, 1988), el Aprendizaje Automatizado (Liu & Yu, 2005; Ruiz, Aguilar-Ruiz, & Riquelme, 2004), clasificación de textos (Chouchoulas & Shen, 2001; Forman, 2003; Santiesteban & Pons, 2003; Zhang, Zhang, & Yang, 2003), detección de intrusos (W. Lee, Stolfo, & Mok, 2000; Lorenzo-Fonseca, et al., 2009; Tsang & Kwong, 2006) y la Bioinformática (Inza, naga, Blanco, & Cerrolaza, 2004; Saeys, Inza, & Larrañaga, 2007).. 1.1 Selección de rasgos en el contexto del aprendizaje automatizado La selección de rasgos consiste en encontrar el subconjunto de atributos del conjunto de datos original que mejor describe los objetos del dominio; tiene como meta reducir la dimensionalidad del conjunto de rasgos a través de la selección del subconjunto de rasgos de mejor desempeño bajo algún criterio de clasificación (Liu & Motoda, 2007). Este proceso de selección se hace eliminando rasgos irrelevantes y redundantes (D. Bell & Wang, 2000; Blum & Langley, 1997), proveyendo. así. una. mejor. representación. de. la. información. original. reduciendo. significativamente el costo computacional y contribuirá a una mejor generalización del algoritmo de aprendizaje. Normalmente este proceso está presente en las etapas previas de las principales tareas de la minería de datos, ya sean supervisadas o no (Liu & Yu, 2005). Definición 1 (Selección de atributos) Si A es el conjunto de todos los atributos, hacer selección de atributos es escoger un subconjunto S  P(A) . Donde P(A) es el conjunto potencia de A, es decir, el conjunto formado por todos los subconjuntos de elementos de A. La selección de atributos se puede considerar como un problema de búsqueda (Langley, 1994; Siedlecki & Sklansky, 1988) en un espacio de estados, donde cada estado corresponde con un subconjunto de atributos, y este espacio engloba todos los posibles subconjuntos que se pueden generar ( 2 n  1 para n atributos). Claramente, una búsqueda exhaustiva no es práctica ni para conjuntos de datos de mediano tamaño (Blum & Langley, 1997). El proceso de selección de atributos puede entenderse como el recorrido de dicho espacio hasta encontrar un estado (combinación de atributos) que optimice alguna función definida sobre un conjunto de atributos. 12.

(19) Capítulo 1: Métodos de selección de rasgos y sus componentes Los procedimientos de selección de rasgos constan de dos componentes principales: la función de evaluación y el método de generación de subconjuntos (basado en un proceso de búsqueda). Según la naturaleza de la función de evaluación los algoritmos de selección de rasgos pueden dividirse en tres categorías: filtros, envolventes (del inglés "wrapper") (Langley, 1994), y empotrados (Blum & Langley, 1997). La primera categoría incluye los algoritmos en los que la selección de atributos se realiza como un preprocesado independiente de la fase de inducción, por lo que puede entenderse como un filtrado de los atributos. En los métodos de tipo envolvente, la selección de atributos y el algoritmo de aprendizaje no son elementos independientes, ya que la selección hace uso del proceso de inducción para evaluar la calidad de cada conjunto de atributos seleccionados en cada momento. Los métodos empotrados al igual que los envolventes involucran al algoritmo de aprendizaje como parte del proceso de selección. Los empotrados realizan la selección durante el proceso de entrenamiento y cuentan con su propio algoritmo de selección, como ocurre en los algoritmos que generan árboles de decisión, utilizan sólo aquellos atributos necesarios para obtener una descripción consistente con el conjunto de aprendizaje. Por otra parte, otra técnica que también evalúa rasgos es la ponderación (pesado) de rasgos (feature ranking, feature weighting) (Chu, Keerthi, Ong, & Ghahramani, 2006; Kira & Rendell., 1992; Lorenzo-Fonseca, et al., 2009; Saeys, Degroeve, & Peer, 2006a, 2006b; Weston, Mukherjee, Chapelle, Pontil, & Poggio., 2001; Wettschereckk, Aha, & Mohri, 1997). Estos métodos en particular, en lugar de decidir si un rasgo se considera o no (selector con imagen 0,1 ), se asigna una importancia a la relevancia del rasgo (usualmente en el intervalo [0,1]). Tanto filtros como envolventes hacen uso de estrategias de búsqueda para explorar el espacio de todas las posibles combinaciones de rasgos, que normalmente es demasiado grande para ser explorado exhaustivamente. Según estas estrategias los métodos de selección obtienen otra clasificación: las búsquedas completas, heurísticas y aleatorias. Dentro de las primeras se encuentran aquellas que tienen complejidad exponencial pero aseguran la obtención del subconjunto óptimo bajo un criterio dado. Las heurísticas a diferencia de las completas recorren sólo una porción del espacio de búsqueda, y por tanto no aseguran la obtención del óptimo aunque el coste computacional es mucho menor. Las estrategias aleatorias se basan en visitar diferentes regiones del espacio de búsqueda sin un orden claramente predefinido. 13.

(20) Capítulo 1: Métodos de selección de rasgos y sus componentes. Estrategias de búsqueda Liu y otros (Dash & Liu, 1997; Liu & Motoda, 1998; Liu & Motoda, 2008; Liu & Yu, 2005) realizan una propuesta de clasificación de las estrategias de búsquedas agrupadas en tres categorías: completa, heurística y aleatoria. En cuanto a los criterios de evaluación, dividen el tipo filtro en varias categorías dependiendo de qué propiedades se extraen de los mismos. De esta forma, la clasificación que establecen de las funciones de evaluación es la siguiente: medidas de distancia, medidas de información, medidas de dependencia, medidas de consistencia. Y además, las medidas basadas en la tasa de error de un clasificador (correspondientes a las de tipo wrapper). En este tópico se hace revisión actual al estado del arte de selección de atributos, teniendo en cuenta varias revisiones generales y los estudios previos realizados por: (Belanche, Molina, & Nebot, 2002; Dash & Liu, 1997; Guyon & Eliseeff, 2003; Guyon & Elisseeff, 2006; Kohavi & John, 1997; Liu & Yu, 2005). A continuación se analizan algoritmos que siguen algunos de estos enfoques y técnicas. El método B&B (Branch and Bound) propuesto por Narendra y Fukunaga(Narendra & Fukunaga, 1977), selecciona un subconjunto lo más pequeño posible, cuya evaluación esté por debajo del umbral establecido. El método es una variación de la búsqueda en profundidad dirigida hacia atrás. La medida de evaluación tiene que ser monótona, entre las más utilizadas están: la distancia de Mahalanobis, la función discriminante, el criterio de Fisher, la distancia de Bhattacharya, y la divergencia. El usuario debe dar valor a un parámetro que se utiliza para limitar las ramas en las que buscar (poda), lo que es un inconveniente. MDLM (Minimum Description Length Method) (Sheinvald, Dom, & Niblack, 1990). En este algoritmo, si los atributos en un subconjunto V se pueden expresar como una función independiente de la clase F de otro subconjunto de atributos U (U y V juntos completan el conjunto de atributos), entonces una vez se conocen los valores de los atributos en U, el subconjunto de atributos V no se necesita. El algoritmo busca exhaustivamente todos los posibles subconjuntos y como salida muestra el subconjunto que satisface el criterio de evaluación MDLC (minimum description length criterion). 14.

(21) Capítulo 1: Métodos de selección de rasgos y sus componentes Focus (Almuallim & Dietterich, 1992) empieza con el conjunto vacío y lleva a cabo una búsqueda exhaustiva a lo ancho (breadth-first) hasta encontrar un subconjunto mínimo consistente que prediga las clases puras. Este método rinde mejor cuando el número de atributos relevantes respecto al total es pequeño, en otro caso, su coste exponencial lo hace inviables. No maneja bien el ruido debido a su énfasis en la consistencia (Navarro, 2001). Existe una variante del algoritmo para reducir su coste, Focus-2 (Almuallim & Dietterich, 1994), que utiliza una cola donde se almacena una parte del espacio de búsqueda. ABB (Automatic Branch and Bound) (Liu, Motoda, & Dash, 1998) es una modificación de B&B donde el límite es determinado automáticamente. En (Dash, Liu, & Motoda, 2000) se señala que toma mucho tiempo aun para un número moderado de atributos irrelevantes. En general, ABB expande el espacio de búsqueda rápidamente al principio pero su coste exponencial lo acaba haciendo prohibitivo. El algoritmo RELIEF (Kira & Rendell, 1992) asigna un peso a cada atributo y selecciona los atributos cuyo peso supera un umbral prefijado. Se inspira en el aprendizaje basado en casos e intenta obtener los atributos más relevantes estadísticamente. Un número determinado de veces toma aleatoriamente una instancia y para cada una de éstas busca dos vecinos, el más cercano de la misma clase y el de clase distinta. El peso asociado a un atributo se modifica a partir de la distancia euclídea entre el valor del atributo de la instancia y el valor del mismo atributo de los vecinos encontrados. Cuando el número de instancias es pequeño, se realiza el proceso para cada una de las instancias, por esto en ocasiones se clasifica como secuencial y en otras oportunidades como en (Molina, Belanche, & Nebot, 2002) la organización de la búsqueda aparece como aleatoria. En (Caruana & Freitag, 1994) se concluye que el problema con Relief se debe al uso de la distancia como criterio de consistencia (la distancia euclídea no puede ser utilizada en cualquier contexto). Además determinar el umbral supone un problema. Kononenko (Kononenko, 1994) propone una versión mejorada, ReliefF; la diferencia radica en tomar k instancias más parecidas en lugar de una. Otra variante es la propuesta de Liu y otros (Liu, Motoda, & Yu, 2002) soportada en árboles kd–tree, y para el cálculo de la distancia, se escoge un sólo ejemplo de los posibles dentro de cada hoja del árbol.. 15.

(22) Capítulo 1: Métodos de selección de rasgos y sus componentes SFS (Sequential Floating Search) (Pudil, Novovicová, & Kittler, 1994) es un algoritmo secuencial bidireccional (con versiones hacia adelante SFFS y hacia atrás SBFS). En cada paso de selección de atributos, se realiza un paso hacia adelante añadiendo un atributo, y un paso hacia atrás, donde se suprime aquel atributo cuya ausencia hace que mejore el resto del subconjunto escogido hasta él. Permite utilizar cualquier criterio de evaluación, aunque el más usual es la distancia de Bhattacharyya. Ha recibido muy buenas críticas para problemas de pequeña y mediana escala (Kudo, Somol, Pudil, Shimbo, & Sklansky, 2000). La desventaja principal es que debe especificarse el tamaño deseado del subconjunto solución. El algoritmo SFG (Sequential Forward Generation) (Doak, 1992) puede proporcionar un ranking, donde los atributos se encuentran situados según el orden de inclusión en el conjunto solución, realiza el ordenamiento según el criterio de información. El algoritmo FCBF (Fast Correlation-Based Filter) creado por Yu y Liu (Yu & Liu, 2004), se basa en el concepto de Markov blanket (M) –definido en ese mismo trabajo–, se eliminan progresivamente los atributos redundantes con M. clase. Este método es muy rápido, pero sus resultados dependen en gran medida de un parámetro que se utiliza para analizar sólo aquellos atributos más correlacionados con la clase. Si se le asigna un valor muy pequeño, normalmente se obtienen grandes subconjuntos que no contienen atributos redundantes y son relevantes con respecto a la clase. Si se desea obtener subconjuntos más pequeños, se disminuirá bastante su poder predictivo. El algoritmo MIFS (Battiti, 1994) aplica información mutua para seleccionar un subconjunto de atributos que será la entrada de un clasificador mediante redes neuronales. El algoritmo se basa en calcular la información mutua de cada atributo con la clase y entre cada par de atributos. En el algoritmo se selecciona inicialmente el atributo con mayor información mutua con la clase y luego se van añadiendo atributos al conjunto de los ya seleccionados. El algoritmo termina cuando se ha seleccionado un número predeterminado de atributos. CFS (Correlation–based Feature Selection) (M. Hall, 2000) intenta obtener el conjunto de atributos más correlacionado con la clase y con menos correlación entre sí. Se le puede asociar con distintas técnicas de búsqueda, siendo Best First la más utilizada.. 16.

(23) Capítulo 1: Métodos de selección de rasgos y sus componentes POE-ACC (Mucciarde & Gose, 1971) es un algoritmo que genera un ranking de atributos ordenados basándose en la suma ponderada de la probabilidad del error (POE) y el coeficiente de correlación medio (ACC), y como criterio de parada se requiere un número de atributos. VCC (K.Wang & Sundaresh, 1998), se basa en el Vertical Compactness Criterion, la búsqueda que emplean es un híbrido entre la búsqueda en profundidad y en anchura basándose en las definiciones de inconsistencias. El subconjunto que se selecciona es el de menor dimensionalidad que no supere un umbral fijado por el usuario. Liu y Setiono (Liu & Setiono, 1996) proponen el algoritmo LVF (Las Vegas Filter), consiste en generar aleatoriamente conjuntos de atributos e ir seleccionando en cada momento aquel que tenga el menor número de atributos y cuyo promedio de inconsistencia sea menor que el umbral fijado por el usuario. Otro parámetro importante a fijar es el número de subconjuntos que se comprueban. Si este número es muy bajo es improbable obtener el mejor subconjunto, mientras que si es muy alto se realizarán muchas comprobaciones sobre subconjuntos después de encontrar el mejor. Estos dos parámetros constituyen una debilidad. Generalmente LVF al principio proporciona resultados rápidamente, y a continuación los mejora de forma muy lenta. El algoritmo QBB (Quick Branch and Bound) (Liu & Motoda, 1998) soluciona este problema combinando los algoritmos LVF y ABB. Comienza utilizando LVF para generar un conjunto de atributos que se utiliza como conjunto inicial en el algoritmo ABB y que refina la búsqueda realizada por LVF Balamurugan y Rajaram (Balamurugan & Rajaram, 2009) proponen un algoritmo basado en el teorema de Bayes que determina y elimina los atributos dependientes dentro de un conjunto de datos, reduciendo consecuentemente el conjunto de atributos. La dependencia de dos atributos es medida por las probabilidades condicionales del atributo clase dado por los valores de los atributos calculadas por el teorema de Bayes. Define dos atributos dependientes si la diferencia entre sus probabilidades condicionales satisface un umbral predefinido. El mayor hándicap es precisamente determinar este umbral. Gadat y Younes en (Gadat & Younes, 2007) proponen el algoritmo OFW (Optimal Feature Weighting) que asigna pesos a cada rasgo en relación con su importancia con la clase. El conjunto total de pesos es obtenido por un algoritmo de gradiente descendiente estocástico y 17.

(24) Capítulo 1: Métodos de selección de rasgos y sus componentes optimizado por un algoritmo de aprendizaje basado en SVM a partir del conjunto de entrenamiento como ha sido utilizado por Sun y Li en (Sun & Li, 2006). Las comparaciones de este método se han establecido con otros métodos que utilizan alguna combinación de filtro con Support Vector Machine (SVM) como F+SVM de Chen y Lin (Y. W. Chen & Lin, 2006), FS+SVM de Lal y otros (Lal, Chapelle, & Schölkopf, 2006). Este algoritmo es más competitivo que otros basados puramente en SVM, pero precisamente la incorporación de un clasificador en el proceso introduce un gasto de tiempo que puede ser evitado si en su lugar se utilizara alguna componente estadística como información mutua (mutual information). Una tendencia dirigida a superar las limitaciones de los métodos existentes ha sido implementar la selección de rasgos usando métodos de búsqueda basados en el uso de Inteligencia Colectiva (Swarm Intelligence). Al usar metaheurísticas poblacionales, estos métodos tienen la ventaja de encontrar una mayor cantidad de subconjuntos de rasgos, lo cual es de interés en diversas aplicaciones. Entre éstos se pueden mencionar los que usan Optimización con Enjambres de Partículas (Particle Swarm Optimization, PSO) (Firpi & Goodman, 2004; Wang, Yang, Teng, Xia, & Jensen, 2007) y las técnicas de Optimización con Colonias de Hormigas (Ant Colony Optimization, ACO) (Al-Ani, 2005; Y. Chen, Miao, & Wang, 2010; Jensen & Shen, 2003, 2005; Ke, Feng, & Ren, 2008). En este contexto se sitúan los estudios realizados en esta investigación (Bello, Nowé, Caballero, Gómez, & Vrancx, 2005; Gómez, Bello, Nowé, Puris, & García, 2008). 1.2 Conjuntos aproximados La Teoría de Conjuntos Aproximados fue introducida por Z. Pawlak en 1982 (Pawlak, 1982, 1991). Se basa en aproximar cualquier concepto, un subconjunto duro del dominio como por ejemplo, una clase en un problema de clasificación supervisada, por un par de conjuntos exactos, llamados aproximación inferior y aproximación superior del concepto. Con esta teoría es posible tratar tanto datos cuantitativos como cualitativos, y no se requiere eliminar las inconsistencias previas al análisis; respecto a la información de salida puede ser usada para determinar la relevancia de los atributos, generar las relaciones entre ellos (Choubey, 1996; Chouchoulas & Shen, 1999; Greco & Inuiguchi, 2003; Grzymala-Busse & Siddhaye, 2004; Miao & Hou, 2003; Midelfart & Komorowski, 2003; Piñero & Arco, 2003; Sugihara & Tanaka, 2006; Tsumoto,. 18.

(25) Capítulo 1: Métodos de selección de rasgos y sus componentes 2003; Zhao & Zhang, 2003). La inconsistencia describe una situación en la cual hay dos o más valores en conflicto para ser asignados a una variable (Parsons, 2006). Sobre los Conjuntos Aproximados se han manifestado diversos autores, los cuales ven esta teoría como la mejor herramienta para modelar la incertidumbre cuando esta se manifiesta en forma de inconsistencia, y como una nueva dirección en el desarrollo de teorías sobre la información incompleta (Grabowski, 2003; Skowron, 1999; Skowron & Peters, 2003). La principal ventaja que tiene el análisis de datos basado en RST es que para operar este no requiere parámetros adicionales además de los datos de entrada (Düntsch & Gediga., 2000). En este epígrafe se describirán los conceptos fundamentales de los Conjuntos Aproximados para el enfoque clásico. Principales definiciones de la Teoría de los Conjuntos Aproximados La filosofía de los conjuntos aproximados se basa en la suposición de que con todo objeto x de un universo U está asociada una cierta cantidad de información (datos y conocimiento), expresado por medio de algunos atributos que describen el objeto (J. G. Bazan & Szczuka, 2005; Komorowski & Pawlak, 1999). Diversos modelos computacionales operan sobre colecciones de datos. En cada caso esta colección tiene sus características, sobre todo organizativas, y recibe una denominación particular. Por ejemplo, para un Gestor de Bases de Datos esa colección es una base de datos, para una Red Neuronal Artificial es un conjunto de entrenamiento. En el caso de la Teoría de los Conjuntos Aproximados la estructura de información básica es el Sistema de Información. Definición 2. Sistema de Información y sistema de decisión. Sea un conjunto de atributos A  a1 , a2 ,, an  y un conjunto U no vacío llamado universo de ejemplos (objetos, entidades, situaciones o estados) descritos usando los atributos a i ; al par. U , A. se le denomina Sistema de Información3(Komorowski & Pawlak, 1999). Si a cada. elemento de U se le agrega un nuevo atributo d llamado decisión, indicando la decisión tomada en ese estado o situación, entonces se obtiene un Sistema de decisión U , A  {d} , donde d  A. 3. Esta definición es independiente a la definición de Sistema de Información de Shannon. 19.

(26) Capítulo 1: Métodos de selección de rasgos y sus componentes Definición 3. Función de información A cada atributo ai se le asocia un dominio vi. Se tiene una función. f : UxA  V ,. V  {v1 , v2 ,v p } tal que f x, ai   v j para cada ai  A, x  U llamada función de información (Komorowski & Pawlak, 1999). El atributo de decisión d induce una partición del universo U de objetos. Sea el conjunto de enteros 1,l, X i  x  U : d ( x)  i, entonces. X 1 , X l . es una colección de clases de. equivalencias, llamadas clases de decisión, donde dos objetos pertenecen a la misma clase si ellos tienen el mismo valor para el atributo decisión. Se dice que un atributo ai  A separa o distingue un objeto x de otro y, y se escribe Separaai , x, y  , si y solo si se cumple: f x, ai   f  y, ai . (1.1). La relación de separabilidad se basa en la comparación de los valores de un atributo, para lo cual se ha usado la igualdad (o desigualdad) estricta. Sin embargo, es posible usar una condición de comparación menos estricta definida de esta forma:. Separa ai , x, y   f x, ai   f  y, ai   . (1.2). Definición 4. Relación de inseparabilidad A cada subconjunto de atributos B de A B  A está asociada una relación binaria de inseparabilidad denotada por R, la cual es el conjunto de pares de objetos que son inseparables uno de otros por esa relación (Komorowski & Pawlak, 1999) R  x, y   UxU : f x, ai   f  y, ai ai  B. (1.3). Una relación de inseparabilidad (indiscernibility relation) que sea definida a partir de formar subconjuntos de elementos de U que tienen igual valor para un subconjunto de atributos B de A,. B  A , es una relación de equivalencia.. 20.

(27) Capítulo 1: Métodos de selección de rasgos y sus componentes Los conceptos básicos de la RST son las aproximaciones inferiores y superiores de un subconjunto X  U . Estos conceptos fueron originalmente introducidos con referencia a una relación de inseparabilidad R. Sea R una relación binaria definida sobre U la cual representa la inseparabilidad, se dice que R(x) significa el conjunto de objetos los cuales son inseparables de x. Así, R( x)  y  U : yRx. En la RST clásica, R es definida como una relación de equivalencia; es decir, es una relación binaria R  U  U que es reflexiva, simétrica y transitiva. R induce una partición de U en clases de equivalencia correspondiente a R(x), xU. La aproximación de un conjunto X  U , usando una relación de inseparabilidad R, ha sido inducida como un par de conjuntos llamados aproximaciones R-inferior y R-superior de X. Se considera en esta tesis una definición de aproximaciones más general, la cual maneja cualquier relación reflexiva R’. Las aproximaciones R’-inferior ( R'* ( X ) ) y R’-superior ( R'* ( X ) ) de X están definidas respectivamente como se muestra en las expresiones (1.4) y (1.5).. R'* ( X )  x  X : R' ( x)  X  R'* ( X ) .  R' ( x). x X. (1.4). (1.5). Teniendo en cuenta las expresiones definidas en (1.4) y (1.5), se define la región límite de X para la relación R’ (J. S. e. a. Deogun, 1995): BN B  X   R'*  X   R'*  X . (1.6). Si el conjunto BNB es vacío entonces el conjunto X es exacto respecto a la relación R’. En caso contrario, BN B  X    , el conjunto X es inexacto o aproximado con respecto a R’. El uso de relaciones de similitud ofrece mayores posibilidades para la construcción de las aproximaciones; sin embargo, se tiene que pagar por esta mayor flexibilidad, pues es más difícil desde el punto de vista computacional buscar las aproximaciones relevantes en este espacio mayor (Pal & Skowron, 1999). 21.

(28) Capítulo 1: Métodos de selección de rasgos y sus componentes Usando las aproximaciones inferior y superior de un concepto X se definen tres regiones para caracterizar el espacio de aproximación: la región positiva que es la aproximación. R’-inferior,. la región límite que es el conjunto BNB y la región negativa (NEG(X)) que es la diferencia entre el universo y la aproximación R’-superior. Los conjuntos R’*(X) (denotado también como POS(X)), R’*(X), BNB(X) y NEG(X) son las nociones principales de la Teoría de Conjuntos Aproximados. Un aspecto importante en la Teoría de los Conjuntos Aproximados es la reducción de atributos basada en el concepto de reductos. Un reducto es un conjunto reducido de atributos que preserva la partición del universo (Komorowski & Pawlak, 1999; Zhong & Dong, 2001). El uso de reductos en la selección y reducción de atributos ha sido ampliamente estudiado (Y. Caballero & Bello, 2006; Yaile Caballero, Bello, Arco, Garcia, & Ramentol, 2010; Kohavi & Frasca, 1994; Komorowski & Pawlak, 1999; Lazo, Shulcloper, & cabrera, 2001; Pal & Skowron, 1999; Santiesteban & Pons, 2003; Zhong & Dong, 2001). Medidas de inferencia clásicas de la Teoría de los Conjuntos Aproximados La Teoría de los Conjuntos Aproximados ofrece algunas medidas para analizar los sistemas de información (Arco & Bello, 2006; Skowron, 1999; Skowron & Peters, 2003). A continuación se muestran las dos principales utilizadas en esta tesis. En las expresiones se emplean las aproximaciones R’-inferior ( R'* ( X ) ) y R’-superior ( R'* ( X ) ) de X, definidas en las expresiones (1.4) y (1.5) respectivamente. Precisión de la aproximación. Un conjunto aproximado X puede ser caracterizado numéricamente por el coeficiente llamado precisión de la aproximación, donde X denota la cardinalidad de X, X   . Observe la expresión (1.7).. (X ) . R '* ( X ) R '* ( X ). (1.7). Obviamente, 0   x   1 . Si  ( x)  1 X es duro (exacto), si  ( x)  1 , X es aproximado (vago, inexacto), siempre respecto al conjunto de atributos considerado (Skowron, 1999). 22.

(29) Capítulo 1: Métodos de selección de rasgos y sus componentes Considerando que Y  X 1 , X l  son las clases disjuntas del sistema de decisión, se define la medida: Calidad de aproximación de la clasificación. Este coeficiente describe la inexactitud de las clasificaciones aproximadas: l.  (Y ) .  R' i 1. *. (X i ). (1.8). U. La medida calidad de la clasificación expresa la proporción de objetos que pueden estar correctamente clasificados en el sistema. Si ese coeficiente es igual a 1, entonces el sistema de decisión es consistente, en otro caso es inconsistente (Skowron, 1999).. 1.3 Inteligencia Colectiva aplicada al problema de selección de rasgos La Inteligencia Colectiva (también llamada inteligencia de enjambre) es un paradigma inteligente, distribuido e innovador para la solución de problemas de optimización que originalmente tomó su inspiración en ejemplos biológicos de enjambres. Dentro de esta familia de algoritmos existen dos bien representativos que han sido aplicados en esta investigación: la Optimización mediante Enjambres de Partículas (Kennedy & Eberhart, 1995) incorpora el comportamiento de enjambre observado en bandas de pájaros, cardúmenes de peces o enjambres de abejas, de las que surgió la idea. Y la Optimización mediante Colonias de Hormigas (M. Dorigo, Birattari, & Stutzle, 2006; Marco Dorigo & Stutzle, 2004) tiene que ver con sistemas inteligentes artificiales, que son inspirados a partir de observar el comportamiento de las hormigas reales en la búsqueda de comida, los cuales son usados para resolver problemas de optimización discretos. Son métodos poblacionales que realizan un proceso constructivo y estocástico guiado por rastros de feromona4 que va depositando cada hormiga, dando una medida de cuán deseado ha sido un determinado camino, y a través de una función de visibilidad que evalúa la calidad del desplazamiento. Es un ejemplo clásico de comunicación indirecta, que 4. Sustancia química olorosa que depositan las hormigas en su recorrido. La intensidad de esta sustancia disminuye a. través de un proceso de evaporación que ocurre en el tiempo de manera constante.. 23.

(30) Capítulo 1: Métodos de selección de rasgos y sus componentes ocurre cuando un individuo altera el medio en que se desarrolla y los otros son capaces de captar estos cambios siguiendo así la idea original sobre la que están basados los algoritmos de inteligencia de enjambre. Estudios recientes (Abraham, Grosan, & Ramos, 2006; Parpinelli, Lopes, & Freitas, 2002) sugieren que las técnicas de minería de datos y de inteligencia colectiva pueden ser usadas conjuntas para diversos problemas reales de minería de datos, especialmente cuando otros métodos podrían ser muy costosos o difíciles de implementar.. Optimización basada en Colonias de Hormigas Los algoritmos ACO son procesos iterativos. En cada iteración se "lanza" una colonia de m hormigas y cada una de las hormigas de la colonia construye una solución al problema. Las hormigas construyen las soluciones de manera probabilística, guiándose por un rastro de feromona artificial y por una información calculada a priori de manera heurística. Éstos algoritmos son esencialmente métodos constructivos: en cada iteración del algoritmo, cada hormiga construye una solución al problema recorriendo un grafo. Cada arista del grafo, que representa los posibles caminos que la hormiga puede tomar, tiene asociados dos tipos de información que guían el movimiento de la hormiga: . Información heurística, mide la preferencia heurística de moverse desde el nodo i hasta el nodo j; es decir, la preferencia a recorrer la arista aij. Se denota por ηij. Las hormigas no modifican esta información durante la ejecución del algoritmo.. . Información de los rastros artificiales de feromona, mide la “deseabilidad aprendida” del movimiento de i a j. Imita de forma numérica a la feromona real que depositan las hormigas naturales. Esta información se modifica durante la ejecución del algoritmo dependiendo de las soluciones encontradas por las hormigas. Se denota por τij.. El modo de operación básico de un algoritmo ACO (M. Dorigo, et al., 2006; Marco Dorigo & Stutzle, 2004) es como sigue: las m hormigas (artificiales) de la colonia se mueven, concurrentemente y de manera asíncrona, a través de los estados adyacentes del problema (que puede representarse en forma de grafo con ponderaciones o sin ellas). Este movimiento se realiza siguiendo una regla de transición que está basada en la información local disponible en las 24.

(31) Capítulo 1: Métodos de selección de rasgos y sus componentes componentes (nodos). Esta información local incluye la información heurística y memorística (rastros de feromona) para guiar la búsqueda. Las hormigas construyen incrementalmente soluciones al moverse por el grafo de construcción. Opcionalmente, las hormigas pueden depositar feromona cada vez que crucen un arco (conexión) mientras que construyen la solución (actualización en línea paso a paso de los rastros de feromona). Una vez que cada hormiga ha generado una solución, ésta se evalúa y el agente puede depositar una cantidad de feromona en dependencia de la calidad de su solución (actualización en línea de los rastros de feromona). Esta información guiará la búsqueda de las otras hormigas de la colonia en el futuro. Además, el modo de operación genérico de un algoritmo ACO incluye dos procedimientos adicionales, la evaporación de los rastros de feromona y las acciones del demonio. La evaporación de feromona la lleva a cabo el entorno y se usa como un mecanismo que evita el estancamiento en la búsqueda y permite que las hormigas busquen y exploren nuevas regiones del espacio. Las acciones del demonio constituyen una funcionalidad opcional (que no tiene un contrapunto natural) para implementar tareas desde una perspectiva global que no pueden llevar a cabo las hormigas por la perspectiva local que ofrecen. Ejemplos son: observar la calidad de todas las soluciones generadas y depositar una nueva cantidad de feromona adicional sólo en las componentes asociadas a algunas soluciones, o aplicar un procedimiento de búsqueda local a las soluciones generadas por las hormigas antes de actualizar los rastros de feromona. En ambos casos el demonio reemplaza la actualización en línea a posteriori de feromona y el proceso pasa a llamarse actualización fuera de línea de rastros de feromona. En ACO el significado de los rastros de feromona y la función heurística o de visibilidad dependen totalmente del problema a resolver. En el caso específico de los rastros de feromona, cuando se está en presencia de un problema de secuenciación (Viajante de Comercio (M. Dorigo & L.M. Gambardella, 1997; M. Dorigo & L. M. Gambardella, 1997), Asignación Cuadrática (Gambardella, Taillard, & Dorigo, 1999), entre otros), donde el orden en que aparecen las componentes en una solución influye en la calidad de ésta, los rastros de feromona son asociados a los arcos del grafo, con el objetivo de premiar las buenas secuencias de componentes5. Por otra parte, en problemas de asignación (Selección de Rasgos (Bello, et al., 2005), Partición de 5. Mide la deseabilidad de la colonia por una determinada secuencia de nodos.. 25.

(32) Capítulo 1: Métodos de selección de rasgos y sus componentes Conjuntos (Crawford & Castro, 2006), entre otros) donde los cambios de posición entre componentes de una solución no influyen en la calidad de la misma, los rastros de feromona son asociados a los nodos del grafo6. La estructura general (Marco Dorigo & Stutzle, 2004) de ACO es como sigue: Procedimiento metaheurística ACO; Actividades Programadas Construir Soluciones de las Hormigas Actualizar Feromonas Evaporación de la Feromona Acciones del Demonio (opcional) Fin de las Actividades Programadas Fin del Procedimiento Figura 1 Procedimiento general de ACO. Este procedimiento se anida en el siguiente procedimiento iterativo: Paso1: Inicializar los valores de feromona iteracionActual=1 Paso2: Repetir Procedimiento. metaheurística ACO. iteracionActual = iteracionActual +1 Hasta que: criterio de parada Figura 2 Estructura genérica de ACO. Para los métodos de ACO existen distintos criterios de parada (M. Dorigo & Stutzle, 2003), en esta investigación sólo se tomó como criterio de parada cuando se alcanza una cantidad máxima de iteraciones o ciclos.. 6. Mide la deseabilidad de la colonia por un estado en específico, no interesa de donde fue alcanzado.. 26.

(33) Capítulo 1: Métodos de selección de rasgos y sus componentes Observando las aplicaciones actuales de ACO, se pueden identificar algunas directivas sobre cómo solucionar problemas utilizando esta metaheurística (M. Dorigo, et al., 2006). Estas directivas se pueden resumir en las seis tareas de diseño que se enumeran a continuación: 1. Representar el problema como un conjunto de componentes (nodos) y transiciones (aristas) a través de un grafo que será recorrido por las hormigas para construir soluciones. 2. Definir de manera apropiada en base a las características del problema, el significado de los rastros de feromona. .. 3. Definir de manera apropiada la preferencia heurística o función de visibilidad  asociada a cada componente o transición. 4. Si es posible, implementar una búsqueda local eficiente para mejorar las soluciones obtenidas por ACO. 5. Escoger un algoritmo de ACO específico y aplicarlo al problema que hay que solucionar teniendo en cuenta las características propias de cada uno de estos algoritmos. 6. Refinar los parámetros del algoritmo de ACO seleccionado. Dentro de los algoritmos de ACO las diferencias fundamentales radican en la regla de transición que utilizan para la construcción de las soluciones y en el tratamiento que le dan a los rastros de feromona. Debido a esto, aparecen en la literatura distintos algoritmos ACO. La familia de algoritmos basados en colonia de hormigas. Entre los algoritmos ACO disponibles para problemas de optimización combinatoria (M. Dorigo & Blum, 2005) se encuentran: el Sistema de Hormigas (Ant System, AS) (M. Dorigo, Maniezzo, & Colorni, 1996), el Sistema de Colonia de Hormigas (Ant Colony System, ACS) (M. Dorigo & L. M. Gambardella, 1997), el Sistema de Hormigas Máximo-Mínimo (Max-Min Ant System, MMAS) (T. Stützle & Hoos, 2000), entre otros. ACO comienza a tener la madurez tecnológica adecuada para su utilización en problemas reales, como puede apreciarse en la publicación del libro (Marco Dorigo & Stutzle, 2004).. 27.