Generación Automática de Conjuntos de Entrenamientos para Weka

Texto completo

(1)UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS FACULTAD DE MATEMÁTICA FÍSICA Y COMPUTACIÓN CARRERA CIENCIAS DE LA COMPUTACIÓN. Trabajo de Diploma. Generación Automática de Conjuntos de Entrenamientos para Weka. Autor: Adrián Rodríguez Morales Tutor: Dr. Carlos Morell Pérez Santa Clara, 2013.

(2) DICTAMEN. El que subscribe, Adrián Rodríguez Morales, hago constar que el trabajo titulado “Generación Automática de Conjuntos de Entrenamientos para Weka” fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de los estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la Universidad. ______________________ Firma del Autor Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. ___________________________. ___________________________. Firma del Tutor. Firma del Jefe de Seminario. Dr. Carlos Morell Pérez. Dr. Carlos Morell Pérez. ______________________ Fecha.

(3) PENSAMIENTO. “Podría parecer que hemos llegado a los límites alcanzables por la tecnología informática, aunque uno debe ser prudente con estas afirmaciones, pues tienden a sonar bastante tontas en cinco años” John Von Neumann, 1949.

(4) DEDICATORIA. A mis padres, Hilda y Adrián A mi abuela, Hilda A mis hermanos, Arlen y Ariel.

(5) AGRADECIMIENTOS A mis padres, por ser mi apoyo incondicional ante cada momento y por enseñarme que estudiar es el mejor camino para crecer A mi abuela Hilda, por ser mi mano derecha en estos 23 años y por darme parte de la educación de la que hoy estoy orgulloso A mis tíos Iván e Ignacito, por ayudarme a salir de las dificultades y por darme ánimos todos los días A mi novia, Lis Mary por soportarme ante cada situación y darme el mayor amor del mundo A mi familia en general, que es lo más grande que tengo A todas las personas que hicieron posible el desarrollo de este trabajo A mi tutor, por la gran ayuda brindada A mis amigos,. por haber compartido tantos momento, buenos y. malos, alegres y tristes, pero al final momentos para recordar siempre.

(6) RESUMEN. Las técnicas de aprendizaje automático tienen gran aplicación en los algoritmos de clasificación, los cuales infieren en la frontera de decisión a partir de un conjunto de instancias de entrenamiento, siendo el núcleo de usos fascinantes. La diversidad de dominios—medicina, industria o educación—proporciona sin duda problemas dispares en los que involucra a tipo de atributos, volumen de instancias y distribución de datos. Todas estas características han llevado a la implementación de diferentes estrategias para abordar cada problema de la manera más adecuada, ya que el rendimiento del sistema de aprendizaje depende en parte del diseño de su algoritmo. Se han logrado progresos considerables refinando dichos algoritmos, tanto, que el desarrollo de técnicas ha alcanzado su nivel de madurez ofreciendo miles de métodos, todos ellos ciertamente competitivos y capaces de ajustar modelos precisos a partir de muestras del problema a resolver. No obstante, y a pesar del avance en la clasificación de datos, quedan aún cuestiones pendientes, sin ir más lejos, cómo las características intrínsecas de los datos afectan a los sistemas de aprendizaje. Esto, juntamente con el poco margen de mejora y la incertidumbre en la habilidad de las técnicas para capturar completamente el conocimiento que encierran los datos, induce a mirar otros elementos que forman parte del proceso de aprendizaje. Es entonces cuando los datos acaparan el protagonismo. Esta tesis se adentra en el estudio de la complejidad de los datos y su papel en la definición del comportamiento de las técnicas de aprendizaje supervisado, y explora la generación artificial de conjuntos de datos mediante estimadores de complejidad..

(7) ABSTRACT. Machine learning techniques have a wide range of practical applications, and algorithms for supervised classification, which infer a decision boundary from a set of training instances, are at the core of fascinating uses. The diversity of domains—medicine, industry, or learning—provides extremely disparate data sets regarding properties such as the type of attributes, volume of instances, and data distribution. All of these characteristics have led to the implementation of different strategies to tackle each problem properly, since learner performance depends partly on the algorithm design. Tremendous progress has been made in refining such algorithms. Actually, the development of techniques has reached an advanced state of maturity offering thousands of methods, all of them very competitive, and providing accurate models from data which are generalized from a sample of the problem at hand. However, despite the progress in data classification, questions such as how the intrinsic characteristics of the data sets affect learners remain unanswered. This, coupled with the little leeway for improvement and the uncertainty of the ability of techniques to fully capture the underlying knowledge of data, in duce’s us to look toward other elements involved in the learning process. At this point, data steal the limelight from learners. This thesis takes a close view of data complexity and its role shaping the behavior of machine learning techniques in supervised learning and explores the generation of synthetic data sets through complexity estimates..

(8) CONTENIDO INTRODUCCIÓN ................................................................................................................. 1 1 FUNDAMENTOS GENERALES DE LAS MEDIDAS DE COMPLEJIDAD DE LOS DATOS Y LA GENERACIÓN DE CONJUNTOS DE DATOS ARTIFICIALES .................................................... 6 1.1 Introducción a las medidas de complejidad de los datos y la generación de conjuntos de datos artificiales ................................................................................................................... 6 1.2. Medidas de complejidad geométrica en el aprendizaje supervisado ............................ 7. 1.2.1 Medidas de complejidad ........................................................................................................ 9 1.2.1.1 Medidas de superposición en los valores de las características de diferentes clases ..... 11 1.2.1.2 Medidas de separabilidad de clases ............................................................................ 14 1.2.1.3 Medidas de geometría, topología, y densidad de colecciones ...................................... 17. 1.3. DCoL: Data Complexity Library ................................................................................... 20. 1.4. Problemas del mundo real y conjuntos de datos artificiales ....................................... 21. 1.4.1 Revisión a los problemas del mundo real .............................................................................. 22 1.4.2 Problemas del mundo real de repositorios UCI ...................................................................... 23 1.4.2.1 Descripción ................................................................................................................. 23 1.4.2.2 Complejidad intrínseca................................................................................................ 25 1.4.3 Generación de un nuevo tipo de problemas .......................................................................... 28. 2 FORMA APROPIADA PARA LA GENERACIÓN DE DATOS DE APRENDIZAJE QUE CUBRAN EL ESPACIO DE COMPLEJIDAD DE LOS DATOS................................................... 29 2.1 Introducción a la forma de generar conjuntos de datos sintéticos usando optimización evolutiva multiobjetivo ........................................................................................................... 29 2.2 2.2.1 2.2.2. 2.3 2.3.1 2.3.2. 2.4. Universo del problema y su proyección en un espacio de medición complejo. ............ 30 Trabajos realizados .............................................................................................................. 30 Trabajo a realizar................................................................................................................. 32. Tipo y forma de generar conjuntos de datos .............................................................. 34 Tipo ..................................................................................................................................... 34 Forma .................................................................................................................................. 38. EMOGen: generador de conjuntos de datos artificiales .............................................. 41. 2.4.1 Formulación de problemas de optimización multiobjetivo..................................................... 41 2.4.2 Implementación EMO. ......................................................................................................... 44 2.4.2.1 Meta-información para describir la estructura de datos. ............................................. 46 2.4.2.2 Representación del conocimiento. ............................................................................... 46 2.4.2.3 Aptitud. ...................................................................................................................... 47 2.4.2.4 Organización del proceso de búsqueda........................................................................ 47 2.4.2.5 Operadores genéticos ................................................................................................. 48. 2.5. Otros generadores ...................................................................................................... 50. 3 HERRAMIENTAS PARA LA IMPLEMENTACIÓN DEL GENERADOR DE DATOS ARTIFICIALES Y PROCESO DE EXPERIMETACIÓN .............................................................. 52.

(9) CONTENIDO 3.1. Introducción a las herramientas utilizadas y al proceso de experimentación ............. 52. 3.2. Elementos generales de las bibliotecas usadas........................................................... 53. 3.2.1 Generalidades de Weka ....................................................................................................... 53 3.2.1.1 Entrada de datos ........................................................................................................ 55 3.2.1.2 Interioridades de Weka ............................................................................................... 56 3.2.2 JCLEC ................................................................................................................................... 59 3.2.2.1 Vista general .............................................................................................................. 60 3.2.2.2 Jerarquía de clases...................................................................................................... 61. 3.3. Proceso de desarrollo de la herramienta EMOGen ..................................................... 64. 3.3.1 Uniendo Weka, JCLEC y DCol ................................................................................................ 64 3.3.1.1 Clase ComplexityMetricEvaluation .............................................................................. 65 3.3.1.2 Clase DataComplexityMultiObjectiveEvaluator ............................................................ 65 3.3.1.3 Clase EMOGen ............................................................................................................ 66. 3.4. Vista general de EMOGen ........................................................................................... 68. 3.5. Metodología experimental ......................................................................................... 68. 3.5.1. 3.6. Resultados ........................................................................................................................... 69. Discusión y trabajo adicional. ..................................................................................... 73. CONCLUSIONES ............................................................................................................... 75 REFERENCIAS BIBLIOGRÁFICAS ....................................................................................... 76 ANEXOS ........................................................................................................................... 77.

(10) INTRODUCCIÓN. INTRODUCCIÓN La voluntad de saber y dominar con maestría los detalles de nuestras vidas parece un tema desafiante para algunas personas, y un negocio para muchas más. Con los avances de la tecnología y la capacidad para almacenar los datos de cada cosa en cualquier lugar, las bases de datos acumulan una gran cantidad de terabytes que están esperando ser descifrados y explorados (Mitchell, 2009). En esta área, cuando los seres humanos tienen problemas para comprender grandes cantidades de datos, el aprendizaje de máquina nos permite llegar a algún entendimiento básico o a patrones ocultos. El aprendizaje de máquina consiste en diseñar y desarrollar programas que usan experiencias para solucionar problemas dados (Bishop, 2006, Mitchell, 1997). En las últimas décadas, han sido desarrolladas muchas técnicas nuevas de aprendizaje supervisado basadas en paradigmas de aprendizaje, todas ellas muy competitivas y según sus autores, cada una funciona mejor que el resto. La mayor parte de estas aseveraciones están, sin embargo, fundamentalmente defectuosas por las metodologías usadas para evaluar y comparar el funcionamiento de los algoritmos. La principal razón de la exactitud de estos clasificadores depende de las restricciones del algoritmo y las complejidades intrínsecas de los datos (Ho and Basu, 2002), lo que más se ignora en la mayor parte de los análisis. El diseño del aprendizaje se desarrolla en el plano de los errores y el costo computacional. Actualmente, los autores están enfocados en refinar y evaluar los algoritmos de aprendizaje, alcanzando un avanzado estado de madurez. Pero, cuándo los clasificadores automáticos no son perfectos — en términos de exactitud —, ¿es esta una deficiencia del algoritmo por diseñar o una dificultad intrínseca para la tarea de clasificación dada? Realmente no sabemos si el aprendizaje ha captado completamente el conocimiento incorporado en el conjunto de datos de entrenamiento. Para salir de algunas dudas en este misterio, varios autores han dedicado sus investigaciones al análisis de las fuentes de dificultad (Ho et al., 2006). Estos estudios aspiran a determinar la naturaleza de la 1.

(11) INTRODUCCIÓN distribución de las clases y caracterizar numéricamente las clases al límite de su complejidad para encontrar un enlace entre el aprendizaje y los datos. No obstante, tal exploración de los datos no es parte de la metodología actual para evaluar el funcionamiento del aprendizaje. Esto da como resultado un procedimiento incompleto que puede conducir a conclusiones parciales o inexactas. Por otra parte, los datos disponibles para la experimentación no son lo suficientemente representativos, limitando el progreso de la metodología y también el estudio de la complejidad de los datos. Por lo tanto, se reconocen las dos siguientes cuestiones: la primera, las metodologías para la evaluación del aprendizaje no están todavía bien fundamentadas, el rendimiento del aprendizaje es valorado generalmente en términos de exactitud, interpretación y eficiencia. La primera de estas medidas es la más significativa para determinar la calidad del aprendizaje y es generalmente calculada corriendo el algoritmo de aprendizaje sobre diferentes conjuntos de datos. A menos que el desarrollo del aprendizaje sea orientado a un problema, el escoger conjuntos de datos para los experimentos también es un paso bastante oscuro. La falta de detalle y orientación en esta selección manifiesta en sí un mal procedimiento para evaluar el aprendizaje que trae consigo la obtención de conclusiones parciales; y la segunda que los conjuntos de datos disponibles no bastan para llevar a cabo una prueba rigurosa. Existen dos tipos de datos para llevar a cabo la evaluación del rendimiento del aprendizaje: los datos que vienen (1) de los problemas del mundo real y (2) de conjuntos de datos sintéticos. Los repositorios públicos como el repositorio de la Universidad de California en Irvine (UCI) (Frank and Asunción, 2010) se han hecho popular como escenario base de repetidas pruebas, de donde los autores escogen una pequeña muestra de los problemas para llevar a cabo su experimentación. Aunque hacer accesibles estas colecciones ayuda a ser comparadas en trabajos posteriores, no son lo suficientemente grandes ni representativas. —en. número. y. diversidad—. para. conseguir. resultados. concluyentes. Los datos sintéticos pueden solucionar ambas cuestiones y permitir que se desarrollen problemas con características predefinidas con un costo menor. Ciertamente, a pesar de que se está acostumbrado a guardar gran 2.

(12) INTRODUCCIÓN cantidad de datos debido a la era de información actual, todavía hay muchos dominios de conocimientos donde el costo elevado o la dificultad de llevar a cabo los experimentos impide la recolección de datos (Jeske et al., 2005). Por otro lado, el uso de conjuntos de datos artificiales brinda el mejor conocimiento del comportamiento de los algoritmos de aprendizaje ya que se conoce la complejidad del problema en estudio. Otras cuestiones están a menudo presente en los problemas del mundo real que no pueden ser fácilmente identificados ni tomados por separado (por ejemplo la poca densidad de los datos, el ruido, los valores faltantes o la dimensión) aunque también se pueden introducir de forma controlada. Actualmente, el enfoque de usar conjuntos de datos sintéticos se ha venido siguiendo en campos como la optimización evolutiva, donde el diseño de los llamados problemas al límite de dificultad han sido provistos de un gran conocimiento en el verdadero comportamiento de las técnica de optimización (Goldberg, 2002). Sin embargo, este enfoque raras veces ha sido seguido en el aprendizaje supervisado debido a (1) la complejidad de definir cuán difícil es el problema de aprendizaje supervisado, (2) la incapacidad de encontrar problemas del mundo real con complejidades realmente diferentes —asumiendo que la complejidad puede ser evaluada—, y (3) la falta de investigaciones sobre la generación de problemas artificiales con una cierta complejidad. Por estas razones, el uso de conjuntos de datos sintéticos todavía está lejos de ser ampliamente extendido y cada trabajo que los usa es con conjuntos de datos muy específicos y sencillos, el cual no abarca todos los puntos suficientemente representativos. Por último, el término dominio de competencia se define como una descripción en términos de valores aceptables de las medidas de complejidad de los datos, dentro de los cuales el algoritmo tiene un comportamiento adecuado. Así, la situación problémica que se expone deviene en el planteamiento del problema. científico. siguiente:. Cómo. generar. conjuntos. de. datos. de. entrenamiento que me permita determinar el dominio de competencia de un algoritmo de clasificación.. 3.

(13) INTRODUCCIÓN En correspondencia con lo apuntado se define como objetivo general: Crear una herramienta computacional para la generación automática de conjuntos de entrenamiento que cubran el espacio de complejidad de los datos mediante el uso de algoritmos evolutivos multiobjetivos. Con el propósito de dar cumplimiento al mismo se derivan los siguientes objetivos específicos: 1. Analizar las metodologías actuales en la generación de datos de aprendizaje artificiales. 2. Seleccionar la forma apropiada para la generación de datos de aprendizaje que cubran el espacio de complejidad de los datos. 3. Seleccionar las herramientas apropiadas para la implementación De ahí que tengamos la siguiente pregunta de investigación: 1. ¿Cómo estudiar o determinar el dominio de competencia de un algoritmo de aprendizaje? En consecuencia con lo antes señalado la hipótesis se estructuró de la siguiente forma: La generación artificial de datos de aprendizaje que posean valores diversos de sus medidas de complejidad permitirá estudiar el dominio de competencia de un algoritmo de aprendizaje. La investigación está estructurada en tres capítulos de acuerdo con los objetivos específicos expuestos anteriormente. Capítulo I: Se desarrolla una descripción de los conceptos fundamentales. relacionados con las medidas de complejidad de los datos y la generación de conjuntos de datos artificiales. Capítulo II: Se describe el análisis del trabajo realizado con la optimización evolutiva multiobjetivo y su funcionamiento. Capítulo III: Se analizan las herramientas usadas en su implementación y se realizan experimentos con la herramienta desarrollada obteniendo una serie de 4.

(14) INTRODUCCIÓN conjuntos de datos que se usan en algunos algoritmos de aprendizaje para estudiar su dominio de competencia.. 5.

(15) CAPITULO I. 1 FUNDAMENTOS GENERALES DE LAS MEDIDAS DE COMPLEJIDAD DE LOS DATOS Y LA GENERACIÓN DE CONJUNTOS DE DATOS ARTIFICIALES En este capítulo se hace una introducción a la complejidad de los datos en el aprendizaje supervisado como componente esencial para el diseño de experimentos y para entender las limitaciones de los algoritmos de aprendizaje. Este cambio de los estimados teóricos a las medidas de complejidad práctica se debe a que estas se han convertido en algo más natural a la hora de hablar de aproximaciones y sus implicaciones, así como sus implementaciones y eficiencia computacional. También se hace una introducción a una biblioteca de código abierto que provee a los investigadores de una implementación común; un software a considerar en el análisis de los datos y en el análisis del comportamiento de los algoritmos aprendizaje. Además se hace un estudio de la complejidad de los problemas del mundo real y los problemas sintéticos. Se destacan algunos vacíos en el espacio de complejidad, los cuales han motivado últimamente a la generación de nuevos conjuntos de datos. Esto viene dado por la necesidad de tener diversidad en términos de características para cualquier experimentación especializada o analizar las respuestas de los algoritmos de aprendizaje con un alcance más amplio.. 1.1 Introducción a las medidas de complejidad de los datos y la generación de conjuntos de datos artificiales El aprendizaje de máquina, como disciplina madura, tiene grandes ventajas sobre la complejidad de los datos. Sin embargo, en una era donde abundan algoritmos de aprendizaje de alta competitividad, el interés de algunos investigadores se ha girado hacia técnicas particulares de aprendizaje de máquina para ser estudiadas. 6.

(16) CAPITULO I y lograr un mejor entendimiento de sus fortalezas y debilidades; y con este fin, han tenido que retroceder a las estimaciones de complejidad. Dado que el funcionamiento de estas técnicas dependen de la distribución de los datos y de la representación del conocimiento usado, algunos trabajos han prestado especial atención a los datos y cuantitativamente estiman diferentes fuentes de dificultad del problema para investigar su influencia en el funcionamiento (Basu and Ho, 2006). Es necesario la construcción de un espacio de complejidad para revelar el vínculo que existe entre los datos y los algoritmos de aprendizaje – ¿por qué y cómo los datos afectan el comportamiento de los algoritmos de aprendizaje?–. Pudiendo lograr una fuerte influencia en la metodología para la comparación de algoritmos de aprendizaje y proveer un nuevo procedimiento basado en un análisis previo de las características de los bancos de experimentación.. 1.2 Medidas de complejidad geométrica en el aprendizaje supervisado La complejidad de los problemas de clasificación (Basu and Ho, 2006) pueden estar atribuidas a tres fuentes de aplicación: (1) ambigüedad de clases, (2) límite de complejidad, y (3) poca diversidad de ejemplos y la dimensión del espacio de características. A continuación se discuten estas tres fuentes de complejidad de los datos teniendo en cuenta algunos detalles.. La ambigüedad de clases se refiere a la situación donde ejemplos de diferentes clases no se pueden distinguir. Esto podría deberse a una pobre capacidad de los atributos seleccionados para describir los conceptos que (1) no son bien definidos —esto es que los atributos del problema no son suficientes para describir los conceptos los cuales son intrínsecamente inseparables, ver Figura 1.1a—, o (2) son bien definidos, pero se requieren más atributos discriminativos —por ejemplo teniendo algunas instancias que pertenecen a dos clases, ver Figura 1.1b—. Este tipo de complejidad no puede ser resuelta a nivel de clasificadores, y puede ser necesario un preprocesado de los datos para determinar las clases o los 7.

(17) CAPITULO I conceptos. Los conjuntos de datos que contienen clases que son ambiguas para algunos casos se les dice que tienen un bajo error de Bayes lo cual pone un límite bajo en la factibilidad de la clasificación del error.. Figura 1.1 Clases ambiguas debido a (a) la definición de la clase y (b) la falta de atributos relevantes. Tomado de (Antolínez, 2011). El límite de complejidad está relacionado a la amplitud necesaria de la descripción para representar a las clases. La Figura 1.2 muestra algunos ejemplos de límites. Note, además, que el límite de complejidad está estrechamente relacionado con la representación del conocimiento usado por las técnicas de aprendizaje supervisado. Por consiguiente, el tipo de representación usado puede imponer un límite mínimo del error de clasificación. Por ejemplo, los clasificadores lineales no pueden clasificar fácilmente los límites curvos, y por esto, ellos acumulan grandes errores en los límites de clases; por el contrario los métodos basados en kernel pueden fácilmente reproducir límites curvos si el kernel tiene suficiente libertad para adecuar la forma del límite.. 8.

(18) CAPITULO I. Figura 1.2 Problemas de clasificación binaria con diferentes complejidades geométricas: (a) problema linealmente separable con amplio margen en el límite y clases compactas, (b) problema linealmente separable con estrecho margen en el límite y clases dispersas, (c) problema no lineal y (d) problemas con clases altamente interpoladas siguiendo un esquema de tablero de ajedrez. Tomado de (Antolínez, 2011). Por último la poca diversidad de ejemplos y la dimensión del espacio de características se han propuesto caracterizar complejidades generadas por regiones con escasos ejemplos en el espacio de características. La generalización de espacios vacíos en el conjunto de datos de entrenamiento es mayormente arbitrario y depende principalmente en cómo los clasificadores construyen el modelo de datos. La dificultad de tratar con escasos ejemplos en espacios de alta dimensión han sido referenciados en muchos trabajos y, algunos de estos acercamientos abiertamente evitan evolucionar el conocimiento en regiones vacías en el espacio de características. En medio de diferentes fuentes de los problemas de dificultad, la complejidad en el límite ha recibido especial atención dado que es el tipo de complejidad más probable a ser evaluada. En particular, (Ho and Basu, 2002) diseñaron un conjunto de doce medidas capaces de extraer diferentes indicadores que caracterizan la complejidad geométrica aparente del límite de las clases. Estas medidas, han sido revisadas y actualizadas desde sus definiciones iniciales y son explicadas en más detalles a continuación.. 1.2.1 Medidas de complejidad El conjunto de medidas de complejidad, pueden ser divididas en categorías: (1) medidas de superposición en los valores de las características de diferentes 9.

(19) CAPITULO I clases, (2) medidas de separabilidad de clases, y (3) medidas de geometría, topología, y densidad de las colecciones. A continuación, se realiza una rápida descripción de cada grupo y listamos los nombres de las medidas que son incluidas.. Medidas de superposición en los valores de las características de clases diferentes: se centra en la capacidad de las características para separar ejemplos de diferentes clases. Para cada atributo particular, ellos examinan el límite y extienden los valores de las instancias de diferentes clases, además chequea el poder discriminativos de un atributo simple o una combinación de estos. Esta categoría comprende las siguientes medidas: (1) la razón del discriminante máximo de Fisher (F1), (2) la superposición de límites por clases (F2), y (3) la máxima eficiencia de las características de un individuo (F3). Medidas de separabilidad de clases: estiman hasta qué punto las clases son separables examinando la distancia y la linealidad del límite de las clases. Esta categoría comprende las siguientes medidas (1) la suma minimizada de la distancia de error de un clasificador lineal (L1), (2) el error de entrenamiento de un clasificador lineal (L2), (3) la fracción de puntos en el límite de las clases (N1), (4) la razón de distancia promedio al vecino más cercano intra/inter clases (N2), y (5) la tasa de error de sacar un clasificador de un vecino cercano (N3).. Medidas de geometría, topología, y densidad de las colecciones: provee una caracterización indirecta de la separabilidad de las clases. Asumen que el problema es compuesto por varias colecciones que se extienden a lo largo de cada clase. La forma, posición, e interconexión de estas colecciones dan algunas sugerencias de que tan bien son separadas las clases y sobre la densidad o población de cada colección. Esta categoría comprende las siguientes medidas: (1) la no linealidad de los clasificadores lineales (L3), (2) la no linealidad del primer. 10.

(20) CAPITULO I clasificador más cercano (N4), (3) la fracción del máximo dominio de cobertura (T1), y (4) el número promedio de puntos por dimensión (T2). A continuación se describen todas las medidas y se proveen sus definiciones formales. 1.2.1.1 Medidas de superposición en los valores de las características de diferentes clases Comenzamos con la descripción de tres medidas que estiman diferentes complejidades relacionadas con el poder discriminativo de los atributos. Razón del discriminante máximo de Fisher (F1). Esta medida calcula el máximo poder discriminativo de cada atributo: (1.1) donde m es el número de atributos de entrada, y discriminante de Fisher de cada atributo.. es la razón del. es calculado de forma diferente. dependiendo si el conjunto de datos tiene dos clases o más de dos clases. Para conjuntos de datos de dos clases, la razón por cada atributo j se calcula como: ) ). donde, para atributos continuos,. ). ). ). ) y. ). ). ). (1.2). ) son los valores medios y la variación. de los atributos j para la clase k respectivamente. Para atributos nominales, cada valor es representado por un número entero. Entonces, atributo j para cada clase k y. es el valor medio del. ) es la variación del atributo j para la clase k. calculada como la variación de la distribución binomial:. (1.3). 11.

(21) CAPITULO I donde. es la frecuencia del valor medio. ,y. es el número total de instancias. de la clase k. Para conjuntos de datos de m clases (m > 2), la razón para cada atributo j es calculada como:. (1.4). donde C es el número máximo de clases y clase. es la proporción de instancias de la. .. F1 se extiende en el intervalo [0,. ]. Valores elevados de esta medida indican que. al menos uno de los atributos le permite al algoritmo de aprendizaje separar las instancias de diferentes clases con particiones que son paralelas a un eje del espacio de características. Valores bajos de esta medida no significan que las clases no sean linealmente separables, sino que éstas no pueden ser discriminadas por hiperplanos paralelos a uno de los ejes del espacio de características.. La superposición de límites por clases (F2). Esta medida calcula la superposición de la cola de distribución definida por las instancias de cada clase. La definición de esta medida para conjuntos de datos de dos clases es la siguiente. Por cada atributo, esta calcula la razón del ancho del intervalo de superposición (esto es el intervalo que tiene instancias de ambas clases) en el ancho del intervalo completo (ver Figura 1.3). Entonces, la medida retorna el producto de las razones calculadas para cada atributo, la que se define como:. (1.5). donde m es el número de atributos de entrada y,. 12.

(22) CAPITULO I. donde max (j, k) y min (j, k) son respectivamente los máximos y mínimos valores de los atributos j para la clase k. Los valores nominales son representados con valores enteros (para más detalles, ver subepígrafe 1.2.1.1) para calcular esta medida. Para conjuntos de datos de m clases (m>2), se calcula F2 por cada par de clases obteniendo el valor absoluto de todas ellas, y retornando la suma de todos estos valores. F2 se extiende en el intervalo [0,1]. Los valores bajos de esta medida significan que los atributos pueden distinguir las instancias de diferentes clases.. Figura 1.3 Ejemplo de superposición de intervalo para una dimensión.. La máxima eficiencia de las características de un individuo (F3).Esta medida calcula el poder discriminativo de las características de los individuos y retorna el valor de los atributos que pueden distinguir el número más grande de instancias de entrenamiento. Para este propósito, se emplea la siguiente heurística (una heurística de continuidad local). Por cada atributo, se considera la región de superposición (esto es la región donde existen instancias de ambas clases) y retorna la razón del 13.

(23) CAPITULO I número de instancias que no está en esta región de superposición con el número total de instancias (ver Figura 1.4).Entonces, la razón máxima de discriminación se toma como medida F3. Note que un problema es fácil si hay un atributo para el cual el intervalo de valores extendidos por cada clase no se superpone (en este caso sería un problema linealmente separable). F3 se alinea en el intervalo [0,1]. Valores elevados de esta medida indican que hay un atributo, que es evaluado para discriminar entre instancias de diferentes clases.. Figura 1.4 Ejemplo de desambiguación de un conjunto de datos: (a) conjunto original y (b) conjunto modificado. Tomado de (Antolínez, 2011). 1.2.1.2 Medidas de separabilidad de clases A continuación, se describen cinco medidas que examinan la forma del límite de las clases, para estimar la complejidad de separar instancias de diferentes clases. La suma minimizada de la distancia de error de un clasificador lineal (L1). Esta medida determina la separabilidad lineal. Para este propósito, retorna la suma de las diferencias entre la predicción de un clasificador lineal y el valor actual de la clase en prueba formulada como:. (1.6). 14.

(24) CAPITULO I donde ̂ es la clase predicha por el clasificador lineal para la instancia i,. es el. valor actual de la clase de la instancia i, n es el número de instancias en el conjunto de datos original, y. es el número de instancias del conjunto de prueba.. Diferente de (Ho and Basu, 2002), la implementación usa una máquina de soporte de vectores (SVM) con un kernel lineal, el cual es entrenado con el algoritmo SMO (Platt, 1999). Se usa este algoritmo de aprendizaje dado que el algoritmo SMO provee un eficiente método de entrenamiento, y el resultado es un clasificador lineal que separa las instancias de dos clases por medio de un hiperplano. Esta medida es solamente implementada para problemas de dos clases. L1 se extiende en el intervalo [0, ]. Un valor cero de L1 indica que el problema es linealmente separable. En este caso, se asumen que el problema es simple dado que este puede ser resuelto por un clasificador lineal. Sin embargo, que no sea linealmente separable no implica que el problema no pueda ser afrontado por este tipo de clasificador, el cual puede obtener una solución con un bajo error de clasificación. El error de entrenamiento de un clasificador lineal (L2). Esta medida provee información sobre hasta qué punto los datos de entrenamiento son linealmente separables. Esto construye un clasificador lineal como explicamos anteriormente y retorna su error de entrenamiento definido como el porcentaje de instancias clasificada incorrectamente. Como observamos esta medida es solamente implementada para conjuntos de datos de dos clases. L2 se extiende en el intervalo [0,1]. Valores bajos de esta medida indica que hay una amplia abertura en el límite de la clase. La fracción de puntos en el límite de las clases (N1). Esta medida, inspirada por la prueba propuesta por (Friedman and Rafsky, 1979) obtiene un estimado del tamaño del límite de la clase. Para este propósito, se construye un árbol de extensión mínima (MST) sobre todo el conjunto de datos por la primera conexión de todos los puntos usando distancia euclidiana. Esto retorna la razón del número de nodos del árbol de extensión que 15.

(25) CAPITULO I conecta diferentes clases con el número total de instancias en el conjunto de datos (ver Figura 1.5). Sí un nodo. es conectado a más de un nodo de una clase. diferente, se cuenta sólo una vez.. Figura 1.5 Ejemplo de un MST. Las líneas rojas conectan instancias que pertenecen a clases diferentes. La suma de estas conexiones es dividida por el número total de instancias y tomadas como medida N1. Tomado de (Antolínez, 2011). N1 se extiende en el intervalo [0,1]. Valores elevados de esta medida indican que la mayoría de los puntos son localizados cerca del límite de la clase, y puede ser más difícil para el algoritmo de aprendizaje modelar el límite de la esta con exactitud. La razón de distancia promedio del vecino más cercano intra/inter clases (N2).Esta medida compara la dispersión interna de la clase con la dispersión entre clases. Para cada instancia de entrada. se calcula la distancia al vecino más cercano. dentro de la clase (intraDist (xi)) y la distancia al vecino más cercano de cualquier otra clase (interDist (xi)). Entonces, el resultado es la razón de la suma de las distancias dentro de una clase a la suma de las distancias entre clases por cada instancia de entrada, esto es. (1.7). 16.

(26) CAPITULO I donde n es el número de instancias en el conjunto de datos. N2 se extiende en el intervalo [0,+∞]. Valores bajos en la medida sugiere que las instancias de la misma clase están cercanas en el espacio de características. Valores altos indican que las instancias de la misma clase están dispersas. La tasa de error de sacar un clasificador de un vecino cercano (N3). Esta medida denota cuán cerca están las instancias de diferentes clases. Esto retorna la tasa de error de sacar un clasificador de un vecino cercano (el clasificador k vecino más cercano (k-NN) con k=1). N3 se extiende en el intervalo [0,1]. Bajos valores de esta medida indican que existe una gran abertura en el límite de las clases. 1.2.1.3 Medidas de geometría, topología, y densidad de colecciones Habiendo visto un conjunto de medidas que estiman la forma del límite de las clases, se explica entonces cinco medidas que indirectamente caracterizan la separabilidad de clase asumiendo que una clase es hecha de simples y múltiples colecciones que forman el soporte de la distribución de las clases. La no linealidad de los clasificadores lineales (L3). Esta medida implementa una medida de no linealidad propuesta por (Hoekstra and Duin, 1996). Determinado el conjunto de datos de entrenamiento, el método crea un conjunto de prueba por interpolación lineal con un coeficiente aleatorio con pares de instancias aleatoriamente seleccionadas de la misma clase. Entonces, la medida retorna la razón de error de la prueba del clasificador lineal (el SVM con un kernel lineal) entrenado con el conjunto original. Esta medida es sensible a la suavidad del límite del clasificador y a la superposición del cubrimiento convexo de las clases (ver Figura 1.6). Esta medida es solamente implementada para conjunto de datos de dos clases.. 17.

(27) CAPITULO I. Figura 1.6 Ejemplo de una región de superposición obtenida por L3. Tomado de (Antolínez, 2011). L3 se extiende en el intervalo [0,1]. Valores elevados de esta medida expresan una gran interpolación entre clases. La no linealidad del primer clasificador más cercano (N4). Esta medida, propuesta por (Hoekstra and Duin, 1996), crea un conjunto de prueba como las propuestas por L3 y retorna el error de prueba del clasificador 1-NN después de usar el conjunto de datos original como entrenamiento. N4 se extiende en el intervalo [0,1]. Valores elevados de esta medida expresan una alta interpolación entre clases. La fracción del máximo dominio de cobertura (T1). Esta medida originada en el trabajo de (Lebourgeois and Emptoz, 1996), describe la forma de las colecciones de clases con la noción de un subconjunto adherido. Simplemente hablando, un subconjunto adherido es una esfera centrada en una instancia del conjunto de datos, la cual es aumentada lo más posible antes de que toque cualquier instancia de otra clase. Por lo tanto, un subconjunto adherido contiene un conjunto de instancias de la misma clase y no puede aumentar más sin incluir instancias de otra clase. Esta medida considera solamente los grandes subconjuntos adheridos o esferas, quitando todas aquellas que son incluidas en otras. Entonces, esta medida retorna el número de esferas normalizadas por el total de números de puntos (ver Figura 1.7).. 18.

(28) CAPITULO I. Figura 1.7 Ejemplo de subconjunto adherido requerido para describir el límite de clases entre 2 clases. Tomado de (Antolínez, 2011). T1 se extiende en el intervalo [0,1]. Bajos valores de esta medida significan que las instancias son agrupadas dentro de grupo compactos. El número promedio de puntos por dimensión (T2). Esta medida retorna la razón del número de instancias en el conjunto de datos y el número de atributos. Esto es un indicador aproximado del esparcimiento del conjunto de datos. T2 se extiende en el intervalo [0, n], donde n es el número de instancias. La Tabla 1.1 resume la información descriptiva de las medidas de complejidad detalladas anteriormente. Recoge para cada medida: su etiqueta, límite, y sí pueden ser aplicada para conjuntos de datos de m clases. Estas medidas de complejidad están lejos de ser exhaustivas, pero interesantemente, su uso ha cambiado la comprensión del comportamiento de los algoritmos de aprendizaje.. 19.

(29) CAPITULO I Etiqueta Medida de Complejidad. Intervalo. m - clases. F1. Razón del discriminante máximo de Fisher. [0,. X. F2. La superposición de límites por clases. [0,1]. X. F3. La máxima eficiencia de las características de un. [0,1]. X. ]. individuo L1. La suma minimizada de la distancia de error de un. [0, ]. clasificador lineal L2. El error de entrenamiento de un clasificador lineal. [0,1]. L3. La no linealidad de los clasificadores lineales. [0,1]. N1. La fracción de puntos en el límite de las clases. [0,1]. X. N2. La razón de distancia promedio del vecino más. [0,+∞]. X. [0,1]. X. cercano intra/inter clases N3. La tasa de error de sacar un clasificador de un vecino cercano. N4. La no linealidad del primer clasificador más cercano. [0,1]. X. T1. La fracción del máximo dominio de cobertura. [0,1]. X. T2. El número promedio de puntos por dimensión. [0, n]. X. Tabla 1.1 Resumen de las medidas de complejidad.. 1.3 DCoL: Data Complexity Library Para el cálculo de las medidas de complejidad se usó la biblioteca DCoL la cual es una implementación pública y común que ayuda a los investigadores a buscar nuevos usos para este conjunto de medidas y comparar sus logros. Provee la implementación de todas las medidas designadas a caracterizar la complejidad aparente de los conjuntos de datos para el aprendizaje supervisado, que fue. 20.

(30) CAPITULO I propuesto originalmente por (Ho and Basu, 2002). Esta biblioteca se encuentra disponible como código abierto. Las medidas de complejidad puede ser usadas para: (1) estudiar las fuentes de dificultad de los problemas que afectan particularmente a los algoritmos aprendizaje, (2) comparar diferentes algoritmos de aprendizaje en colecciones de problemas de dificultad al límite, y (3) guiar en las técnicas de pre-procesado de los datos. La complejidad de los datos puede ser un instrumento para ganar un mayor entendimiento del comportamiento de los algoritmos de aprendizaje en diferentes dominios y para identificar sus fortalezas y debilidades. Sin embargo, a pesar del valor agregado de las medidas de complejidad, existe todavía un factor que le sirve de obstáculo a los investigadores para su aplicación: la dificultad de implementar alguna de estas medidas de su definición original, más la descripción conceptual.. 1.4 Problemas del mundo real y conjuntos de datos artificiales La estructura de los datos y su complejidad influyen en el comportamiento de las técnicas de aprendizaje de máquina de diferentes formas. Parece interesante en primer lugar centrarnos en desenredar los beneficios y limitaciones de los problemas del mundo real, y luego en las técnicas para analizar su comportamiento de acuerdo al conjunto de estimaciones de complejidad. En las últimas dos décadas la competitividad de las técnicas de clasificación, típicamente desarrolladas para propósitos generales, han sido desarrolladas sobre un pequeño y repetitivo conjunto de problemas. Aunque un banco de pruebas común es útil y necesario para hacer buenas comparaciones entre algoritmos, esto nos puede conducir a conclusiones incompletas sobre la calidad de los algoritmos de aprendizaje si no tenemos control sobre sus características. El estudio de cómo los problemas del mundo real son distribuidos en dimensiones de complejidad de datos se dirige a proveer una solución, con el fin de que el comportamiento de los clasificadores pueda ser entendido en el contexto de las características del problema. 21.

(31) CAPITULO I 1.4.1 Revisión a los problemas del mundo real Cualquier conjunto de datos es una representación de algún problema y por esta razón no es arbitrario. Los datos son coleccionados para propósitos específicos; son compilados para resolver problemas específicos. No obstante, la comunidad científica confía en los problemas del mundo real (mayormente para la clasificación) para probar algoritmos y amortiguar lo concerniente a su aplicación en el campo, para relacionar la investigación teórica con el mundo real, es decir para las aplicaciones. La comunidad científica pierde muchos aspectos críticos de los problemas del mundo real, que encuentran su origen en las colecciones de datos. ¿Cuándo tiene el aprendizaje un adecuadamente amplio y representativo conjunto de ejemplos? A menudo se ignora el número de ejemplos que se necesitan, los que son típicos, los atributos que tenemos que medir, etc. La colección de datos es una fase crucial que puede estar acompañada de un análisis estadístico completo de la distribución real de los datos, y la identificación del ruido y la tolerancia de las medidas físicas realizadas. Además, aumentar o tomar muestras de datos puede transformar el conjunto de ejemplos en un problema muy diferente. Ciertamente, la escalabilidad, el desequilibrio, y la geometría acondicionan la complejidad de los datos y el éxito de los clasificadores. Estas cuestiones mencionadas anteriormente quedan rezagadas por el hecho de que los algoritmos de aprendizaje no son parte de esta etapa, ellos solamente manipulan matrices de números dados. Los problemas del mundo real encontrados en la industria son privados (coleccionados de observaciones y de estadísticas naturales derivadas de áreas tales como pruebas científicas y datos del cliente en una forma a gran escala), así que entonces sean usados los datos de repositorios públicos o liberados por la competencia (que a menudo son incompletos, obsoletos o poco realistas).. 22.

(32) CAPITULO I 1.4.2 Problemas del mundo real de repositorios UCI El repositorio UCI Machine Learning (Frank and Asunción, 2010) es la colección más conocida de problemas del mundo real en aprendizaje automático; ha sido citado en más de mil ocasiones, es el primero entre los mejores 100 y más citados artículos en toda la ciencia de la computación. Aquí se realiza un análisis cercano de algunos problemas del repositorio UCI. Primero se describe el conjunto de datos y entonces se provee el análisis de complejidad correspondiente. 1.4.2.1 Descripción El repositorio UCI es una colección de base de datos, teoría de dominios, y generadoras de datos, que es comúnmente utilizado para conducir análisis empíricos de algoritmos de aprendizaje de máquina. Fue creado como un protocolo de transferencia de archivos (FTP) archivados de 1987 por David Aha y los graduados asociados en la Universidad de California, Irvine y había sido, hasta ahora, ampliamente usado como una fuente primaria de conjuntos de datos de aprendizaje automático. No obstante, ¿qué tanto sabemos sobre estos conjuntos de datos? Dos años antes, se garantizaron 70 problemas de clasificación del repositorio UCI y estos se transformaron en conjunto de datos de dos clases. En nuestros días, la colección ha sido extendida a 134 problemas, así que este estudio está basado en la mitad de la muestra. Aunque se cree que la conclusión puede ser generalizada para toda la colección, dado que en términos de número de instancias y número de atributos la distribución es similar (ver Figura 1.8 y Figura 1.9), sería necesario extender el análisis.. 23.

(33) CAPITULO I. Figura 1.8 Distribución de (a) la colección entera del repositorio UCI y (b) ejemplos bajo estudio. Tomado de (Antolínez, 2011). Figura 1.9 Distribución de (a) la colección entera del repositorio UCI y (b) ejemplos bajo estudio. Tomado de (Antolínez, 2011). La Figura 1.10 representa la variación de los descriptores externos.. 24.

(34) CAPITULO I. Figura 1.10 Distribución de las características extrínsecas de los conjuntos de datos del repositorio UCI. Tomado de (Antolínez, 2011). Se observa un rango de características muy corto dentro de un intervalo en relación con algunos vecinos lejanos. Esto es típico de un repositorio compuesto por pequeño conjuntos de datos. Se corresponde con (Holte, 1993) quien desechó al repositorio UCI para que solo fuera una muestra limitada. En su experimentación, mostró que la mayoría de los conjuntos de datos fueron correctamente clasificados, alcanzando un 100% de exactitud, con reglas simples. Entonces, esta muestra, a pesar de ser compuesta por problemas del mundo real, no refleja las condiciones que se siguen en la práctica. En nuestros días, el repositorio UCI ha crecido, pero su diversidad es aún baja en términos de complejidad. 1.4.2.2 Complejidad intrínseca El Anexo I muestra la salida de DCoL sobre los problemas antes mencionados. La Figura 1.11 describe la distribución de las características intrínsecas. Basado en el hecho de que la mayoría de las medidas de complejidad se sitúan dentro del intervalo de [0,1], se observa que la diversidad es aún baja. En lo relativo a la dificultad, se confirma que los ejemplos vistos, en general, son realmente sencillos dado los valores de F2 y valores altos discretos de F4 (F2 µ = 1.68e − 01y F4µ = 0.51) indica que existen atributos discriminativos en el problema. Además lo valores bajos de N1, N2 y N3 (N1µ = 0.24, N2µ = 0.56, y N3µ = 0.16) que muestra 25.

(35) CAPITULO I la complejidad de su límite de clases son bajos. Si echamos una mirada a los valores máximos, excepto por L1 y N2, los vecinos más lejanos sólo alcanzan complejidades medianas con relación a la dificultad del límite, por ejemplo · L1max = 1.97, · L2max = 0.42, · N1max = 0.68, · N2max = 1, y · N3max = 0.68.. Figura 1.11 Distribución de las características intrínsecas de los conjuntos de datos del repositorio UCI. F1 se extiende en el intervalo [0, 73.14].. En la tabla que se muestra en el Anexo I, los números rojos destacan ambos, mínimos y máximos valores para cada medida de complejidad. Aunque estos bordes locales son distribuidos a través de toda la muestra, por lo que se puede ver claramente que algunos problemas mantienen más de un valor extremo para diferentes medidas de complejidad al mismo tiempo. Por otro lado, la Figura 1.12 muestra la correlación entre las medidas de complejidad; las estrellas rojas representan el nivel de significación. En estudios 26.

(36) CAPITULO I previos, (Ho et al., 2006) detectó algunas correlaciones que pueden ser analizadas con el fin de darse cuenta de conjuntos pequeños de descriptores. Las correlaciones involucran los siguientes pares: F2-L2, F2-L3, F2-N2, L2-N1, L2-N2, L3-N1, L3-N2, N1-N2, y N1-N3. A pesar de todo, estas correlaciones no son evidenciadas en esta muestra. Sólo se anuncia fuertes correlaciones (>0.70) entre N1 y N3 con un coeficiente de 0.93, F3 y F4 con 0.80, y L2 y N1 con 0.70. Esto puede ser interpretado como que la muestra no es lo suficientemente representativa para revelar estas relaciones.. Figura 1.12 Correlación de las medidas de complejidad. Tomado de (Antolínez, 2011). Ciertamente, en el orden de evaluar el comportamiento y funcionamiento de clasificadores (e incluso de las medidas de complejidad), el banco de prueba es diseñado para tener diferentes características en mente, tales como: diversidad en la dimensión (número de instancias y número de atributos), número de clases, desequilibrio de clases, etc. Esta diversidad puede ser encontrada en los problemas del mundo real, pero definitivamente no es lo suficientemente común en el repositorio UCI. Los conjuntos de datos del mundo real usualmente contienen ruido e inconsistencias, característica que son usadas para evaluar la robustez del sistema de aprendizaje.. 27.

(37) CAPITULO I Al respecto, el repositorio UCI ofrece algunos problemas con valores perdidos incluso si estos dan lugar a mejoras. Si el objetivo de probar las limitaciones del aprendizaje es evaluar la escalabilidad de los algoritmos, se requiere un conjunto de problemas adecuado. En tal caso, los datos sintéticos son una alternativa interesante dado que pueden ser ajustados en una base por dimensión. Otra estrategia es alterar los conjuntos de datos del mundo real expandiendo su descripción con atributos irrelevantes. En ambos casos sin embargo, algunos trabajos consideran que hay siempre algún tipo de desacuerdo introducido por el procedimiento de composición y propone una controlada familia de bancos de pruebas de datos del mundo real adecuado para probar la escalabilidad.. 1.4.3 Generación de un nuevo tipo de problemas En muchas investigaciones de aplicaciones persiguen la perfección de técnicas de clasificación desde que existen beneficios obvios para obtener la máxima exactitud, por ejemplo en la realización de diagnósticos médicos. Sin embargo, existen relativamente pocos estudios en la que es posible la clasificación perfecta para un problema específico. La mayor atención ha sido dedicada a un refinamiento de las técnicas. Los problemas que proveen una buena cobertura del espacio de complejidad de los datos son necesarios para realizar este tipo de estudio. Estas observaciones nos llevan a generar un nuevo tipo de problemas por la combinación de ambos, problemas del mundo real y problemas artificiales (problemas que llenan los huecos en el espacio de medición y permite la experimentación de las limitaciones del aprendizaje).. 28.

(38) CAPÍTULO II. 2 FORMA APROPIADA PARA LA GENERACIÓN DE DATOS DE APRENDIZAJE QUE CUBRAN EL ESPACIO DE COMPLEJIDAD DE LOS DATOS En este capítulo se realiza un acercamiento a la generación de conjuntos de datos artificiales. La búsqueda de problemas artificiales con complejidad limitada persigue una mejor cobertura del espacio de complejidad, que debe ofrecer un marco más completo para el estudio de (1) estimaciones de complejidad y (2) comportamientos. del. aprendizaje.. La. propuesta. utiliza. una. herramienta. computacional de búsqueda evolutiva guiada por las medidas de complejidad; un mecanismo alternativo para mejorar el repositorio más popular en el aprendizaje automático, el UCI Machine Learning.. 2.1 Introducción a la forma de generar conjuntos de datos sintéticos usando optimización evolutiva multiobjetivo Varios resultados empíricos han demostrado que algunas técnicas de aprendizaje son más adecuadas que otras para resolver ciertos tipos de problemas. Sin embargo, actualmente los problemas del mundo real y las populares series de datos sintéticos no cubren el espacio en toda su magnitud (como vimos en el Capítulo I), por lo que no nos permiten ya sea (1) identificar adecuadamente el ámbito de competencia de los algoritmos de aprendizaje o (2) probar a fondo el comportamiento del aprendizaje en el límite de su dominio de competencia. Por lo tanto, surge la necesidad de desarrollar un escenario de prueba más adecuado, un escenario controlado con datos específicos de complejidad conocida. Con esto en mente, el análisis de la complejidad de los datos se ha mostrado prometedor en la caracterización de la dificultad de problemas de clasificación a través de un conjunto de descriptores de complejidad que, utilizados en la generación de 29.

(39) CAPÍTULO II conjuntos de datos artificiales (ADS), podría proporcionar el marco necesario con los conocimientos suficientes para refinar y diseñar el aprendizaje, así como la metodología para la evaluación y comparación. El propósito de este capítulo es formular el espacio de medición de complejidad y presentar un nuevo enfoque para generar conjuntos de datos artificiales que llenen los vacíos de dicho espacio. A continuación, se revisan estudios anteriores como punto de partida para el análisis del universo del problema, y adicionalmente se propone su proyección en un espacio de medición complejo. Se consideran en primer lugar los elementos que intervienen en la caracterización de la complejidad del problema y se definen las propiedades del espacio de medición. Después de haber realizado una revisión bibliográfica extensa sobre el tema se decidió el uso de la selección de instancia sobre la base de una técnica de optimización evolutiva multiobjetivo para generar conjuntos de datos que cumplen con las características específicas establecidas por la complejidad de las medidas propuesto por (Ho and Basu, 2002). A través de un conjunto de experimentos, se muestran las ventajas y desventajas del método propuesto.. 2.2 Universo del problema y su proyección en un espacio de medición complejo. El estudio del universo del problema está cerca de ser una causa perdida debido a la infinidad del espacio y sus dimensiones. Por lo tanto, tenemos que unir este espacio con el fin de analizar la naturaleza de los datos y proporcionar un marco para probar el rendimiento del aprendizaje. Aquí se define un espacio de medición basado en la complejidad de los datos inspirado en trabajos anteriores.. 2.2.1 Trabajos realizados Algunos estudios han tratado de caracterizar la complejidad de los problemas mediante el uso de diferentes medidas de complejidad (Ho et al., 2006). Estas medidas dan una aparente complejidad de estimación (ya que la medida se 30.

(40) CAPÍTULO II calcula sobre una muestra del problema) teniendo en cuenta diferentes aspectos geométricos tales como el poder discriminativo de las características, la separabilidad de clases, entre otras. (Ho et al., 2006) proponen un espacio de medición construido sobre las dos componentes principales de las medidas en las que un conjunto de problemas, los problemas reales del repositorio UCI y los problemas generados sintéticamente, se proyectan siguiendo una distribución aleatoria. La Figura 2.1a representa el espacio de medición antes mencionado, donde se encuentra una línea continua que diferencia los problemas con una estructura de aprendizaje, por ejemplo, los problemas reales de los problemas aleatorios. Sin embargo, aparecen algunos puntos vacíos en esta caracterización, lo que estimula al refinamiento de tal espacio. La Figura 2.1b también muestra grandes discontinuidades. Este espacio fue construido con solo dos medidas de complejidad: la fracción de puntos en el límite de la clase (N1) y la razón de distancia promedio al vecino más cercano intra/inter clases (N2) (para más detalles sobre estas medidas de complejidad, véase el Capitulo I. El caso de estudio se refiere a un conjunto de pruebas mejoradas que contienen 264 problemas, que se obtuvieron a partir de 54 problemas del repositorio UCI. Los conjuntos de datos de varias clases se dividieron en problemas de clases binarias para discriminar cada clase contra las demás. A pesar de la amplia experimentación, el espacio de medición resultante presenta muchas zonas vacías, es decir, regiones que no están cubiertas por ningún conjunto de datos. Por ejemplo, en el banco de pruebas no existe un conjunto de datos cuyo valor (N1) es mayor que 0,75. Estos espacios se deben a (1) el banco de pruebas, que puede estar compuesto por problemas que no se propagan a través de todas las complejidades o (2) el hecho de que no hay problemas en el mundo real que tengan estas características. Ambas son explicaciones plausibles y, al mismo tiempo, ambas compatibles con la necesidad de establecer puntos de referencia comunes. En el primer caso, no se pueden explorar todos los repositorios en busca de problemas del mundo real que tengan las características que necesitamos. En el segundo caso, no podemos asumir que todos los 31.

(41) CAPÍTULO II problemas reunidos del mundo real constituyen una muestra representativa del espacio del problema real. Además, no sabemos si en el futuro cercano aparecerá un problema nuevo con una estructura conocida.. Figura 2.1 Proyección de (a) problema real y artificial sobre las dos principales componentes de la medición de complejidad y (b) problemas reales sobre dos mediciones de complejidad, N1 y N2. Tomado de (Antolínez, 2011). 2.2.2 Trabajo a realizar El objetivo es alcanzar un estado similar al propuesto por (Ho et al., 2006), pero sin centrarse en la diferenciación entre las estructuras de aprendizaje y las aleatorias. En su lugar, dirigimos los esfuerzos hacia la generación sintética de cualquier tipo de datos fijos para cubrir las regiones vacías del espacio de complejidad. Esto debería ayudarnos a obtener una visión más clara del universo del problema y responder a las siguientes preguntas: 1. ¿Las regiones vacías significa que este tipo de problema no se produce en la naturaleza? 2. ¿Es el conjunto de medidas propuesto suficientemente complejo como para captar la complejidad del problema?. 32.

(42) CAPÍTULO II 3. ¿Podemos reducir el tamaño del conjunto de medidas para caracterizar la complejidad del problema, manteniendo la misma precisión que la estimación de la dificultad? Con este objetivo, consideramos que cualquier espacio de medida deberá cumplirlas las siguientes propiedades:(1) Integridad, (2) Determinación, y (3) Representatividad. Integridad: El espacio de complejidad tiene que ser cubierto. Determinación: Las dimensiones utilizadas para construir el espacio debe proporcionar granularidad suficiente para revelar las diferencias entre los problemas e incluso agrupar los problemas en las áreas de un mismo conocimiento. Representatividad: Los problemas del mundo real, o cualquier otro tipo de problemas que se ubicará en el espacio. Con un espacio del problema completo, podemos prever tres usos diferentes del espacio de medición: (1) determinar si un problema contiene estructuras de aprendizaje o no (véase la Figura 2.2a), (2) identificarla tipología del problema a través de su complejidad (ver Figura 2.2b), y (3) recomendar el algoritmo de aprendizaje adecuado para resolver un problema específico (ver Figura 2.2c).. Figura 2.2 Diferentes espacios de medición: (a) línea continua de estructuras de aprendizaje, (b) taxonomía de problemas, y (c) sistema recomendado. Tomado de (Antolínez, 2011). 33.

(43) CAPÍTULO II Por otra parte, si se puede agruparlos problemas en función de su complejidad, se puede trabajar en la búsqueda delas transformaciones para modificar la complejidad del problema y su asignación en el ámbito de competencia del aprendizaje que se desee.. 2.3 Tipo y forma de generar conjuntos de datos Una de las grandes ventajas de estudiar la complejidad de los datos es que deberían ayudarnos a hacer el puente entre los problemas del mundo real y los problemas sintéticos. Aquí se fundamenta y analiza la generación de conjuntos de datos. Se presenta un panorama general de este nuevo tema, respondiendo a qué tipo de características deben tener los conjuntos de datos y la forma de suministrarlas.. 2.3.1 Tipo Conscientes de la necesidad de los conjuntos de datos artificiales, tenemos que definir qué tipo de conjuntos de datos deben ser generados. Para ello, nos centramos en la clasificación y tenemos en cuenta (1) los conocimientos fundamentales y (2) los factores de complejidad. Los conocimientos fundamentales presentes en los problemas del mundo real son significativos en el análisis de los datos, ya que contienen el concepto de aprendizaje. Así, se deberían obligar a los conjuntos de datos a parecerse a los problemas del mundo real y alcanzar estructuras reales. Esto significa que los datos no sólo deben seguir distribuciones uniformes o Gaussianas, sino que también puede incluir procesos físicos. Además, para problemas de clasificación, el etiquetado de clases podría realizarse con reglas de agrupación. Los factores de complejidad se relacionan con los aspectos antes mencionados que son proporcionados por las medidas de complejidad, tales como el poder discriminativo de los atributos, la separabilidad de clases, y la geometría. En primer lugar, hay que generar problemas bien definidos con un concepto fundamental conocido y cuya definición es completa y sin ambigüedades. Después definiendo las características que describen la complejidad de los datos, las 34.

(44) CAPÍTULO II restricciones tienen que ser introducidas variando su grado de dificultad. Esto implica asociar los factores de dificultad con el tipo de rendimiento que queremos evaluar, tales como la robustez, escalabilidad y capacidad predictiva. Por ejemplo, el ruido, los valores perdidos, o la ambigüedad, así como los atributos irrelevantes o redundantes, son las características adecuadas para poner a prueba la solidez del aprendizaje. La escalabilidad del aprendizaje puede ser probada mediante la variación del número de atributos y el número de casos. La determinación del número de clases del problema añade otra capa de dificultad, ya que algunos de los factores de complejidad deben ser interpretados de manera diferente. Al crear conjuntos de datos, existen dos consideraciones principales que se refieren a las siguientes fases internas: 1. Generación de instancias según una distribución determinada. 2. Perturbación de un conjunto de entrenamiento determinado hasta alcanzar restricciones de complejidad de los datos específicas. En efecto, para los problemas del mundo real ya se ha realizado el primer paso. En conjunto, esto lleva a establecer características (1) extrínsecas e (2) intrínsecas. Ambos se pueden dividir en dos subcategorías. La característica extrínseca deben definir las propiedades externas directamente medibles, tales como el número de casos, el número de atributos y tipo de atributos, y anomalías estructurales, tales como el ruido del etiquetado, los valores perdidos, y los desequilibrios de clases. Además, hay dos características adicionales sólo para problemas sintéticos para configurar la opción de atributos adicionales. En ellas se indica la importancia de los atributos y la distribución seguida, por ejemplo, gaussiana o uniforme. Las características intrínsecas deben distinguir entre las medidas de clases dependientes y no dependientes. Esto significa, que las medidas de clases dependientes, tales como las que estiman el valor del límite de las clases, necesitan calcular información teniendo en cuenta, por ejemplo, el número de clases o las distancias entre ellas. Las medidas de las clases no dependientes no basan el cálculo en las clases del problema, por ejemplo, (T1), que es la relación entre el número de casos y el número de atributos. 35.

(45) CAPÍTULO II La Tabla 2.1 muestra una propuesta de meta-parámetros, lo que corresponde a una descripción completa de un determinado problema. Los generadores de conjuntos de datos artificiales tienen para permitir la sintonización de todas estas características para probar la eficiencia del aprendizaje en casos particulares y comprender el comportamiento del aprendizaje al tratar con limitaciones específicas. Etiqueta Metaparámetros. Información adicional. Θ1. Número de instancias. También llamado ejemplos o puntos. Θ2. Número de atributos. También llamado características, variables, o dimensiones. Θ3. Ruido del etiquetado. Etiquetado erróneo. Θ4. Valores perdidos. Valores desconocidos. Θ5. Desequilibrio de clase. Presencia mayoritaria o minoritaria de clases. Θ6. Tipo de atributos. Nominal o continuo. Θ7. Relevancia de atributos. Θ8. Distribución de los datos. ΘM. Medida de complejidad. Medida que depende del etiquetado de clase Medida no depende del etiquetado de clase. Tabla 2.1 Taxonomía de metaparámetros agrupados dentro de dos categorías de aplicación: (1) características extrínsecas. y (2) características intrínsecas. . Tomado de (Antolínez, 2011). La Tabla 2.2 muestra un ejemplo de un marco de experimentación típico, donde la precisión de varios clasificadores se comparan con un conjunto de problemas extraídos del repositorio UCI.. Cada. problema. se. caracteriza. sólo por. características extrínsecas, el número de atributos y el número de casos. Estas dos dimensiones son frecuentemente mal interpretadas como indicadores de la complejidad del problema. A menudo se asume erróneamente que mientras más alta es la dimensión, mayor es la complejidad.. 36.