3 HERRAMIENTAS PARA LA IMPLEMENTACIÓN DEL GENERADOR DE DATOS
3.6 Discusión y trabajo adicional
Este enfoque EMO ha servido para confirmar que los problemas con una cierta complejidad que no se pueden encontrar en repositorios públicos pueden ser generados y pueden existir en la naturaleza. Este trabajo también ha servido para señalar cuatro aspectos que serían bueno abordar en futuros trabajos: (1) la práctica, (2) la escalabilidad para muchos objetivos y análisis de facetas, (3) las medidas de complejidad, y (4) el análisis del aprendizaje en ámbitos de competencia. En lo siguiente, se analiza cada uno de estos aspectos.
Práctica. En términos computacionales, la solución propuesta para la generación de ADS es aun costosa, ya que tenemos que añadir el costo de las medidas de la complejidad al cálculo del costo conocido de los algoritmos de EMO. En futuro trabajos, se podría revisar cuidadosamente el diseño de los operadores genéticos y determinar las ventajas de la aplicación de algunas limitaciones con respecto al equilibrio entre la convergencia y el tiempo.
Escalabilidad y análisis de facetas. La capacidad de búsqueda de algoritmos de objetivos múltiples de optimización disminuye con el aumento del número de objetivos, por lo general más de tres (Ishibuchi et al., 2008). Teniendo en cuenta que tenemos que administrar un conjunto de doce medidas de complejidad, el sistema de clasificación no dominada puede ser modificado para abordar muchas optimizaciones de objetivos como se propone en (Hughes, 2005). Sin embargo, a pesar de la mejora, el análisis de las facetas, es decir un análisis incremental de cada medida de complejidad y su interacción con el resto, es un camino prometedor para ir en la búsqueda de un espacio de complejidad completo. Esto también podría permitir una mejor comprensión de la complejidad de cada medida individual.
Medidas de complejidad. El conjunto de estimaciones de complejidad es una propuesta preliminar y su consolidación es sin duda la primera fuente de problemas de referencia de clasificación. Para este fin, el enfoque EMO puede ser útil para el estudio de la correlación de los descriptores de complejidad. Por otra parte, algunas de las medidas de complejidad utilizan distancia euclidiana e
74 ignoran la forma de los límites de decisión. Aunque parece razonable para medir la complejidad mediante el uso de las unidades gestionadas por el aprendizaje, tales como hiperrectángulos o hiperesferas, hay que tener en cuenta que los problemas del mundo real no siguen estas distribuciones perfectas, lo que subraya el papel decisivo de la representación del conocimiento en el diseño del aprendizaje y la vinculación a la complejidad de los datos.
Análisis de dominio del aprendizaje en la competencia. Una vez que son capaces de generar conjuntos de datos con determinados complejidad, tenemos que abordar otra ardua tarea: cómo usarlos para investigar las propiedades específicas de las técnicas. La idea consiste en seleccionar aprendizajes de referencia y ejecutarlos sobre una gran colección de conjuntos de datos, algunos de ellos escogido del conjunto de Pareto y algunos otros del resto de la búsqueda. El análisis de los resultados se centrará en la definición de los ámbitos de competencia de los alumnos, y ofrecer algunas reglas que explican los pormenores de la brecha entre las características de los datos y las propiedades del aprendizaje.
75
CONCLUSIONES
El aprendizaje de máquina inspirado por los mecanismos humanos puede ser una manera increíble de simular un escenario artificial para explorar nuestro sistema de conocimiento. Aun así, este antropológico acercamiento se ha ido perdiendo— al menos en las principales investigaciones— y ha detonado en diversas ramas como la optimización, la clasificación predictiva y la identificación de patrones.Para el desarrollo de este trabajo se realizó un amplio estudio de las metodologías actuales en la generación automática de conjuntos de datos artificiales basado en el cálculo de medidas de complejidad, obteniendo importantes acercamientos a este campo que nos permitió de manera práctica dirigir nuestro trabajo hacia la resolución del problema científico planteado y así lograr su solución que a fin de cuentas era nuestro objetivo fundamental.
Por otra parte, después de haber revisado la bibliografía correspondiente se seleccionó una forma apropiada para la generación de datos de aprendizaje que cubren el espacio de complejidad de los datos y fue el basado en el uso de algoritmos de optimización multiobjetivos, el cual nos permitió llevar a cabo un proceso de selección de instancias tomando como restricciones un conjunto de medidas de complejidad.
Se escogieron las herramientas apropiadas para la implementación de la herramienta, el programa Weka se tomó como base para la realización de nuestro trabajo ya que el nuevo generador se agregó como parte de su contenido, este se usa en el proceso de selección de instancias además de todo el tratamiento necesario del conjunto de datos original al cual se le aplicaron las perturbaciones. Para el trabajo con la optimización multiobjetivo se usó la biblioteca JCLEC la cual trae implementada dos algoritmos multiobjetivos ampliamente usados en diferentes investigaciones sobre el tema y además se usó la biblioteca DCol la cual trae la implementación de las doce medidas de complejidad que se usan como objetivos a alcanzar por el algoritmo.
76
REFERENCIAS BIBLIOGRÁFICAS
AHA, D. W., KIBLER, D. & ALBERT, M. K. 1991. Instance-based learning algorithms. Machine Learning. ANTOLÍNEZ, N. M. 2011. Data Complexity in Supervised Learning: A Far- Reaching Implication. Doctorado,
Universitat Ramon Llull.
BASU, M. & HO, T. K. 2006. Data complexity in pattern recognition.
BISHOP, C. M. 2006. Pattern recognition and machine learning. In: SPRINGER (ed.).
COELLO, C. A., B.LAMONT, G. & VELDHUIZEN, D. A. V. 2006. Evolutionary algorithms for solving multi- objective problems (Genetic and evolutionary vomputation). Springer-Verlag New York, Inc.
DEB, K. D., PRATAP, A., AGARWAL, S. & MEYARIVAN, T. 2002. A fast and elitist multiobjective genetic algorithm: NSGA-II. IEEE Transactions on Evolutionary Computation.
FRANK, A. & ASUNCIÓN, A. 2010. UCI machine learning repository.
FRIEDMAN, J. H. & RAFSKY, L. C. 1979. Multivariate generalizations of the wald-wolfowitz and smirnov two- sample tests. Annals of Statistics, 7, 697–717.
GOLDBERG, D. E. 2002. The design of innovation: Lessons from and for competent genetic algorithms., Kluwer Academic.
HO, T. K. Data complexity analysis for classifier combination. Proceedings of the 2nd International Workshop on Multiple Classifier Systems, 2001. 53–67.
HO, T. K. & BASU, M. 2002. Complexity measures of supervised classification problems. Transactions on Pattern Analysis and Machine Intelligence.
HO, T. K., BASU, M. & LAW, M. H. C. 2006. Measures of Geometrical Complexity in Classification Problems. Data complexity in pattern recognition. Springer.
HOAG, J. E. & W.THOMPSON, C. 2007. A parallel general-purpose synthetic data generator.
HOEKSTRA, A. & DUIN, R. P. W. On the nonlinearity of pattern classifiers. Poceeding of the13th International Conference on Pattern Recognition, 1996 Washington. DC. USA. IEEE Computer Society, 271–275. HOLTE, R. C. 1993. Very simple classification rules perform well on most commonly used datasets. Machine
Learning.
HUGHES, E. J. 2005. Evolutionary many-objective optimisation: many once or one many? IEEE Congress on Evolutionary Computation.
ISHIBUCHI, H., TSUKAMOTO, N. & NOJIMA, Y. 2008. Evolutionary many-objective optimization: A short review. IEEE Congress on Evolutionary Computation.
JESKE, D. R., SAMADI, B., LIN, P. J., YE, L., COX, S., XIAO, R., YOUNGLOVE, T., LY, M., HOLT, D. & RICH, R. 2005. Generation of synthetic data sets for evaluating the accuracy of knowledge discovery systems. 11th International Conference on Knowledge Discovery in Data Mining.
LEBOURGEOIS, F. & EMPTOZ, H. Pretopological approach for supervised learning. Proceedings of the 13th International Conference on Pattern Recognition, 1996 Washington DC. USA. IEEE Computer Society, 256–260.
MACIÀ, N., ORRIOLS-PUIG, A. & BERNADÓ-MANSILLA, E. Genetic-based synthetic data sets for the analysis of classifier behavior. Proceedings of the 8th International Conference on Hybrid Intelligent Systems, 2008. 507-512.
MACIÀ, N., ORRIOLS-PUIG, A. & BERNADÓ-MANSILLA, E. In search of targeted-complexity
problems. Proceedings of the 11th annual Conference on Genetic and Evolutionary Computation, 2010. 1055- 1062.
MELLI, G. 1999. The datgen dataset generator. 3.1 ed. MITCHELL, T. M. 1997. Machine learning. In: HILL, M. (ed.). MITCHELL, T. M. 2009. Mining our reality. In: SCIENCE (ed.).
ORRIOLS-PUIG, A., MACIÀ, N. & HO, T. K. 2010. Documentation for the data complexity library in C++. La Salle: Universitat Ramon Llull.
PLATT, J. C. 1999. Fast training of support vector machines using sequential minimal optimization Advances in kernel methods: Support vector learning.
QUINLAN, J. R. 1995. Programs for machine learning, San Mateo, California, Morgan Kaufmann Publishers. RACHKOVSKIJ, D. A. & KUSSUL, E. M. 1998. Datagen: A generator of datasets for evaluation of classification
algorithms.
WITTEN, I. H. & FRANK, E. 2005. Data mining: Practical machine learning tools and techniques. 2nd ed. San Francisco: Morgan Kaufmann.
77
ANEXOS
78
Anexo 2 Descripción de las características externas de la colección UCI
Los conjuntos de datos son ordenados alfabéticamente. #Cl es el número de clases, #Inst es el número de instancias y #Att es el número de atributos. #Real, #Int y #Nom indica el número de los valores reales, entero y nominales de los atributos. %missInst, %missAtt, y %missVal corresponde con el porcentaje de instancias, atributos y total con valores perdidos. Finalmente %Maj es el porcentaje de instancias de la mayoría de clases y %Min es el porcentaje de instancias de la minoría de clases. Tomado de (Antolínez, 2011)