• No se han encontrado resultados

Selección de variables para clasificación no supervisada utilizando un enfoque híbrido Filter-Wrapper

N/A
N/A
Protected

Academic year: 2020

Share "Selección de variables para clasificación no supervisada utilizando un enfoque híbrido Filter-Wrapper"

Copied!
117
0
0

Texto completo

(1)

SELECCIÓN DE VARIABLES PARA

CLASIFICACIÓN NO SUPERVISADA

UTILIZANDO UN ENFOQUE HÍBRIDO

FILTER-WRAPPER

Por:

SAÚL SOLORIO FERNÁNDEZ

Tesis sometida como requisito parcial para obtener el grado de

MAESTRO EN CIENCIAS EN EL ÁREA DE

CIENCIAS COMPUTACIONALES

EN EL

INSTITUTO NACIONAL DE ASTROFÍSICA ÓPTICA Y ELECTRÓNICA,

TONANATZINTLA, PUEBLA.

SUPERVISADA POR:

DR. JESÚS ARIEL CARRASCO OCHOA, INAOE DR. JOSÉ FRANCISCO MARTÍNEZ TRINIDAD, INAOE

©INAOE 2010 Derechos Reservados

El autor otorga al INAOE el permiso de reproducir y distribuir copias de esta tesis en su totalidad o en partes.

(2)
(3)

Selección de Variables para Clasificación no Supervisada

Utilizando un Enfoque Híbrido Filter-Wrapper

Tesis de Maestría

Por:

Saúl Solorio Fernández

ASESORES:

Dr. Jesús Ariel Carrasco Ochoa

Dr. José Francisco Martínez Trinidad

Instituto Nacional de Astrofísica Óptica y Electrónica

Coordinación de Ciencias Computacionales

(4)
(5)

i A través de los años, la selección de variables ha jugado un papel importante en áreas tales como: Reconocimiento de Patrones, Aprendizaje Automático y Minería de Datos, esto debido a que en muchos problemas del mundo real, habitualmente se procesan datos en forma de vectores multidimensionales (objetos de estudio) descritos o representados por un conjunto de variables. Sin embargo, en muchas situaciones no todas las variables suelen contribuir a la correcta clasificación o análisis de los datos; pudiendo tener efectos negativos su consideración. Este tipo de variables se conocen comúnmente como variables irrelevantes y/o redundantes.

En clasificación no supervisada, conocida también como clustering, los métodos de selección de variables han sido menos estudiados en comparación con los métodos de selección de variables para clasificación supervisada. Esto se debe principalmente a que no existe una medida estándar para evaluar la calidad de los agrupamientos, y por lo tanto para evaluar la relevancia de un subconjunto de variables sin recurrir a la clase a la que pertenecen los objetos de estudio; ya que en escenarios no supervisados, las clases no están disponibles durante los procesos de clasificación y/o selección.

Al igual que en clasificación supervisada, es aconsejable aplicar métodos de selección variables en el contexto de clasificación no supervisada, ya que las variables irrelevantes o redundantes pueden afectar drásticamente el resultado de los algoritmos de agrupamiento. También, debido a que al aplicar los métodos de selección de variables los requerimientos tanto de almacenamiento como de procesamiento se reducen; los métodos de selección de variables se han vuelto muy populares y necesarios en la actualidad.

Existen dos enfoques principales para la selección de variables en clasificación no supervisada: los métodos que se basan en un enfoque filter, y los métodos con un enfoque wrapper. Los primeros se caracterizan por ser rápidos y escalables, adecuados para trabajar con muchas variables; por su parte, los métodos con un enfoque wrapper a menudo se caracterizan por la buena calidad de los subconjuntos de variables seleccionados. Recientemente los métodos con un

(6)

ii compromiso entre la rapidez que caracteriza a los métodos con enfoque filter y la calidad de los métodos con un enfoque wrapper.

Por su parte, la mayoría de métodos híbridos existentes en la literatura realizan “muestreo aleatorio de objetos”, dado que no son capaces de procesar el conjunto total de datos debido su alto costo computacional. Esto provoca que se pierda información valiosa en las muestras no elegidas y que el resultado de los métodos de selección de variables cambie de manera impredecible y significativa. Además, la mayoría de los métodos híbridos que existen no consideran el sesgo que se produce cuando se evalúan subconjuntos de variables con diferente cardinalidad, lo que provoca en muchas ocasiones resultados triviales. Otro de los problemas presentes en estos métodos, es el criterio de evaluación de subconjuntos de variables utilizado, ya que algunos criterios presentan problemas cuando el número de variables es más grande que el número de objetos, o cuando dos o más variables son múltiplos una respecto de la otra.

En el presente trabajo de tesis se introducen dos nuevos métodos híbridos filter-wrapper de selección de variables para clasificación no supervisada, los cuales se destacan por tener un compromiso razonable entre calidad y rendimiento, y en los cuales se propone una solución a la problemática presentada por la mayoría de los métodos híbridos en la literatura. De acuerdo a los experimentos realizados, los métodos propuestos constituyen una solución adecuada al problema de la selección de variables en clasificación no supervisada, ya que se obtienen mejores resultados que con los métodos relevantes existentes.

(7)

iii Through the years, feature selection has played an important role in areas such as: Pattern Recognition, Machine Learning and Data Mining, this because in many real world problems, data are processed as multidimensional vectors (objects of study), which are described or represented by a feature set. However, in many situations not all features often contribute to the proper classification or data analysis; so it can have negative impact the consideration of these features. Such features are commonly called irrelevant and/or redundant features.

In unsupervised classification, also known as clustering, feature selection methods have been less studied in comparison with the feature selection methods for supervised classification. This is mainly because there is no standard measure for assessing the quality of the clusters, and therefore for assess the relevance of a feature subset without resorting to the class labels of the objects of study, since for unsupervised classification problems, labels are not available during the classification and/or selection process.

As in supervised classification, it is advisable to apply feature selection methods in the context of unsupervised classification, since irrelevant or redundant features can adversely and drastically affect the outcome of the clustering algorithms. Al so, because applying the feature selection methods, requirements both storage and processing are reduced; nowadays, feature selection methods have become very popular and necessary.

There are two main approaches for unsupervised feature selection: methods that are based on a filter approach, and the methods with a wrapper approach. The first methods are characterized by fast and scalable, suitable for working with many features; on the other hand, the methods with a wrapper approach are often characterized by the high quality of the feature subsets selected. Recently, hybrid feature selection methods with a filter-wrapper approach have been developed. These methods have been less studied than the others, and with them are intended to have a good compromise between speed that characterizes the

(8)

iv On the other hand, most hybrid methods in the literature perform “random sampling of objects”, since they are not able to process the entire dataset due to its high computational cost. However, for many real world problems where the data have a considerable amount of noise, this may not be a good option because all the information in the non chosen samples is ignored, and the quality of the feature selection methods may change unpredictably and significantly. Furthermore, most hybrid methods that exist in the literature do not consider the bias that occurs when features subsets with different cardinality are evaluated, which often leads to trivial results. Another problem present in these methods is the evaluation criterion of feature subsets used, since some criteria have problems when the number of features is larger than the number of objects, or when two or more features are multiples one respect to the other.

In this thesis introduces two new hybrid filter-wrapper feature selection methods for unsupervised classification, which stand out as having a reasonable compromise between quality and performance, and which proposes a solution to the problem presented by other hybrid feature selection methods. According to the experiments, the proposed methods are an appropriate solution for the feature problem in unsupervised classification, obtaining better results than previous relevant methods.

(9)

v

A todas las personas que me han brindado su apoyo incondicional en todo

momento, y a esos pequeños detalles que me impulsan a seguir adelante. A

todos ellos mi más sincero afecto y cariño.

(10)

vi Agradezco al Consejo Nacional de Ciencia y Tecnología (CONACyT) por el apoyo proporcionado con la beca número 224490 para la realización de este trabajo de tesis, y también al Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) por permitirme desarrollar en sus instalaciones este trabajo de investigación.

Agradezco de manera especial a dos excelentes personas que han sido un indiscutible apoyo durante la elaboración de esta investigación, a quienes admiro y respeto por su calidad humana y profesional: Dr. Jesús Ariel Carrasco Ochoa y Dr. José Francisco Martínez Trinidad, cuya asesoría ha sido indispensable en esta tesis de maestría.

Agradezco también a: Dr. Manuel Montes y Gómez, Dr. Eduardo Morales M. y al Dr. Leopoldo Altamirano Robles por su tiempo, observaciones y sugerencias realizadas durante el proceso de revisión de este trabajo.

(11)

vii

Capítulo 1: Introducción ... 13

1.1 Introducción ... 13

1.2 Problemática ... 15

1.3 Motivación ... 17

1.4 Objetivo general ... 19

1.5 Descripción del documento... 20

Capítulo 2: Marco teórico ... 22

2.1 Clasificación no supervisada... 22

2.1.1 Algoritmos de agrupamiento jerárquicos ... 23

2.1.2 Algoritmos de agrupamiento particionales ... 24

2.1.3 Medidas de distancia ... 26

2.1.4 Medidas de validación en clasificación no supervisada ... 27

2.2 Selección de variables para clasificación no supervisada ... 30

2.2.1 Características principales de los métodos filter ... 32

2.2.2 Características principales de los métodos wrapper ... 34

2.2.3 Características principales de los métodos híbridos ... 36

2.2.4 Validación de los métodos de selección de variables en clasificación no supervisada ... 37

Capítulo 3: Trabajo relacionado ... 40

3.1 Métodos de selección de variables para clasificación no supervisada ... 40

3.1.1 Métodos filter ... 40

3.1.2 Métodos wrapper ... 45

3.1.3 Métodos híbridos ... 48

3.2 Discusión ... 52

Capítulo 4: Métodos propuestos ... 56

4.1 Etapas fundamentales de los métodos propuestos ... 56

4.2 Método de selección de variables LS-CHNP-Ranking Simple ... 62

4.3 Método de selección de variables LS-CHNP-Backward Elimination... 64

4.4 Resumen ... 67

Capítulo 5: Experimentación y resultados ... 69

5.1 Descripción de los experimentos ... 69

5.2 Experimento I... 70

5.2.1 Comparación del índice CH normalizado y sin normalizar ... 74

(12)

viii

5.4 Experimento III ... 87

5.5 Análisis y discusión de los experimentos ... 93

Capítulo 6: Conclusiones y trabajo futuro ... 97

6.1 Sumario ... 97

6.2 Conclusiones ... 98

6.3 Aportaciones del trabajo de investigación ... 99

6.4 Trabajo futuro ... 100

BIBLIOGRAFÍA ... 102

Apéndice A. ... 108

(13)

ix

Figura 2.1. (a) Variable F1 irrelevante y F2 relevante. (b) Ambas variables redundantes.

... 31

Figura 2.2. Métodos de selección de variables en clasificación no supervisada. ... 32

Figura 2.3. Esquema general de la aplicación de los métodos filter de selección de variables en clasificación no supervisada. ... 33

Figura 2.4. Esquema general de los métodos wrapper para selección de variables en clasificación no supervisada. ... 34

Figura 3.1. Construcción del grafo del k-vecino más cercano. ... 43

Figura 3.2. Conjunto de datos con (a) alta entropía donde no se distinguen agrupamientos, y (b) baja entropía con agrupamientos bien definidos. ... 49

Figura 4.1. Esquema general de los métodos propuestos. ... 56

Figura 4.2. Esquema general del método de selección de variables LS-CHNP-RS. ... 62

Figura 4.3. Esquema general del método de selección de variables LS-CHNP-BE. ... 65

Figura 5.1. Bases de datos sintéticas S1 (a, b) , S2 (c, d) y S3 (e, f) representadas respectivamente por variables irrelevantes y relevantes ... 72

Figura 5.2. Bases de datos S4 (a, b) y S5 (c, d) generadas como en (Law et al., 2004). .. 73

Figura 5.3. Comparación del índice CH (a, c, e) y el índice propuesto CHNP (b, d, f) para la bases de datos S1 (Li et al., 2006), S3 (Dy & Brodley, 2004) y S4 (Law et al., 2004). ... 75

Figura 5.4. Comparación del índice CH (a, c), y el índice propuesto CHNP (b, d) para la bases de datos S6 e Iris. ... 76

Figura 5.5. Tiempo de ejecución de los métodos de selección de variables propuestos y los métodos EL-TR y EE-FFEI-TR para las bases de datos (a) Spambase y (b) Pendigits_training. ... 85

Figura 5.6. Tiempo de ejecución de los métodos de selección de variables propuestos y los métodos EL-TR y EE-FFEI-TR para las bases de datos (a) Waveform y (b) Optdigits_training. ... 86

Figura 5.7. Esquema de la estrategia de evaluación ten-fold cross validation para los métodos de selección de variables. ... 88

(14)

x EE-FFEI-TR con los clasificadores k-NN, Naive Bayes y C4.5. ... 92

(15)

xi

Tabla 3.1. Características generales de los métodos descritos en este capítulo. ... 52

Tabla 5.1. Bases de datos usadas en el experimento I. ... 71

Tabla 5.2. Resultados de la selección de los métodos híbridos RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 77

Tabla 5.3. Precisión obtenida por los métodos LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 78

Tabla 5.4. Recuerdo obtenido por los métodos LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 78

Tabla 5.5. Características de los conjuntos de datos utilizados (experimentos II y III). . 80

Tabla 5.6. Resultados de exactitud (ACC) obtenidos con: conjunto original de variables (Orig.), LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 81

Tabla 5.7. Resultados del índice de Jaccard obtenidos con: conjunto original de variables (Orig.), LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 81

Tabla 5.8. Resultados del promedio de los coeficientes de Silhouette obtenidos con: conjunto original de variables (Orig.), LS-CHNP-RS, LS-CHNP-BE, EL-TR, y EE-FFEI-TR. ... 82

Tabla 5.9. Resultados de retención correspondientes para los métodos: LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 82

Tabla 5.10. Tiempos totales de ejecución (en segundos) de los métodos LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 83

Tabla 5.11. Resultados de clasificación correspondientes de los métodos: LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR para el clasificador k-NN (k=3). ... 89

Tabla 5.12. Resultados de clasificación correspondientes de los métodos: LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR para el clasificador Naive Bayes. ... 90

Tabla 5.13. Resultados de clasificación correspondientes de los métodos: LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR para el clasificador C4.5. ... 90

Tabla 5.14. Tiempos totales de ejecución (en segundos) de los métodos: LS-CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 91

Tabla 5.15. Resultados de retención correspondientes de los métodos: CHNP-RS, LS-CHNP-BE, EL-TR y EE-FFEI-TR. ... 91

(16)

xii

A.1. Resultados del índice de Jaccard obtenidos con: conjunto original de variables (Orig), LS-CHNP-RS, LS-CHNP-BE, SS-SFS y SVD-Entropy. ... 109

A.2. Resultados del promedio de los coeficientes de Silhouette obtenidos con: conjunto original de variables (Orig), LS-CHNP-RS, LS-CHNP-BE, SS-SFS y SVD-Entropy.

... 109

A.3. Tiempos totales de ejecución (en segundos) de los métodos CHNP-RS, LS-CHNP-BE, SS-SFS y SVD-Entropy. ... 110

A.4. Número de variables seleccionadas por los métodos LS-CHNP-RS, LS-CHNP-BE, SS-SFS y SVD-Entropy. ... 110

A.5. Resultados de clasificación correspondientes de los métodos: CHNP-RS, LS-CHNP-BE, SS-SFS y SVD-Entropy para el clasificador Naive Bayes. ... 111

A.6. Resultados de clasificación correspondientes de los métodos: CHNP-RS, LS-CHNP-BE, SS-SFS y SVD-Entropy para el clasificador k-NN. ... 111

A.7. Resultados de clasificación correspondientes de los métodos: CHNP-RS, LS-CHNP-BE, SS-SFS y SVD-Entropy para el clasificador C4.5. ... 112

(17)

Capítulo 1

:

Introducción

Introducción

En este capítulo se describe el área de investigación en que se sitúa esta tesis. Se plantea el problema a resolver y se da un panorama general de la motivación que da pauta a la solución propuesta. Se formula el objetivo de la investigación, y finalmente se describe la organización de la tesis.

1.1 Introducción

En muchos problemas de Reconocimiento de Patrones, Minería de datos y Aprendizaje Automático, los objetos de estudio se describen mediante vectores multidimensionales representados por un conjunto de variables (atributos, rasgos, características). En estos problemas, habitualmente, un especialista humano define las variables que son potencialmente útiles para caracterizar o representar a un conjunto de datos. Sin embargo, en muchos dominios es muy probable que no todas las variables sean importantes; algunas de ellas pueden ser variables irrelevantes o redundantes que no contribuyen de manera sustancial en tareas de clasificación o de análisis de datos. En tal caso, la reducción de la dimensionalidad en los datos es crucial.

Existen dos formas de lograr la reducción de la dimensionalidad en un conjunto de datos:

Extracción de variables. Se refiere a los métodos que comúnmente transforman el significado subyacente de los datos y/o variables. Estos métodos reducen la dimensionalidad proyectando un vector de dimensión sobre otro espacio de dimensión (con < ). Dichos métodos son empleados en situaciones donde el significado del conjunto de datos

(18)

14 originales no se necesite en algún proceso futuro. Para un estudio detallado de estos métodos el lector puede referirse a (Fodor, 2002) y (Shlens, 2005).  Selección de variables. Se refiere a los métodos que seleccionan un

subconjunto de variables a partir del conjunto original, basándose en un criterio de evaluación particular para medir la relevancia de los subconjuntos de variables. A diferencia de los métodos de extracción de variables, los métodos de selección no transforman el conjunto original de los datos, y en muchas aplicaciones son particularmente deseables por la facilidad de interpretar sus resultados.

Los métodos de selección de variables (selectores) son muy populares en tareas de clasificación supervisada (Fukunaga, 1990), (Dash & Liu, 1997), donde dado un conjunto de datos de entrenamiento , que contiene objetos (instancias, casos, observaciones, prototipos) descritos por un conjunto de variables así como la clase a la que pertenecen; el objetivo es construir un modelo o regla general a partir de para la clasificación de nuevos objetos. En este contexto, los métodos de selección de variables minimizan o maximizan alguna función que toma en cuenta la clase a la que pertenecen los objetos, seleccionado así aquellas variables que permitan aumentar la calidad de clasificación.

Por otro lado, existen muchas bases de datos en las que no se conoce la clase a la que pertenecen los objetos de estudio, en las cuales los algoritmos de clasificación supervisada no pueden ser aplicados. En estos escenarios surge la necesidad de emplear algoritmos capaces de clasificar datos, sin la necesidad de conocer la clase a la que pertenece cada objeto de la muestra. De hecho se trata de encontrar los tipos o clases de objetos que existen en una muestra de datos. A esta área de investigación se le conoce como clasificación no supervisada, análisis de conglomerados, análisis cluster, o simplemente clustering.

Al igual que en clasificación supervisada, también se pueden aplicar métodos de selección de variables en escenarios no supervisados. Pero a diferencia de los selectores supervisados, el objetivo de los métodos de selección de variables para

(19)

15 clasificación no supervisada, es retener aquellas variables que descubran mejor los agrupamientos (clusters, conglomerados) en los datos. En este caso, las técnicas que se emplean en los selectores de variables supervisados tampoco pueden ser aplicadas.

Existen dos enfoques principales para abordar el problema de la selección de variables tanto en clasificación supervisada como en no supervisada, y son los siguientes:

Enfoque Wrapper. Los métodos con un enfoque wrapper (Kohavi & John, 1996) seleccionan variables con base en los resultados de un algoritmo de clasificación en particular. Estos métodos se caracterizan por encontrar subconjuntos de variables que contribuyen a mejorar la calidad de clasificación; aunque suelen ser costosos computacionalmente.  Enfoque Filter. Los métodos pertenecientes a este enfoque seleccionan

variables basándose únicamente en propiedades inherentes de los datos, sin la necesidad de hacer uso de algún algoritmo de clasificación. La característica principal de los métodos basados en este enfoque, es su rapidez y escalabilidad.

También es posible combinar ambos enfoques filter/wrapper obteniendo un enfoque híbrido. Este enfoque ha sido menos estudiado que los anteriores. En este enfoque se trata de aprovechar las cualidades tanto de los enfoques filter como

wrapper. En particular, en este trabajo de investigación se presentan dos nuevos métodos híbridos de selección de variables para clasificación no supervisada, en los cuales se presenta una solución a la problemática que se describe en la siguiente sección.

1.2 Problemática

El problema de la selección de variables es fundamental en tareas como: clasificación, minería de datos, procesamiento de imágenes, entre otras. Sin

(20)

16 embargo, este problema es uno de los más complicados y difíciles (Tou & Gonzalez, 1977), siendo aún en la actualidad un problema de investigación abierto.

De manera general, podemos decir que el problema de la selección de variables se reduce a encontrar aquellas variables que sean útiles para describir a un conjunto de datos en particular. En clasificación supervisada, como se mencionó anteriormente, dado que la clase a la que pertenece cada objeto de estudio se conoce, es natural seleccionar a las variables que están más estrechamente relacionadas con las clases; con la finalidad de que el subconjunto de variables seleccionado permita aumentar la calidad clasificación (Dash & Liu, 1997). Pero en clasificación no supervisada, como la clase a la que pertenecen los objetos no se conoce (de hecho lo que se pretende es encontrar las clases en que se agrupan los datos), resulta más difícil determinar aquellas variables que son útiles para construir dichas clases. Por lo que surge la pregunta:

¿Qué variables se deben seleccionar para construir los agrupamientos en problemas de clasificación no supervisada?

Cabe mencionar, que no es fácil responder a esta pregunta, dado que no existe una definición estándar para el problema de selección de variables en escenarios no supervisados. Sin embargo en (Dy & Brodley, 2004), se definió el problema de la selección de variables como sigue:

“La selección de variables en clasificación no supervisada, consiste en encontrar el subconjunto de variables más pequeño que permita descubrir agrupamientos interesantes y naturales de acuerdo a algún criterio elegido”.

En este contexto, se necesita definir qué es “interesante” y “natural”. “Interesante” de acuerdo con (Dy & Brodley, 2004), se refiere principalmente al criterio usado para medir qué tan bueno es un subconjunto de variables. “Natural”, se refiere a la forma de los agrupamientos que se quiere encontrar (agrupamientos gaussianos, hiperesféricos, etc), y normalmente recae en el algoritmo que se esté utilizando para agrupar los datos.

(21)

17 Otra definición más formal del problema de selección de variables en clasificación no supervisada es dada por (Søndberg-madsen et al., 2003) como sigue:

“Dado un conjunto de datos = { , , … , }, donde = ( , , … , )

representa el -ésimo objeto de , descrito por un vector n-dimensional de variables. Si representa el conjunto de variables que describen a . Entonces, puede suceder que exista un subconjunto de variables que permita

encontrar los mismos agrupamientos que se encuentran con . Cuando este es el caso, las variables en son consideradas relevantes, mientras que las variables

= \ son irrelevantes. Por lo tanto, la selección de variables en clasificación no supervisada consiste en identificar a un subconjunto de variables para la construcción de agrupamientos en los datos”.

1.3 Motivación

Existen muchos factores que motivan la selección de variables en clasificación no supervisada, entre ellos se pueden mencionar:

 Mejorar el rendimiento de los algoritmos de clasificación susceptibles a altas dimensiones (course of dimensionality).

 Reducción de los requerimientos de almacenamiento y procesamiento.  Remoción de ruido y variables irrelevantes.

Por otro lado, la mayoría de los métodos de selección de variables en clasificación no supervisada utilizan ya sea un enfoque wrapper o filter, siendo pocos los métodos que intentan fusionar ambos enfoques. Los métodos híbridos en clasificación no supervisada surgieron con la finalidad de aprovechar las bondades y ventajas que poseen los métodos con un enfoque filter en cuanto a su rapidez y escalabilidad. A si mismo, se pretende obtener la precisión de los métodos del enfoque wrapper en relación a la calidad de los subconjuntos de variables seleccionados.

(22)

18 Aunque los métodos híbridos intentan tener un buen compromiso entre calidad y rendimiento, cabe mencionar que los métodos híbridos que existen para selección de variables en clasificación no supervisada, presentan alguno o varios de los inconvenientes que se describen a continuación:

1. Son computacionalmente costosos y se vuelven imprácticos cuando el número de objetos es grande. Para escalar estos métodos, comúnmente se emplean técnicas de muestreo aleatorio de objetos, pero de esta forma, es muy probable que se pierda información valiosa contenida en las muestras no elegidas. Además, debido a la aleatoriedad, el resultado de estos selectores puede cambiar de manera impredecible y significativa (Pal & Mitra, 2004).

2. No toman en cuenta el sesgo que se produce cuando se evalúan subconjuntos de variables de diferente cardinalidad, dado que habitualmente los criterios empleados para la evaluación de los subconjuntos de variables crecen o decrecen monotónicamente respecto a la cardinalidad de los subconjuntos de variables (Dy & Brodley, 2004). Esto genera que los métodos seleccionen en la mayoría de los casos todas o sólo una variable del conjunto original, dando como resultado soluciones triviales. Por lo que, se necesitan técnicas de normalización para evaluar los diferentes subconjuntos de variables que serán considerados en el proceso de selección.

3. Algunos criterios utilizados para decidir el mejor subconjunto de variables tienen problemas cuando el número de variables excede al número de objetos en los datos (Small Sample Size Problem) (Niijima & Okuno, 2009), o cuando dos o más variables son idénticas o múltiplos una respecto de la otra (Duda, et al., 2000).

En este trabajo de investigación, se presentan dos nuevos métodos híbridos

filter-wrapper de selección de variables para clasificación no supervisada, con los cuales se trata de evitar los inconvenientes presentes en los métodos híbridos existentes en la literatura.

(23)

19

1.4 Objetivo general

El objetivo general del presente trabajo de investigación es:

Proponer métodos híbridos Filter-Wrapper de selección de variables para clasificación no supervisada, que tengan un mejor desempeño (en tiempo y calidad) que los métodos híbridos existentes en la literatura.

Los objetivos específicos de este trabajo de investigación son:

1. Determinar un método filter de selección de variables adecuado, para la creación de nuevos métodos híbridos filter-wrapper en el contexto no supervisado.

2. Determinar un método wrapper de selección de variables adecuado para crear nuevos métodos híbridos en clasificación no supervisada.

3. Proponer una estrategia de normalización para reducir el sesgo que se produce cuando se evalúan subconjuntos de variables con diferente cardinalidad, y así lograr una evaluación más justa de los subconjuntos de variables evaluados en la etapa wrapper.

4. Proponer una estrategia para combinar ambos enfoques (filter / wrapper), y crear nuevos métodos híbridos de selección de variables para clasificación no supervisada, que tengan una sinergia favorable entre la parte filter y la parte wrapper. Los métodos propuestos deben superar en calidad (usando diferentes medidas de validación) y tiempo a otros métodos del estado del arte.

Con base en los puntos expuestos en el objetivo general, la principal contribución de este trabajo es el desarrollo de nuevos métodos híbridos que proporcionen una solución al problema de la selección de variables en clasificación no supervisada, tratando de evitar los inconvenientes que presentan los métodos híbridos existentes en la literatura.

(24)

20

1.5 Descripción del documento

La manera en que se organiza el resto de este documento es la siguiente:

Capítulo 2. En este capítulo se describen algunos de los algoritmos más importantes en clasificación no supervisada, medidas de distancia y medidas de validación, así como una descripción más detallada de los enfoques comunes para abordar el problema de la selección de variables en clasificación no supervisada. También, se definen y explican las formas de validación más habituales utilizadas por los selectores de variables no supervisados.

Capítulo 3. Este capítulo muestra el trabajo relacionado con la presente investigación. El cual incluye la descripción de los métodos más relevantes de tipo filter, wrapper e híbridos para selección de variables en clasificación no supervisada. Al final del capítulo, se presenta un análisis sobre las bondades y deficiencias de estos métodos que motivan el presente trabajo de tesis.

Capítulo 4. En este capítulo se introducen los métodos de selección de variables para clasificación no supervisada propuestos. Se detallan las etapas que los constituyen, tales como: el tipo de ranking utilizado, la estrategia de búsqueda, el índice de evaluación de los subconjuntos de variables, la técnica de normalización empleada y el criterio de paro.

Capítulo 5. En este capítulo se muestran los resultados de los experimentos realizados con las diferentes bases de datos utilizadas. Así como una comparación contra otros métodos híbridos de selección de variables para clasificación no supervisada.

Capítulo 6. Finalmente, en este capítulo se exponen las conclusiones y algunas posibles direcciones a seguir como trabajo futuro.

(25)
(26)

22

Capítulo 2

: Marco teórico

Marco teórico

En este capítulo se describen algunos de los algoritmos más importantes en clasificación no supervisada, medidas de distancia y medidas de validación, así como una explicación más detallada de los enfoques filter, wrapper e híbridos de selección de variables en clasificación no supervisada. También, se definen y explican las formas de validación más habituales utilizadas por los selectores de variables no supervisados.

2.1 Clasificación no supervisada

Los algoritmos de clasificación no supervisada representan una de las técnicas más ampliamente usadas en análisis de datos, con aplicaciones en estadística, biología, ciencias sociales, psicología, etc. En prácticamente cada campo científico que trate con datos empíricos, los humanos a menudo intentan obtener una primera impresión sobre los datos tratando de identificar grupos de “comportamiento similar” en esos datos.

El término clasificación no supervisada, se refiere principalmente a la colección de algoritmos o métodos (estadísticos y no estadísticos) que permiten agrupar objetos de un conjunto de datos, sobre los cuales se miden diferentes variables o características. Así, objetos que presenten características muy similares deberán quedar agrupados en conjuntos que llamaremos agrupamientos. Estos agrupamientos serán sugeridos únicamente por la propia esencia de los datos. La bibliografía sobre clasificación no supervisada es muy abundante, algunos títulos recomendables son: (Jain & Dubes, 1988), (Jain et al., 1999), (Duda et al., 2000), (Hartigan), (Chaoqun & Wu, 2007), (Kaufman & Rousseeuw, 2005) y (Everitt et al., 2009).

(27)

23 Cabe mencionar que no existe una técnica, en clasificación no supervisada, que sea universalmente aplicable para descubrir la variedad de estructuras que pueden estar presentes en datos multidimensionales; y no todos los algoritmos de clasificación no supervisada pueden descubrir todos los agrupamientos presentes en los datos, dado que estos algoritmos a menudo hacen suposiciones implícitas acerca de la forma de los agrupamientos, basándose en medidas de similaridad y criterios de calidad. De forma general, podemos hablar de dos tipos de algoritmos de agrupamiento en clasificación no supervisada (Sierra, 2006), (Jain et al., 1999): Algoritmos de agrupamiento jerarquicos y algoritmos de agrupamiento particionales.

2.1.1 Algoritmos de agrupamiento jerárquicos

Estos algoritmos establecen una jerarquía entre los agrupamientos. Dicho de otra manera, estos algoritmos generan una sucesión de particiones donde cada partición se obtiene uniendo o dividiendo agrupamientos. Los agrupamientos formados por estos algoritmos pueden ser representados por una estructura de árbol llamada dendrograma. Dentro de los algoritmos jerárquicos se distinguen dos tipos:

 Algoritmos aglomerativos  Algoritmos divisivos

En los algoritmos aglomerativos la partición inicial considera a cada objeto como un agrupamiento. Después, iterativamente se van uniendo los agrupamientos más similares y se finaliza cuando todos los objetos forman un único agrupamiento. Ejemplos de estos algoritmos son: Single Linkage y Complete linkage (Kaufman & Rousseeuw, 2005).

En los algoritmos divisivos la partición inicial considera que todos los objetos forman un único agrupamiento. Después, se van dividiendo los agrupamientos (habitualmente en dos). El proceso puede seguir hasta que cada objeto conforme un único agrupamiento. Algunos ejemplos de este tipo de algoritmos pueden encontrarse en (Kaufman & Rousseeuw, 2005).

(28)

24 La principal ventaja de los algoritmos aglomerativos es su rapidez. Por su parte, los algoritmos divisivos tienen la ventaja de que parten del conjunto total de datos, y que además el proceso de división no tiene por qué seguir hasta que cada elemento forme un único agrupamiento. Sin embargo, estos algoritmos suelen ser muy lentos porque inicialmente trabajan con más objetos. Esto hace que los algoritmos jerárquicos más utilizados sean los aglomerativos. Una excelente revisión de los algoritmos de agrupamiento jerárquicos puede encontrarse en

(Gordon, 1987) y (Hastie et al., 2009).

2.1.2 Algoritmos de agrupamiento particionales

Los algoritmos particionales construyen un conjunto de agrupamientos que generan una partición mediante la minimización o maximización de algún criterio. La principal diferencia con los algoritmos descritos anteriormente es que no forman una jerarquía. Además la partición que se genera depende del algoritmo y del criterio de optimización utilizados. Otra gran diferencia, respecto a los algoritmos jerárquicos, es que en muchos de estos algoritmos el usuario debe fijar de antemano el número de agrupamientos , que tendrá la partición. En lo que resta de este trabajo, consideraremos que es un valor fijo y conocido por el usuario.

Dos ejemplos muy populares de los algoritmos particionales son: c-means

(Macqueen, 1967) y Expectation Maximization (EM) (Dempster et al., 1977), (Borman, 2004). C-means, más ampliamente conocido como k-means, donde (el cual es el mismo que ) es el número de agrupamientos, es un algoritmo que usa una métrica para definir la similaridad y crear vecindades alrededor de un punto llamado centroide; mientras que EM, usa una función de densidad de probabilidad para la estimación de un conjunto de parámetros a partir de los cuales se supone que fueron generados los datos.

Dado que el algoritmo de agrupamiento k-means es uno de los más eficientes, simples y populares en problemas de clasificación no supervisada, este algoritmo es el que será empleado en la etapa wrapper de los métodos propuestos en esta tesis.

(29)

25

Algoritmo k-means

La técnica empleada por el algoritmo k-means es simple. Primero se eligen centroides iniciales , , … , (habitualmente de manera aleatoria), donde es un parámetro especificado por el usuario y representa el número de agrupamientos deseados. Cada objeto de la muestra es asignado al centroide más cercano, y cada conjunto de objetos asignados a un centroide conforma un agrupamiento. Después, el centroide de cada agrupamiento es actualizado basándose en los objetos asignados. Este proceso de asignación y actualización se repite hasta que los objetos no cambien de agrupamientos, o se alcance un cierto número de iteraciones.

Este algoritmo intenta minimizar una función objetivo, en este caso la función del error cuadrático dada por:

= − (2.1)

donde − es una medida de distancia entre el objeto y el centro (centroide) del agrupamiento , y es el número de objetos en el -ésimo

agrupamiento.

El pseudocódigo del algoritmo de agrupamiento k-means se describe en el Algoritmo 2.1.

Algoritmo 2.1 Algoritmo k-means

1: Begin inicializar , , , , … ,

2: do Formar agrupamientos, asignando cada uno de los objetos a su centroide más cercano.

3: Recalcular los centroides de cada agrupamiento.

4: Until Los centroides no cambien o se alcance un cierto número de iteraciones.

5: return , , … , 6: end

(30)

26

2.1.3 Medidas de distancia

Supongamos objetos en un conjunto que llamaremos , y denotaremos = { , , … , } . Teniendo en cuenta que el objetivo principal es hallar agrupamientos que contengan objetos similares, es necesario medir las distancias que hay entre los objetos.

Definición 1. Una distancia o métrica sobre un conjunto es una función :

: × → ℝ

( , )↦ ( , ) =

tal que se cumplen las siguientes propiedades:

( , )≥ 0, ∀ , ∈

( , ) = 0, =

( , ) = ( , ), ∀ , ∈

( , )≤ ( , ) + ( , ), ∀ , , ∈

La primera de las propiedades dice que todas las distancias deben ser no negativas. La segunda propiedad dice que cada objeto sólo tendrá distancia cero consigo mismo. La tercera propiedad establece la simetría. Es decir, la distancia que hay de un objeto a otro objeto es la misma que del objeto al objeto . Finalmente la cuarta propiedad establece la desigualdad triangular. En general cuanto mayor sea la distancia ( , ), más diferente entre si serán los objetos y .

Como el número de objetos es finito, se pueden almacenar las distancias entre objetos en una matriz simétrica × , que llamaremos matriz de distancias sobre

. 11 1 1 m m mm d d D d d              

Dependiendo de la naturaleza de las variables que se hayan considerado para describir a los objetos (variables continuas, discretas o mezcladas), se pueden utilizar diferentes tipos de distancias. Existe una variedad de diferentes funciones

(31)

27 de distancia. Sólo las más habituales (para variables continuas) serán enunciadas a continuación.

Sean = ( , , … , ) e = ( , , … , ) dos objetos del conjunto de datos

. Algunas funciones de distancia para estos objetos son:

Distancia Euclidiana:

( , ) = [( − ) ( − )] ⁄

= ( − )

(2.2)

Distancia de Minkowsky ( ≥1):

( , ) = | − |

(2.3)

cuando = 2 ésta se reduce a la distancia Euclidiana. Cuando = 1, se obtiene la distancia conocida como distancia de Manhattan.

Distancia de Mahalanobis:

( , ) = [( − ) Σ ( − )] ⁄ (2.4)

donde Σ representa la inversa de la matriz de varianza-covarianza de los datos.

2.1.4 Medidas de validación en clasificación no supervisada

En las secciones anteriores se presentaron algunos algoritmos de agrupamiento y algunas medidas de distancia comúnmente empleadas en muchos de estos algoritmos. Para verificar si los resultados de los algoritmos de agrupamiento son validos, es necesario emplear medidas o criterios de validación. En esta sección se presentan algunas formas de validación de los algoritmos de agrupamiento comúnmente utilizadas en la literatura.

Para evaluar el rendimiento de los algoritmos de clasificación no supervisada se necesita medir la calidad de los agrupamientos formados por estos algoritmos. En la actualidad, en la literatura de clasificación no supervisada no existen medidas

(32)

28 estándar para evaluar los agrupamientos (Jain & Dubes, 1988), (Talavera, 2005). No obstante, se suelen emplear los siguientes índices:

Índices de validación externa. Miden el rendimiento comparando la estructura de los agrupamientos con información predefinida que no está disponible en el proceso de clasificación. Estos índices comúnmente usan las etiquetas de las clases a las que pertenecen los objetos para evaluar la validez de los agrupamientos. Ejemplos de índices de validación externa son: Accuracy (ACC) (He et al., 2006), índice de Jaccard (Jaccard, 1912), índice de Rand (Rand, 1971), Fowlkes-Mallows (FM) (Fowlkes & Mallows, 1983) y Normalized Mutual Information (NMI) (Strehl et al., 2002).

Índices de validación interna. Estos índices comparan las soluciones del algoritmo de agrupamiento basándose en el grado de ajuste entre los agrupamientos formados y los datos en sí. Estos índices no hacen uso de conocimiento externo. Algunos índices de este tipo son: Índice de Dunn (Bezdek & Pal, 1995), índice de Davies Bouldin (Davies & Bouldin, 2009), coeficiente de Silhouette (Kaufman & Rousseeuw, 2005), índice de Calinski-Harabasz (Calinski & Harabasz, 1974).

En esta tesis se emplean las medidas de validación externa ACC y el índice de Jaccard. También se utiliza como medida de validación interna el promedio de los coeficientes de Silhouette (Silhouette global), dado que son algunas de las medidas de validación comunmente utilizadas en clasificación no supervisada. A continuación se describen estas medidas de validación.

ACC (Accuracy). Dado un objeto , sean y la etiqueta de en los agrupamientos obtenidos y la etiqueta proporcionada por los datos, respectivamente. La exactitud (ACC) está definida como sigue:

(33)

29 donde es el número total de objetos, y ( , ) es la función delta que es igual a uno si = , e igual a cero en otro caso. ( ) es una función que mapea cada etiqueta de los agrupamientos, a la etiqueta equivalente de los datos. De acuerdo a (He et al., 2006), el mejor mapeo puede ser encontrado usando el algoritmo de Kuhn-Munkres1 (Lovasz & Plummer, 1986).

Índice de Jaccard. El índice de Jaccard2 (Jaccard, 1912) mide la similaridad entre los resultados del algoritmo de agrupamiento y la información previamente conocida de las clases, este índice está dado por la siguiente expresión:

=

+ + (2.6)

donde es el número de pares de objetos que están clasificados juntos tanto en la clasificación real como en la clasificación obtenida por el algoritmo evaluado; es el número de pares que están clasificados juntos en la clasificación real, pero no en la clasificación del algoritmo; es el número de pares que están clasificados juntos en la clasificación del algoritmo, pero no en la clasificación real. El índice de Jaccard refleja la intersección sobre la unión entre las asignaciones del algoritmo de agrupamiento y la clasificación esperada. Su rango de valores va desde 0 (no existe matching) a 1 (matching perfecto).

Coeficiente de Silhouette

Considérese un objeto perteneciente al agrupamiento , la disimilaridad promedio de a todos los demás objetos de es denotada por ( ). Y la disimilaridad promedio de a todos los objetos de con ≠ será denotada como ( , ). Después de calcular ( , ) para todos los agrupamientos, el

( , ) con menor valor es seleccionado y asignado a ( ), es decir ( ) =

min { ( , )}, ≠ .

El coeficiente de Silhouette para cada objeto está dado por:

1

En este trabajo se utilizó este algoritmo para encontrar el mapeo de los agrupamientos a las clases. Los códigos fuente fueron obtenidos de: http://www8.cs.umu.se/~niclas/

2

(34)

30

( ) = ( )− ( )

{ ( ), ( )} (2.7)

La expresión en la ecuación (2.7) puede ser reescrita como:

( ) =

1− ( )⁄ ( ), ( ) < ( ) 0, ( ) = ( ) ( )⁄ ( )−1, ( ) > ( )

con −1≤ ( )≤ 1. El promedio de ( ) sobre = 1,2, … , es usado como criterio para medir la calidad de los agrupamientos, es decir:

. ℎ = 1 ( ) (2.8)

Los valores de Silhouette (Silhouettes) se usan especialmente cuando las disimilaridades están en una escala proporcional (como es el caso de las distancias Euclidianas), y cuando se pretende buscar agrupamientos compactos y ampliamente separados (Kaufman & Rousseeuw, 2005).

Con todos estos criterios de validación para los algoritmos de agrupamiento, es importante tener en cuenta que no hay un criterio, un índice o método superior a cualquier otro para todos los problemas encontrados. En resumen, según lo observado por Jain y Dubes (1988), la validez de los agrupamientos es la parte más "difícil y frustrante en clasificación no supervisada".

2.2 Selección de variables para clasificación no supervisada

En años recientes, se ha visto un enorme esfuerzo por parte de los investigadores en el desarrollo de algoritmos para la selección de variables. Una de las motivaciones principales para la selección de variables, en clasificación no supervisada, es mejorar la calidad de los algoritmos de agrupamiento. Un conjunto de datos con alta dimensionalidad, incrementa las posibilidades de que los algoritmos de clasificación no supervisada encuentren agrupamientos que no son validos en general (Liu & Motoda, 2008), (Jensen & Shen, 2008).

(35)

31 Hay dos aspectos importantes que deben de ser considerados por los métodos de selección de variables.

 Relevancia  Redundancia

Una variable se dice que es relevante si es útil para descubrir los grupos o clases, de otra forma es irrelevante. Por otro lado; una variable es considerada redundante si está altamente correlacionada con otras variables (aunque baja correlación no significa ausencia de relación) (Jensen & Shen, 2008). Las variables irrelevantes pueden ser removidas sin afectar el rendimiento de los algoritmos de clasificación (Guyon, 2003). En la Figura 2.1 (a), se muestra un ejemplo de una variable irrelevante F1, la cual no contribuye a la discriminación de los agrupamientos, y una variable relevante F2; que si permite la separación de los agrupamientos. Por su parte, en la Figura 2.1 (b) se muestra un caso donde las variables F1 y F2 son redundantes una respecto de la otra, dado que ambas permiten separar los datos en los mismos agrupamientos.

(a) (b)

De manera general, los métodos de selección de variables para clasificación no supervisada pueden ser categorizados de acuerdo al enfoque utilizado como: filter,

wrapper o híbridos (Hruschka et al., 2005), (John et al., 1994). La Figura 2.2 Figura 2.1. (a) Variable F1 irrelevante y F2 relevante. (b) Ambas variables redundantes.

(36)

32 muestra un esquema general de los tipos de métodos de selección de variables en clasificación no supervisada.

Figura 2.2. Métodos de selección de variables en clasificación no supervisada.

En las siguientes secciones se describen las características principales de los métodos de selección de variables filter, wrapper e híbridos en clasificación no supervisada; y en el capítulo 3, se describen algunos de los métodos de selección de variables en clasificación no supervisada más destacados en los diferentes enfoques.

2.2.1 Características principales de los métodos filter

Los métodos filter típicamente seleccionan variables utilizando alguna propiedad intrínseca de los datos, como pueden ser: varianza de las variables, similaridad entre ellas, capacidad de preservación local, entropía, etc. Estos métodos no hacen uso de los algoritmos de agrupamiento para la evaluación de las variables. Los métodos filter remueven variables “no informativas” antes de aplicar cualquier algoritmo de agrupamiento. De acuerdo a (Zeng & Cheung, 2008), en general los métodos filter son más eficientes cuando se trata de datos con alta dimensionalidad. Sin embargo, cabe mencionar que en (Julia & Knowles, 2006)

(37)

33 afirman que las ventajas y desventajas de los métodos filter vs wrapper no están del todo claras para clasificación no supervisada.

Los métodos filter más comunes para selección de variables en escenarios no supervisados están basados en el “ranking” de las variables. En este contexto, dos estrategias han sido propuestas en la literatura:

1. Los métodos filter que se centran en remover las variables irrelevantes. 2. Los métodos filter en los cuales el objetivo es remover aquellas variables

que son redundantes.

Los primeros, conocidos también como “rankeadores”, consideran el ranking de variables como un método filter, dado que se podría pensar como un paso de pre-procesamiento independiente de cualquier algoritmo de clasificación no supervisada. Estos métodos emplean algún criterio para evaluar cada variable, ordenándolas en una lista desde la más relevante a la menos relevante. De este ordenamiento, varios subconjuntos de variables pueden ser elegidos, ya sea manualmente o estableciendo umbrales. Aun cuando el ranking de variables no es “óptimo”, puede ser preferible a otros métodos de selección de subconjuntos de variables, debido a su bajo costo computacional.

Figura 2.3. Esquema general de la aplicación de los métodos filter de selección de variables en clasificación no supervisada.

En lo que respecta al segundo enfoque, es decir aquellos basados en redundancia, suponen que las variables dependientes deberían ser descartadas, siendo las variables independientes entre sí, aquellas con la mayor relevancia.

En (Guyon, 2003), se argumenta que los métodos filter pueden ser usados como un paso de pre-procesamiento para reducir la dimensionalidad y el sobreajuste. La

(38)

34 Figura 2.3, muestra un esquema general de cómo son aplicados estos métodos en problemas de clasificación no supervisada.

2.2.2 Características principales de los métodos wrapper

A diferencia de los métodos filter, los métodos wrapper aplican algoritmos de clasificación no supervisada ya sea para evaluar o para guiar el proceso de búsqueda de los diferentes subconjuntos de variables. La idea básica de estos métodos es buscar subconjuntos de variables, aplicando algún algoritmo de agrupamiento y evaluando los resultados con un criterio específico. Una característica de los métodos wrapper es que evalúan las variables en subconjuntos más que individualmente, y están constituidos típicamente de los siguientes componentes:

 Una estrategia de búsqueda  Un algoritmo de agrupamiento  Un criterio de evaluación  Un criterio de paro

(39)

35 La Figura 2.4, muestra un esquema general de la estrategia que comúnmente siguen los métodos wrapper para la selección de variables en clasificación no supervisada.

A continuación se describirán brevemente cada uno de los componentes de los métodos wrapper.

Estrategia de búsqueda. Puesto que el número de variables que se deben seleccionar es desconocido, en esta etapa se necesita evaluar

1 + 2 +

3 +⋯+ subconjuntos de variables, para el caso de variables. Por lo

tanto la complejidad en tiempo es O(2 )n . Para evitar explorar todo el espacio de los subconjuntos de variables, se han propuesto algunas técnicas basadas en búsquedas heurísticas: entre las estrategias de búsqueda más utilizadas están las de tipo hill-climbing, conocidas como búsquedas secuenciales (fordward selection, backward elimination, bidireccionales, etc.) (Kohavi & John, 1996). En las búsquedas forward selection, inicialmente se comienza con un subconjunto de variables vacío, y se evalúa la calidad de cada variable agregada individualmente. La variable que mejore más la calidad de los agrupamientos, de acuerdo a una función de evaluación determinada, es agregada y el proceso se repite con las variables restantes mientras la calidad del conjunto mejore. Similarmente, la búsqueda de tipo backward elimination comienza con el conjunto total de variables y repetidamente se remueve una variable mientras la calidad del conjunto mejore. Estas heurísticas no pueden garantizar el subconjunto ‘óptimo’ de variables, dada la naturaleza de la búsqueda implicada, sin embargo de acuerdo a algunos autores, este tipo de búsquedas son menos propensas al sobreajuste de los datos (Liu & Motoda, 2008) y los resultados a menudo son muy aceptables. Otras alternativas son las búsquedas aleatorias, aunque este tipo de búsquedas tienden a ser muy costosas computacionalmente.

Algoritmo de clasificación no supervisada. En general, en este paso, para la implementación de un método wrapper se pueden considerar tanto los

(40)

36 algoritmos jerárquicos como los particionales. En esta tesis se utiliza el algoritmo de agrupamiento k-means.

Criterio de evaluación. Dado que las clases no están disponibles durante el proceso de selección de variables, una solución es optimizar alguna función objetivo, la cual ayude a obtener “buenos” agrupamientos, y usar esta función para estimar la calidad de los diferentes subconjuntos de variables. Existen varios criterios de evaluación para los métodos wrapper, casi todos basados en distancias, en los cuales se tiene en cuenta la cohesión intra-clase y la separabilidad inter-clase de los objetos.

Criterio de paro. Un criterio de paro determina cuando el algoritmo de selección debe parar, algunos criterios de paro frecuentemente usados son:

 Número de iteraciones

 Umbrales

 Criterios basados en calidad

Los criterios de paro empleados en los métodos propuestos en esta tesis son los basados en calidad y número máximo de iteraciones.

2.2.3 Características principales de los métodos híbridos

La combinación de los métodos filter y wrapper da como resultado los métodos híbridos, al hacerlo, se espera tener un compromiso razonable entre la eficiencia que caracteriza a los métodos filter, y la eficacia característica de los métodos

wrapper.

Una forma intuitiva de combinar los enfoques filter y wrapper, esperando obtener métodos híbridos que hereden las propiedades sobresalientes de ambos, fue presentada por (Liu & Yu, 2005), donde para tomar ventaja de los métodos tanto

filter como wrapper, sugieren manejar la selección de variables de la siguiente manera:

“Un algoritmo híbrido típico hace uso de medidas tanto dependientes como independientes de los algoritmos de clasificación no supervisada para evaluar los

(41)

37 subconjuntos de variables. Estos algoritmos, usan la medida independiente (parte

filter) para decidir el mejor subconjunto para cada cardinalidad, y usan el algoritmo de agrupamiento (parte wrapper) para seleccionar el mejor subconjunto final entre los mejores subconjuntos de las diferentes cardinalidades”.

2.2.4 Validación de los métodos de selección de variables en clasificación no supervisada

La evaluación o validación de los métodos de selección de variables en clasificación no supervisada puede realizarse de dos maneras (Liu & Motoda, 2008).

1. Antes y después de la selección. La finalidad es observar si la selección de variables logra el objetivo deseado.

2. Comparación de dos o más algoritmos de selección, y verificar si uno es mejor que los otros para cierta tarea.

Los aspectos de evaluación, recordando que la selección de variables no sólo se limita a mejorar la calidad de los agrupamientos pueden incluir:

 Número de variables seleccionadas  Tiempo

 Escalabilidad

 Rendimiento del modelo o del algoritmo de clasificación no supervisada. Frecuentemente para la evaluación de los métodos de selección de variables para clasificación no supervisada, si se conocen las variables relevantes de antemano, como en el caso de los datos sintéticos, se puede comparar este conjunto conocido de variables con las variables seleccionadas. Por otro lado, cuando no se tiene conocimiento a priori de las variables relevantes, pero se conocen las etiquetas de las clases de los datos, se pueden emplear las medidas de validación externa descritas en la sección 2.1.4.

Otra forma de validación, que a menudo es usada para evaluar los métodos de selección de variables en clasificación no supervisada, es midiendo el rendimiento

(42)

38 de algún algoritmo de clasificación supervisada (ACC o Error rate) con las variables seleccionadas por el selector no supervisado. Habitualmente se emplean clasificadores como k-NN (Cover & Hart, 1967), Naive Bayes (John & Langley, 1995), máquinas de soporte vectorial (Vapnik, 1995), o clasificadores basados en árboles de decisión como C4.5 (Quinlan, 1993).

(43)
(44)

40

Capítulo 3

: Trabajo relacionado

Trabajo relacionado

En este capítulo se presenta una revisión de los trabajos más importantes que abordan el problema de la selección de variables en clasificación no supervisada. Primero se hace una revisión de los métodos filter y wrapper, y al final se revisan los métodos híbridos.

3.1 Métodos de selección de variables para clasificación no supervisada

En la sección 2.2 del capítulo anterior se mencionaron las principales características de los métodos filter, wrapper e híbridos de selección de variables en clasificación no supervisada. En este capítulo se describen brevemente algunos de los métodos más importantes en los diferentes enfoques. La revisión de los trabajos escritos en este capítulo incluye los métodos más relevantes en la literatura al respecto, de acuerdo a los resultados reportados por sus autores.

3.1.1 Métodos filter

En esta sección se describen los métodos filter de selección de variables en clasificación no supervisada más recientes y destacados.

En (Dash et al., 2002), se introdujo un método filter que selecciona variables basándose en una medida de “entropía de distancias”. En este trabajo se observó que cuando los datos están agrupados la entropía es baja; por el contrario, cuando los datos están uniformemente distribuidos la entropía es alta. El método propone utilizar esta medida de entropía para distinguir entre datos con agrupamientos bien definidos y datos sin agrupamientos. La medida de “entropía de distancias” es definida como:

(45)

41

=− log + 1− log 1− (3.1)

donde es la distancia Euclidiana Normalizada entre dos objetos y . En este método para la selección de un subconjunto de variables, se emplea una búsqueda de tipo forward selection para evaluar los diferentes subconjuntos con la medida de entropía descrita en la ecuación (3.1), y se elige aquel subconjunto de variables con la entropía más baja.

Otro trabajo reciente por Dash, es presentado en (Dash & Gopalkrishnan, 2009), el cual es aplicado en selección de variables para micro-arreglos de genes. En este trabajo se sugirió un método llamado ClosetFS, el cual usa una medida de distancia basada en la frecuencia de “tuplas individuales”. La idea del método es minimizar

( , ), donde es una función de distancia definida como:

, = ( ; − ( ; )) (3.2)

donde representa el conjunto inicial de datos con objetos y variables; denota un subconjunto candidato de variables con cardinalidad , es el conjunto de datos con las variables seleccionadas. ( ; ) y ( ; ) denotan la frecuencia del elemento en y respectivamente, denota el i-ésimo objeto representado por la j-ésima tupla , con = 1,2,3; es decir en este método cada objeto de la muestra es representado por una n-tupla en la cual se pueden tomar valores discretos de 1,2 y 3, dependiendo de las medias y desviaciones estándar de cada una de las variables de muestra (para detalles véase trabajo). Este método emplea una estrategia de búsqueda hacia atrás (backward elimination) donde se van removiendo las variables y se elige aquel subconjunto con un valor mínimo para la función de distancia de la ecuación (3.2).

Por otro lado, en (He et al., 2006), se propone un nuevo método de selección de variables basado en el Laplacian Score. Este método evalúa las variables tomando en cuenta el concepto de “influencia local”. Este concepto se basa en la premisa de que si dos puntos están lo suficientemente cerca uno del otro, entonces

(46)

42 probablemente pertenecen al mismo agrupamiento. Dado que en el presente trabajo de tesis este método es utilizado como medida de relevancia para la evaluación de cada variable en la etapa filter, a continuación se describe con detalle.

Sea = { , , … , } un conjunto con objetos descritos por variables, y sea = ( , , … , ) con = 1,2, … , el vector que denota la r-ésima variable y sus valores para objetos. El algoritmo para calcular el Laplacian Score de la r-ésima variable es el siguiente:

1. Se construye un grafo del k-vecino más cercano con nodos. El i-ésimo

nodo corresponde a .Se pone un arco entre los nodos y si y están “cercanos”, es decir, si es uno de los k vecinos más cercanos de , o es uno de los k vecinos más cercanos de .

2. Si los nodos y están conectados, el peso de la arista se calcula como

= , donde es una constante definida por el usuario (habitualmente = 1). Si los nodos y no están conectados el peso es

= 0. La matriz pesada del grafo , contiene la similaridad entre cada par de nodos y modela la estructura local del espacio de datos, es decir sólo los objetos que están cercanos entre sí están conectados (véase Figura 3.1).

3. Finalmente, para la r-ésima variable el Laplacian Score se define como:

=∑ −

( ) (3.3)

donde ( ) representa la varianza de la variable en consideración. Con el

Laplacian Score, se buscan variables que respeten la estructura local de los datos minimizando la ecuación (3.3), de esta manera las variables son ordenadas de forma descendente en una lista de acuerdo a su relevancia, comenzando con la variable con el score más pequeño. De esa lista ordenada, las primeras k variables son seleccionadas posteriormente.

Referencias

Documento similar

Este mismo régimen de deberes tiene sentido cuando la actuación de reforma o renovación significa un cambio radical de la morfología urbana, normalmente acompa- ñado por un cambio

Se aplicaron diferentes análisis como la derivación antropométrica del somatotipo a través de la determinación de sus componentes endomorfia, mesomorfia y ectomorfia, basado en

Este curso se ha diseñado especialmente para guiar a los tutores clínicos de Medicina Intensiva en proporcionar un feedback, estructurado y.. efectivo, a los residentes durante

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

Este parámetro controla la cantidad de muestras de entrenamiento utilizadas para emitir una decisión para cada nueva muestra sin etiqueta.. En el caso más simple, 1-NN, sólamente

As for the semi-supervised experiments with the data labelled by the k-NN algorithm, analysis of the obtained results (see Figure 4.6) shows that the use of unlabelled data in