Materiales y Métodos - Soluciones aproximadas para algoritmos escalables de minoración de datos

6. Experimentos

6.2. Materiales y Métodos

Para detallar el proceso de análisis tanto de los vecinos más cercanos como de losmotifsencontrados utilizando las técnicas propuestas, son evaluados los resultados de los estudios experimentales realizados con 10 conjuntos de datos sintéticos y reales. La siguiente lista describe los conjuntos de datos utilizados.

1. SYNT16 Este conjunto de datos sintéticos de 10,000 vectores de dimensión 16, distribuidos uniformemente en grupos de 10 en un hipercubo 16-d.

2. SYNT32Semejante a los SYNT16, pero contienen 100. 000 vectores de dimensión 32.

3. SYNT64Semejante a los SYNT32, pero contienen 10. 000 vectores de dimensión 64.

4. SYNT256Semejante a los SYNT64, pero contienen 10. 000 vectores de dimensión 256.

5. COLOR Este conjunto de datos real contiene 68.000 vectores de dimensión 32. Cada vector describe el histograma de color de una imagen en un conjunto de datos de la colección de Corel1.

6. MNISTEste conjunto de datos reales contiene 60,000 vectores de dimensión 50. El conjunto de datos MNIST2se compone de dígitos manuscritos y es un subconjunto de un conjunto mayor de datos disponibles en el NIST (National Institute of Standards and Technology). La dimensionalidad es reducida, poseyendo las 50 dimensiones con las mayores variaciones.

7. AUDIO Este conjunto de datos real contiene 54.387 vectores de dimensión 192. El conjunto de datos de audio proviene de la colección LDC SWITCHBOARD-13. Esta colección de series temporales tiene cerca de 2400 conversaciones telefónicas entre dos lados de 543 oradores de todas las áreas de los Estados Unidos.

8. EOGEl conjunto de datos EOG contiene 100.000 vectores de dimensión 256. EOG4 consta de los valores temporales de los movimientos oculares con una frecuencia de muestreo de 250.

9. RWALKEste conjunto de datos se compone de series aleatorias de 100.000 elementos de longitud 32. Las series de temporales fueron reproducidas siguiendo las instrucciones en el sitio MK-motif

5_{, utilizando la misma inicialización aleatoria.}

10. AGRODATAEste conjunto de datos se proporciona mediante la colaboración de investigadores del Centro de Pesquisas Metereologicas e Climaticas Aplicadas à Agricultura (Cepagri -

1_{http://kdd.ics.uci.edu/databases/CorelFeatures/} 2 http://yann.lecun.com/exdb/MNIST/ 3_{http://www.ldc.upenn.edu/Catalog/docs/switchboard/} 4_{http://www.cs.ucr.edu/~mueen/OnlineMotif/index.html} 5 http://www.cs.ucr.edu/~mueen/MK/

Unicamp), y la Embrapa Informática Agropecuária de Campinas, en el contexto del proyecto AgroDataMine6. Estas series temporales climáticas fueron proporcionados originalmente por Agritempo7. Este conjunto de datos contiene 100,000 vectores de dimensión 24 correspondientes a las mediciones diarias de temperatura media realizadas cada día recogidas por 24 estaciones meteorológicas localizadas en el estado de Sao Paulo, Brasil, en período 1961-1990.

Los principales aspectos relacionados a los conjuntos de datos fueron:

Los conjuntos de datos fueron seleccionados ya que se utilizan en la literatura para probar métodos de indexación y el descubrimiento de motifs. Por ejemplo, se adoptó un procedimiento predeterminado para generar conjuntos de datos sintéticos (1-4), como se describe en (Ciaccia et al., 1997,iaccia et al., 1997). Estos conjuntos se utilizaron debido a su simplicidad para crear escenarios complejos. Los conjuntos de datos reales COLOR, AUDIO y MNIST ya se utilizaron para probar los métodos LSH en (Datar et al., 2004,atar et al., 2004;Lv et al., 2007,v et al., 2007; Tao et al., 2010,ao et al., 2010);

Dado que gran parte de los métodos para la identificación de losmotifs, concretamente las basadas en representaciones SAX, exploran la naturaleza temporal de las series temporales apenas los conjuntos de datos AUDIO, EOG, RWALK y AGRODATA fueron considerados para evaluar el rendimiento de los algoritmos para la búsqueda demotifs;

El conjunto de datos AGRODATA incluye datos reales cuyo análisis es de interés para los investigadores involucrados en el proyecto “AgroDataMine: Desenvolvimento de Métodos e Técnicas de Mineração de Dados para Apoiar Pesquisas em Mudanças Climáticas com Ênfase em Agrometeorologia”8, en marcha en el GBDI (Grupo Bases de datos y gráficos);

En los experimentos de este estudio, los conjuntos de prueba como objetos de consulta, se crean para cada uno de los conjuntos de datos, utilizando 500 objetos seleccionados al azar de la base de datos original. La mitad de ellos (250) fueron retirados de la serie de datos antes de crear los índices. Esta configuración permitirá evaluar los algoritmos con centros de consulta tanto dentro como fuera de este índice.

La configuración del equipo utilizado para los experimentos fue: una CPU de 2,67 GHz Intel Core i7 con 6 GB de RAM memoria con una GPU GeForce GTX 470 con 1 GB de VRAM. El Sistema Operativo fue Microsoft Windows 7, y los compiladores usados fueron Microsoft Visual Studio 2008

6_{http://gbdi.icmc.usp.br/agrodatamine/} 7

http://www.agritempo.gov.br/

(cl) y compilador de NVIDIA (nvcc) CUDA. Con el fin de obtener una comparación justa, todos los métodos de indexación y el descubrimiento de motifs fueron implementados en C + +, todos con el mismo código de optimización. Algunos experimentos, específicamente para el tipo de consulta a los k-vecinos más cercanos (AllkNN), involucran la comparación entre las implementacionesmulti-threads tanto para CPU como para GPU. Llevando a cabo una evaluación tanto cuantitativa como cualitativa en la modelización del comportamiento de algoritmos eficientes, tanto en la CPU como en la GPU. La Tabla 6.1muestra las especificaciones del computador y los compiladores utilizados.

Tabla 6.1: Especificaciones de la CPU y GPU así como los compiladores utilizados en los experimentos

Procesador Tipo # de # de RAM Compilador

Núcleos Threads

Intel Core i7 CPU 4 2 6 GB cl

2.67GHz

Intel Core i7 CPU 4 4 6 GB cl

2.67GHz

Intel Core i7 CPU 4 8 6 GB cl

2.67GHz

NVIDIA Geforce GTX GPU 448 1024 1 GB nvcc 4.0

470

Además, se utilizaron varias métricas para la evaluación del desempeño y la exactitud de los métodos, como veremos a continuación.

6.2.1. Métricas para la evaluación del desempeño y precisión

Los métodos de búsqueda de similitud y el descubrimiento de motifs implementados, fueron evaluados utilizando los siguientes parámetros para la comparación:

Consulta por rango exacto y aproximado.

• o Rendimiento de las consultas: en este experimento se evaluó el rendimiento del enfoque propuesto en relación con otros índices bien conocidos en consultas por rango. El objetivo de este experimento consiste en medir el número promedio de los cálculos de distancia y el tiempo total gastado para recuperar los objetos más próximos a los objetos de consulta de un conjunto de pruebas utilizando consultas Rq. Los métodos fueron probados con diferentes valores der.Por lo tanto, los valores de los radios para consultas por rango se han definido en función del valor de objetos deseados por cada consulta (de 1 hasta 10);

• Precisión: en este experimento se evaluó la precisión media del enfoque propuesto en relación con otros métodos de búsqueda aproximada. Dado un conjunto de datos, se puede evaluar la

precisión media del método usando la búsqueda secuencial. Por lo tanto, para cada consulta, se verifica si la respuesta incluye los mismos elementos devueltos por una búsqueda de barredura secuencial;

• Utilización del espacio: como las técnicas aproximadas necesitan muchos sub-índices para asegurar resultados de buena calidad, es necesario medir el costo de la memoria. Por lo tanto, este experimento se evaluó el uso del espacio en megabytesde los métodos exactos y aproximados, resaltando que los métodos aproximados garantizan un costo sublineal con calidad en los resultados.

• Escalabilidad: En este experimento, se estudió el comportamiento de las técnicas cuando el tamaño del conjunto de datos aumenta. Para medir el rendimiento y la escalabilidad de las técnicas se vario el tamaño del conjunto de datos. Así, para cada conjunto se ejecutaron 500 consultas con diferentes objetos de búsqueda. Dado que el comportamiento es equivalente para los diferentes valores de r, son presentados apenas los resultados para el radio que recupera en promedio 10 objetos.

Consultas kNN y AllkNN

• El rendimiento de consultas: en este experimento se evaluó el rendimiento del enfoque propuesto en relación con las implementaciones paralelas de consultas AllkNN. El objetivo de este experimento es medir el tiempo total necesario para recuperar los objetos más próximos a los objetos de consulta de una serie de pruebas utilizando consultas kNN. El número de vecinos k a encontrarse en consultas kNN fueron elegidos de acuerdo a los valores comunes que se utilizan en situaciones reales. En todos los experimentos fueron usados valores diferentes para kque van de 1 a 100. Debido a limitaciones de espacio en la GPU, en el caso de las consultas AllkNN el número de vecinos a ser encontrados fueron limitados a 25.

• Precisión: idealmente un sistema de búsqueda de similitud debe ser capaz de lograr altos niveles de rendimiento y calidad en la búsqueda utilizando una pequeña cantidad de espacio. En este experimento se evaluó la precisión del enfoque propuesto en relación con otros métodos de búsqueda aproximada. Dada un objeto de consulta q, sea I(q) el conjunto de respuesta óptima, es decir, los k-vecinos más cercanos aq, eA(q)el conjunto de respuesta actual. Para calcular la precisión que hace uso de:

precisin= |A(q)∩I(q))|

En el caso ideal, la puntuación es 1,0 lo que significa que todos los k vecinos más próximos son devueltos. Para fines de comparación, también se calculan las tasas de error (error_ratio),o el error real, que mide la calidad de las búsquedas tal como se define en (Gionis et al., 1999,ionis et al., 1999).

error_ratio= 1 |Q_|K K X k=1 dLSHk d∗_k (6.2)

DondedLSHk es la distancia del objeto de la consultaqal k-vecino más próximo encontrado por el método LSH, yd∗_k es la distancia del objeto de consultaqal verdadero k-vecino más cercano. En otras palabras, se mide cuán próximas a las distancias de los k vecinos más próximos encontrados por el LSH son las distancias a los verdaderos k-vecinos más cercanos aq.

• o Escalabilidad: Para evaluar la escalabilidad del método en consultas AllkNN, oHashF ile

se implementó en dos versiones: GPU y CPU. En el primer experimento de escalabilidad se mantiene el tamaño del conjunto de datos mientras que el nivel de paralelismo aumenta. En el segundo experimento, se comparan los tiempos de implementación en CPU y GPU de las consultas AllkNN cuando el tamaño del conjunto de datos crece. El desempeño es evaluado mediante elspeedupentre el tiempo de ejecución utilizando CPU y GPU.

speedup= tiempo_CP U

tiempo_GP U (6.3)

- Descubrimiento demotifs

Para evaluar los métodos de búsqueda demotifs es presentada una evaluación tanto cuantitativa como cualitativa para las soluciones exactas y aproximadas. El comportamiento del método propuesto fue comparado con algoritmos probabilísticos y aproximados de identificación de motifsencontrados en la literatura. Además, se utilizó la programación CUDA, plataforma para crear implementaciones masivamente paralelas de las técnicas analizadas, incluyendo elCUDA- RandomProjection()(Ver la Sección5.3.2) y elCUDA-TopKMotifs()(véase la Sección5.3.1). Para identificación de losmotifsrelevantes, diversos conjuntos de series temporales reales y sintéticas fueron usados. Por lo tanto, con el fin de llevar a cabo una amplia investigación que permita analizar los principales aspectos relacionados a la metodología y al proceso de identificación demotifs, esta evaluación se dividió en las siguientes etapas:

• o Rendimiento: El rendimiento de los métodos se evaluó mediante la comparación de los tiempos de ejecución de los algoritmos y mediante elspeedup(Ecuación 6.3) el tiempo de

ejecución utilizando la CPU y la GPU.

• o Escalabilidad: Evaluar la escalabilidad de los algoritmos de descubrimiento de motifs, la técnica propuesta se comparó con métodos exactos y aproximados para la identificación del Pair-Motif y de losTopK-Motifs.En este experimento, los tiempos de ejecución de los algoritmos en la CPU y la GPU se compararon cuando el tamaño del conjunto de datos crece.

• o Precisión: para evaluar la precisión de los algoritmos de descubrimiento de motifs se utiliza losmotifsencontrados en sus informaciones, específicamente las distancias entre los elementos que conforman elmotif como indicadores para calcular la densidad delcluster.

Los resultados de los experimentos serán presentados y discutidos a continuación.

In document Soluciones aproximadas para algoritmos escalables de minoración de datos en Dominios Complejos (página 85-90)