Fractal
De la teoría del fractal, la dimensión del fractalDes particularmente útil para el análisis de datos, ya que puede aplicarse para estimar la dimensión intrínseca de conjuntos de datos reales que muestran un comportamiento fractal, es decir, exactamente o estadís- ticamente auto-similar (Belussi and Faloutsos, 1995). Se ha demostrado que, dado un conjunto de N objetos en un conjunto de datos con una función de distanciad(x,y), el número medio dekvecinos dentro de una distancia dadar es proporcional ar elevado a
D(Arantes et al., 2003).Así, la cuenta de paresPC(r) de pares de elementos a distancia r sigue la siguiente ley:
(4.2) PC(r)=Kp×rD
donde, Kp es una constante proporcional y D es la dimensión fractal del conjunto de datos. En consecuencia, un fractal es definido por la propiedad de auto-similitud, que es la característica principal que representa exactamente o estadísticamente la similitud entre las partes de todo el fractal.
Si un conjunto de datos tiene un métrica para comparar cada par de sus elementos, se puede dibujar un gráfico que lo represente, aunque el conjunto de datos no se encuentre en un dominio dimensional. El trazado de este gráfico en escalasl o g−l o g, para la mayoría de los conjuntos de datos reales resulta en una línea casi recta para un rango significativo de distancias. Esta gráfica en la escala l o g−l o g se llama la Diagrama de Distancia (Traina et al., 2000). La pendiente de la recta en la gráfica de distancia es el exponente de la Ecuación 4.2, por lo que se le llama Distancia Exponente. Es interesante notar que la dimensión intrínsecaDse aproxima mucho a la dimensión fractal de un conjunto de datos.
La Figura 4.4 muestra la gráfica de distancia de un conjunto de datos cuyos elementos son las coordenadas geográficas de las calles y carreteras del condado de Montgomery. Como se puede observar, las gráficas son lineales para el rango de tamaños más buscado
en las consultas. Utilizando gráficos como este, La Distancia ExponenteDde cualquier
Figura 4.4: Diagrama de Distancia para el conjunto de datos MgCounty mostrando una Dimensión FractalD≈1,81 .
conjunto de datos puede calcularse como la pendiente de la recta que mejor se ajuste a la curva resultante en el Diagrama de Distancia. Por lo tanto, considerando la Figura 4.4, la Ecuación 4.2 puede ser expresada como:
(4.3) l o g(PC(r))=D×l o g(r)+Kp
La Distancia Exponente tiene muchas propiedades interesantes, derivadas de la Dimen- sión Fractal. La propiedad principal es que la dimensión fractalDes invariante al tamaño del conjunto de datos, siempre que se utilice un número razonable de elementos de una muestra representativa (Faloutsos et al., 2000). Esto permite mantener el Distancia Ex- ponente para un conjunto de datos incluso después de que se haya actualizado el conjunto de datos con inserciones y eliminaciones.
Algoritmo de Calculo de la Dimensión Fractal
Una manera práctica de estimar D a partir de un conjunto de datos espaciales está utilizando el método debox-counting()(Faloutsos et al., 2000). Teóricamente, este método da una aproximación cercana a la dimensión fractal (Traina et al., 2000). Uno de los mejores algoritmos publicados para calcular la dimensión fractal de un conjunto de datos es un algoritmo O(N l o g(N)), donde N es el número de puntos en el conjunto de datos (Belussi and Faloutsos, 1995). Sin embargo, existe un algoritmo aún más rápido de costo O(N) llamadobox-counting()(Jr. et al., 2010a).
4.6
Consideraciones Finales
Las técnicas de minería de datos incluyen una amplia gama de herramientas de análisis, desde enfoques muy puntuales que intentan localizar características específicas de los datos, hasta herramientas muy amplias que sólo proporcionan una visión general de alto nivel de los datos. Sin embargo, la mayoría de los enfoques utilizados, independientemente de que sean específicos o amplios, se basan en técnicas basadas en algoritmos con una complejidad computacional alta, tanto en el número de muestras como en el número de atributos (dimensiones) del conjunto de datos. Las técnicas presentadas en este capítulo, basadas en la teoría fractal, proporcionan algoritmos que pueden analizar datos en una complejidad computacional lineal tanto en el número de muestras como en el número de dimensiones. Estas técnicas están bien adaptadas a procesos amplios, por lo que pueden ser utilizadas como una muestra inicial en conjuntos de datos, desde los cuales se pueden ejecutar analizadores más específicos y costosos.
C
A P Í T5
BÚSQUEDA APROXIMADA VÍA
Deep Hashing
Este capítulo describe un estudio sobre métodos de proyección de datos y su relación con la dimensión fractal. Además se presentará el análisis del desempeño de desempeño con distintos métodos de búsqueda aproximada.
5.1
Consideraciones Iniciales
L
a disponibilidad cada vez mayor de datos en diversos dominios ha creado la nece- sidad de desarrollar técnicas y métodos para descubrir el conocimiento a partir de volúmenes masivos de datos, motivando muchos trabajos de investigación en bases de datos,machine learningy comunidades de recuperación de información. Esto ha impulsado el desarrollo de técnicas escalables y eficientes para organizar y recuperar este tipo de datos.Similarity searchha sido el enfoque tradicional para la recuperación de información. Aunque se han propuesto varios algoritmos de búsqueda de similitud para acelerar las consultas de similitud, la mayoría de ellos se ven afectados por la maldición de la alta dimensionalidad de los datos. Recuperar datos complejos causa problemas de estabilidad cuando la dimensionalidad de los datos es muy alta (Böhm et al., 2001).sionalidad de los datos. Una de las líneas de investigación es relajar la precisión de la consulta para acelerar el tiempo de consulta. Potencialmente, este enfoque es factible para aplicaciones que no requieren respuestas exactas y cuya velocidad es más importante que la precisión de búsqueda. Además, la definición del espacio métrico ya conduce a una aproximación de la respuesta verdadera, y por lo tanto una segunda aproximación en el tiempo de búsqueda puede ser aceptable (Chávez et al., 2001).
Se propusieron algoritmos de kNN aproximados basados enhashingpara consultar conjuntos de datos de alta dimensión debido a su alta velocidad de recuperación y bajo costo de almacenamiento. Locality Sensitive Hashing (LSH) (Datar et al., 2004) es una de las recientes técnicas basadas enhashpropuestas para organizar y consultar datos de alta dimensión. De hecho, LSH es una de las pocas técnicas que proporciona análisis teóricos sólidos y pérdida predecible de precisión en los resultados. Sin embargo, existe una dependencia en los valores de los parámetros para los esquemas de búsqueda de similitud aproximada basados en LSH, que determinan el número de funciones hash y el número de tablas hash.
Para responder consultas de similitud, LSH busca solo regiones, que están representa- das porbuckets, a los que se aplica el hash del objeto de consulta (es decir, los candidatos de losbucketsque contienen los objetos del conjunto de datos con una alta probabilidad de similitud con el objeto de consulta). Por lo tanto, no es necesario explorar completamente los datos de índice, y solo los objetos en los candidatos de losbucketsque requieren un procesamiento adicional de acuerdo con la condición de consulta (por ejemplo,d(x,q)≤r) (Ocsa and Sousa, 2010).
Los métodos de hashin gproducen una representación compacta para realizar tareas de clasificación usandohash-codes. Cuando el proceso es supervisado, los códigoshash se entrenan usando etiquetas (labels) en los datos de entrenamiento. Inspirado por los avances recientes en Red Neuronal Convolutiva (CNN) (Krizhevsky et al., 2012), muchos métodos mejoran la precisión de la recuperación de similitud al usar CNN como extractor de características y luego crean un códigohashcompacto. En un trabajo reciente
(Kelvin Lin, 2015), un método de hashing supervisado entrena el modelo con una capa oculta de tipobinary-hashcomo características para tareas de clasificación de imágenes. Al combinar la extracción de características de imagen y el aprendizaje de códigos binarios, estos métodos han demostrado una alta precisión. Sin embargo, existe un compromiso entre el error de clasificación y el error de cuantificación: las activaciones de las capas inferiores son más comunes (Yosinski et al., 2014), por lo que el entrenamiento es más efectivo. Sin embargo, las capas inferiores tienen mapas de activación más grandes (muchos nodos), que son más difíciles de codificar lo que lleva a un compromiso.