Bases de datos métrico-temporales

(1)

Bases de Datos M´etrico-Temporales

Anabella De Battista , Andr´es Pascal

Departamento de Sistemas de Informaci´on

Universidad Tecnol´ogica Nacional

Fac. Reg. Concepci´on del Uruguay

Entre R´ıos, Argentina

{debattistaa, pascalj}@frcu.utn.edu.ar

Norma Edith Herrera

Departamento de Inform´atica

Universidad Nacional de San Luis

San Luis, Argentina

[email protected]

Gilberto Gutierrez

Facultad de Ciencias Empresariales

Universidad del Bio-Bio

Chill´an, Chile

[email protected]

Contexto

El presente trabajo se desarrolla en el ámbito del Gru-po de Investigación en Bases de Datos (Proy. Nro 25-D040) perteneciente al Departamento de Sistemas de la Universidad Tecnológica Nacional, Facultad Regio-nal Concepción del Uruguay, cuyo objetivo principal es el estudio de métodos de acceso, procesamiento de consultas y aplicaciones de bases de datos no tradi-cionales.

Resumen

Las bases de datos métrico-temporales constituyen un nuevo modelo de bases de datos orientado al proce-samiento de consultas por similitud en un intervalo o instante de tiempo. Este modelo está basado en la combinación de espacios métricos con bases de da-tos temporales. Para resolver eficientemente consul-tas métrico-temporales, se han propuesto varios ´ındi-ces cuyas evaluaciones emp´ıricas demuestran que son competitivos. En este trabajo estamos interesado en el diseño de ´ındices eficientes para el procesamiento de consultas métricos temporales.

Palabras claves: Espacios Métricos, Bases de Da-tos Temporales, Bases de DaDa-tos Métrico-Temporales, Índices

1. INTRODUCCI ´ON

Las operaciones de búsquedas en una base de datos requieren de algún soporte y organización especial a nivel f´ısico. En el caso de las bases de datos clásicas, la organización de la informa-ción se basa en el concepto de búsqueda exac-ta sobre datos estructurados. Esto significa que la información se organiza en registros con campos completamente comparables. Una búsqueda en la base retorna todos aquellos registros cuyos cam-pos coinciden con los aportados en la consulta (búsqueda exacta). Otra caracter´ıstica importante de las bases de datos clásicas es que capturan sólo un estado de la realidad modelizada, usualmente el más reciente. Por medio de las transacciones, la base de datos evoluciona de un estado al siguiente descartando el estado previo.

(2)

exacta carece de interés y tercero resulta de in-terés mantener todos los estados de la base de da-tos y no sólo el más reciente a fin de poder con-sultar el instante o intervalo de tiempo de vigen-cia de dichos objetos. Como solución a esta pro-blemática surgen modelos que permiten procesar esta clase de datos. Entre estos nuevos modelos encontramos los siguientes:

Espacios métricos [1, 2, 6, 8, 9, 10, 5, 17, 12, 13], que permiten almacenar objetos no estructu-rados y realizar búsquedas por similitud sobre los mismos. Un espacio métrico es un par(U, d) don-deUes un universo de objetos yd:U×U →R+ es una función de distancia definida entre los ele-mentos de U que mide la similitud entre ellos. Una de las consultas t´ıpicas en este nuevo modelo de bases de datos es la búsqueda por rango, deno-tado por(q, r)d, que consiste en recuperar los

ob-jetos de la base de datos que se encuentren como m´aximo a distanciarde un elementoqdado.

Bases de datos temporales [16, 11], que incor-poran al tiempo como una dimensión, por lo que permiten asociar tiempos a los datos almacena-dos. Existen tres clases de bases de datos tempo-rales en función de la forma en que manejan el tiempo: de tiempo transaccional (transaction ti-me), donde el tiempo se registra de acuerdo al or-den en que se procesan las transacciones; de tiem-po vigente, que almacenan el momento en que el hecho ocurrió en la realidad (puede no coin-cidir con el momento de su registro) y bitempo-rales, que integran la dimensión transaccional y la dimensión vigente a través del versionado de los estados, es decir, cada estado se modifica para actualizar el conocimiento de la realidad pasada, presente o futura, pero esas modificaciones se rea-lizan generando nuevas versiones de los mismos estados.

Bases de datos métrico-temporales [3, 4, 15], que permiten almacenar objetos no estructu-rados con tiempos de vigencia asociados y realizar consultas por similitud y por tiempo en forma simultánea. Formalmente un Espa-cio Métrico-Temporal es un par (U_,d₎_{, donde}

U ₌O _×N _×N_{, y la funci´on} _d _{es de la}

for-ma d : O ×O → R+

. Cada elemento u ∈ U es una triupla(obj, ti, tf), dondeobj es un objeto

(por ejemplo, una imagen, sonido, cadena, etc) y

[ti, tf]es el intervalo de vigencia deobj. La

fun-ción de distancia d, que mide la similitud entre dos objetos, cumple con las propiedades de una métrica (positividad, simetr´ıa y desigualdad trian-gular). Como un ejemplo de aplicación podemos mencionar una base de datos de rostros de delin-cuentes y cada foto tiene una intervalo de vigen-cia asovigen-ciado, que representa el intervalo de tiem-po en que el delincuente ten´ıa el aspecto repre-sentado en esa foto; en este caso ser´ıa de interés, dada una foto y un intervalo de tiempo, poder re-cuperar de la base todos aquellos rostros pareci-dos al dado en el intervalo de tiempo especifica-do. Formalmente una consulta métrico-temporal se define como una 4-upla (q, r, tiq, tf q)d, tal que

(q, r, tiq, tf q)d = {o/(o, tio, tf o) ∈ X∧d(q, o) ≤

r∧(tio ≤tf q)∧(tiq ≤tf o)}

Una forma trivial de resolver una consulta métrico-temporal, sin realizar un barrido secuen-cial sobre todos los elementos de la bases de da-tos, es construir un ´ındice métrico agregándole a cada objeto el intervalo de tiempo de vigencia del mismo. Luego, ante una consulta (q, r, tiq, tf q)d

primero se utiliza el ´ındice métrico para descar-ta aquellos objetos obj que están a distancia ma-yor que r de q; posteriormente se realiza un ba-rrido secuencial sobre el conjunto de elementos no descartados por el paso anterior a fin de de-terminar cuáles objetos son realmente respuesta a la consulta, es decir, cuáles tienen un intervalo de vigencia que se superpone con[tiq, tf q].

La desventaja que tiene esta solución trivial es que no se usa la componente temporal para mejo-rar el filtrado en el ´ındice; en este proceso sólo se aprovecha la componente métrica. Una mejor es-trategia es que durante el proceso de búsqueda se utilice tanto la componente métrica como la com-ponente temporal para descartar elementos.

(3)

ele-u1 u10 u5 u13 u3 u12

u11 u7 u15 u14 u4 u6 u2 u9 u8 0 5 6 7

4

u5 u11

6 5 4 3 2 0

[image:3.595.62.291.92.183.2]

7 7 3 4 5 3 6

Figura 1:Un ejemplo de un FHQT sobre un conjunto de 15 elementos

mento p (pivote) que puede ser elegido arbitra-riamente, o mediante alg´un procedimiento de se-lecci´on de pivotes [7], del universoU. Para cada distanciaise crea el conjuntoCiformado por

to-dos aquellos elementos de la base de datos que est´an a distanciai dep. Luego, para cada Ci no

vac´ıo se crea un hijo del nodo correspondiente a p, con rótuloi, y se construye recursivamente un FHQT teniendo en cuenta que todos los subárbo-les del mismo nivel usarán el mismo pivote como ra´ız. Este proceso recursivo se continúa hasta lo-grar que todas las hojas estén en un mismo ni-vel y tengan menos de b elementos, siendo b un valor fijado previamente. La figura 1 muestra un ejemplo de un FHQT conjunto de 15 elementos en los que se ha elegido u11 como pivote en el primer nivel yu5 como pivote del segundo nivel. Ante una consulta(q, r)d, se comienza por la ra´ız

y se descartan todas aquellas ramas con rótulo i tal que i /∈ [d(p, q)−r, d(p, q) + r] siendo p el pivote utilizado en la ra´ız. La búsqueda continúa recursivamente en todos aquellos subárboles no descartados, utilizando el mismo criterio.

Damos a continuación una breve reseña de los ´ındices métricos-temporales que se basan en el FHQT:

FHQT-Temporal [15]. Este ´ındice es una adapta-ción del Fixed Height Queries Tree (FHQT) en la que se agrega un intervalo de tiempo en ca-da nodo del árbol. Este intervalo representa el per´ıodo máximo de vigencia para todos los ob-jetos del subárbol cuya ra´ız es dicho nodo. En cada nodo hoja, este intervalo es el per´ıodo total de vigencia de los objetos que contiene. Para ca-da nodo interior, el intervalo se calcula tomando el tiempo inicial m´ınimo, y el tiempo final máxi-mo de sus hijos. Cuando se realiza una consulta

métrico-temporal se procede de la siguiente ma-nera: en cada nivel del árbol se filtran los subárbo-les hijos por el intervalo de tiempo de la consulta y luego de acuerdo a la distancia entre la consul-ta y el pivote. Al llegar al último nivel, se realiza una búsqueda secuencial sobre las hojas que no fueron descartadas seleccionando los objetos que cumplen con las condiciones temporales y de si-militud.

Historical-FHQT [4]. Consiste en una lista de instantes válidos donde cada uno contiene un FHQT correspondiente a todos los objetos vigen-tes en dicho instante. Esta estructura es eficiente en bases de datos métrico-temporales en las que los objetos tienen vigencia en un solo instante de tiempo. Los FHQT tienen distintas profundidades en función de la cantidad de elementos que de-ban indexar. La cantidad de pivotes utilizada en un árbol se calcula como ⌈log2(|oi|)⌉ donde |oi|

es la cantidad de objetos vigentes en el instantei. De esta manera se evita que haya árboles con ma-yor profundidad de la necesaria, con el fin de que la estructura no tenga un costo excesivo en alma-cenamiento. Las consultas métrico-temporales se efectúan de la siguiente manera: en primer lugar se seleccionan los instantes incluidos en el inter-valo de consulta. Luego se realizan consultas por similitud usando cada uno de los FHQT corres-pondientes, y finalmente se unen los conjuntos re-sultantes.

(4)

los conjuntos resultantes y se compara cada ele-mento de ese conjunto con la consulta. .

2. L´INEAS DE INVESTIGACI ´ON Y DESARROLLO

Nuestra principal l´ınea de estudio e inves-tigaci´on es el desarrollo de ´ındices m´etrico-temporales eficientes. El trabajo en curso se pue-de resumir en los siguientes puntos:

• Se sabe que la dimensionalidad de un espa-cio métrico afecta el desempeño de los ´ındices [10]. En bases de datos métrico-temporales podr´ıa suceder que la dimensión de un conjunto de ele-mentos en el instanteisea distinta a la dimensión del conjunto de elementos en otro instantej y en ese caso las decisiones tomadas con respecto a la construcción del ´ındice deber´ıan variar de un ins-tante a otro. Por esta razón, un aspecto interesante a estudiar es el concepto de dimensionalidad apli-cado a bases de datos métrico-temporales con el fin de encontrar una definición que se adecue a es-te nuevo modelo de bases de datos y que permita comprender mejor el desempeño de los ´ındices.

• En base al punto anterior, se puede diseñar un ´ındice h´ıbrido que permita tener distintos ´ındices métricos en distintos instantes de tiempo, según sea la dimensionalidad del conjunto de elementos almacenados en cada instante.

• Los ´ındices desarrollados hasta el momento se basan en el supuesto de que la memoria princi-pal tiene capacidad suficiente como para mante-ner tanto el ´ındice como la base de datos. Si esto no es as´ı, la cantidad de accesos a memoria secun-daria realizados durante el proceso de búsqueda es un factor cr´ıtico en la performance del ´ındice [18]. Nos proponemos explorar técnicas de pagi-nado que sean aplicables a los ´ındices métrico-temporales a fin de lograr que los mismos resulten eficientes también en memoria secundaria.

• Otro aspecto interesante a estudiar es el refe-rido al espacio necesario para mantener el ´ındice, dado que esto decide si el ´ındice se mantendr´a en

memoria principal o en memoria secundaria. Una forma de reducir el espacio utilizado es tratar de reutilizar subárboles: si un subárbol del instantei está también en el instantej (conj > i), enton-ces el instantej deber´ıa reutilizar el subárbol del instantei en lugar de crearlo de nuevo. Esto im-plica diseñar un algoritmo que permita detectar subárboles isomorfos.

3. RESULTADOS OBTENIDOS/ESPERADOS

Se espera contar con ´ındice eficiente m´etrico-temporal en memoria secundaria que sea eficien-te tanto en los tiempos de respuesta como en el espacio ocupado por el mismo.

4. FORMACI ´ON DE RECURSOS HUMANOS

El trabajo desarrollado hasta el momento for-ma parte del desarrollo de dos Tesis de Maestr´ıa en Ciencias de la Computación, una de ellas fue defendida y aprobada en marzo del corriente año. Se cuenta con el asesoramiento del Dr. Gilberto Gutiérrez, de la Universidad del Bio Bio, Chile. El grupo cuenta además con dos alumnos beca-rios que se están iniciando en las temáticas desa-rrolladas por el grupo.

REFERENCIAS

[1] R. Baeza-Yates. Searching: an algorithmic tour. In A. Kent and J. Williams, editors, Encyclopedia of Computer Science and Te-chnology, volume 37, pages 331–359. Mar-cel Dekker Inc., 1997.

[2] R. Baeza-Yates, W. Cunto, U. Manber, and S. Wu. Proximity matching using fixed-queries trees. In Proc. 5th Combinatorial Pattern Matching (CPM’94), LNCS 807, pages 198–212, 1994.

(5)

la Computaci´on, Buenos Aires, Argentina, 2006.

[4] De Battista, A. Pascal, G. Gutierrez, and N. Herrera. Un nuevo ´ındice m´etrico-temporal: el historical fhqt. In Actas del XIII Congreso Argentino de Ciencias de la Computaci´on, Corrientes, Agentina, 2007.

[5] S. Brin. Near neighbor search in large me-tric spaces. In Proc. 21st Conference on Very Large Databases (VLDB’95), pages 574– 584, 1995.

[6] W. Burkhard and R. Keller. Some approa-ches to best-match file searching. Comm. of the ACM, 16(4):230–236, 1973.

[7] B. Bustos, G. Navarro, and E. Ch´avez. Pi-vot selection techniques for proximity sear-ching in metric spaces. In Proc. of the XXI Conference of the Chilean Computer Scien-ce Society (SCCC’01), pages 33–40. IEEE CS Press, 2001.

[8] E. Chávez and K. Figueroa. Faster proxi-mity searching in metric data. In Procee-dings of MICAI 2004. LNCS 2972, Springer, Cd. de México, México, 2004.

[9] E. Ch´avez, J. Marroqu´ın, and G. Navarro. Fixed queries array: A fast and economi-cal data structure for proximity searching. Multimedia Tools and Applications (MTAP), 14(2):113–135, 2001.

[10] E. Ch´avez, G. Navarro, R. Baeza-Yates, and J.L. Marroqu´ın. Searching in metric spa-ces. ACM Computing Surveys, 33(3):273– 321, September 2001.

[11] C. S. Jensen. A consensus glossary of tem-poral database concepts. ACM SIGMOD Re-cord, 23(1):52–54, 1994.

[12] I. Kalantari and G. McDonald. A data struc-ture and an algorithm for the nearest point problem. IEEE Transactions on Software Engineering, 9(5):631–634, 1983.

[13] G. ˜Navarro. Searching in metric spaces by spatial approximation. In Proc. String Processing and Information Retrieval (SPI-RE’99), pages 141–148. IEEE CS Press, 1999.

[14] A. Pascal, A. De Battista, G. Gutierrez, and N. Herrera. Indice metrico-temporal event-fhqt. In Actas del XIIII Congreso Argentino de Ciencias de la Computaci´on, La Rioja, Argentina, 2008.

[15] A. Pascal, De Battista, G. Gutierrez, and N. Herrera. Procesamiento de consultas métrico-temporales. In XXIII Conferen-cia Latinoamericana de Informática, pages 133–144, San José de Costa Rica, 2007.

[16] B. Salzberg and V. J. Tsotras. A comparison of access methods for temporal data. ACM Computing Surveys, 31(2), 1999.

[17] J. Uhlmann. Satisfying general proxi-mity/similarity queries with metric trees. In-formation Processing Letters, 40:175–179, 1991.