• No se han encontrado resultados

Un Sistema de Gestión Documental y Workflow con Indexación Temática y Geográfica de los Documentos

N/A
N/A
Protected

Academic year: 2021

Share "Un Sistema de Gestión Documental y Workflow con Indexación Temática y Geográfica de los Documentos"

Copied!
31
0
0

Texto completo

(1)

Un Sistema de Gestión Documental y

Workflow con Indexación Temática y

Geográfica de los Documentos

Laboratorio

Laboratorio de Bases de de Bases de DatosDatos Universidade

Universidade dadaCoruCoruññaa A

A CoruCoruññaa, , EspaEspaññaa

Ana Cerdeira

(2)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(3)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(4)

Introducción

z Dos campos de investigación muy activos:

— Geographic Information Systems (GIS)

z EIEL (http://www.dicoruna.es/webeiel)

— Information Retrieval (IR)

z Biblioteca Virtual Galega (http://bvg.udc.es)

GIS

IR

GIR

Recuperar documentos relevantes temática y geográficamente respondiendo a consultas de la forma <tema, localización>

(5)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(6)

Motivación

z Muchos documentos almacenados en bibliotecas digitales

y bases de datos documentales incluyen referencias geográficas

— Prensa, Web, IDEs, …

z “…las Jornadas de la IDE de España celebradas en

Tenerife en noviembre de 2008...”

z Licencias de obra

z Pocas estructuras de indexación y algoritmos de

recuperación explotan las referencias geográficas

z Las propuestas recientes no tienen en cuenta algunas

particularidades específicas del espacio geográfico — Naturaleza jerárquica del espacio geográfico

(7)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(8)

Trabajo relacionado

z Indexación de texto: Índice Invertido

Las referencias geográficas son palabras normales

z Indexación espacial: R-Tree

— No tienen en cuenta la jerarquía del espacio

z Propuestas para combinarlos (proyecto SPIRIT):

Text-First (primero filtrado textual y luego espacial)Geo-First (primero filtrado espacial y luego textual)

— No tienen en cuenta las relaciones entre los objetos geográficos que están indexando

z Descripción del espacio geográfico: Ontología

Empleadas en GIR para realizar query expansion, elaboración de rankings de relevancia y anotación de recursos web

— Ningún intento de combinarlas con otros tipos de índices para obtener una estructura híbrida

(9)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(10)

Arquitectura

z Los Sistemas de Gestión Documental y Workflow

— Definen todas las tareas que se deben realizar sobre los

documentos para su gestión y consulta

— Las personas encargadas de realizarlas

— Proporcionan las herramientas necesarias para llevar a cabo todo este proceso

— Por tanto, son imprescindibles en organizaciones donde el número de documentos se incrementa constantemente

(11)
(12)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(13)

Estructura de indexación

Índice Invertido Tabla Hash de Nombres de Lugar

… … hotel 1,3,7,8,12,… mar 3,5,6,9,10,… … … … … España Alemania … … DocIds 2,3,…

(14)

Estructura de indexación

z Toma como base una ontología

z Árbol compuesto por nodos que representan topónimos

interconectados por medio de relaciones de contenido

— Si la lista de nodos hijo es muy larga se emplea un R-Tree

z Estructuras auxiliares:

— Tabla hash de nombre de lugar a posición en el árbol — Índice Invertido tradicional

z Ventajas:

— Procesado eficiente tanto de consultas textuales como

espaciales

— Soporte para consultas combinadas

— Actualizaciones y optimizaciones independientes en cada índice

z Inconvenientes:

— Árbol posiblemente desbalanceado — Estructura estática

(15)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(16)

Tipos de consultas soportadas

z Consultas puramente textuales

“recuperar todos los documentos donde aparezcan las

palabras hotel y mar”

— ¿Cómo las resolvemos?

z Índice textual

z Consultas puramente espaciales

“recuperar todos los documentos que se refieran a la

siguiente área geográfica”

— ¿Cómo las resolvemos?

z Descenso en la estructura + refinado del resultado z El mismo algoritmo empleado con índices espaciales

(17)

Tipos de consultas soportadas

z Consultas textuales con nombres de lugar

“recuperar todos los documentos con la palabra hotel

referidos a España”

— ¿Cómo las resolvemos?

z Ejemplo

(18)

Tipos de consultas soportadas

… … hotel 1,3,7,8,12, … sea 3,5,6,9,10, … … … Inverted Index Europe Asia Spain Germany Madrid Galicia Index Structure … … Spain Germany … …

Place Name Hash Table

Text Result Spatial Result Query Result DocIds 2,3,… DocIds 5,7,… DocIds 12,14,… … … hotel 1,3,7,8,12, … sea 3,5,6,9,10, … … … Text Result 1,3,7,8,12,… Spatial Result 2,3,5,7,12,14,… Query Result 3,7,12,… Text Result 1,3,7,8,12,… Spatial Result 2,3,5,7,12,14,… Query Result Text Result 1,3,7,8,12,… Spatial Result 2,3,5,7,… Query Result Text Result 1,3,7,8,12,… Spatial Result Query Result Text Result 1,3,7,8,12,… Spatial Result 2,3,… Query Result … … Spain Germany … … Spain Galicia Madrid Text Result 1,3,7,8,12,… Spatial Result 2,3,5,7,12,14,… Query Result 3,7,12,…

(19)

Tipos de consultas soportadas

z Consultas textuales sobre un área geográfica

“recuperar todos los documentos con la palabra hotel que

se refieren a la siguiente área geográfica”

— ¿Cómo las resolvemos?

(20)

Tipos de consultas soportadas

… … hotel 1,3,7,8,12, … sea 3,5,6,9,10, … … … Inverted Index Europe Asia Spain Portugal Madrid Galicia Index Structure Text Result Spatial Result Query Result … … hotel 1,3,7,8,12, … sea 3,5,6,9,10, … … … Text Result 1,3,7,8,12,… Spatial Result Query Result Text Result 1,3,7,8,12,… Spatial Result 12,14,… Query Result Query Window Europe Portugal Spain Galicia Coruña Coruña DocIds 12,14,… Text Result 1,3,7,8,12,… Spatial Result 12,14,… Query Result 12,… Text Result 1,3,7,8,12,… Spatial Result 12,14,… Query Result 12,…

(21)

Tipos de consultas soportadas

z Otra ventaja: EXPANSIÓN DE CONSULTAS

“recuperar todos los documentos referidos a España” — ¿Cómo las resolvemos?

z El Servicio de Evaluación de Consultas descubrirá que

España es una referencia geográfica

z La Tabla Hash de Nombres de Lugar localizará rápidamente

el nodo interno que representa a España

z Todos los documentos asociados con ese nodo forman parte

del resultado

z Todos los documentos asociados con el subárbol forman

parte del resultado

— El resultado contiene, además de aquellos documentos que incluyen el término España, todos los documentos que contienen el nombre de una división administrativa incluida en España

(22)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(23)
(24)
(25)
(26)
(27)
(28)

Organización

z Introducción z Motivación z Trabajo relacionado z Arquitectura z Estructura de indexación

z Tipos de consultas soportadas z Demo

(29)

Conclusiones y futuros desarrollos

z Conclusiones:

— Sistema de gestión documental y workflow para

recuperación de información geográfica

— Estructura de indexación formada por un índice textual, un

índice espacial y una ontología

(30)

Conclusiones y futuros desarrollos

z Trabajo futuro:

— Finalización de la herramienta de gestión del workflow

— Desambiguación de topónimos

— Mejora de los algoritmos de ranking

(31)

Un Sistema de Gestión Documental y

Workflow con Indexación Temática y

Geográfica de los Documentos

Ana Cerdeira

Ana Cerdeira--Pena, Miguel R. Luaces, Pena, Miguel R. Luaces, ÓÓscar Pedreira, scar Pedreira, Diego SecoDiego Seco

Contacto: [email protected]

Laboratorio

Laboratorio de Bases de de Bases de DatosDatos Universidade

Universidade dadaCoruCoruññaa A

Referencias

Documento similar

La cualidad de tercero viene definida por la ajenidad en la relación jurídica controvertida, entendida como no ser parte de la misma, ni haber de alguna manera provocado

En este caso, junto al cartotecario o persona responsable de la institución que posee el mapa, entran las compañías de seguros, cuyas pólizas reflejan el acuerdo al que se ha

Cuando la oferta pública tenga como pretensión la adquisición del 100 por 100 del capital de la sociedad o el control total de la junta gene- ral de la sociedad afectada mediante

Dicho contexto incluye que el autor estuvo altamente involucrado en el proceso penal en su contra (incluyendo su asistencia personal a tomar notas de su expediente); ejerció

Haciendo uso de información de balance para el período 2008-2013, sobre un conjunto de 23 bancos en Chile, se encuentra que la industria bancaria puede ser agrupada

Planta. Croquis del jPabeücn/ destinado a l¿v /nulcrnideid en el Hospital en construcción/ de ¿os 1 J

Aunque tanto la UE, con carácter general, como España, de forma par- ticular, están ejerciendo a nivel global un papel de liderazgo en la lucha contra la pesca INDNR, la estrategia

El objeto de este documento es definir y desarrollar la secuencia de actividades que son necesarias para llevar a cabo la fabricación de la pieza patrón para