OWL 3 , los dos estándares que ayudan a convertir la Web en una infraestructura global en la que es posible compartir y reutilizar datos y documentos entre diferentes tipos de
3. Propuesta de una arquitectura de adquisición
3.4. Relleno de Ontologías
3.4.2. Proceso de Instanciación
El problema que se presenta es debido a que aunque las operaciones de inserción y modificación de los datos extraídos en la ontología estén definidas, es muy complejo definir cuando aplicar cada una de ellas. Desde el punto de vista del usuario no es factible prever todas las aplicaciones combinaciones de valores ni tampoco es posible definir reglas sencillas que decidan si la aplicación o no de las distintas operaciones. En el sistema propuesto se solicita al usuario información sobre donde insertar el valor obtenido (concepto y atributo).
3.4.2.1. Información para la Inserción
En la ontología de adquisición para la definición de una pieza de información se ha previsto un atributo que indica el lugar donde debe de insertarse el valor recuperado. Cada candidato de una pieza de información almacenado en la hipótesis tratada puede
Ejemplo:
Pieza: Nombre de la Persona
• Tipo: Nombre Propio; Enlace HTML
• Inserción:
o Ontología del Dominio: People
o Concepto (URI): http://owl.man.ac.uk/2006/07/sssw/people.owl o Instancia (URI):
o Atributo (Etiqueta): Nombre
o Clave (Booleano):
La información de relleno contiene información sobre a qué ontología pertenece el concepto que se rellenará, cual es el atributo afectado y también es posible indicar la instancia concreta que se rellena. El valor de ‘Clave’ indica si el atributo rellenado identifica a la instancia. Esto se usa para decidir si se crea una instancia nueva o se rellenan instancias existentes.
3.4.2.2. Memoria Temporal de Contexto para la Resolución de Ambigüedades
La entrada al propio proceso de inserción es una hipótesis resultante del proceso de identificación de información. Esta hipótesis está formada por documentos, relaciones y piezas asociadas a datos encontrados en las fuentes. La tarea del módulo de relleno es tomar todos los candidatos de la hipótesis y rellenarlos según la información contenida en los atributos de ‘Inserción’. La cardinalidad de este atributo en la ontología de adquisiciones es múltiple, con lo cual cada pieza puede tener más de una acción de inserción asociada. La mayoría de los casos el atributo ‘Instancia’ no contiene datos sobre la instancia que debe rellenarse y es el propio proceso de relleno que debe identificar de que instancia existente se trata o tomar la decisión de crear una instancia nueva.
Para la resolución de ambigüedades sobre que instancia debe rellenar el sistema contara con una memoria cache, que realiza las funciones de contexto en el proceso de relleno. Cuando una instancia se ve afectada por una acción de relleno (creación o modificación), se almacenará una marca temporal que indica cuanto de reciente fue esta modificación. Las ambigüedades que pueden surgir a decidir que instancia debe rellenarse se resuelven tomando la instancia más reciente de la memoria caché que no implique una modificación de algún valor existente.
Una hipótesis simplificada que contiene datos sobre el nombre de una persona y un valor del número de documentos que ha escrito.
[Figura 16] Hipótesis para el relleno de datos de population de documentos de Gerson El proceso de relleno toma los atributos mercados como claves y realiza las operaciones de inserción, que en este caso comprueba si existe alguna instancia del concepto “Persona” con nombre igual a “Gerson”. Si no existe se crea una nueva instancia y se marca en la memoria cache como recientemente modificada.
Seguidamente el proceso de relleno toma aquellos candidatos que tiene información de inserción rellena y marcada como clave para realizar el relleno complementario. En este paso se procede a rellenar el atributo de “Número de documentos” del concepto “Persona”. Para ellos se buscan las instancias de concepto “Persona” que no tenga el atributo de Número de documentos relleno a un valor distinto y se ordena según la
IN ROW
Gerson
PIEZA: Nombre de la Persona
INSERCIÓN: Concepto: Persona,
Atributo: Nombre, Clave: Sí
Population:
PIEZA: Número de documentos escritos
por la persona”
INSERCIÓN:‐‐no tiene ‐‐
PIEZA: Número de documentos escritos
por la persona”
INSERCIÓN: Concepto Persona,
Atributo: Número de documentos,
Clave: No Documento: descripción de un país
Si no hubiese ningún candidato, se ejecuta la operación de creación de una nueva instancia.
3.4.3. Simulación
El módulo de identificación de información proporciona una serie de conjuntos de hipótesis. De esta manera si una estrategia construye un conjunto de hipótesis por cada documento identificado, el módulo de relleno de la ontología recibe más de una hipótesis para el relleno de los datos de ese documento. El módulo de identificación evalúa las hipótesis de acuerdo a su plausibilidad e información que aportan, con lo cual el módulo de relleno puede tomar la mejor de ellas. La evaluación del modulo de identificación se realiza de acuerdo a las restricciones sobre los datos y a la cantidad de información disponible, sin tener en cuenta el impacto que un inserción podría tener en la ontología de dominio. Podría darse el caso que la hipótesis mejor valorada en cuanto a restricciones impuestas introduzca una gran cantidad de inconsistencia en la ontología obligando a realizar operaciones de borrado o modificación de valores existentes.
El módulo de relleno realizara simulaciones de las inserciones de las hipótesis para completar la evaluación realizada por el módulo anterior. En esta simulación se mide:
• Número de modificaciones realizadas en la ontología del dominio.
• Número de creaciones de instancias
• Franja temporal máxima usada en la memoria caché
• Tiempo global de cada simulación
El objetivo de las simulaciones es calcular lo costoso que resulta insertar instancias en la ontología de dominio en términos de creación de nuevas instancias o modificación de las existentes. Partimos del supuesto que la información encontrada no tiende a contradecir la información ya almacenada y se premia a aquellas hipótesis que no introducen inconsistencias. Esta medida permite enriquecer la información de evaluación proporcionada por el módulo anterior y reordenar las hipótesis.
4.
Propuesta de Implementación de Arquitectura
En el paradigma de la Web Semántica el contenido se anota de acuerdo a ontologías, obteniendo o bien documentos extendidos con marcas semánticas o bien contenido semántico, ambos ligados a instancias de ontologías. Estas instancias de las ontologías, ya están almacenadas en bases de datos, ficheros o estén distribuidos junto con el contenido existente, aportan poco valor añadido si no se explota su aspecto formal y consensuado en beneficio de alguna aplicación concreta. De acuerdo a la evolución de los modelos de uso apuntada por la comunidad de la Web Semántica y comentada en este trabajo, los sistemas de gestión documental constituyen uno de los primeros hitos1 a corto plazo. En este capítulo se presenta un posible uso del contenido semántico y se divide en dos partes, la primera titulada Gestión y Búsqueda de Información Semántica que describirá un sistema genérico de publicación de datos semánticos a través de un portal Web que permite visualizar los datos adquiridos por el sistema propuesto. En la segunda parte titulada Portal Semántico se aplica el sistema de publicación a cualquier dominio. Se mostraran algunos ejemplos de uso de ambos sistemas, el de adquisición y el de publicación, completando así el posible ciclo de vida de los datos semánticos, desde su creación hasta su uso.
4.1.Gestión y Búsqueda de Información Semántica
La gestión y recuperación de información es el hito más cercano de la tecnología de la Web Semántica. La información estructurada ofrece grandes posibilidades respecto a las búsquedas tradicionales basadas en palabras clave.