• No se han encontrado resultados

Proceso de Instanciación

OWL 3 , los dos estándares que ayudan a convertir la Web en una infraestructura global en la que es posible compartir y reutilizar datos y documentos entre diferentes tipos de

3. Propuesta de una arquitectura de adquisición

3.4.   Relleno de Ontologías

3.4.2. Proceso de Instanciación

El problema que se presenta es debido a que aunque las operaciones de inserción y  modificación de los datos extraídos en la ontología estén definidas, es muy complejo  definir cuando aplicar cada una de ellas. Desde el punto de vista del usuario no es factible  prever todas las aplicaciones combinaciones de valores ni tampoco es posible definir  reglas sencillas que decidan si la aplicación o no de las distintas operaciones.  En el sistema  propuesto  se solicita  al  usuario información sobre donde insertar el valor obtenido  (concepto y atributo). 

 

3.4.2.1. Información para la Inserción 

En la ontología de adquisición para la definición de una pieza de información se ha  previsto un atributo que indica el lugar donde debe de insertarse el valor recuperado.  Cada candidato de una pieza de información almacenado en la hipótesis tratada puede 

 

 

Ejemplo: 

Pieza: Nombre de la Persona 

• Tipo: Nombre Propio; Enlace HTML 

• Inserción: 

o Ontología del Dominio: People 

o Concepto (URI): http://owl.man.ac.uk/2006/07/sssw/people.owl  o Instancia (URI): 

o Atributo (Etiqueta): Nombre 

o Clave (Booleano): 

La información  de relleno contiene información sobre a qué ontología pertenece el  concepto que se rellenará, cual es el atributo afectado y también es posible indicar la  instancia concreta  que  se rellena. El  valor  de  ‘Clave’ indica si  el atributo rellenado  identifica a la instancia. Esto se usa para decidir si se crea una instancia nueva o se  rellenan instancias existentes. 

3.4.2.2. Memoria  Temporal  de  Contexto  para  la  Resolución  de  Ambigüedades 

La entrada al propio proceso de inserción es una hipótesis resultante del proceso de  identificación de información. Esta hipótesis está formada por documentos, relaciones y  piezas asociadas a datos encontrados en las fuentes. La tarea del módulo de relleno es  tomar todos los candidatos de la hipótesis y rellenarlos según la información contenida en  los  atributos  de  ‘Inserción’.  La  cardinalidad  de  este  atributo  en  la  ontología  de  adquisiciones es múltiple, con lo cual cada pieza puede tener más de una acción de  inserción asociada. La mayoría de los casos el atributo ‘Instancia’ no contiene datos sobre  la instancia que debe rellenarse y es el propio proceso de relleno que debe identificar de  que instancia existente se trata o tomar la decisión de crear una instancia nueva. 

Para la resolución de ambigüedades sobre que instancia debe rellenar el sistema contara  con una memoria cache, que realiza las funciones de contexto en el proceso de relleno.  Cuando una instancia se ve afectada por una acción de relleno (creación o modificación),  se almacenará una marca temporal que indica cuanto de reciente fue esta modificación.  Las ambigüedades que pueden surgir a decidir que instancia debe rellenarse se resuelven  tomando la instancia más reciente de la memoria caché que no implique una modificación  de algún valor existente. 

 

 

Una hipótesis simplificada que contiene datos sobre el nombre de una persona y un valor   del número de documentos que ha escrito. 

                             

[Figura 16] Hipótesis para el relleno de datos de population de documentos de Gerson  El proceso de relleno toma los atributos mercados como claves y realiza las operaciones  de  inserción,  que  en  este  caso  comprueba  si  existe  alguna  instancia  del  concepto  “Persona” con nombre igual a “Gerson”. Si no existe se crea una nueva instancia y se  marca en la memoria cache como recientemente modificada. 

Seguidamente el proceso de relleno toma aquellos candidatos que tiene información de  inserción rellena y marcada como clave para realizar el relleno complementario. En este  paso  se  procede  a  rellenar  el  atributo  de  “Número  de  documentos”  del  concepto  “Persona”. Para ellos se buscan las instancias de concepto “Persona” que no tenga el  atributo de Número de documentos relleno a un valor distinto y se ordena según la 

       

IN ROW

Gerson 

PIEZA: Nombre de la Persona 

INSERCIÓN: Concepto: Persona, 

Atributo: Nombre, Clave: Sí 

Population: 

PIEZA: Número de documentos escritos 

por la persona” 

INSERCIÓN:‐‐no tiene ‐‐

PIEZA: Número de documentos escritos 

por la persona” 

INSERCIÓN: Concepto Persona, 

Atributo: Número de documentos, 

Clave: No Documento: descripción de un país 

 

 

Si no hubiese ningún candidato, se ejecuta   la operación de creación de una nueva  instancia. 

 

3.4.3. Simulación 

El módulo de identificación de información proporciona   una serie de conjuntos de  hipótesis. De esta manera si una estrategia construye un conjunto de hipótesis por cada  documento identificado, el módulo de relleno de la ontología recibe más de una hipótesis  para el relleno de los datos de ese documento. El módulo de identificación evalúa las  hipótesis de acuerdo a su plausibilidad e información que aportan, con lo cual el módulo  de relleno puede tomar la mejor de ellas. La evaluación del modulo de identificación se  realiza de acuerdo a las restricciones sobre los datos y a la cantidad de información  disponible, sin tener en cuenta el impacto que un inserción podría tener en la ontología de  dominio. Podría darse el caso que la hipótesis mejor valorada en cuanto a restricciones  impuestas introduzca una gran cantidad de inconsistencia en la ontología obligando a  realizar operaciones de borrado o modificación de valores existentes. 

El módulo de relleno realizara simulaciones de las inserciones de las hipótesis para  completar  la evaluación realizada por el módulo anterior. En esta simulación se mide: 

• Número de modificaciones realizadas en la ontología del dominio. 

• Número de creaciones de instancias 

• Franja temporal máxima usada en la memoria caché 

• Tiempo global de cada simulación 

El objetivo de las simulaciones es calcular lo costoso que resulta insertar instancias en la  ontología de dominio en términos de creación de nuevas instancias o modificación de las  existentes. Partimos del supuesto que la información encontrada no tiende a contradecir  la  información  ya almacenada  y  se  premia  a  aquellas  hipótesis  que  no  introducen  inconsistencias.  Esta  medida  permite  enriquecer  la  información  de  evaluación  proporcionada por el módulo anterior y reordenar las hipótesis.  

 

 

4.

Propuesta de Implementación de Arquitectura 

En el paradigma de la Web Semántica el contenido se anota de acuerdo a ontologías,  obteniendo o bien documentos extendidos con marcas semánticas   o bien contenido  semántico, ambos ligados a instancias de ontologías. Estas instancias de las ontologías, ya  están almacenadas en bases de datos, ficheros o estén distribuidos junto con el contenido  existente, aportan poco valor añadido si no se explota su aspecto formal  y consensuado  en beneficio de alguna aplicación concreta. De acuerdo a la evolución de los modelos de  uso apuntada por la comunidad de la Web Semántica y comentada en este trabajo, los  sistemas de gestión documental constituyen uno de los primeros hitos1 a corto plazo.  En este capítulo se presenta un posible uso del contenido semántico y se divide en dos  partes, la primera titulada Gestión y Búsqueda de Información Semántica que  describirá  un sistema genérico de publicación de datos semánticos a través de un portal Web que  permite visualizar los datos adquiridos por el sistema propuesto. En la segunda parte  titulada Portal Semántico se aplica el sistema de publicación a cualquier dominio. Se  mostraran  algunos  ejemplos  de  uso  de  ambos  sistemas,  el  de  adquisición  y  el  de  publicación, completando así el posible ciclo de vida de los datos semánticos, desde su  creación hasta su uso. 

4.1.Gestión y Búsqueda de Información Semántica 

La gestión y recuperación de información es el hito más cercano de la tecnología de la  Web Semántica. La información estructurada ofrece grandes posibilidades respecto a las  búsquedas tradicionales basadas en palabras clave.