Proceso de Instanciación - Relleno de Ontologías

OWL 3 , los dos estándares que ayudan a convertir la Web en una infraestructura global en la que es posible compartir y reutilizar datos y documentos entre diferentes tipos de

3. Propuesta de una arquitectura de adquisición

3.4. Relleno de Ontologías

3.4.2. Proceso de Instanciación

El problema que se presenta es debido a que aunque las operaciones de inserción y modificación de los datos extraídos en la ontología estén definidas, es muy complejo definircuandoaplicarcadaunadeellas.Desdeelpuntodevistadelusuarionoesfactible prevertodaslasaplicacionescombinacionesdevaloresnitampocoesposibledefinir reglas sencillas que decidan si la aplicación o no de las distintas operaciones. En el sistema propuesto se solicita al usuario información sobre donde insertar el valor obtenido (conceptoyatributo).

3.4.2.1. Información para la Inserción

En la ontología de adquisición para la definición de una pieza de información se ha previstounatributoqueindicaellugardondedebedeinsertarseelvalorrecuperado. Cada candidato de una pieza de información almacenado en la hipótesis tratada puede

Ejemplo:

Pieza:NombredelaPersona

• Tipo:NombrePropio;EnlaceHTML

• Inserción:

o Ontología del Dominio: People

o Concepto (URI): http://owl.man.ac.uk/2006/07/sssw/people.owl o Instancia (URI):

o Atributo (Etiqueta): Nombre

o Clave (Booleano):

Lainformación derellenocontieneinformaciónsobreaquéontologíaperteneceel conceptoqueserellenará,cualeselatributoafectadoytambiénesposibleindicarla instancia concreta que se rellena. El valor de ‘Clave’ indica si el atributo rellenado identifica a la instancia. Esto se usa para decidir si se crea una instancia nueva o se rellenaninstanciasexistentes.

3.4.2.2. Memoria Temporal de Contexto para la Resolución de Ambigüedades

Laentradaalpropioprocesodeinserciónesunahipótesisresultantedelprocesode identificacióndeinformación.Estahipótesisestáformadapordocumentos,relacionesy piezas asociadas a datos encontrados en las fuentes. La tarea del módulo de relleno es tomar todos los candidatos de la hipótesis y rellenarlos según la información contenida en los atributos de ‘Inserción’. La cardinalidad de este atributo en la ontología de adquisicionesesmúltiple,conlocualcadapiezapuedetenermásdeunaacciónde inserción asociada. La mayoría de los casos el atributo ‘Instancia’ no contiene datos sobre la instancia que debe rellenarse y es el propio proceso de relleno que debe identificar de queinstanciaexistentesetrataotomarladecisióndecrearunainstancianueva.

Paralaresolucióndeambigüedadessobrequeinstanciadeberellenarelsistemacontara con una memoria cache, que realiza las funciones de contexto en el proceso de relleno. Cuando una instancia se ve afectada por una acción de relleno (creación o modificación), sealmacenaráunamarcatemporalqueindicacuantoderecientefueestamodificación. Lasambigüedadesquepuedensurgiradecidirqueinstanciadeberellenarseseresuelven tomando la instancia más reciente de la memoria caché que no implique una modificación dealgúnvalorexistente.

Una hipótesis simplificada que contiene datos sobre el nombre de una persona y un valor delnúmerodedocumentosquehaescrito.

[Figura 16] Hipótesis para el relleno de datos de population de documentos de Gerson Elprocesoderellenotomalosatributosmercadoscomoclavesyrealizalasoperaciones de inserción, que en este caso comprueba si existe alguna instancia del concepto “Persona” con nombre igual a “Gerson”. Si no existe se crea una nueva instancia y se marcaenlamemoriacachecomorecientementemodificada.

Seguidamenteelprocesoderellenotomaaquelloscandidatosquetieneinformaciónde inserción rellena y marcada como clave para realizar el relleno complementario. En este paso se procede a rellenar el atributo de “Número de documentos” del concepto “Persona”.Paraellossebuscanlasinstanciasdeconcepto“Persona”quenotengael atributo de Número de documentos relleno a un valor distinto y se ordena según la

IN ROW

Gerson

PIEZA: Nombre de la Persona

INSERCIÓN: Concepto: Persona,

Atributo: Nombre, Clave: Sí

Population:

PIEZA: Número de documentos escritos

por la persona”

INSERCIÓN:‐‐no tiene ‐‐

PIEZA: Número de documentos escritos

por la persona”

INSERCIÓN: Concepto Persona,

Atributo: Número de documentos,

Clave: No Documento: descripción de un país

Si no hubiese ningún candidato, se ejecuta la operación de creación de una nueva instancia.

3.4.3. Simulación

El módulo de identificación de información proporciona una serie de conjuntos de hipótesis.Deestamanerasiunaestrategiaconstruyeunconjuntodehipótesisporcada documentoidentificado,elmóduloderellenodelaontologíarecibemásdeunahipótesis para el relleno de los datos de ese documento. El módulo de identificación evalúa las hipótesis de acuerdo a su plausibilidad e información que aportan, con lo cual el módulo derellenopuedetomarlamejordeellas.Laevaluacióndelmodulodeidentificaciónse realiza de acuerdo a las restricciones sobre los datos y a la cantidad de información disponible, sin tener en cuenta el impacto que un inserción podría tener en la ontología de dominio.Podríadarseelcasoquelahipótesismejorvaloradaencuantoarestricciones impuestasintroduzcaunagrancantidaddeinconsistenciaenlaontologíaobligandoa realizar operaciones de borrado o modificación de valores existentes.

El módulo de relleno realizara simulaciones de las inserciones de las hipótesis para completarlaevaluaciónrealizadaporelmóduloanterior.Enestasimulaciónsemide:

• Númerodemodificacionesrealizadasenlaontologíadeldominio.

• Número de creaciones de instancias

• Franja temporal máxima usada en la memoria caché

• Tiempo global de cada simulación

Elobjetivodelassimulacionesescalcularlocostosoqueresultainsertarinstanciasenla ontología de dominio en términos de creación de nuevas instancias o modificación de las existentes. Partimos del supuesto que la información encontrada no tiende a contradecir la información yaalmacenada y se premia a aquellas hipótesis que no introducen inconsistencias. Esta medida permite enriquecer la información de evaluación proporcionada por el módulo anterior y reordenar las hipótesis.

4. Propuesta de Implementación de Arquitectura

EnelparadigmadelaWebSemánticaelcontenidoseanotadeacuerdoaontologías, obteniendo o bien documentos extendidos con marcas semánticas o bien contenido semántico, ambos ligados a instancias de ontologías. Estas instancias de las ontologías, ya estánalmacenadasenbasesdedatos,ficherosoesténdistribuidosjuntoconelcontenido existente,aportanpocovalorañadidosinoseexplotasuaspectoformalyconsensuado en beneficio de alguna aplicación concreta. De acuerdo a la evolución de los modelos de uso apuntada por la comunidad de la Web Semántica y comentada en este trabajo, los sistemasdegestióndocumentalconstituyenunodelosprimeroshitos1acortoplazo. Enestecapítulosepresentaunposibleusodelcontenidosemánticoysedivideendos partes, la primera titulada Gestión y Búsqueda de Información Semántica que describirá unsistemagenéricodepublicacióndedatossemánticosatravésdeunportalWebque permitevisualizarlosdatosadquiridosporelsistemapropuesto.Enlasegundaparte tituladaPortalSemánticoseaplicaelsistemadepublicaciónacualquierdominio.Se mostraran algunos ejemplos de uso de ambos sistemas, el de adquisición y el de publicación,completandoasíelposibleciclodevidadelosdatossemánticos,desdesu creaciónhastasuuso.

4.1.Gestión y Búsqueda de Información Semántica

La gestión y recuperación de información es el hito más cercano de la tecnología de la WebSemántica.Lainformaciónestructuradaofrecegrandesposibilidadesrespectoalas búsquedastradicionalesbasadasenpalabrasclave.

In document Buscadores semánticos para la gestión del conocimiento (página 189-193)