Tipos de datos - Ontología de Adquisición

OWL 3 , los dos estándares que ayudan a convertir la Web en una infraestructura global en la que es posible compartir y reutilizar datos y documentos entre diferentes tipos de

3. Propuesta de una arquitectura de adquisición

3.3. Modulo de identificación de información

3.3.1. Ontología de Adquisición

3.3.1.4. Tipos de datos

La jerarquía de los tipos de datos abarca tipos básicos como cadenas, números o elementos que se puedan encontrar en documentos HTML.

[Figura 12] Jerarquía de los tipos de datos Los valores de las piezas pueden ser de los siguientes tipos:

Cadena

Representaunasucesióndecaracteresalfanuméricos.Tienelasiguientelistadeatributos:

• nombre:nombredeltipodedatos.

• expresión regular: Expresión regular que define el lenguaje de los valores.

Número

Representaunvalornumérico.Tienelossiguientesatributos:

• nombre:nombredeltipodedatos.

• expresión regular: Expresión regular que define el lenguaje de los valores

• operadores: operadores de restricciones, positivo, entero, etc.)

Significado

Expresaenvalorsemánticodeundato.Dadaunainterpretacióndelenguajenaturales posible determinar a nivel de sintagma o nivel de palabra qué significado tiene asociado.

De acuerdo diccionarios o léxicos usados es posible restringir su dominio en unos pocos significados.PorejemplosiusamosWordNet[Miller95]podemosdeterminarelsynset

queesperamos obtener,pudiendo ademásdescribirsi admitimos los sinónimos del mismo. Los atributos que tienen son:

• nombre: nombre del tipo de datos.

• expresión regular: Expresiónregularquedefineellenguajedelosvalores.

• Significado:significadosemántico(synset).

• operadores: operadores de restricciones.

3.3.1.5. Operadores

Lasdistintasestrategiaspropuestasparalaimplementaciónenelmódulodeidentificación de información modificaran el orden de ejecución de los operadores sobre los modelos de documentos. Los operadores son piezas de software que realizan las tareas de recuperación, navegaciónocomprobaciónsobrelasinterpretaciones dedocumentos disponiblesysonllamadasporelmódulodeidentificacióndeinformacióndeacuerdoala estrategia de información.

Los operadores se clasifican de la siguiente manera:

• Operadoresdealtonivel:encargadosdeejecutarunaestrategiaenparticular

(ordenando la ejecución de operadores de bajo nivel), provisión de nuevos documentos en modelos procesables o construcción de nuevas hipótesis.

• Operadores de bajo nivel: encargados de operaciones primitivas sobre las fuentes y la información extraída. Cada uno de estos operadores actúa sobre una determinadainterpretacióndedocumentos.Deestamaneralaprovisióndeun determinado modelo se convierte en precondición del operador (Ejemplo: no es posible ejecutar el operador de identificación de nombres propios si no se ha proveídoelmodelodelenguajesobreunafuente).Estosoperadoresasuvezse clasifican según su propósito:

o Operadores de recuperación de información (Retrieve): Piezas de software

capaces de localizar información dentro de una interpretación determinada.

o Operadores de validación (Check): Operadores capaces de verificar una

propiedad impuesta (que la información sea del tipo número entero positivo,quetengaunsignificadoX,etc.).

o Operadores de ejecución y navegación: (Execute). Operadores de manejo

defuentes,talescomolanavegación porundocumentohipertextual, localizacióndedocumentosporsuURL,etc.

La ejecución de los operadores de recuperación tiene por objeto localizar una cierta información esperada en el documento fuente. Aunque esta pieza tiene impuestas condicionesdevalidez(porejemplo:paraposiblesedadesdepersonas:númeroentero positivo,comprendidoenelrangode0a120),sonvariaslasposibilidades quese encuentran dentro de un mismo documento. Es por ello que el presente sistema que se pretende proponer construya una hipótesis que forman las distintas posibilidades de asignacióndepartesdelafuenteapiezasdeinformaciónesperadas.

Seclasificansegúnsuefectoenlassiguientesclases:

Operadores de Recuperación

Estaclasedeoperadorestomaelmodelodeldocumentofuenteyobtieneunconjuntode piezasdeinformaciónqueseajustaaladescripcióndadaporlaontologíadeadquisición. Ejemplos:

• Listar Nombres Propios: Operador que trabaja sobre el modelo de lenguaje y

recuperatodasaquellaspiezasdeinformaciónquepudiesenconstituirunnombre propio.Necesitadelmodelodelenguajeparapoderejecutarse.

• Lista Enlaces HTML: Operador que devuelve una lista de enlaces que que

pertenecen a un documento hipertexto.

• Lista por Expresión Regular:Operadorquedevuelvetodaslaspiezasqueencajan conunaexpresiónregulardada.

Operadores de Ejecución

Los operadores de ejecución permiten realizar tareas de manipulación de documentos onlinetalescomonavegaciónentredocumentos,interpretacióndecódigoembebidoo cargadeundocumentoparaserprocesadoporalgunosdelosmodelos.Lamayoríade ellos tienen como precondición la disponibilidad de la interpretación de la fuente DOM para tener formalizado los distintos objetos HTML.

• Ejecutar Enlace HTML: Encontrada una pieza del tipo: Enlace HTML (HTML Link) el operador navega hasta la página apuntada.

• ProveerPágina:Descargarunapáginaparasuprocesamientoporlosdistintos

modelos.

• Ejecutar Formulario: Encontrado un formulario, se ejecuta.

OperadoresdeComprobación

Operadores de comprobación toman piezas proporcionadas por los operadores de recuperación y comprueban si cumplen las restricciones impuestas. Estas restricciones puedensersobresuvalor,sobresutipoosobrelasrelacionesqueexistenentrevarias piezas.

Ejemplos:

• Es un número entero: Determina si un número hallado es entero.

• Pertenece número rango:Determinasielvalordelnúmeroperteneceaunrango dado.

• Existe Pieza en dominio: Determina si una pieza está en la ontología de dominio.

• Es Enlace HTML: Devuelve cierto si la pieza es un enlace HTML.

• Es Nombre Propio:Devuelvecierto siesunnombrepropio.

• EstánlaPiezaAenLíneaconB:Compruebalascoordenadasdedospiezaspara ver si están en la misma línea visual.

• Está A a la derecha de B: Comprueba las coordenadas de dos piezas para ver si una estáaladerechadelaotra.

3.3.2. Estrategias

Como se ha comentado anteriormente son las estrategias que construyen dinámicamente lassecuenciasdelosoperadoresconelobjetivodeelaborarlashipótesisparaelrelleno. Elalgoritmoprincipaldeejecucióndeestrategiasserealizaenunbucledetrespasos:

Algoritmo principal del módulo de identificación: MI ENTRAS queden deci si ones por t omar REPETI R:

1. Tomar una deci si ón est r at égi ca.

2. Ej ecut ar l a deci si ón t omada.

FI N de Bucl e

Elobjetivodeestealgoritmoesconstruirunconjuntodehipótesisquerelacionespiezas deinformaciónconpartesdeltextofuenteparaéstaspuedenpasaralafasefinalde relleno. Todo el espacio de búsqueda definido por la ontología de adquisición dará lugar a varios conjuntos de hipótesis. En cada conjunto las hipótesis compiten entre sí y forman alternativas para el relleno de piezas. Normalmente cada conjunto de hipótesis correspondeaundocumentodentrode laredde documentos, aunqueno esuna restricción del sistema. Como se verá una hipótesis consiste en una asignación de candidatos formados por partes de fuentes extraídas de las fuentes a piezas de informacióndefinidasenlaontologíadeadquisición.

Dependiendodelaestrategiaejecutadaelsistemageneraráunasolaovariashipótesis. Las estrategias actúan sobre el paso primero de toma de decisiones. Las decisiones que se pueden tomar son:

• Recuperarunapieza:Decisiónderecuperarunadeterminadapiezamediante

operadoresderecuperación.Losoperadorestomocomoentradaladescripciónde la pieza de la ontología de adquisición y recuperan todos aquellos fragmentos de la fuentequecumplanconlascondicionesimpuestasporlapieza,esdecir:tipode dato,restricciónsobrevalores,propiedadeslingüísticas,etc.Elresultadodeesta operación es un conjunto de candidatos para ocupar la pieza descrita. Esta operación genera la parición de nuevas hipótesis para una parte del espacio de búsqueda,yaquemuchasvecesennúmerodecandidatosparaunapiezasuperala cardinalidadmáximapermitidadelamisma.

• Recuperar un documento: Decisión de recuperar un documento completo de la

fuente. El operador carga el documento en memoria, pero sin aplicarle ninguna interpretaciónaldocumentoenconcreto.Lasinterpretacionesdefuentesseirán generandosegúnsurjanlasnecesidadesdelosoperadoresderecuperación.

• Recuperar una relación: Decisión de comprobar una relación enunciada en la

ontología de adquisición. Las relaciones, según se definen en la ontología de adquisiciónpuedenserdedosclases:deaspecto(posicionesespacialesrelativas entre piezas) o de significado (relaciones semánticas identificadas como dependencias en el modelo del lenguaje).

• Insertar hipótesis:Encuantoseconstruyeunconjuntode hipótesisparaun

subconjuntodepiezasestassepasanalafasederelleno.Lasdistintasalternativas son evaluadas y solamente se selecciona la más plausible de todas ellas.

La manera de integrar una estrategia en módulo de identificación de información consiste engenerarpartesdisjuntasdelaontologíadeadquisiciónyusarlaestrategiaparagenerar

un conjunto de hipótesis para cada una de estas partes. El conjunto de hipótesis correspondiente a cada parte se evalúa y ordena de acuerdo a su plausibilidad y aportacióndeinformaciónyseentregaalsiguientemóduloquerellenalaontologíade dominio.

In document Buscadores semánticos para la gestión del conocimiento (página 174-180)