• No se han encontrado resultados

OWL 3 , los dos estándares que ayudan a convertir la Web en una infraestructura global en la que es posible compartir y reutilizar datos y documentos entre diferentes tipos de

3. Propuesta de una arquitectura de adquisición

3.3. Modulo de identificación de información

3.3.3. Hipótesis

Las hipótesis son estructuras de datos resultantes de la fase de identificación que albergan  la información sobre la asignación de distintas partes de los documentos fuentes con  piezas de información esperadas y descritas en la ontología de adquisición.  Como efecto  de la existencia de restricciones sobre las piezas de información esperadas (su tipo de 

 

 

datos,  relaciones  entre  ellas,  cardinalidad,  etc.)  se  puedan  considerar  varias  configuraciones de asignación de partes de las fuentes a piezas de información. Estas  configuraciones se reflejan en las hipótesis resultantes del modulo de identificación. 

Ejemplo: 

La ontología de adquisición describe un documento típico de los Portales de los bancos. La  página de posición global agrega las cuentas de usuario, mostrando el balance de cada  una de ellas. En un modo simplificado y dado que se trata de un documento altamente  estructurado, la posible formalización de este documento constaría de los siguientes  elementos: 

• Documento que alberga las distintas piezas. 

• Número de cuenta con una estructura muy bien definida en una expresión regular. 

• Descripción de la cuenta considerada una cadena alfanumérica. 

• Saldo de la cuenta en formato de cantidad monetaria. 

• Dos relaciones de aspecto (IN ROW) que sitúan las tres piezas en una misma línea  visual.                     

[Figura 14] Ejemplo de uso de la ontología de adquisición para un documento de posición global en la  Web de un banco (simplificado). 

 

Relación en Línea IN ROW

IN ROW

Reg Exp: [D]4‐[D]2‐[D]8 

String

REG Exp: [D]*. [D][D] + PESOS  Documento: Página de Posición Global en el  Banco

TIPO: Expresión Regular

TIPO: Expresión Regular

PIEZA: Saldo Cuenta

TIPO: Expresión Regular PIEZA: Numero de  cuenta  PIEZA: Nombre de  cuenta  RELACION: Pertenece a  Documento (1:50)  RELACION: Pertenece a  Documento (1:50)  RELACION: Pertenece a  Documento (1:50) 

 

 

Las distintas estrategias invocarán operadores para asignar candidatos a las tres piezas  presentes en el modelo. Según  qué estrategia, primero se invocaran operadores de  recuperación  de  información  ó  operadores  de  comprobación  de  las  relaciones.  Las  estrategias generan más de una hipótesis si la cardinalidad de una pieza es mayor que  uno. Si se recuperan N candidatos para una pieza con cardinalidad M hay que poder  generar hipótesis sobre que candidatos tomar en cuenta. Ya se ha visto anteriormente  que alguna hipótesis se puede desechar si alguna condición crítica no se cumple (por  ejemplo: la relación EN LINEA es obligatoria). 

             …..             …..                  ……          

[Figura 15] Una hipótesis como propuesta de asignación de candidatos a piezas de información  El número de hipótesis depende de la estrategia ejecutada. De esta manera, la estrategia  fuerza bruta aplica heurísticas para generar a lo suma una única hipótesis, mientras una  estrategia  de  búsqueda  con  retroceso  pura  (sin  ninguna  heurística)  puede  generar  millones de hipótesis. 

3.3.3.1. Evaluación de las Hipótesis 

Con el fin de obtener un relleno correcto de los datos en la ontología de dominio es  necesario poder seleccionar una única hipótesis.   Se requiere el establecimiento de un  mecanismo de evaluación con el fin de poder establecer un orden entre ellas. Algunas 

IN ROW IN ROW IN ROW  IN ROW IN ROW  IN ROW PIEZA: Numero de  cuenta  CANDIDATOS PIEZA: NOMBRE de  cuenta  PIEZA: Saldo  Cuenta  RELACION:  Perteneciente a  documento (1:50)  RELACION:  Perteneciente a  documento (1:50)  RELACION:  Perteneciente a  documento (1:50) 

 

 

estrategias como la búsqueda con retroceso óptima, hacen uso de las evaluaciones para  realizar podas en el árbol de búsqueda de la solución. Esto es posible solamente si el  mecanismo de evaluación incluye una función de estimación que permita calcular el  posible futuro valor de la hipótesis aunque ésta no esté completamente construida. La  función de evaluación está concebida conceptualmente como una función de costo,   cuanto más alto valor devuelve, menos plausible es la hipótesis que evalúa. 

1 2

( ) ( , , ) ( , , )

Evaluar HEvaluar H   Estimar H    

La formula expresa de manera conceptual como se calcula el valor de una hipótesis H,  construida parcialmente y que consta de dos partes: 

H1: Parte construida de la hipótesis: 

o Piezas de información con candidatos 

o Relaciones comprobadas  o Documentos recuperados 

H2: Parte que queda por construir de la hipótesis 

o Piezas sin candidatos  o Relaciones sin comprobar  o Documentos que puedan surgir 

Las funciones  y se definen como: 

 : Función que expresa en grado de incumplimiento de la hipótesis con las restricciones  opcionales en la ontología de adquisición. La ontología de adquisición contiene relaciones  marcadas como opcionales (documento puede contener una pieza, dos piezas pueden  estar en línea, etc.) y su incumplimiento aumenta el valor devuelto por esta función. 

: Función que expresa el beneficio de la hipótesis. Cuantas más piezas, relaciones o  documentos aporta la hipótesis mayor es su beneficio y disminuye su costo total. Esta  función se usa para evitar que las hipótesis vacías o con poca información se sitúen como  las más plausibles por no incumplir ninguna directiva de la ontología de adquisición.  Existen varias maneras de combinar los valores de las dos funciones de evaluación,  aunque las más inmediatas y fáciles de implementar son: 

•   : Suma de la función de incumplimiento con el valor negativo de la función  de beneficio. 

•  :  Expresa  en  grado  de  incumplimiento  en  proporción  a  la  información 

 

 

La función de evaluación tiene un doble objetivo: permitir a las estrategias implementar  heurísticas basadas en la función de costo y estimación (podas, priorización, etc.) y por  otra parte permite ordenar las hipótesis para ser rellenadas en la ontología de dominio. La  mejor hipótesis será aquella que mejor evaluada salga del módulo de identificación y  menos inconsistencias  genere en el modelo. La evolución de las posibles inconsistencias  introducidas se explica en la sección siguiente.