OWL 3 , los dos estándares que ayudan a convertir la Web en una infraestructura global en la que es posible compartir y reutilizar datos y documentos entre diferentes tipos de
3. Propuesta de una arquitectura de adquisición
3.3. Modulo de identificación de información
3.3.3. Hipótesis
Las hipótesis son estructuras de datos resultantes de la fase de identificación que albergan la información sobre la asignación de distintas partes de los documentos fuentes con piezas de información esperadas y descritas en la ontología de adquisición. Como efecto de la existencia de restricciones sobre las piezas de información esperadas (su tipo de
datos, relaciones entre ellas, cardinalidad, etc.) se puedan considerar varias configuraciones de asignación de partes de las fuentes a piezas de información. Estas configuraciones se reflejan en las hipótesis resultantes del modulo de identificación.
Ejemplo:
La ontología de adquisición describe un documento típico de los Portales de los bancos. La página de posición global agrega las cuentas de usuario, mostrando el balance de cada una de ellas. En un modo simplificado y dado que se trata de un documento altamente estructurado, la posible formalización de este documento constaría de los siguientes elementos:
• Documento que alberga las distintas piezas.
• Número de cuenta con una estructura muy bien definida en una expresión regular.
• Descripción de la cuenta considerada una cadena alfanumérica.
• Saldo de la cuenta en formato de cantidad monetaria.
• Dos relaciones de aspecto (IN ROW) que sitúan las tres piezas en una misma línea visual.
[Figura 14] Ejemplo de uso de la ontología de adquisición para un documento de posición global en la Web de un banco (simplificado).
Relación en Línea IN ROW
IN ROW
Reg Exp: [D]4‐[D]2‐[D]8
String
REG Exp: [D]*. [D][D] + PESOS Documento: Página de Posición Global en el Banco
TIPO: Expresión Regular
TIPO: Expresión Regular
PIEZA: Saldo Cuenta
TIPO: Expresión Regular PIEZA: Numero de cuenta PIEZA: Nombre de cuenta RELACION: Pertenece a Documento (1:50) RELACION: Pertenece a Documento (1:50) RELACION: Pertenece a Documento (1:50)
Las distintas estrategias invocarán operadores para asignar candidatos a las tres piezas presentes en el modelo. Según qué estrategia, primero se invocaran operadores de recuperación de información ó operadores de comprobación de las relaciones. Las estrategias generan más de una hipótesis si la cardinalidad de una pieza es mayor que uno. Si se recuperan N candidatos para una pieza con cardinalidad M hay que poder generar hipótesis sobre que candidatos tomar en cuenta. Ya se ha visto anteriormente que alguna hipótesis se puede desechar si alguna condición crítica no se cumple (por ejemplo: la relación EN LINEA es obligatoria).
….. ….. ……
[Figura 15] Una hipótesis como propuesta de asignación de candidatos a piezas de información El número de hipótesis depende de la estrategia ejecutada. De esta manera, la estrategia fuerza bruta aplica heurísticas para generar a lo suma una única hipótesis, mientras una estrategia de búsqueda con retroceso pura (sin ninguna heurística) puede generar millones de hipótesis.
3.3.3.1. Evaluación de las Hipótesis
Con el fin de obtener un relleno correcto de los datos en la ontología de dominio es necesario poder seleccionar una única hipótesis. Se requiere el establecimiento de un mecanismo de evaluación con el fin de poder establecer un orden entre ellas. Algunas
IN ROW IN ROW IN ROW IN ROW IN ROW IN ROW PIEZA: Numero de cuenta CANDIDATOS PIEZA: NOMBRE de cuenta PIEZA: Saldo Cuenta RELACION: Perteneciente a documento (1:50) RELACION: Perteneciente a documento (1:50) RELACION: Perteneciente a documento (1:50)
estrategias como la búsqueda con retroceso óptima, hacen uso de las evaluaciones para realizar podas en el árbol de búsqueda de la solución. Esto es posible solamente si el mecanismo de evaluación incluye una función de estimación que permita calcular el posible futuro valor de la hipótesis aunque ésta no esté completamente construida. La función de evaluación está concebida conceptualmente como una función de costo, cuanto más alto valor devuelve, menos plausible es la hipótesis que evalúa.
1 2
( ) ( , , ) ( , , )
Evaluar H Evaluar H Estimar H
La formula expresa de manera conceptual como se calcula el valor de una hipótesis H, construida parcialmente y que consta de dos partes:
• H1: Parte construida de la hipótesis:
o Piezas de información con candidatos
o Relaciones comprobadas o Documentos recuperados
• H2: Parte que queda por construir de la hipótesis
o Piezas sin candidatos o Relaciones sin comprobar o Documentos que puedan surgir
Las funciones y se definen como:
: Función que expresa en grado de incumplimiento de la hipótesis con las restricciones opcionales en la ontología de adquisición. La ontología de adquisición contiene relaciones marcadas como opcionales (documento puede contener una pieza, dos piezas pueden estar en línea, etc.) y su incumplimiento aumenta el valor devuelto por esta función.
: Función que expresa el beneficio de la hipótesis. Cuantas más piezas, relaciones o documentos aporta la hipótesis mayor es su beneficio y disminuye su costo total. Esta función se usa para evitar que las hipótesis vacías o con poca información se sitúen como las más plausibles por no incumplir ninguna directiva de la ontología de adquisición. Existen varias maneras de combinar los valores de las dos funciones de evaluación, aunque las más inmediatas y fáciles de implementar son:
• : Suma de la función de incumplimiento con el valor negativo de la función de beneficio.
• : Expresa en grado de incumplimiento en proporción a la información
La función de evaluación tiene un doble objetivo: permitir a las estrategias implementar heurísticas basadas en la función de costo y estimación (podas, priorización, etc.) y por otra parte permite ordenar las hipótesis para ser rellenadas en la ontología de dominio. La mejor hipótesis será aquella que mejor evaluada salga del módulo de identificación y menos inconsistencias genere en el modelo. La evolución de las posibles inconsistencias introducidas se explica en la sección siguiente.