2 Estado de la Cuestión
3.4 Motor de Recuperación y Transformación de Datos
La tarea final de recuperar y transformar los datos antes de presentárselos al usuario para su posterior análisis, se lleva a cabo automáticamente. Para ello, la información sobre inconsistencias se ha de haber almacenado adecuadamente en las ontologías correspondientes, y se ha de haber ejecutado la unificación de los esquemas virtuales. El enfoque distribuido de la solución propuesta es posible gracias a que las ontologías de preprocesamiento y los esquemas virtuales, dirigen tanto la integración de esquemas e instancias, como el preprocesamiento de datos, manteniendo el acceso a las fuentes originales de datos cada vez que se ejecuta una consulta.
En la Figura 34 se describen en detalle los elementos y procesos que intervienen en la transformación final de los datos previo a la presentación al usuario.
92
Figura 34. Motor de recuperación de datos para la integración de esquemas e instancias
Supongamos que un usuario desea recuperar datos contenidos en los repositorios BD1, BD2, … , BDn de forma unificada. Con la solución propuesta se puede navegar
intuitivamente por el modelo conceptual del esquema unificado EVUα, creando
automáticamente una consulta conceptual CVUα, por lo que no es necesario que el
usuario tenga conocimiento de la estructura física de las bases de datos. Esta consulta sólo se refiere a entidades, atributos y relaciones pertenecientes al modelo conceptual
Transformación automática de datos basada en ontologías de preprocesamiento EVU1 EV1.1 Resultados Minería de Datos BD2 BDn EVUα Ontología de preprocesamiento Ontología representando un Esquema Virtual Unificado n.m 2.2 BD1 Integración basada en ontologías de bases de datos heterogéneas RVUα CVUα RVU1 CVU1 RV1.1 CV1.1 RV2.1 CV2.1 RV2.2 CV2.1 RVn.m CVn.m RF1.1 CF1.1 RF2.1 CF2.1 RF2.2 CF2.2 RFn.m CFn.m
CFn.m – Consulta Física del Esquema Virtual de
Primer nivel n.m a la Base de datos n RFn.m – Respuesta Física de la Base de Datos n al
Esquema Virtual de Primer nivel n.m CVn.m – Consulta al Esquema Virtual n.m
RVn.m – Respuesta del Esquema Virtual n.m
CVUα – Consulta al Esquema Virtual Unificado α
RVUα – Respuesta del Esquema Virtual Unificado α
EV2.1 EV2.2 EVn.m Ontología representando un Esquema Virtual EVn.m EVUα Leyenda 2.1 1.1 n.m
93
EVUα. El motor de recuperación de datos procesa automáticamente esta consulta y la
divide en consultas pertenecientes al siguiente nivel, que pueden ser esquemas virtuales unificados, que a su vez dividirán esta consulta recursivamente. Hasta llegar a las consultas de esquemas virtuales de primer nivel CV1.1, CV1.2, … , CVn.m, sobre EV1.1,
EV1.2, … , EVn.m. Una vez que se ha alcanzado el nivel más bajo de la jerarquía, la
información de “mapping” entre los esquemas virtuales de primer nivel y las bases de datos físicas, se utiliza para construir las consultas físicas CF1.1, CF1.2, … , CFn.m sobre
las fuentes BD1, BD2, … , BDn en el lenguaje nativo de cada una de las bases de datos.
Los resultados de estas consultas, RF1.1, RF1.2, … , RFn.m, son instancias de las bases de
datos físicas, que se traducen basándose en la información de “mapping” de los EV1.1,
EV1.2, … , EVn.m a elementos de los esquemas virtuales. De forma análoga a la
unificación de datos, estos resultados RV1.1, RV1.2, … , RVn.m se combinan en RVU1, …
, RVUα. Que contienen instancias de los esquemas virtuales unificados y que satisfacen
la consulta inicial del usuario.
La transformación de instancias, tanto para su integración como para el preprocesamiento, que se describen en la sección 3.2.2.2, se lleva a cabo en el primer nivel sobre los datos que devuelven las bases de datos físicas. Esta transformación de los registros se realiza siguiendo las instrucciones almacenadas en la ontología de preprocesamiento asociada a cada esquema virtual primario. Pueden existir varios esquemas virtuales y varias ontologías de preprocesamiento enlazadas con la misma base de datos física, para poder ofrecer distintas vista de una misma fuente, ya sea unificada o no.
95
Capítulo
4
4
Resultados
4.1
Introducción
En este capítulo se describe tanto la implementación del método descrito, como el trabajo de experimentación que se ha llevado a cabo para demostrar la hipótesis planteada en este trabajo.
El uso de ontologías para la clasificación y el procesamiento de inconsistencias en las fases previas a la minería de datos mejora la calidad de los patrones obtenidos mediante un proceso de KDD distribuido.
Para verificar el modelo presentado en el capítulo de métodos, se ha implementado un programa informático que consta de dos módulos: (i) integración de esquemas y (ii) integración de instancias y preprocesamiento. Cada uno de ellos ha sido evaluado exhaustivamente por separado, mediante experimentos específicos descritos en este capítulo, y empleándose en diversos proyectos de investigación internacionales citados anteriormente.
Tras calcular el tamaño muestral mínimo en la sección 4.2 y describir las fuentes de datos empleadas en la sección 4.3, las secciones 4.4 y 4.5 respectivamente, describen la implementación y pruebas específicas de cada tipo de integración. La sección 4.7 muestra cómo se lleva a cabo la unificación de repositorios virtuales y ontologías de preprocesamiento, así como la recuperación unificada de la información contenida en
96
los dos bancos de prueba utilizados. Finalmente, la sección 4.8, expone los comentarios generales sobre los resultados obtenidos.
Una vez comprobado que el modelo integra y preprocesa las fuentes correctamente, en el siguiente capítulo se presenta la evaluación experimental del proceso completo de KDD con los resultados obtenidos mediante la solución propuesta. Se han utilizado dos bancos de pruebas, compuestos por varias fuentes, y apropiados para la aplicación de algoritmos de minería de datos.
Para cada una de las bases de datos que componen los bancos de prueba, se han llevado a cabo los siguientes pasos:
1. Análisis de su estructura y contenido
2. Generación del esquema virtual de primer nivel 3. Generación de una ontología de preprocesamiento
4. Unificación de los esquemas virtuales y ontologías de preprocesamiento 5. Recuperación de datos
6. Aplicación de algoritmos de minería de datos en el entorno WEKA
La ejecución de estos pasos ha de ser secuencial, sin embargo como ya se comentó en el capítulo anterior, de los últimos dos es posible volver a los anteriores para depurar el proceso. Para facilitar la presentación de los experimentos, se muestran sólo los resultados finales de cada fase, teniendo en cuenta que para su obtención se han ejecutado varios ciclos iterativos de refinamiento. En este capítulo, además de experimentos específicos con los que se ha probado la funcionalidad de cada fase, se describen las primeras cinco de las seis tareas enumeradas para cada uno de los dos bancos de prueba. El último paso se expone en el siguiente capítulo junto con la evaluación experimental del modelo y una comparativa de funcionalidad respecto a otros enfoques.