Extracción de metadata extensional a partir de técnicas de minería de datos - proyecto Aribec

Texto completo

(1)EXTRACCIÓN DE METADATA EXTENSIONAL A PARTIR DE TÉCNICAS DE MINERÍA DE DATOS PROYECTO ARIBEC. Diego Andrés Ardila Álvarez – Natalia Valencia Lesmes. Asesor: José Eusebio Abásolo Prieto Profesor Asociado. UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN BOGOTÁ D.C. ENERO 2009.

(2) CONTENIDOS. Lista de tablas y figuras ................................................................................................................................ 4 Figuras ............................................................................................................................................................ 4. I.. Ilustraciones ................................................................................................................................................. 4 Tablas .............................................................................................................................................................. 4 Introducción ............................................................................................................................................. 6. II. Contenido informe ................................................................................................................................. 7 III.. Objetivos del proyecto ..................................................................................................................... 8. Objetivo general .......................................................................................................................................... 8 Objetivos específicos ................................................................................................................................. 8. IV.. Marco teórico ...................................................................................................................................... 9. Ontologías...................................................................................................................................................... 9 Knowledge discovery .............................................................................................................................. 10. V.. Data mining................................................................................................................................................. 11. VI.. VII.. Técnicas ................................................................................................................................................... 12. ARIBEC ..................................................................................................................................................... 15 Caracterización del problema ..................................................................................................... 20 Propuesta de solución: OBME ..................................................................................................... 23. Ontologías.................................................................................................................................................... 24 Sobre la creación de las ontologías ............................................................................................... 25. Data extractor ............................................................................................................................................ 27 Resumen .................................................................................................................................................. 27. Data cleaner ................................................................................................................................................ 28 Resumen .................................................................................................................................................. 30. Task chooser y data mining ontology ............................................................................................... 31 Resumen .................................................................................................................................................. 32. Data transformer ...................................................................................................................................... 33 Resumen .................................................................................................................................................. 34. Data mining processor ........................................................................................................................... 35 Clustering ................................................................................................................................................ 36 Árboles de decisión ............................................................................................................................. 36 Reglas de asociación ........................................................................................................................... 36 [1].

(3) Medidas de similitud........................................................................................................................... 37. Presentation & rule edition .................................................................................................................. 40 Resumen .................................................................................................................................................. 42. Knowledge builder ................................................................................................................................... 42 Resumen .................................................................................................................................................. 43. VIII. Aproximación al proceso de construcción de OBME ......................................................... 44 IX.. Caso de estudio: segmentación de fuentes a partir de historías clínicas. .................. 47. Entendimiento del negocio ................................................................................................................... 48 Objetivos de negocio y criterios de éxito .................................................................................... 48 Evaluar situación inicial de negocio.............................................................................................. 48 Objetivos de minería ........................................................................................................................... 51 Generación de plan de proyecto ..................................................................................................... 52. Entendimiento de datos ......................................................................................................................... 53 Recolección de datos........................................................................................................................... 53 Descripción de datos........................................................................................................................... 54 Exploración y verificación de calidad de datos ........................................................................ 55. Preparación de datos .............................................................................................................................. 58 Selección de datos ................................................................................................................................ 58 Limpieza de datos ................................................................................................................................ 62 Construcción e integración de datos ............................................................................................ 63. Modelamiento ............................................................................................................................................ 66 Selección técnica de modelamiento .............................................................................................. 66 Diseño de pruebas y construcción del modelo ......................................................................... 67 Evaluación del modelo ....................................................................................................................... 69. Evaluación ................................................................................................................................................... 72 Evaluación de resultados .................................................................................................................. 72 Revisión del proceso ........................................................................................................................... 72 Determinar próximos pasos ............................................................................................................ 72. Despliegue ................................................................................................................................................... 73 X.. XI.. Plan de despliegue ............................................................................................................................... 73 Evaluación del proyecto .................................................................................................................... 73 Conceptualización del caso .............................................................................................................. 75 Implementación de prototipo y reproducción del caso.................................................... 77 [2].

(4) Finalidad y alcance del prototipo ....................................................................................................... 77 Diseño del prototipo................................................................................................................................ 78 Resultados del prototipo ....................................................................................................................... 80. XII.. Conclusiones ...................................................................................................................................... 81. XV.. Referencias ......................................................................................................................................... 85. XIII.. Recomendaciones y trabajo futuro ........................................................................................... 82. XIV.. Glosario ................................................................................................................................................ 84. XVI.. Anexos .................................................................................................................................................. 89. I.. Plan de proyecto inicial caso de estudio ................................................................................. 90. II. Exploración de base de datos consolidada RIPs .................................................................. 91 III.. Muestra archivos RIPs ............................................................................................................... 93. Muestra archivo: hospitalizaciones2006.txt ............................................................................. 93 Muestra archivo: procedimientos2006.txt................................................................................. 93 Muestra archivo: medicamentos2006.txt ................................................................................... 93. IV. V.. Muestra archivo WEKA ............................................................................................................. 94. Modelos obtenidos .......................................................................................................................... 95. Modelos k - means ............................................................................................................................... 95 Farthest first........................................................................................................................................... 98. [3].

(5) LISTA DE TABLAS Y FIGURAS FIGURAS. Figura 1 Estructura del documento ......................................................................................................... 7 Figura 2 Esquematización general de lenguajes de web semántica ......................................... 10 Figura 3 Proceso de descubrimiento de conocimientos ................................................................ 11 Figura 4 Arquitectura ARIBEC ................................................................................................................. 15 Figura 5 Niveles de abstracción ARIBEC ............................................................................................. 16 Figura 6 Extracción de metadata extensional.................................................................................... 20 Figura 7 Extracción de metadata extensional a gran escala ........................................................ 21 Figura 8 Knowledge discovery guiado por ontologías ................................................................... 22 Figura 9 Arquitectura OBME .................................................................................................................... 23 Figura 10 Conocimiento involucrado en KD (Kuo, Lonie, Sonenberg, & Paizis, 2003) ..... 25 Figura 11 Problemas de calidad de datos (Rahm & Do, 1999) ................................................... 29 Figura 12 Ontología de minería de datos (Lin, Zhang, & Yu, 2006) .......................................... 32 Figura 13 Conceptualización de la etapa de pre-procesamiento ............................................... 34 Figura 14 Ontología de asignación de pesos ...................................................................................... 38 Figura 15 Transformación segmentos a perfiles .............................................................................. 42 Figura 16 Ciclo de implementación OBME ......................................................................................... 44 Figura 17 Proceso de evolución de ontologías .................................................................................. 45 Figura 18 Alternativa perfilamiento historias clínicas................................................................... 60 Figura 19 Hospitalización base ............................................................................................................... 62 Figura 20 Corrección del nombre del medicamento....................................................................... 63 Figura 21 Distribución de tamaños segmentación KM: S=5, N=3 .............................................. 68 Figura 22 Distribución de tamaños segmentación FF: S=5, N=3................................................ 69 Figura 23 Conceptualización de caso de estudio .............................................................................. 76 Figura 24 Diseño del prototipo ............................................................................................................... 79 Figura 25 Detalles diseño de prototipo ................................................................................................ 79 Figura 26 Proceso futuro OBME ............................................................................................................. 83 ILUSTRACIONES. Ilustración 1 Lenguaje y ontología ........................................................................................................... 9 Ilustración 2 Visualización en GGobit (Blaz & Demsar, 2008) .................................................... 40 Ilustración 3 Visualización KNIME (Blaz & Demsar, 2008).......................................................... 41 TABLAS. Tabla 1 Tipos de algoritmos usados en minería ............................................................................... 12 Tabla 2 Comparación entre técnicas de creación de bases de conocimiento........................ 26 Tabla 3 Resumen data extractor ............................................................................................................. 27 [4].

(6) Tabla 4 Ejemplos de problemas de integración de fuentes .......................................................... 28 Tabla 5 Resumen data cleaner ................................................................................................................. 30 Tabla 6 Resumen task chooser ................................................................................................................ 32 Tabla 7 Resumen data transformer ....................................................................................................... 34 Tabla 8 Resumen data mining processor ............................................................................................ 39 Tabla 9 Resumen presentation................................................................................................................ 42 Tabla 10 Resumen knowledge builder ................................................................................................. 43 Tabla 11 Conceptualización del proceso CRISP-DM ....................................................................... 46 Tabla 12 Glosario de negocio ................................................................................................................... 50 Tabla 13 Archivos de fuentes RIPs......................................................................................................... 53 Tabla 14 Archivos de soporte para construcción del modelo ..................................................... 54 Tabla 15 Campos hospitalización RIPs ................................................................................................. 54 Tabla 16 Campos procedimientos RIPs ............................................................................................... 54 Tabla 17 Campos medicamentos RIPs .................................................................................................. 55 Tabla 18 Campos archivo tabla_mapeo_cie_comorbilidad.xls..................................................... 55 Tabla 19 Campos archivo mapeo_generico_funcion.xls................................................................. 55 Tabla 20 Reporte calidad de datos base datos consolidada RIPs .............................................. 56 Tabla 21 Número de registros RIPs ....................................................................................................... 57 Tabla 22 Registros reportados fuentes seleccionadas ................................................................... 57 Tabla 23 Muestra número de ocurrencias por medicamento ..................................................... 58 Tabla 24 Ejemplos de limpieza de registros....................................................................................... 62 Tabla 25 Ejemplos mapeo diagnóstico - sistema comprometido .............................................. 64 Tabla 26 Ejemplos mapeo medicamento - función medicamento ............................................. 64 Tabla 27 Rango de edades ......................................................................................................................... 65 Tabla 28 Descripción de campos hospitalización derivada ......................................................... 65 Tabla 29 Ejemplo registro consolidado ............................................................................................... 66 Tabla 30 Algoritmos de clustering utilizados .................................................................................... 67 Tabla 31 Variación de parámetros ......................................................................................................... 67 Tabla 32 Detalle segmentación KM: S=5, N=3 ................................................................................... 68 Tabla 33 Detalle segmentación FF: S=5, N=3 ..................................................................................... 69 Tabla 34 Segmentación KM: S=10, N=2 ............................................................................................... 70 Tabla 35 Segmentación KM: S=10, N=3 ............................................................................................... 70 Tabla 36 Segmentación FF: S=10, N=3 ................................................................................................. 71 Tabla 37 Segmentación FF: S=10, N=4 ................................................................................................. 71 Tabla 38 Identificación de pasos clave ................................................................................................. 76 Tabla 39 Glosario .......................................................................................................................................... 84 Tabla 40 Exploración de datos tabla procedimiento - BD consolidada RIPs......................... 91 Tabla 41 Exploración de datos tabla hospitalización - BD consolidada RIPs ........................ 91. [5].

(7) I.. INTRODUCCIÓN. En un mundo cada vez más globalizado, las organizaciones virtuales (VO) nacen de la necesidad que tienen entidades autónomas de compartir recursos, siendo la información el más preciado. Caracterizadas por ser sistemas altamente distribuidos, heterogéneos y encargados de manejar grandes volúmenes de información, las VO requieren de mecanismos para coordinar eficientemente la búsqueda de información que provenga de uno o más de sus miembros (fuentes).. ARIBEC es un sistema que busca resolver dicha problemática involucrando no solo información que describa la estructura de las fuentes (metadata intencional) sino además, haciendo uso de la semántica de la información contenida en éstas (metadata extensional). Mientras que para la extracción de la metadata intencional se han considerado técnicas de mapeo e ingeniería reversa, la extracción de metadata extensional es un problema abierto en el que quedan preguntas por responder e incluso por formular.. Este proyecto constituye una primera aproximación a la conceptualización del problema y a la solución del mismo. En una propuesta donde converge la utilización de técnicas de minería de datos y el poder de expresividad de las ontologías, se propone una arquitectura que reúne los aportes e investigaciones que múltiples autores han adelantado al respecto. Se optó por el uso de minería de datos dado que esta área se ha destacado por marcar la diferencia entre tener grandes cantidades de datos y gran cantidad de información. Para caracterizar una fuente no basta con tener datos triviales o identificables a simple vista, resulta indispensable encontrar patrones ocultos que permitan determinar con mayor confianza cuándo una fuente contiene o no información relevante para responder a una consulta dada.. No obstante, múltiples complicaciones surgen de este acercamiento. La aplicación de técnicas de minerías de datos ha estado tradicionalmente caracterizada por seguir procesos manuales que requieren la intervención exhaustiva de expertos. Por su naturaleza dichos procesos no pueden ser reproducidos a gran escala, luego se hace necesario encontrar una alternativa que permita reducir al máximo la cantidad de tiempo y recursos invertidos en éstos. En este escenario aparecen las ontologías.. La solución propuesta busca capturar la información técnica y del dominio que, en otras circunstancias proveerían los expertos, en un modelo estructurado (ontologías) a fin de semi-automatizar el proceso de extracción de metadata. En otras palabras, explotando el potencial de las ontologías para expresar conocimiento se pretende viabilizar el proceso a gran escala. A continuación se presenta la estructura del documento. [6].

(8) II.. CONTENIDO INFORME. Grosso modo el informe está conformado por las cuatro partes mostradas en la Figura 1.. Comienza por un marco teórico que permite situarse en el contexto del tema a tratar. Se incluyen conceptos básicos de Ontologías, Knowledge Discovery, Data Mining y una visión amplia del proyecto ARIBEC. El entendimiento de lo que es ARIBEC a la fecha de elaboración de este documento y lo que se propone sea en un futuro son fundamentales puesto que constituyen el punto de partida del trabajo realizado.. Expuesto el marco teórico se presenta la caracterización del problema que se desea investigar y se plantea la propuesta de solución a desarrollar a lo largo del documento; dicha solución ha sido llamada OBME (Ontology Based Metadata Extractor). Arquitectura, descripción de componentes y aproximación al proceso de construcción son los temas abordados. Posteriormente, trazado el proceso de construcción, se continúa con los tres primeros pasos de dicho proceso con el propósito de iniciar la elaboración del módulo, materializar las ideas planteadas y evaluar la viabilidad de la solución propuesta. Como parte de la ejecución de tales pasos, se expone primero el caso de estudio realizado utilizando la metodología CRISP-DM en el contexto del sector salud.. En seguida se procede a la conceptualización del caso para luego describir el diseño de un prototipo que captura dicha conceptualización. Detalles de implementación del prototipo, restricciones del mismo y resultados obtenidos son presentados. Finalmente el documento se cierra con las conclusiones deducidas durante todo el proceso, recomendaciones sugeridas e ideas de lo que debería ser el trabajo futuro.. Cierre Aplicación Proceso Construcción Problemática. Marco Teórico. •Caracterización •Propuesta de Solución •Proceso de construcción de Solución. •Conclusiones •Recomendaciones •Trabajo Futuro. •Caso de Estudio •Conceptualización Caso •Implementación de Protitpo. •Conceptos Básicos •ARIBEC. FIGURA 1 ESTRUCTURA DEL DOCUMENTO. [7].

(9) III.. OBJETIVOS DEL PROYECTO OBJETIVO GENERAL. Investigar la utilización de técnicas de minería de datos para la extracción de metadata extensional que apoye el proceso de selección de fuentes en el contexto de las organizaciones virtuales. •. •. •. • • •. OBJETIVOS ESPECÍFICOS. Conceptualizar la problemática del proceso de extracción de metadata extensional con el propósito de filtrar fuentes.. Elaborar un estado del arte concerniente a la utilización de ontologías para guiar procesos de minería de datos y el uso de minería de datos para construir o poblar ontologías. Proponer una arquitectura para la extracción de metadata extensional en el marco del proyecto ARIBEC. Plantear el proceso a seguir para la construcción de dicha arquitectura.. Definir un modelo de metadata extensional para una entidad del sector salud.. Realizar una aproximación práctica, mediante un prototipo, al uso de técnicas de minerías de datos para extraer conocimiento a partir de fuentes en un dominio real.. [8].

(10) IV.. MARCO TEÓRICO. A continuación se realiza una introducción básica a los principales conceptos y áreas de estudio abordadas a lo largo del presente documento. El lector que disponga de nociones básicas en ontologías y minería de datos puede prescindir de la descripción realizada y pasar a la contextualización del proyecto ARIBEC, proyecto que da marco a la totalidad de este documento. ONTOLOGÍAS. Una ontología es definida en la literatura como una especificación formal y explícita de un conocimiento compartido en un dominio de interés (Calvanese, Giacomo, Lembo, Lenzerini, & Rosati, 2005). A diferencia de un modelo de datos ordinario, en el que las relaciones entre entidades se limitan a definir reglas para mantener la integridad de las mismas, una ontología captura información semántica del dominio de modo tal que logra pasar de la representación de datos a la representación de conocimiento. Al ser semántica la metadata consignada en una ontología, habla del contenido de los documentos, trascendiendo aspectos como el formato de los mismos (Davies, Rudi, & Warren, 2006). Las ontologías son utilizadas en múltiples dominios para la organización de conocimiento de una manera estructurada. Están compuestas por un conjunto de conceptos, un conjunto de relaciones que vinculan dichos conceptos y un conjunto de instancias que los particularizan. Más allá de la definición formal de ontología, que se puede encontrar en (Ehrig, Haas, Hefke, & Stojanovic, 2005), lo que es importante resaltar de éstas es que estructuran el conocimiento de forma que un computador puede razonar y sacar conclusiones, logros que no son directamente posibles bajo otros esquemas de organización de la información.. -. ILUSTRACIÓN 1 LENGUAJE Y ONTOLOGÍA 1. 1. Ilustración tomada de http://www.gettyimages.com/. [9].

(11) Sobre la construcción de ontologías, lo que cabe mencionar es que aunque a lo largo de los años se han propuesto diferentes representaciones para su construcción, el trabajo ha convergido al lenguaje OWL para la creación de los componentes de las ontologías que se basa en el lenguaje de modelamiento de datos RDF. Es de notar que estas dos tecnologías son usadas por ARIBEC. La Figura 2 muestra la esquematización realizada en este aspecto por (Grimm, Hitzler, & Abecke, 2007). Una comparación entre lenguajes ontológicos se encuentra en (Corcho, 2003).. FIGURA 2 ESQUEMATIZACIÓN GENERAL DE LENGUAJES DE WEB SEMÁNTICA. KNOWLEDGE DISCOVERY. Knowledge Discovery (KD) es un proceso que tiene como objetivo la extracción de información interesante (no trivial, implícita, previamente desconocida y potencialmente útil) a partir de grandes volúmenes de datos (Grobelnik & Mladenic, 2006).. Tradicionalmente el proceso comienza con la integración de los datos de entrada en caso de que se encuentren dispersos; a continuación se realiza el pre-procesamiento que dispone los datos para la ejecución de la minería que se realiza en seguida. Finalmente se realiza una etapa de pos-procesamiento en la cual se consigna el conocimiento resultante. Se debe resaltar el carácter cíclico o iterativo del proceso, que permite refinar los conocimientos adquiridos a medida que se avanza. [10].

(12) FIGURA 3 PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTOS. Que dichos conocimientos sean comprensibles para el usuario es una propiedad indispensable si se desea utilizarlos para apoyar la toma de decisiones ligadas al negocio; si el usuario se encuentra frente a una “caja negra” que no explica sus predicciones, éste podría no confiar en ellas. Una de las maneras más habituales para satisfacer esta propiedad es utilizar representaciones de alto nivel que sean fácilmente legibles para un ser humano, por ejemplo un esquema IF-THEN (Freitas, 2003): IF <la condición se satisface> THEN <predicción de algún valor para un atributo>. Entre las aplicaciones de KD, la que resulta relevante para el presente estudio es la construcción semi-automática de ontologías. Ésta se puede apoyar en la aplicación de diversas metodologías, en particular (Grimm, Hitzler, & Abecke, 2007) propone una metodología de construcción de ontologías análoga a la metodología CRISP-DM (la cual se discutirá más adelante), que consta de los siguientes pasos: 1. 2. 3. 4. 5. 6.. Entendimiento del dominio. Entendimiento de los datos. Definición de tareas. Poblamiento de ontología. Evaluación de ontología. Refinamiento con intervención humana.. DATA MINING. Data Mining (DM) es una técnica para extraer conocimiento a partir de grandes volúmenes de datos. Con la ayuda de herramientas de presentación y análisis, la información obtenida puede ser usada por expertos del negocio para predecir situaciones y/o comportamientos, segmentar clientes, determinar patrones y, en general, servir como apoyo a la toma de decisiones. Específicamente, entre los dominios de aplicación se encuentran (Data Mining Applications, 2004): sector bancario, bioinformática, mercadeo, detección de fraude, comercio electrónico, seguros, inversión, [11].

(13) manufactura, seguridad, telecomunicaciones, viajes, entre otras. Cada dominio puede ser dividido en múltiples subdominios que a su vez incluyen múltiples tareas. La gran mayoría de tareas corresponde a alguno de los siguientes tipos (Berry & Linoff, 2004): •. • •. • •. Clasificación: consiste en la evaluación de características de un nuevo objeto para ser asignado a un conjunto predefinido de clases. Estimación: busca estimar un valor desconocido a partir de un conjunto de variables conocidas. Predicción: intenta clasificar los datos de acuerdo a un comportamiento futuro estimado. Afinidad a grupo: consiste en determinar qué cosas van juntas. Segmentación (CLUSTERING ): se trata de dividir una población heterogénea en un conjunto de grupos o cúmulos homogéneos.. Para realizar cada tarea se dispone de diversas técnicas, las más destacadas son mencionadas a continuación. TÉCNICAS. Las técnicas utilizadas en minería datan de tiempo atrás, siendo frecuentemente algoritmos y técnicas estudiadas por más de 30 años cuyo origen es el campo denominado Machine Learning. Entre las más populares se encuentran los árboles de decisión, las redes neuronales, las reglas de asociación y los algoritmos genéticos (Sumathi & Sivanandam, 2006); una breve descripción de cada uno se muestra en la Tabla 1. TABLA 1 TIPOS DE ALGORITMOS USADOS EN MINERÍA. Algoritmo Redes neuronales artificiales Árboles de decisión Reglas de asociación Algoritmos genéticos. Descripción Son modelos de predicción no lineales que aprenden a través de entrenamiento Son estructuras en formal de árbol que generan reglas para clasificar conjuntos de datos Se trata de la extracción de reglas de la forma if-then con base en significancia estadística Consisten en técnicas de optimización basadas en conceptos genéticos. Además de las familias de algoritmos mencionadas, otra importante es la conformada por los algoritmos de segmentación o CLUSTERING, la cual será utilizada en el presente estudio, por lo que las nociones básicas de la misma serán descritas más ampliamente que las ya referenciadas. [12].

(14) CLUSTERING. El objetivo de un proceso de CLUSTERING es encontrar patrones existentes en los datos sin tener en cuenta alguna variable objetivo. Todas las variables tienen inicialmente el mismo grado de importancia a menos que se especifique lo contrario mediante la asignación de pesos particulares. Igualmente, no existe distinción entre variables dependientes e independientes. Al final del algoritmo cada cluster va a agrupar registros similares y va a intentar distanciarse de otros clusters con registros diferentes. De acuerdo a (Jain & Dubes, 1988) una tarea de CLUSTERING está compuesta por los siguientes pasos: 1. 2. 3. 4. 5.. Representación de patrones: extracción y selección de características. Definición de una medida de similitud. Agrupamiento o segmentación. Abstracción de datos (si se requiere). Evaluación de resultados (si se requiere).. Durante la etapa de extracción y selección de características es necesario tener en cuenta los tipos de datos involucrados: cuantitativos o cualitativos. Mientras que los datos cuantitativos pueden ser valores continuos, valores discretos y valores restringidos a intervalos, los datos cualitativos pueden ser nominales u ordinales. Puesto que no todos los tipos de variables son óptimos para la realización de clusters, las variables categóricas y los rangos deben ser transformados con el fin de poder ser utilizados (e.g. expresándolos como intervalos).. Por otra parte, cuando entran en juego diferentes unidades de medida, las variables no sólo deben ser transformadas sino también escaladas. La solución usual es realizar un mapeo de todas las variables implicadas a un rango común que permita su comparación directa (e.g. 0 -10, 0-1). En el segundo paso, a la hora de definir la medida de similitud, algunas variables pueden ser más importantes que otras y por ende deben tener más peso en el algoritmo. La noción de importancia depende del contexto y habitualmente se requiere de un experto en el dominio para determinar los pesos a fijar 2.. El agrupamiento se puede realizar utilizando diversos algoritmos cuyas generalidades se describirán posteriormente en esta sección. La descripción de los algoritmos que serán presentados fue tomada de (Berry & Linoff, 2004).. Para abstraer los datos, una alternativa es identificar los atributos más disímiles del cluster con respecto a los otros clusters, es decir aquellos que lo caracterizan; se puede por ejemplo calcular la media o la moda interna al cluster y compararla con la media o moda total. Otras alternativas, expuestas en (Jain, Murty, & P.J., Data Clustering: A Review, 2000), son: selección del centroide, identificación de puntos de frontera, 2. Se profundizará en el tema de medidas de similitud en la sección Medidas de similitud.. [13].

(15) conjunción de predicados y construcción de un árbol de decisión. Finalmente, para evaluar los resultados es posible comparar la distancia entre registros de un cluster con la distancia entre clusters (IBM, 2006). K-MEANS CLUSTERING. Este algoritmo y sus variantes es uno de los más populares y más ampliamente implementados en las aplicaciones de DM. Para iniciar el proceso de CLUSTERING se seleccionan K registros que serán llamados “semillas” porque a partir de éstos se construirán los K clusters resultantes. Cada registro se asignará a la semilla más cercana, i.e. la más similar. Cuando se tienen los K clusters, se caracteriza cada cluster utilizando su centroide para luego iniciar de nuevo el algoritmo. De esta manera, en cada iteración se recalculan los centroides y se afinan los clusters hasta el punto en que los límites de cada cluster se estabilicen. AGGLOMERATIVE CLUSTERING. Contrariamente a K-Means, este algoritmo no inicia con un número K fijo de clusters. Su objetivo es permitir que el usuario seleccione el nivel de granularidad deseado según el caso, por lo cual inicia realizando tantos clusters como registros existan y luego permite fusionarlos abstrayendo así las características representativas de cada cluster hasta llegar al número de clusters más indicado. Este algoritmo trabaja de manera inversa a los árboles de decisión, i.e. va subiendo de las hojas a la raíz. DIVISIVE CLUSTERING. Consiste en usar un árbol de decisión para realizar el CLUSTERING, se trata de comenzar con el conjunto completo de registros y dividirlos en particiones que son más puras de acuerdo a una función predefinida de pureza. Una vez formados los clusters, se aplica la función de pureza una vez más a cada uno de éstos con el fin de formar paulatinamente una estructura jerárquica similar a la construida con el algoritmo AGGLOMERATIVE CLUSTERING .. [14].

(16) V.. ARIBEC 3. ARIBEC es un sistema de mediación orientado por servicios diseñado para contextos distribuidos a gran escala que caracterizan a las organizaciones virtuales. Su objetivo es simplificar la integración de datos en ambientes con fuentes de datos heterogéneas y distribuidas a partir de la abstracción del mundo en un conjunto de objetos de negocio. Un objeto de negocio representa la unidad de integración del sistema. Corresponde al conjunto de conceptos relacionados que tienen significado para una comunidad y cuyos valores pueden provenir de una o varias fuentes de datos. ARIBEC provee un conjunto de servicios que permiten crear las instancias de los objetos de negocio bajo demanda, respetando las políticas de confidencialidad y seguridad de las fuentes originales. A continuación se presentará de manera general la arquitectura de ARIBEC que se fundamenta en una arquitectura orientada por servicios. La Figura 4 ilustra la arquitectura que implementa la mediación de recursos de datos, a través de un conjunto de servicios propios e inter-operando con los servicios provistos por una infraestructura de mallas de datos, que soporta el funcionamiento del sistema.. FIGURA 4 ARQUITECTURA ARIBEC. Está sección ha sido tomada totalmente de (Pomares, 2007) y complementada con la información disponible en (Badillo, 2008).. 3. [15].

(17) Como se puede observar en la Figura 4, los servicios prestados por el sistema ARIBEC se pueden clasificar de acuerdo a la arquitectura de referencia de los sistemas de mediación [ (Garcia-Molina, Papakonstantinou, Quass, & Rajaraman, 1997), (Kossmann, 2000) ] en los siguientes grupos: •. •. •. Servicios de Nivel de Adaptación: Responsables de garantizar el acceso transparente y siguiendo las propiedades de privacidad y confidencialidad de las fuentes de datos que se encuentran en el nivel de fuentes de datos. Servicios de Nivel Mediación: Responsables de la planeación y ejecución de consultas que dan lugar a la creación de las instancias de las entidades requeridas bajo demanda. Servicios de la Aplicación: Son los servicios responsables de la creación y lanzamiento de consultas y de procesos de configuración del sistema.. Adicionalmente, para garantizar la seguridad y confidencialidad de todo el proceso de integración, ARIBEC incluye un conjunto de servicios de Autenticación y Autorización.. Los servicios de cada uno de estos niveles manejan un nivel de abstracción de datos diferente. La Figura 5 ilustra los niveles de abstracción: local, disponible para los servicios del nivel de adaptación; conceptual, disponible para los servicios del nivel de mediación y, externo, creado para los servicios del nivel de aplicación.. FIGURA 5 NIVELES DE ABSTRACCIÓN ARIBEC. El Nivel Local es el conjunto de fuentes de datos registradas para compartir sus datos. Adicionalmente, el sistema maneja en este nivel metadata acerca del rol que cada fuente tienen dentro del sistema de mediación. Se identificaron tres roles de fuentes: [16].

(18) Proveedora de Datos, Fuente Referencial y Proveedora Referencial. Una fuente que comparte sus propios datos es considerada Proveedora de Datos mientras que las Fuentes Referenciales son aquellas que integran información de otras fuentes. Adicionalmente, ofrecen cierta trazabilidad sobre el origen de los datos, que puede ser explícita o inferida. Una fuente de datos referencial es por ejemplo una bodega de datos o un almacén de datos operativos resultado de esfuerzos de consolidación. El tercer rol Proveedora Referencial, combina características de los dos tipos de fuentes anteriores.. El Nivel Externo representa la visión que los usuarios tienen del mundo. Está conformada por un conjunto de esquemas que definen los objetos de negocio. Cada usuario puede tener una visión del mundo diferente, lo que genera múltiples esquemas externos, cada uno con el conjunto de objetos de negocio de interés para el grupo de usuarios.. El Nivel Conceptual se encuentra entre los niveles local y externo. Representa el mundo a través de una definición semántica y general de los datos usando una ontología de referencia. No considera ni necesidades específicas para un grupo de usuarios no restricciones de los modelos locales.. Las consultas de usuario son formuladas en el nivel externo y son evaluadas en las fuentes de datos a nivel local. La relación entre los niveles se realiza utilizando la ontología en el nivel conceptual que facilita el soporte a cualquier tipo de fuente de datos. La clave es elegir una ontología de referencia flexible que permita mapear fuentes de datos heterogéneas. ARIBEC define las siguientes relaciones entre los tres niveles de datos. •. •. Niveles Local - Conceptual: Los modelos usados por las fuentes local son mapeados a conceptos de la ontología en el nivel conceptual. Esto favorece la extensibilidad del sistema porque, adicionar una nueva fuente únicamente requiere crear un nuevo mapping sin hacer cambios a nivel conceptual. Niveles Conceptual - Externo: Los esquemas en este nivel son definidos como vistas sobre la ontología de referencia. Si es necesario crear o modificar un nuevo objeto de negocio para un grupo de usuarios, sólo se requiere definir una nueva vista sobre la ontología de referencia y dejarla disponible como un nuevo objeto.. Ejecutar una consulta en ARIBEC puede ser resumido de la siguiente manera: un usuario, miembro de la organización virtual se autentica ante el sistema a través del Servicio de Autenticación; una vez autenticado pueden expresar sus peticiones a través del Servicio de Consulta, que recibe una petición en un lenguaje de alto nivel sobre uno o más objetos de negocio. El Servicio de Consulta analiza la petición e invoca y coordina los servicios necesarios para ejecutarla: Servicio de Autorización: responsable de validar si el usuario que lanzó la consulta está autorizado para ver ese objeto de negocio. [17].

(19) Servicio de Caché: verifica si, como resultado de consultas anteriores, las instancias integradas solicitadas ya se encuentran materializadas. Servicio de Adaptación: recibe la solicitud de consulta sobre la fuente referencial que representa y ejecuta la consulta directamente sobre ella.. Servicio de Materialización: consulta cada fuente de datos estipulada en la cartografía a través del Servicio de Adaptación y obtiene los conceptos que cada una de ellas está en capacidad de entregar. Con esta información y valiéndose de la ontología de referencia, con la que inicialmente se definió la consulta, conforma cada una de las instancias. Adicionalmente, las ubica en caché según las propiedades de latencia de los conceptos del objeto de negocio y entrega al servicio de consulta el conjunto de instancias resultantes. La latencia en este caso indica qué tan rápido se vuelve obsoleto un concepto de un objeto de negocio a partir de la obtención de su valor desde su fuente. Servicio de Adaptación: Recibe las solicitudes de consulta de las fuentes que hacen parte de la cartografía y se encarga de ejecutar directamente sobre cada fuente la consulta requerida.. Teniendo en cuenta que la infraestructura que da soporte al funcionamiento de ARIBEC son las mallas de cómputo, los servicios de ARIBEC interactúan con los siguientes grupos de servicios: •. •. OGSA-DAI: Es un middleware que permite el acceso uniforme a recursos de datos en una arquitectura orientada a servicios. Los servicios de OGSA-DAI son usados para resolver el problema de heterogeneidad sintáctica de los datos. Globus ToolKit: Es una herramienta que provee los servicios y herramientas necesarias para compartir poder de procesamiento, fuentes de datos y otras herramientas de forma segura a través de límites corporativos, institucionales, y geográficos sin sacrificar la autonomía local (The Globus Alliance. Globus toolkit 4, 2007).. Actualmente, ARIBEC es una extensión de SISPRO (Camargo & Arteta, 2006), que utiliza la bodega de datos de dicho sistema como base de datos referencial para guiar el proceso de selección de fuentes aprovechando que ésta mantiene un resumen de todos los servicios de salud a nivel nacional (Pomares, Roncacio, & Abásolo, Virtual Objects in Large Scale Health Information Systems, 2008). No obstante, con el fin de remover la dependencia de ARIBEC a SISPRO, se trabaja en la construcción y utilización de un repositorio de conocimiento (basado en ontologías) que apoye el proceso de filtraje o selección de nodos.. Lo que se pretende es extraer y almacenar metadata de cada fuente (nodo) durante su incorporación y plantear mecanismos que permitan utilizar la información extraída para seleccionar aquellas fuentes relevantes a la hora de resolver una consulta. La metadata propuesta ha sido clasificada en dos tipos: la metadata intencional que representa información sobre la estructura de los datos de la fuente, y la metadata extensional que [18].

(20) corresponde a información no explícita, no trivial y relacionada a nivel semántico con el dominio donde la fuente opera.. Mientras que para la extracción de la metadata intencional se han considerado técnicas de mapeo e ingeniería reversa, para la extracción de la metadata extensional se ha considerado el uso de técnicas de minerías de datos. La justificación para optar por la aplicación de dichas técnicas está dada por los siguientes factores: • • • •. Permiten hallar patrones en los datos que no sean fácilmente identificables mediante técnicas básicas de estadística. Abarcan un amplio conjunto de herramientas configurables según las necesidades y objetivos del caso. Pueden haber detalles desconocidos de las fuentes para los encargados de las mismas. Existe información que puede ser pasada por alto en una entrevista o cuestionario.. La extracción de este último tipo de metadata es el tema que se aborda en el presente documento. A continuación se expone la problemática asociada.. [19].

(21) VI.. CARACTERIZACIÓN DEL PROBLEMA. Como fue recién esbozado, este proyecto aborda la problemática de extracción de metadata extensional mediante técnicas de minería de datos. A grandes rasgos, dicha extracción consiste en la captura de los datos, el análisis de los mismos (extracción de conocimiento) y la consolidación del conocimiento extraído (conceptualización en una ontología). Para realizar dicho proceso es indispensable conocer la estructura de la fuente (metadata intencional) ya que la gran mayoría de técnicas de análisis de datos así lo requieren.. FIGURA 6 EXTRACCIÓN DE METADATA EXTENSIONAL. Aunque en ARIBEC se habla de miles de fuentes, para entender la problemática resulta útil primero restringirla a la extracción de metadata extensional para una única fuente. En este contexto, lo más simple sería aplicar un proceso de extracción de conocimiento tradicional donde un experto del dominio y un experto en técnicas de minería de datos suministraran la información necesaria para analizar la fuente y consolidar la información extraída en la base de conocimiento de ARIBEC.. En este proceso, el experto del dominio aporta información acerca de qué tipos de datos pueden ser extraídos, dice como éstos deben ser procesados y valida los modelos obtenidos. El experto en minería indica las técnicas aplicables a los datos, realiza la obtención de modelos y colabora en el ajuste de sus respectivos parámetros. Posteriormente, un experto en ontologías debe plasmar en la base de conocimiento de ARIBEC el resultado de la minería. En el proceso, específico a la fuente, confluyen la minería de datos y la construcción de ontologías.. Sin embargo, a la hora de extrapolar dicho proceso a decenas de miles de fuentes es evidente que es imposible aplicarlo de forma individual e independiente; para cada fuente sería necesario pasar por el entendimiento de su estructura, el acompañamiento de expertos y posiblemente la transformación de sus datos a estructuras idóneas para la [20].

(22) obtención de la metadata. Por otra parte, asumir que todas las fuentes son iguales tampoco es una suposición realista puesto que como es bien sabido, en la realidad las fuentes son heterogéneas. Extensivo acompañamiento expertos. Conocimiento estructura cada fuente. Alta Heterogeneidad Fuente. Transformación de datos. Tareas de minería específica a la fuente. FIGURA 7 EXTRACCIÓN DE METADATA EXTENSIONAL A GRAN ESCALA. Además de las dificultades propias de un contexto heterogéneo de gran escala, surge también la necesidad de confrontar los problemas inherentes a la creación y poblamiento de una ontología que logre contener todo el conocimiento encontrado:. Por un lado, actualmente las ontologías son creadas principalmente mediante una integración de lexicones, taxonomías y otras ontologías en el procesamiento de lenguaje natural y áreas de lingüística computacional (Gottgroy, Kasabov, & MacDonell, An Ontology driven approach knowledge discovery in Biomedicine , 2004). Siendo mucho menos usual la integración de ontologías con el área de las bases de datos, específicamente la utilización de esquemas y datos existentes en sistemas relacionales para su creación y poblamiento.. Por otro lado, la forma de integrar la minería de datos, las bases de datos y las ontologías es reconocida por múltiples autores como un campo poco explorado donde todavía existen preguntas sin responder e incluso por formular. No solo porque la creación de ontologías, parcialmente automatizada, continúa requiriendo amplia intervención humana y una metodología para dicha intervención, sino porque aún no es claro el rol de la minería y las bases de datos en esta disciplina. [21].

(23) Aunque se han planteado frameworks de integración KD – Ontologías (Figura 8) como los propuestos en (Gottgroy, Kasabov, & MacDonell, Building Evolving Ontology Maps for Data Mining and Knowledge Discovery in Biomedical Informatics, 2003) y en (Phillips & Buchanan) donde se sugieren alternativas para que las ontologías guíen el descubrimiento de conocimiento y para que el uso de técnicas de minería apoye la construcción de ontologías, el proceso es fundamentalmente manual por lo que no resulta viable su aplicación a gran escala.. Preparación de Ontología. Poblamiento de Ontología. Minería de Ontología. Poblamiento de Ontología. Selección de Instancias. FIGURA 8 KNOWLEDGE DISCOVERY GUIADO POR ONTOLOGÍAS. Teniendo en cuenta las dificultades recién expuestas (proceso de minería a gran escala y creación y poblamiento de ontologías) y los requerimientos de ARIBEC se entiende que es necesario un mecanismo de extracción de metadata que cumpla con las siguientes características: • • •. • •. Escalabilidad: el mecanismo debe ser escalable con el número de fuentes y el tamaño de sus respectivos conjuntos de datos. Semiautomático: la intervención humana debe reducirse para limitar los costos derivados de ésta. Usabilidad: cuando se requiera la intervención humana se debe proveer un entorno amigable y fácil de usar que permita al usuario ajustar los resultados obtenidos. Flexibilidad: debe garantizarse la posibilidad de evolución del mecanismo. Integrable: el mecanismo debe posibilitar la integración con la infraestructura actual del proyecto ARIBEC.. Ahora bien, la metadata a ser extraída solo tiene como propósito la selección de fuentes durante el proceso de resolución de una consulta, luego las siguientes suposiciones y simplificaciones se consideran válidas: • •. La metadata no tiene que identificar de forma precisa la fuente, una aproximación razonable es suficiente. El objetivo de extracción de la metadata es el perfilamiento de fuentes (se descartan tareas de minería como predicción y clasificación). [22].

(24) VII. PROPUESTA DE SOLUCIÓN: OBME. FIGURA 9 ARQUITECTURA OBME. Para dar respuesta a la problemática planteada se propone el sistema cuya arquitectura se muestra en la Figura 9. La solución ha sido denominada OBME por sus siglas en inglés: Ontology Based Metadata Extraction.. De acuerdo a la descripción de la problemática, se identificaron dos tipos de usuarios: el experto del dominio que conoce la fuente y el experto en minería responsable de extraer la metadata de la misma. El sistema está ideado de modo tal que la intervención de ambos actores se vea significativamente reducida frente a la alternativa de ejecutar un proceso típico de extracción de conocimiento. Es de aclarar que si bien gráficamente solo se muestra interacción directa con el usuario en dos módulos, cada uno de los módulos debe permitir la interacción con los usuarios para garantizar la transparencia y entendimiento del proceso. Esto es fundamental puesto que OBME no deja de ser parte de un proceso de descubrimiento de conocimiento donde las cajas negras deben en lo posible ser evitadas. El funcionamiento de OBME se describe a continuación:. Cuando una fuente va a ser analizada el seleccionador de tareas (TASK CHOOSER) determina, de acuerdo a las características de la fuente, los algoritmos que deben ser [23].

(25) ejecutados; en este punto, el experto en minería puede modificar la decisión tomada de acuerdo a sus criterios. Teniendo en cuenta los requerimientos del algoritmo seleccionado se extraen los datos necesarios. Una vez se ha realizado la extracción de los datos (DATA EXTRACTOR ), la calidad de los mismos es verificada (DATA CLEANER ) desarrollando de ser necesario tareas de transformación (DATA TRANSFORMER ). Verificada la calidad de los datos, los algoritmos de minería son ejecutados (DATA MINING PROCESSOR ) y presentados (PRESENTATION ) al experto de la fuente quien tiene la potestad de descartar resultados, editar las reglas y de ser preciso, ejecutar una vez más los algoritmos. Finalmente, cuando los resultados han sido validados por el usuario son transformados a una representación adecuada (KNOWLEDGE BUILDER ) para su incorporación al repositorio de metadatos de ARIBEC. El conocimiento necesario para ejecutar las tareas específicas que deben realizarse según la fuente que será analizada ha sido capturado en un conjunto de ontologías. Éstas, además de contener la metadata intencional que previamente debió ser obtenida, reúnen parte del conocimiento de los expertos de forma que la necesidad de recurrir a ellos se vea disminuida. El uso de ontologías que capturen el conocimiento técnico y del dominio busca además abordar al menos 3 de los 4 factores claves identificados por (Graco, Semenova, & Dubossarsky, 2007) para lograr un proceso de minería de datos guiado por conocimiento: construir algoritmos hábiles, hacer uso de datos hábiles y combinar el conocimiento técnico y del negocio para obtener resultados óptimos en la minería. En lo que sigue del documento se describirá en mayor detalle cada uno de los módulos que componen la solución junto con la problemática específica que apuntan a resolver. ONTOLOGÍAS. Las ontologías constituyen el núcleo del sistema y de una u otra forma son prerrequisitos de los demás módulos. El sistema está constituido por tres tipos distintos de ontologías: [24].

(26) La primera ontología, la ontología local, corresponde a la metadata intencional de la fuente. En la jerarquía de (Pollock, 2004) corresponde a las capas 2 y 3 puesto que se trata de metadata sintáctica y estructural que sirve para saber qué tipo de información almacena la fuente.. La segunda ontología, la ontología global, es una ontología de referencia que es utilizada para procesar los datos y expresar los resultados en un lenguaje común a todas las fuentes. La información extraída utilizando la ontología local es convertida en términos de la ontología global para luego ser sujeta a la totalidad del proceso de análisis.. La tercera ontología es exclusiva de OBME en el sentido de que no ha sido pensada para ser explotada por otros componentes de ARIBEC. Se trata de una ontología de minería de datos que es usada por los distintos módulos del sistema para la toma de decisiones y que encapsula conocimiento tanto técnico como del dominio. Dicho conocimiento es aquél relacionado al problema de extracción de metadata extensional con fines de selección de fuentes (Figura 10), conocimiento que sería en otras circunstancias suministrado por expertos para el análisis de las mismas. En la jerarquía de metadata de (Pollock, 2004) la ontología se ubica en las capas 5 y 6 puesto que establece reglas que pueden ser usadas para concretar la semántica capturada.. FIGURA 10 CONOCIMIENTO INVOLUCRADO EN KD (KUO, LONIE, SONENBERG, & PAIZIS, 2003). SOBRE LA CREACIÓN DE LAS ONTOLOGÍAS. Si bien la ontología de minería y de dominio puede llegar a ser creada manualmente, no ocurre lo mismo con la ontología local y su relación con la ontología global del sistema. El tamaño y complejidad de la estructura de cada fuente, al igual que el número potencial de nodos que pueden llegar a participar en el sistema, son factores que dificultan significativamente la tarea de su construcción. [25].

(27) La edificación de la ontología local y el mapeo a la ontología general equivale a la extracción de la metadata intencional. Su construcción puede comenzar con técnicas de ingeniería reversa y ser complementada con algoritmos de MACHINE LEARNING (ML) que propongan relaciones, mapeos y MATCHINGS . Actualmente esta problemática es un tema abierto de investigación, existiendo todavía visibles limitaciones; en la tabla presentada a continuación se realiza una comparación entre las características de las ontologías creadas manualmente y lo que se ha logrado a partir de ML (Omelayenko, 2001). TABLA 2 COMPARACIÓN ENTRE TÉCNICAS DE CREACIÓN DE BASES DE CONOCIMIENTO. Bases de conocimiento a partir de Ontologías construidas manualmente Machine learning PRIMITIVAS DE MODELAMIENTO Simple y limitada. Por ejemplo, los Amplio conjunto de primitivas de algoritmos de árboles de decisión generan modelamiento (frames, relaciones de reglas en forma de conjunciones sobre subclase, reglas con un gran conjunto de valores de atributos operaciones, funciones, etc.) ESTRUCTURA DE LA BASE DE CONOCIMIENTO Plana y homogénea Jerárquica, consiste en varios componentes como subclase-de, parte-de y otras relaciones TAREAS Clasificación y segmentación que mapea los La tarea de clasificación requiere mapear objetos descritos por las parejas atributo- los objetos a un árbol de clases valor a un conjunto limitado y no estructuradas. Puede requerir la estructurado de clases o etiquetas de construcción de descripciones de clases clusters MÉTODOS PARA SOLUCIONAR PROBLEMAS Muy primitivos, basados en simples Complicados, requieren la intervención estrategias de búsqueda sobre una base de conocimientos rica en estructura, generalmente específicos a cada dominio y a cada aplicación ESPACIO DE SOLUCIONES Conjunto fijo de etiquetas de clases no Conjunto extensible de primitivas y extensible soluciones compuestas LEGIBILIDAD DE LA BASE DE CONOCIMIENTOS No requerida. Pueden ser usadas solamente Requerida. Pueden ser usadas por humanos automáticamente y en dominios específicos (al menos potencialmente). Además de la problemática de construcción de ontologías, la obtención de la metadata intencional también involucra el análisis de información no estructurada. Por ejemplo, la descripción de los síntomas de un paciente en una historia clínica típicamente se encuentra en forma libre.. [26].

(28) DATA EXTRACTOR. A partir de la ontología local y del algoritmo de minería a ser ejecutado, este módulo extrae los datos necesarios para perfilar la fuente. El módulo se entiende como una fachada que se integra a los servicios de extracción de datos de ARIBEC.. Teniendo siempre en cuenta que una gran cantidad de datos no garantiza una gran cantidad de información se trata de extraer solo aquellos atributos relevantes para el proceso de minería y descartar aquellos que no agregan valor al proceso o incluso lo entorpecen. Para cumplir la tarea es esencial disponer de la metadata intencional puesto que de otro modo no es posible precisar qué datos deben ser consultados. TABLA 3 RESUMEN DATA EXTRACTOR. RESUMEN. Nombre Función Entradas. Data Extractor Extracción de datos a partir de los cuales se obtiene la metadata extensional - Ontología que describe a nivel intencional la fuente - Fuente a ser analizada - Ontología que describe qué datos deben ser extraídos de acuerdo al algoritmo a ser ejecutado Salidas Datos necesario para ejecutar los algoritmos seleccionados Prerrequisitos Existencia de una ontología que describe de acuerdo a la fuente, la de uso información que debe ser extraída. Existencia de la metadata intencional tanto a nivel de estructura como a nivel de instancia Dependencias Task Chooser directas Data Cleaner. [27].

(29) DATA CLEANER. Una vez los datos han sido extraídos, este módulo procede a la limpieza de los mismos para afrontar los problemas típicos de integración de fuentes descritos en (Kedad & Métais, 2002) y ejemplificados en la Tabla 4. Se trata entonces de resolver los problemas relacionados con la calidad de los datos tanto a nivel intencional (correspondencia entre esquemas) como a nivel extensional (correspondencia entre instancias semánticamente equivalentes).. TABLA 4 EJEMPLOS DE PROBLEMAS DE INTEGRACIÓN DE FUENTES. Problema Diferencias en tipos. Diferencias en formato Diferencias en escala Diferencias en codificación Diferencias en terminología Diferencias en granularidad Conflictos con identificadores. Ejemplo Un valor representado por un número en una fuente y por una cadena de caracteres en otra Un valor representado con diferente longitud según la fuente El precio de un producto representado en euros en una fuente y en pesos en otra El atributo género representado como {F,M} en una fuente y {0,1} en otra La utilización de la palabra “antibiótico” en una fuente y “penicilina” en otra para referirse al mismo medicamento Consignación de datos de un inventario diariamente en una fuente y semanalmente en otra Dos instancias no equivalentes con el mismo identificador o dos instancias equivalentes con identificadores diferentes. [28].

(30) Intencional. Falta de reglas de integridad, diseño de esquema pobre. Extensional. Errores tipográficos, redundancia o duplicados, valores cotradictorios. Intencional. Modelos de datos y diseños de esquemas heterogéneos. Extensional. Datos contradictorios e inconsistentes. Una fuente. Problemas Calidad de Datos. Múltiples fuentes. FIGURA 11 PROBLEMAS DE CALIDAD DE DATOS (RAHM & DO, 1999). Los datos deben ser primero mapeados a la ontología local y luego ser llevados a la ontología general. En la transformación a la ontología local se pueden resolver los problemas a nivel intencional utilizando técnicas tradicionales como lógica difusa. Para la integración a la ontología global se puede usar como base una ontología que permita resolver conflictos entre valores provenientes de fuentes diferentes (Kedad & Métais, 2002).. En este punto, se hace necesario explicar por qué los mapeos se realizan en el momento y orden indicado (local - global) si el conocimiento obtenido estará a un nivel mucho mayor de agregación. En otras palabras, por qué incurrir en el procesamiento adicional que implica llevar los datos a la ontología local y luego a la global si la cantidad de datos que en últimas deben ser expresados en términos de la base de conocimiento común es mucho menor.. El argumento de la explicación se compone de tres partes. La primera consiste en notar que una vez los datos se traducen a la ontología global se simplifican las etapas posteriores del proceso, siendo de especial interés la reducción que se aprecia en el tamaño de la ontología de minería puesto que ya no es necesario especificar para cada fuente cómo los datos deben ser pre-procesados antes de ejecutar los algoritmos; en cambio basta con expresar cómo los datos deben ser pre-procesados en términos de la ontología global. La segunda parte yace en el hecho de que el mapeo a la ontología [29].

(31) general debe realizarse de forma muy eficiente puesto que es también necesario a la hora de resolver una consulta, los resultados entregados al usuario deben en últimas ser presentados en términos de la ontología global; si el mapeo se hace cuando el usuario está dispuesto a menores tiempos de espera, no hay razón para no hacerlo cuando se dispone de un tiempo mucho mayor como lo es en la etapa de incorporación de fuentes. Finalmente, la última parte del argumento se centra en que lo costoso del mapeo es construirlo mas no hacerlo, su ejecución es polinomial en el número de datos y puede ser paralelizada sin mayores dificultades. Ahora bien, hacer dicha reparación de manera automática es imposible (Curé & Jeansoulin, 2007) y la intervención humana es indispensable, por esta razón el módulo debe solicitar asistencia al usuario cuando se detecte un número muy alto de errores o la incertidumbre en su corrección supere umbrales aceptables (el valor de estos parámetros debería ser ajustado por el usuario de acuerdo a la sensibilidad en los datos de la fuente). Finalmente, es de notar que el componente interno de OBME realmente actuaría como un proxy frente a lo que debería ser el integrador de esquemas de ARIBEC. La problemática de integración de datos es transversal tanto al proceso de extracción de metadata extensional como al proceso de resolución de consultas. TABLA 5 RESUMEN DATA CLEANER. RESUMEN. Nombre Función Entradas. Data Cleaner Limpieza e integración semi-automática de datos - Ontología que describe a nivel intencional la fuente - Fuente a ser analizada - Ontología que describe qué datos deben ser extraídos de acuerdo al algoritmo a ser ejecutado - Mapeos a ontología local y ontología global Salidas Datos expresados en términos de la ontología global Prerrequisitos Existencia de una ontología que describe de acuerdo a la fuente, la de uso información que debe ser extraída Existencia de la metadata intencional tanto a nivel de estructura como a nivel de instancia Existencia de mapeos a la ontología local y a la ontología global Dependencias Task Chooser Data Extractor directas Data Transformer. [30].

(32) TASK CHOOSER Y DATA MINING ONTOLOGY. Ningún algoritmo es universalmente superior (Wolpert, 1997), el desempeño de cada uno está sujeto al contexto donde se utilice y a las particularidades de cada conjunto de datos. Para un DATASET dado, habrá algoritmos que obtengan mejores resultados frente a otros menos adecuados y habrá algunos que ni siquiera sean aplicables. Por ejemplo, para un conjunto de datos mayoritariamente categóricos, la utilización de reglas asociación o árboles de decisión puede llegar a ser más apropiada que algoritmos de CLUSTERING debido a las dificultades de establecer una función de distancia.. Por esta razón, cada proceso de minería debe pasar por una fase de selección de algoritmos que resulta costosa ya que requiere la presencia de un experto en DM. Así, en ausencia de otros mecanismos de información, por cada fuente a partir de la cual se desee extraer metadata extensional se requiere de un experto que guie el proceso. Si el número de fuentes alcanza el orden de miles, el proceso de incorporación de fuentes resulta insostenible. Dado este contexto, se propone la creación de un módulo responsable de seleccionar de forma asistida los algoritmos más apropiados para la ejecución del proceso de minería. El núcleo del módulo se concibe partiendo de las ideas propuestas en (Lin, Zhang, & Yu, 2006) donde se plantea una ontología de minería de datos para decidir qué algoritmo es mejor según el tipo de datos con los que se va a trabajar y según la pregunta que se desea responder. La ontología recopila el conocimiento del experto con el fin de integrarlo a una aplicación que pueda, sin la intervención del mismo, hacer minería automáticamente; la ontología entonces simula el conocimiento del experto lo que convierte a OBME en un sistema capaz de responder preguntas relativamente sofisticadas sobre minería. El esquema de la ontología propuesta por los autores mencionados se muestra en la Figura 12. [31].