Métodos de transformación semántica

2.2 Web Semántica

2.2.5 Métodos de transformación semántica

A continuación se describen los principales métodos para llevar la información proveniente de múltiples orígenes de datos heterogéneos a modelos semánticos formales y bien estructurados. Las metodologías de transformación de infor- mación a representaciones semánticas siguen enfoques semejantes. Parten de unos datos fuente, que son transformados siguiendo un modelo semántico. El proceso de extracción y transformación de la información se basa en la denición de correspondencias entre el modelo que siguen los datos origen y el modelo semántico de salida.

2.2.5.1 Denición del modelo semántico

Un modelo semántico debe denir formalmente el dominio que pretende re- presentar. Para la denición de este modelo se distinguen dos casos: (1) el

modelo de salida se diseña a partir de los datos fuente, y (2) el modelo de salida se dene usando técnicas de ingeniería ontológica al dominio donde se aplicará, sin tener en cuenta los datos origen.

Tim Berners-Lee propuso una primera metodología [98] para relacionar la Web Semántica y los modelos de datos relacionales, a través de una correspondencia directa:

• Una la de una tabla es un nodo RDF.

• Cada campo de la tabla es una propiedad RDF.

• Cada valor de una la para un campo concreto es un valor de un de-

terminado tipo para el modelo semántico.

En [99] se amplía este modelo para generar un esquema RDFS a partir de una base de datos relacional:

• Cada tabla R se mapea con una clase RDFS C.

• Por cada entrada en la tabla R se crea un nodo RDF I cuyo tipo es C,

es decir, se crea una instancia de la clase C.

• Por cada campo eld en la tabla R se crea una propiedad RDF P. • Para cada entrada en la tabla R, el valor del atributo eld se asocia al

valor de la propiedad P para el nodo I.

La W3C creó un grupo de trabajo, RDB2RDF Working Group [100], para la estandarización de la denición de correspondencias entre las bases de datos relacionales y los esquemas semánticos como RDF u OWL. Uno de los resultados fue Direct Mapping [101], una metodología para asociar datos relacionales a RDF.

2.2.5.2 Denición de correspondencias

El primer paso para poder transformar datos en información semántica con- siste en denir correspondencias entre ambos modelos. Esta denición puede ser un proceso manual, dirigido por el usuario, o puede ser el resultado de un proceso de equivalencia de esquemas.

A continuación se describen los dos lenguajes de denición de correspondencias más extendidos:

• R2RML: RDB to RDF Mapping Language. El lenguaje R2RML

[102], creado por el consorcio RDB2RDF, sirve para expresar correspondencias entre bases de datos relacionales y conjuntos de datos RDF. Las correspondencias en este lenguaje están diseñadas para: (1) cons- truir repositorios RDF a partir de las bases de datos relacionales, (2) acceder a la base de datos relacional a través de un punto de acceso virtual SPARQL y (3) crear una interfaz Linked Data.

• D2RQ Mapping Language. Este lenguaje permite denir la relación

entre un esquema de base de datos relacional y un vocabulario RDFS u OWL de un modo declarativo [103]. Una correspondencia D2RQ está formada por un ClassMap, que asocia una clase de la ontología con una URI construida con valores de la base de datos. Cada ClassMap contiene un conjunto de PropertyBridge, que especican las propie- dades y relaciones de la clase.

2.2.5.3 Transformación de datos

La transformación de datos es el proceso en el que la información del modelo de entrada es convertida en un modelo de salida semántico, normalmente basado en RDF, RDFS u OWL. Estos procesos se clasican en [99]: (1) totalmente automáticos, (2) semi-automáticos y (3) manuales. Normalmente, en los procesos automáticos el modelo de salida también se genera automática- mente, ya que sería muy complejo realizar este proceso de forma automática cuando el modelo de salida ha sido producido manualmente o por otra herramienta. Atendiendo al tipo de acceso a la información semántica, estas herramientas de transformación se clasican en: (1) las que hacen una trans- formación completa de la fuente de información origen al modelo semántico destino y (2) las que crean vistas virtuales que pueden ser consultadas a través de lenguajes de consulta como SPARQL.

A continuación se describen las principales herramientas de transforma- ción semántica:

• D2RQ. Es una plataforma que permite consultar datos albergados en

bases de datos relacionales en SPARQL gracias a la generación de grafos RDF virtuales [104]. Es un proceso totalmente automático.

• Triplify. Es una herramienta que permite publicar en Linked Data

información proporcionada por consultas SQL [105]. En muchas oca- siones se usan vistas SQL para hacer la transformación más exible. Además tiene la posibilidad de anotar las columnas con vocabularios existentes. Es un proceso semi-automático.

• Linked Data Views de Virtuoso. OpenLink Virtuoso [106] es un

sistema gestor de bases de datos que permite trabajar con múltiples modelos de persistencia (relacional, XML, objeto-relacional, virtuales y RDF). Entre sus múltiples servicios, la herramienta Linked Data Views [107] permite consultar fuentes de datos relacionales con SPARQL a partir de la denición de correspondencias. Es un proceso totalmente automático y permite integrar la información de diferentes fuentes siempre que estén en alguno de los motores de persistencia de Virtuoso.

• XS2OWL. Este modelo de transformación permite la representación

de esquemas XML en sintaxis OWL [108]. Gracias a esa generación del modelo de salida semántico permite la consulta de bases de datos XML que sigan ese esquema a través de SPARQL, que es traducido a XQuery (lenguaje de consulta para XML) dirigido por la ontología. Es un modelo automático.

• RDB2OWL. Es una propuesta para transformar información alma-

cenada en bases de datos relacionales a una representación basada en RDF o una ontología OWL preexistente [109]. Las correspondencias entre el modelo de entrada y el de salida se almacenan en una base de datos relacional. Estas correspondencias permiten la generación au- tomática de un script SQL que transforma los datos relacionales en tripletas RDF o en instancias OWL. El modelo de generación de correspondencias es manual, por lo que para ontologías grandes puede ser tedioso.

• Karma. Es una herramienta que permite asociar al modelo origen onto-

logías existentes para generar una representación semántica de la fuente de los datos [110]. Gracias a esa generación de un modelo semántico de origen, se pueden generar automáticamente correspondencias con el modelo destino. En este modelo se dene un proceso semi-automático, siempre y cuando se disponga de un modelo origen anotado semántica- mente.

• Populous. Populous [111] es una herramienta que sirve como asistente

a la creación de ontologías. Esta herramienta hace uso de patrones para guiar el proceso de recogida del conocimiento y cómo éste va a incor- porarse al modelo ontológico. Una vez creada la ontología, Populous es capaz de importar datos provenientes de hojas de cálculo y de archivos tabulares. Las columnas de estos archivos deben estar asociadas a las variables de la ontología.

• Sistema OGO. En [112] se propone una herramienta para la integra-

ción de varios repositorios relacionales en un único almacén semántico basado en una ontología. La transformación se lleva a cabo a través de la denición de correspondencias entre los distintos esquemas relacionales y la ontología global que modela el dominio.

• SWIT. Esta herramienta [113] permite transformar un modelo de en-

trada (base de datos relacional o XML) en un modelo de salida semán- tico que puede estar en RDF o en OWL. La transformación se realiza a partir de la denición de correspondencias entre los esquemas de entrada y de salida. Las correspondencias se denen de forma declarativa, permitiendo que se puedan reutilizar y que, una vez denidas, el méto- do de transformación sea automático. La transformación se realiza en tres fases: (1) denición de las reglas de mapeo entre los campos de la base de datos y la ontología, (2) generación de la información en OWL, e (3) importación de los datos OWL en un repositorio semántico. SWIT alcanza el nivel 5 estrellas propuesto por Berners-Lee para la pu- blicación de datos en formato abierto. El resto cumplen el nivel 4 estrellas, a excepción de D2RQ y XS2OWL, que no llegan realmente a transformar los datos a un estándar abierto.

2.2.5.4 Discusión

Como se ha comentado, existen diferentes herramientas para la transforma- ción de datos provenientes de diversos sistemas (bases de datos relacionales, archivos XML, etc.) en información semántica. En esta sección se analizan cuáles son los modelos más convenientes en cada caso, usando la exibilidad como la principal medida de las diferentes herramientas.

Muchas de las herramientas que se han descrito sólo realizan una trans- formación sintáctica de los datos, guiada por el modelo lógico de los sistemas de origen. La principal ventaja de estas herramientas es que el proceso de transformación de las fuentes de datos a información semántica es totalmente automático, lo que simplica notablemente este proceso. Sin embargo, este tipo de herramientas no son adecuadas en entornos muy heterogéneos en los que hayan múltiples orígenes de datos, ya que no permitirán el uso de modelos semánticos formales que se acerquen a la representación más cercana al usuario del dominio objeto de explotación.

En otras herramientas la transformación es guiada por la ontología gracias a una denición de correspondencias entre los modelos de origen y el modelo semántico. En estas herramientas se pueden denir ontologías inde-

pendientemente del modelo lógico de los orígenes de datos, lo que propor- ciona una gran usabilidad. El principal problema de estas soluciones es que, dependiendo del volumen del dominio, esos mapeos entre modelos pueden ser bastante costosos. Entre las diferentes herramientas disponibles para la transformación de información destacan Populous y SWIT. Ambos hacen uso de patrones que pueden reutilizarse para denir correspondencias, reducien- do así la complejidad de esta tarea. Populous acepta como fuentes de entrada cheros tabulares, y SWIT permite cheros XML y conexión a diversas bases de datos relacionales.

In document Entorno para la inteligencia de negocio basada en tecnologías semánticas (página 50-55)