Representación OWL de HL7

3.5 Modelos clínicos en OWL

3.5.3 Representación OWL de HL7

En [178] se propone una representación ontológica del modelo de información utilizado en HL7 v3, RIM. La ontología se construye en OWL-DL. Las clases de HL7-RIM, los tipos de datos y los vocabularios de HL7 se modelan como clases top-level en la ontología. Las asociaciones entre clases se modelan de la siguiente forma:

• Las asociaciones uno a muchos implican la creación de una OWL:Object- Property, cuyo dominio es la clase fuente, y rango la clase destino de la asociación. La propiedad se dene como funcional. Su propiedad inversa también se crea.

• Las asociaciones (0..1) a muchos generan una OWL:ObjectProperty cuyo dominio es la clase fuente, el rango la clase destino, y la cardinalidad máxima de la propiedad es igual a 1. Su propiedad inversa también se crea.

• Las asociaciones (0..1) a uno se modelan como en el caso anterior aña- diendo a la propiedad la característica de ser funcional inversa, es decir, la propiedad inversa es funcional y sólo puede tomar un único valor por cada instancia de la clase destino.

• Las asociaciones (1..*) a muchos generan una OWL:ObjectProperty con la cardinalidad mínima igual a 1. Su propiedad inversa también se crea. Los documentos HL7 CDA son creados como instancias de esta ontología, es decir, como individuos de las clases de la ontología.

Capítulo 4

Métodos para llevar la

información a la Web Semántica

La información biomédica se caracteriza por estar distribuida en distintos sistemas, y hacer uso de distintos formatos de representación y terminolo- gías. La investigación y el uso eciente de esta información requiere el acceso a la misma de forma integrada, es decir, que haya una comunicación entre sistemas sin suras, que permita compartir y comprender la información con independencia de su origen. Para conseguirlo, es necesario abordar la heterogeneidad de la información a todos los niveles. Los recursos de información biomédica son heterogéneos a nivel estructural, de nomenclatura, semánti- co y de contenido [179]. Están formados por grande conjuntos de datos que tienen su propia complejidad de esquema (heterogeneidad estructural); cada recurso puede referirse al mismo concepto semántico o campo con sus propios términos o identicadores, lo que puede llevar a discrepancias se- mánticas entre muchas fuentes y también puede ocurrir justo lo contrario, ya que muchas fuentes pueden usar el mismo término para referirse a obje- tos semánticamente distintos (heterogeneidad semántica y de nomenclatura); por último hay que tener en cuenta que un mismo objeto semántico puede tener datos diferentes dependiendo del recurso de origen (heterogeneidad de contenido). Hoy en día, está aceptado que sin el uso de las tecnologías de la Web Semántica en general, y las ontologías en particular, es imposible solucionar el problema de la heterogeneidad semántica, y por consiguiente, alcanzar la interoperabilidad semántica de la información [180]. En el caso de la información biomédica, las ontologías juegan un rol fundamental en su interoperabilidad semántica y como espacio para la integración y explotación de la información [17].

Es en este escenario donde surge la necesidad de encontrar soluciones 87

para obtener una representación basada en tecnologías de la Web Semánti- ca de contenidos almacenados y publicados en formatos tradicionales, como pueden ser las bases de datos relacionales o cheros XML. Existen varios sistemas y herramientas que hacen uso de estas tecnologías para resolver problemas asociados con el acceso, gestión y manipulación de la informa- ción biomédica. Entre estos, existen varias herramientas y metodologías para la representación de información de forma semántica, las cuales persiguen distintos propósitos [181], como facilitar la integración de información hete- rogénea, dar acceso a información haciendo uso de una ontología, facilitar consultas sobre la información, hacer pública la información en la Web de Datos y conectarla con otros recursos Linked Data, o generar ontologías a partir de información (normalmente con el propósito de realizar integración o acceso a datos basado en ontologías).

Las metodologías de transformación de información a representación se- mántica siguen un esquema común. Parten de un repositorio de datos fuente, del que extraen los datos que serán transformados siguiendo un modelo se- mántico destino. El proceso de extracción y transformación de datos se basa en la denición de correspondencias entre el modelo que siguen los datos de origen y un modelo de salida que puede ser generado a partir de la fuente o existir previamente.

La mayoría de las metodologías expuestas en este capítulo no han sido desarrolladas para su uso especíco en el dominio de la biomedicina, sin em- bargo, están orientadas a proporcionar un acceso a la información usando un formalismo común semántico, y orientadas a dominios en los que la interoperabilidad semántica, integración de información y el acceso unicado su explotación posterior para uso secundario y la necesidad de proporcionar fácil acceso a la información son elementos clave, como es el caso del dominio biomédico.

4.1 Denición del modelo semántico

El modelo semántico denido debe reejar correctamente la semántica del dominio y permitir la representación consistente de los recursos fuente. En la denición de este modelo se distinguen dos casos: (1) el modelo de salida se crea desde cero partiendo del repositorio de entrada, en este caso las metodo- logías explotan la estructura de representación de entrada y el contenido del repositorio, (2) el modelo de salida se dene en el dominio de la información utilizando técnicas de ingeniería ontológica.

Varias metodologías de creación de ontologías se mencionan en el capítulo anterior (ver sección 3.2). Dentro de la ingeniería ontológica, otra propuesta

4.1. Denición del modelo semántico 89 es el aprendizaje de ontologías, que incorpora métodos de ingeniería onto- lógica, aprendizaje automático, representación de conocimiento, extracción de información y computación lingüística para crear ontologías a partir de datos disponibles en diversos formatos [182], reduciendo el esfuerzo de crea- ción manual. En [183] se clasican los datos relevantes en el aprendizaje de ontologías en: (1) datos en forma de ontologías, es decir, reutilizar ontologías existentes en la construcción de nuevas; (2) datos según esquemas, incluyendo esquemas de bases de datos, por ejemplo relacionales, y esquemas comunes en la web, como esquemas XML; (3) datos como instancias, es decir, datos almacenados en bases de conocimiento; (4) datos semi-estructurados, es decir, datos con cierta estructura pero con ausencia de un esquema jo o rígido; (5) datos en lenguaje natural, que puede estar enriquecido con información semi-estructurada.

En este capítulo nos centramos en datos basados en esquemas y semi- estructurados, poniendo atención en aquellos más comunes en la representa- ción de información biomédica (ver secciones 2.1.2 y 2.2.2).

Tim Berners-Lee dio una primera aproximación [184] a la relación entre el modelo de la web semántica y el modelo de bases de datos relacionales, proponiendo una correspondencia directa:

• Un registro o la de una tabla es un nodo RDF.

• Cada atributo de la tabla (columna) es una RDF propertyType. • Cada valor de un registro para un atributo es un valor de la propertyTy-

pe.

En [181] se propone una ampliación de este mapeo básico para generar un esquema RDFS a partir de una base de datos relacional, quedando:

1. Cada tabla (relación) R se mapea a una clase RDFS C.

2. Por cada entrada en la tabla R se crea un nodo RDF I cuyo tipo es C, es decir, una instancia de la clase C.

3. Por cada atributo att en la tabla R se crea una propiedad RDF P . 4. Para cada entrada en la tabla R, el valor de el atributo att se asocia al

valor de la propiedad P para el nodo I.

Esta aproximación se conoce como aproximación básica, y es ampliamen- te usada por muchas herramientas de transformación que buscan publicar información proveniente de bases de datos relacionales en la Web Semántica.

La W3C creó un grupo de trabajo, RDB2RDF Working Group [185], para la estandarización en la denición de correspondencias entre bases de datos relacionales y esquemas RDF y OWL. Uno de los resultados fue Direct Mapping [186], una estrategia para asociar datos relacionales a RDF.

Direct Mapping sigue la aproximación básica propuesta por Berners-Lee, pero es más especíco en la denición de URI y la conversión de atributos en propiedades. Dada un base de datos de entrada siguiendo un esquema relacional, su grafo RDF directo se dene como la unión de los llamados grafos de tabla de cada una de las tablas del esquema de base de datos, donde:

• El grafo de tabla es la unión de los grafos de la de cada la en la tabla. • Un grafo de la es un grafo RDF compuestos por: (1) la tripleta de tipo de la, (2) una tripleta referencia por cada columna/s de la tabla que sea una clave ajena y cuyo valor no sea nulo, y (3) una tripleta literal por cada columna de la tabla cuyo valor no sea nulo.

• Una tripleta de tipo de la es una tripleta cuyo sujeto es el nodo RDF de la la, el predicado es rdf:type y el objeto es la URI de la tabla. El nodo de la la se obtiene a partir de la clave primaria y la URI de la tabla se obtiene a partir del nombre de la tabla.

• Una tripleta literal es una tripleta cuyo sujeto es el nodo RDF de la la, el predicado es la URI de la propiedad literal de la columna (construida con el nombre de la tabla y el nombre de la columna) y el objeto es un literal RDF obtenido a partir del valor de la columna.

• Una tripleta referencia es una tripleta cuyo sujeto es el nodo RDF de la la, la URI es la propiedad referencia de la columna (construida con el nombre de la tabla, la palabra #ref y el nombre de cada columna que forma la clave ajena) y el objeto es el nodo RDF de la columna referenciada.

In document UNIVERSIDAD DE MURCIA FACULTAD DE INFORMÁTICA. Integración de información biomédica basada en tecnologías semánticas avanzadas (página 103-108)