Linked Data en las bibliotecas: El caso de la Biblioteca Nacional de España

(1)

Universidad de Granada

Facultad de Comunicación y Documentación Departamento de Información y Comunicación

Linked Data en las bibliotecas: El caso de la Biblioteca Nacional de España

TRABAJO FIN DE MASTER PRESENTADO POR JUAN MANUEL AYLLÓN MILLÁN

Granada, julio de 2012

(2)

Universidad de Granada

Facultad de Comunicación y Documentación Departamento de Información y Comunicación

LINKED DATA EN LAS BIBLIOTECAS: EL CASO DE LA BIBLIOTECA NACIONAL DE ESPAÑA

TRABAJO FIN DE MASTER PRESENTADO POR:

JUAN MANUEL AYLLÓN MILLÁN

TUTOR:

JOSÉ ANTONIO SENSO RUIZ

Fdo. Juan Manuel Ayllón Millán Fdo. José Antonio Senso Ruiz

(3)

(4)

AGRADECIMIENTOS

Gracias a D. José Antonio Senso Ruiz , mi tutor, por su paciencia y apoyo para realizar este trabajo fin de máster

Gracias a mi padre y a mi madre, por sus noches de desvelos y sacrificios tanto personales como materiales para conseguir darme una formación y unas oportunidades de las que ellos no tuvieron.

Gracias a mi hermano Daniel por aguantarme mis locuras y hacerme más llevadero con nuestras charlas el proceso de elaboración. Además de todos los familiares, amigos y conocidos por la complicidad y el ánimo que me han prestado.

También reseñar a todos los profesores, por sus enseñanzas y conocimientos a lo largo de mi vida, independientemente del nivel de enseñanza. A ellos, mi respeto, por haber llegado hasta aquí.

Dedicado a mis abuelos, Josefa y Juan, os tendré siempre en mi mente y en mi corazón

(5)

ÍNDICE GENERAL

1 Capítulo: Introducción

1.1 Justificación 1.2 Objetivos 1.3 Metodología

1.4 Estructura del trabajo

2 Capítulo: Linked Data / Datos Enlazados 2.1 Introducción

2.2 ¿Qué es Linked Data o datos Enlazados?

2.3 Principios Linked Data

2.4 Ventajas del enfoque de Datos Enlazados

3 Capitulo: Casos de Usos de Bibliotecas 3.1 Datos bibliográficos 3.2 Datos de autoridades

3.3 Alineamiento de vocabularios 3.4 Archivos y datos heterogéneos 3.5 Citas

3.6 Objetos digitales 3.7 Colecciones

3.8 Usos sociales y usos innovadores

4 Capítulo: Datos.bne

4.1 Introducción

4.2 Aspectos previos a la creación de un servicio de datos enlazados 4.3 Software y Tecnología

4.4 Fases del Proyecto

5 Capítulo: Conclusiones y trabajos futuros

6 Bibliografía

7 Referencias

8 Tabla de Figuras

(6)

C APÍTULO 1

INTRODUCCIÓN

1.1. JUSTIFICACIÓN

En estos tiempos la forma de obtener información se ha democratizado debido fundamentalmente a Internet. Las personas han tomado unos hábitos para acceder a los recursos de información que necesitan para desempeñar una tarea determinada o satisfacer una necesidad de información concreta. Entre esos muchos hábitos cotidianos los cuales se han visto modificados, por ejemplo sea eliminado las barreras físicas pudiendo realizarlos desde nuestra propia casa utilizando cualquier dispositivo con acceso a la Red (como leer el periódico, reservar billetes de viajes o realizar trámites administrativos).

Sin embargo, a pesar de que la introducción de las nuevas tecnologías de la información en nuestra vida ha sido rápida, debido a su facilidad de uso y transparencia para el usuario, existe una brecha entre lo que el usuario solicita y lo que recupera. Esto se debe, principalmente, a que el sistema necesita producir las representaciones tanto de los documentos como de las necesidades de información de los usuarios para poder operar con ellos en el ámbito de uno de los diferentes modelos teóricos que abordan el problema de la recuperación de información, como son el modelo booleano, el vectorial y el probabilístico.

Otro aspecto a destacar en la actualidad, es el problema en el contenido semántico de los documentos debido a que las necesidades de información suelen ser expresadas por los usuarios utilizando una serie de términos de búsqueda que los sistemas representan esas consultas mediante índices de frecuencias de aparición de términos, los cuales trabajan con cadenas de caracteres, y no con la semántica de los términos. Por tanto, si consiguiéramos que las maquinas entiendan el contexto de esos documentos dotándolas de contenido semántico, se reducirían potencialmente los problemas de de exhaustividad y precisión de la recuperación de información.

(7)

La gran cantidad de información disponible en la World Wide Web está produciendo una serie de cambios relativos a la organización y al acceso a la información en las bibliotecas. En ellas existen los problemas de recuperación de información anteriormente citados, por ello la comunidad y el personal bibliotecario deben realizar una gestión eficaz y eficiente de la información. La recuperación de información eficiente debe dar origen a mejoras en las técnicas de organización y del aprovechamiento de la tecnología. Los metadatos estructurados nos proporcionan unas estructuras de gestión bien normalizadas que además dotaran de mayor relevancia en la recuperación de los recursos de una biblioteca ya que esas descripciones tendrán más valor semántico no solo en búsquedas textuales, sino también en imágenes o en formatos de información.

Para comprender la visión tradicional de biblioteca nacional vamos a remontarnos al concepto que fue aceptado en la 16ª Conferencia General de la Unesco, que tuvo lugar en 1970, en el cual se aprobó la siguiente definición de bibliotecas nacionales: “Las bibliotecas que, cualquiera que sea su denominación, son responsables de la adquisición y conservación de ejemplares de todas las publicaciones impresas en el país y que funcionan como bibliotecas ‘de depósito‘, en virtud de disposiciones sobre el depósito legal o de otras disposiciones”. Normalmente, pueden desempeñar también algunas de las funciones siguientes: elaborar una bibliografía nacional; reunir una colección amplia y representativa de obras extranjeras, que también comprenda libros relativos al propio país; actuar como centro nacional de información bibliográfica; compilar catálogos colectivos; publicar la bibliografía nacional retrospectiva. Las bibliotecas tituladas “nacionales” que no respondan a esta definición no deberían clasificarse en la categoría de “bibliotecas nacionales” (Orea et alt, 1996). Es una definición acertada pero también hay que tener en cuenta los avances tecnológicos en este siglo XXI para completarla en abril del año 2000, la Library of Congress celebró su bicentenario con una serie de eventos como ponencias y simposios de las que expondremos algunas conclusiones:

(8)

- La Biblioteca Nacional es la institución más afectada por el entorno digital y por ello es necesario aplicar el potencial de las nuevas tecnologías hacia la biblioteca global, al mismo tiempo que preservar, restaurar y honrar las colecciones históricas y las tradiciones específicas. Por tanto se debe evitar y combatir la división entre aquellos que tienen acceso a la tecnología digital y aquellos otros que no lo tienen.

- La Biblioteca Nacional debe sustituir los formatos de las colecciones tradicionales por materiales de libre acceso totalmente gratis o de bajo precio e invertir en ordenadores y en mejorar las prestaciones de los navegadores web para el acceso a la información que permita sustituir la intensa labor de las tareas de catalogación, indización y servicio de resúmenes.

- Los recursos digitales deben ser usados en sustitución de algunos formatos tradicionales.

- En el futuro, los ordenadores sofisticados pueden volver obsoletas las reglas federativas, tales como, los protocolos y estándares como son los AACR2 y MARC.

- Examinar el catálogo de la biblioteca como un portal para la Web y con los desafíos respectivos.

- Asesorar a la biblioteca con los estándares de metadatos adecuados para el control bibliográfico y el acceso a la Web.

- Explorar el potencial de la cooperación entre bibliotecas, metadatos, y comunidades de expertos, que podrán propiciar el desarrollo de nuevos proyectos o basados en la Web e identificar los resultados con la realización de planes de acción y una estrategia global para alcanzar las metas fijadas en la conferencia.

Estas nuevas tecnologías de la información y la comunicación (TIC) en las bibliotecas, la universalización del uso de Internet y la gran cantidad de recursos que son

(9)

accesibles desde la Red ha provocado que las bibliotecas se impliquen en un nuevos modelo donde tienen que plantearse una revisión de sus técnicas y metodologías de trabajo, y de los servicios que prestan para tratar de adaptarlos a las nuevas herramientas tecnológicas que tienen a su disposición, y así de esta forma poder satisfacer mejor las demandas cada vez más exigentes y específicas de sus usuarios.

Como fruto de este proceso de transformación y adaptación surgen las bibliotecas digitales, una extensión lógica de las bibliotecas físicas (Marchionini, 2000) que albergan colecciones de recursos en formato electrónico y que tienen asociados una serie de servicios para facilitar el acceso a estos recursos a diferentes comunidades de usuarios utilizando para ello diversas tecnologías (Smeaton, Callan 2005).

Pero puede existir un inconveniente en estos nuevos recursos, y reside en que la información recuperada no es más que una serie de cadenas de caracteres que restringe la capacidad de recuperar información relevante en el modelo de Web actual. Una posible solución para solventar estas deficiencias, que dio origen al proyecto Web Semántica (Berners-Lee, Hendler, Lassila 2001), consistiría en mejorar y enriquecer la representación de la información utilizando un vocabulario y modelo de datos común que fuera interpretable tanto por humanos como por los propios agentes. Es una extensión de la Web actual cuyo objetivo último consiste en convertirse en una plataforma universal para el intercambio de información. Se sustenta en dos ideas: el marcado semántico de los recursos, es decir, una separación formal entre el contenido y la estructura de los documentos (Berners-Lee 2000), y el desarrollo de agentes software capaces de procesar y operar con estos recursos a nivel semántico (Hendler 2001).

La propuesta del W3C para el etiquetado semántico de recursos es RDF (Resource Description Framework) (Becket 2004), un metalenguaje que proporciona un modelo de datos que permite estructurar el conocimiento en forma de tripletas sujeto-predicado-objeto que, a su vez, se pueden representar en forma de grafos de nodos y arcos que están identificados unívocamente mediante URIs (Uniform Resource Identifiers), o identificadores uniformes de recursos.

(10)

Esta primera etapa es primordial, ya que sin la existencia de un número adecuado de documentos etiquetados no será posible su implantación. El siguiente paso consiste en desarrollar agentes inteligentes que realicen de forma semiautónoma tareas de recogida, filtrado, y procesamiento de información y cumplan el papel de conexión entre las necesidades de información de los individuos y las fuentes de recursos distribuidas de la Red. De hecho, el verdadero potencial de la Web Semántica se desarrollará cuando la Web tenga una gran población de agentes que sean capaces de recoger información de diferentes fuentes, procesarla e intercambiar resultados con otros agentes.

El modelo de Web Semántica está formado por seis capas diferentes: en las tres primeras se establecen las bases para poder representar la información de una manera semánticamente accesible, mientras que en las tres capas superiores se definen los elementos que les permiten a los agentes software autentificar y comprobar la confiabilidad de los diferentes elementos del modelo (recursos, agentes, inferencias obtenidas, etcétera) (Peis, Herrera-Viedma, Morales-del-Castillo 2006)

Fig.1 Capas de la Web Semántica

(11)

A continuación hablaremos y detallaremos cuales son las capas de las que hablan los autores Eduardo Peis, Enrique Herrera-Viedma y José Manuel Morales-del-Castillo en su trabajo Aproximación a la web semántica desde la perspectiva de la Documentación (2006) en el cual explican el grafico anterior y qué función tienen cada una dentro del modelo de la Web Semántica.

CAPA SINTÁCTICA

Esta capa son los cimientos del modelo de Web Semántica y en ella se definen Unicode y URI, que permiten el intercambio y reutilización de recursos de fuentes de información heterogéneas y distribuidas. El estándar Unicode, es como el alfabeto, es un elemento de codificación de caracteres universal, y las URI (Uniform Resource Identifier) (Berners-Lee, Fielding, Masinter , 2005) como esquema para identificar recursos de una forma unívoca, similar a una especie de referencias.

CAPA SEMÁNTICA

En esta capa se define el modelo semántico, se identifican los recursos de forma unívoca, es decir, se determinan los metadatos de los documentos, y se crea un modelo lógico de metadatos. Por este motivo el W3C ha desarrollado las recomendaciones RDF (Resource Description Framework) y RDFS (RDF Schema).

RDF (Beckett 2004) es un lenguaje que permite codificar, intercambiar y reutilizar metadatos estructurados, cuya información está organizada en forma de tripletas sujeto- propiedad- que suelen representarse en grafos.

RDF Schema (Brickley, Guha 2004) es una extensión semántica de RDF, y define un lenguaje con el que es posible construir taxonomías de dominios particulares, definiendo

(12)

clases y propiedades, relaciones jerárquicas y restricciones de rango y dominio para esas propiedades.

CAPA ONTOLÓGICA

En esta capa es donde se definen las ontologías, Gruber define ontología como “a formal explicit specification of a shared conceptualization” (Gruber 1995) son una serie términos relevantes que proporcionan una conceptualización formal de un dominio concreto con la que pueden operar diferentes aplicaciones software. De esta manera, los conceptos utilizados para la descripción permiten tener un vocabulario común que favorece la comunicación y la interoperabilidad de recursos entre aplicaciones.

En la actualidad existen diferentes lenguajes formales para la definición de ontologías en la Web, pero es OWL (Web Ontology Language) (McGuinnes, Harmelen 2004), la recomendación del W3C que es una extensión semántica de RDFS, que define clases y propiedades complejas para diseñar ontologías web manteniendo la convención sintáctica de RDF.

En OWL se distinguen tres versiones:

- OWL Lite , versión más simple, se definen una serie de elementos básicos para crear ontologías fáciles de procesar

- OWL DL que proporciona todas las funcionalidades del lenguaje pero imponiendo una serie de de restricciones sobre las propiedades de RDF

- OWL Full, versión completa, que incluye todas las funcionalidades del lenguaje y admite propiedades típicas de RDF

En la actualidad , para garantizar la operatividad de las aplicaciones se recomienda utilizar OWL Lite u OWL DL.

(13)

CAPA LÓGICA

En esta capa se establecen los pasos que un agente debe seguir para llegar a una conclusión con las inferencias obtenidas en un proceso de búsqueda de información. Sobre ella, se sustentan las tres últimas capas del modelo, en las que se tratan básicamente cuestiones relacionadas con la seguridad, veracidad y confianza de la información que intercambian entre sí los agentes software.

CAPAS DE PRUEBA

La capa de prueba define una infraestructura adecuada para que los agentes puedan establecer relaciones lógicas complejas con otros agentes, intercambiando pruebas sobre las inferencias obtenidas en una búsqueda (Finin, Joshi 2002).

Esta infraestructura se enriquece de:

- Reglas de inferencia definidas en la capa lógica donde se especifican los requerimientos de seguridad.

- Capacidad de los agentes de rastrear y probar el origen de una secuencia lógica gracias a la estructura en que está representada la información (Antinou, van Harmelen 2004).

- Firmas digitales, bloques de datos cifrados que permiten a los agentes verificar que determinada información proviene de una fuente fiable (Berners-Lee, Hendler, Lassila 2001).

(14)

CAPA DE CONFIANZA

Hay que tener presente que , las firmas digitales no permiten establecer la confianza que a un individuo le merece determinada fuente por eso el último paso , la capa de confianza, en la que se establecen extensas redes sociales de confianza (Matthew, Agrawal, Domingos 2003). En estas redes todo usuario de la Web está identificado por su propia URI, y expresa el grado de confianza o desconfianza (Guha et al. 2004) una extensión que suele utilizar es FOAF (Friend Of A Friend) (Brickley, Millar 2005), un vocabulario RDF específico para describir relaciones sociales en la Web (Goldbeck,Hendler, Parsia 2002).

De esta manera, aplicando conjuntamente las reglas de inferencia definidas en la capa lógica, las firmas digitales y las redes de confianza, sería posible construir la denominada “Web of Trust” (Web de confianza) en la que se dispondría de mecanismos de autenticación y validación precisos.

En resumen , Linked Data o Datos Enlazados es la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas Web. Por tanto no se trata únicamente de la publicación de datos en la Web, sino que éstos se pueden vincular a otros, de forma que las personas y las máquinas puedan explorar la Web de los datos, pudiendo llegar a información relacionada que se hace referencia desde otros datos iniciales.

(15)

1.2. OBJETIVOS

Al ser un dominio reciente esta área se define ayudada en múltiples disciplinas. Por tanto estamos aún en proceso de maduración y por estas razones pretendemos:

- Plantear el marco teórico de Linked Data, conceptualizar los instrumentos que utilizan y las acciones para familiarizar a la comunidad con su terminología.

- Mostar la situación de la Biblioteca Nacional de España en el uso de la Web semántica como cabecera del sistema bibliotecario español.

- Evaluar las acciones que se está llevando a cabo, aportando una visión de los pasos que se están dando para conseguir los propósitos deseados

1.3. METODOLOGÍA

En nuestra investigación hemos revisado y reflexionado sobre las acciones y recomendaciones para ellos hemos utilizado distinta tipología de documentos. Se ha presentado de forma ordenada y con unos objetivos precisos, con la misión de ser punto de partida para la construcción de nuevos conocimientos. Para ello se utilizaran diferentes técnicas como localización, análisis de documentos y de contenidos.

De este modo presentaremos datos e informaciones sobre el tema Linked Data o Datos Enlazados en las bibliotecas para descubrir hechos, sugerir problemas y orientar hacia nuevas fuentes de investigación.

(16)

Las fuentes de información utilizadas en este trabajo se pueden clasificar en:

 Obras de referencia: Básicamente diccionarios monolingües generales como el de la Real Academia de la Lengua , diccionarios bilingües generales como el Diccionario Collins o del diccionario en línea del profesor Antonio Lozano, Diccionario Larousse de sinónimos y antónimos.

 Monografías: cuyo número ha sido reducido, siendo los manuales el tipo más utilizado, los cuales se han se han obtenido de la Biblioteca del Colegio Máximo de la Universidad de Granada.

 Bases de datos científicas en línea: Principalmente se han utilizado diferentes bases de datos en línea sobre literatura científica que ofrecen acceso a recursos en formato electrónico a texto completo gracias a la posibilidad que nos da la Biblioteca de la Universidad de Granada cuyas bases de datos han sido Web of knowledge y ScienceDirect .

 Recursos Web: Debido a la temática de nuestra investigación han sido muchos recursos relativos a tecnologías, especificaciones o proyectos relacionados con Linked Data. La principal fuente de información ha sido la página del World Wide Web Consortium (W3C), donde se encuentran los grupos de trabajo y la mayoría de las especificaciones de los vocabularios utilizados en este trabajo. También en los últimos años canales de difusión e intercambio de ideas no tan tradicionales en la comunidad científica como blogs, sitios Web con recursos como presentaciones creadas para talleres o comunicaciones a congresos, e incluso algunas noticias.

(17)

1.4 ESTRUCTURA DEL TRABAJO

Este Trabajo Fin de Máster se desarrolla en cinco capítulos: este primer capítulo de introducción, tres capítulos (del 2º al 4º) en los que se describe la investigación realizada y un capítulo final en el que se dan una serie de conclusiones y trabajos futuros. Para exponer el marco conceptual de nuestro contexto investigación, en el capítulo 2º analizamos Linked Data que se refiere a una forma de publicar y enlazar datos estructurados en la Web utilizando RDF en el área de la Web Semántica. Analizamos también el papel clave que van a cumplir estas tecnologías en el contexto de las bibliotecas. Para describir los casos de usos en estas instituciones, en el capítulo 3º se estudian algunos de ellos y se dan ejemplos de acciones elaboradas en ese campo. En 4º capítulo se presenta datos.bne.es , proyecto conjunto del Ontology Engineering Group (OEG) y la Biblioteca Nacional de España, destinado al enriquecimiento de la Web Semántica con datos bibliográficos provenientes de su catálogo. En esta sección profundizaremos los planteamientos teóricos, fases del proyecto y software utilizado. En el capítulo 5º se presentan las conclusiones del trabajo y se apuntan futuras líneas de investigación.

(18)

C APÍTULO 2

2.1 INTRODUCCIÓN

En la actualidad en el mundo de las bibliotecas los avances en software, expuestos anteriormente, no han avanzado al mismo nivel que en otros contextos del entorno web. A pesar de ello los profesionales de estas bibliotecas tienen una metodología de trabajo similar seleccionado , estructurando y organizando la información, convirtiéndola en datos de calidad.

Los avances en el área de la Web semántica están destinados a mejorar la usabilidad y la accesibilidad de los datos. La idea de la Web semántica también permite crear enlaces entre los datos de fuentes heterogéneas, lo que lleva a su vez a la creación de nuevos servicios.

La Web Semántica supone una extensión de la Web actual, donde la información está dotada de un significado bien definido y puede ser procesada por las máquinas e interpretada por los humanos, permitiendo de esta forma una mejor cooperación entre ellos (Berners-Lee, Hendler, Lassila 2001). A modo de completar y ampliar la definición anterior los autores Lluís Codina y Cristòfol Rovira, proponen:

- La visión de la Inteligencia Artificial: La Web semántica es un conjunto de iniciativas destinadas a promover una futura Web cuyas páginas estén organizadas, estructuradas y codificadas de tal manera que los ordenadores sean capaces de efectuar inferencias y razonar a partir de sus contenidos.

- La visión del procesamiento robusto: La Web semántica es un conjunto de iniciativas destinadas a convertir la World Wide Web en una gran base

(19)

de datos capaz de soportar un procesamiento sistemático y consistente de la información. (Codina, Rovira 2006).

De hecho, el verdadero potencial de la Web Semántica se desarrollará cuando la Web esté poblada por un gran número de agentes que sean capaces de recoger información de diferentes fuentes distribuidas, procesarla e intercambiar resultados con otros agentes.

La Web es cada vez más entendida como un espacio de información global que consiste no sólo de los documentos enlazados, sino también de los datos enlazados. Más que una visión, la Web que resulta de los datos ha sido fruto de las acciones realizadas en la Web Semántica. Por tanto la Web de Datos Enlazados , supone un nueva forma de explotar la Web como un espacio global de información en el que la navegación se realiza a través de datos estructurados Enlazados. Dichos datos, de forma automática, serán, entre otras tareas, recopilados, agregados e interpretados utilizando vocabularios consensuados y ontologías en vez de gestionarse a través de documentos, como es la Web que conocemos ahora con documentos HTML.

La cantidad de datos Enlazados publicados en la Web ha aumentado en los últimos años principalmente hacia varios contextos como en el sector público, cuyo doble fin es proporcionar datos públicos más accesibles a la ciudadanía en un formato reutilizable y, el segundo, proporcionar un acceso único a la información gubernamental, en el sector geográfico, en los medios de comunicación y en el sector del que vamos más profundamente: el de las bibliotecas.

Nuestro sujeto de estudio, la Biblioteca Nacional de España, se ha sumado a participar en el reto de publicar los catálogos bibliográficos y de autoridades en formato RDF (Resource Description Framework) siguiendo las recomendaciones aceptadas y aprobadas para los datos Enlazados para mostrar, intercambiar y conectar información. La incorporación de los datos abiertos Enlazados de la BNE facilitara a los usuarios acceder, con más facilidad, a datos de calidad, de gran valor cultural y social, que se encuentran conectados con datos de otras bibliotecas de ámbito internacional.

(20)

2.2 ¿QUÉ ES LINKED DATA O DATOS ENLAZADOS?

La Web Semántica no se trata únicamente de la publicación de datos en la Web, sino que éstos se pueden vincular a otros, de forma que las personas y las máquinas puedan explorar la Web de los datos, pudiendo llegar a información relacionada que se hace referencia desde otros datos iniciales. Los Datos Enlazados es la manera que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas Web.

La Web Semántica, en general, y la iniciativa de datos Enlazados, en particular, su objetivo es fomentar a las instituciones para que publiquen, compartan e interrelacionen sus datos. Esto tiene un potencial considerable para las bibliotecas, ya que pueden complementar sus datos mediante su vinculación a otras fuentes de datos externos.

“El concepto Linked data o Linked open data (LOD),se puede traducir al español como datos vinculados (o enlazados) se refiere a la exposición de esos u otros datos en la Web, descritos en RDF (Resource Description Framework) y con indicación de la relación que puede existir entre esos datos y otros. En el campo de las bibliotecas generalmente trabajamos con protocolos estandarizados para gestionar sus fondos, por lo que a esta comunidad le resultaría fácil participar con sus contenidos en la Web semántica a través del uso de Linked data para publicar sus datos(Peset;Ferrer-Sapena:Subirats-Coll, 2011).

RDF (Resource Description Framework) es el escenario de descripción de recursos para metadatos en la Web realizado por el W3C (Méndez, 1999). Se declaran los recursos utilizando la forma sujeto-predicado-objeto o en la terminología RDF como triple o triplete.

Este triplete cuenta con tres componentes para hacer referencia al URI (Uniform Resource Identifiers):

– Sujeto, una referencia URI, de la que describimos.

– Predicado es la propiedad o relación que se crea sobre el sujeto;

– Objeto es el valor de la propiedad y en otros casos, del recurso con el que se fija la relación.

(21)

PREDICADO

Fig.2 Estructura RDF

Los datos enlazados se ocupan de la descripción del recurso (RDF) y la transferencia de hipertextos (HTTP) para publicar los datos estructurados en la Web y para conectar datos entre diferentes fuentes de datos.

En la Web de datos se puede acceder mediante navegadores, como sucede con la Web tradicional con documentos utilizados en HTML. Sin embargo, en estos navegadores pueden operar con las distintas fuentes de datos que siguen los enlaces RDF lo que amplía el número tanto en recursos en formato HTML como en RDF .

La utilización de URIs para enlazar los datos convierte la Web semántica en una gran base de datos que permite que las personas y las máquinas puedan navegar en la información citada e interconectada entre sí en la Web, logrando un crecimiento de esta..

Fig.3 Filosofia cinco estrellas impresa en una taza

En la imagen resume la filosofía de cinco estrellas vinculados para su publicación en la Web de abajo a arriba se resume por este sistema:

SUJETO OBJETO

(22)

⋆ Publicar bajo una licencia abierta

⋆ ⋆ Publicar datos estructurados

⋆ ⋆ ⋆ Utilice formatos no propietarios

⋆ ⋆ ⋆ ⋆ Usar URI para identificar las cosas

⋆ ⋆ ⋆ ⋆ ⋆ Vincular los datos con otros datos.

 La primera estrella consiste en ofrecer los datos en cualquier formato bajo esa licencia abierta.

 Obtener dos estrellas, son disponer de datos legibles para maquinas que pueden ser manipulados.

 Tres estrellas, seria dotar a los datos de un formato que no sea propietario logrando que liberalicen los datos permitiendo reducir los costes de tener una licencia de un programa propietario

 Tener Cuatro estrellas significaría usar URI’s para identificar cosas y propiedades, de manera que se pueda apuntar a los datos de manera directa e individualizada. De este modo se consigue automatizar al máximo un proceso de identificación, utilización y transformación de datos.

 Finalmente las Cinco estrellas consisten en conseguir vincular sus datos para obtener una participación y colaboración de los usuarios e instituciones en la generación de nueva información.

Como Tomas Saorín expone “ las bibliotecas han de apostar por publicar con calidad transformando los sistemas de catalogación y de acceso público y difundir sus datasets entre los agentes infomediarios, no entre los usuarios finales. Hay que comprender los patrones de publicación de datos enlazados, los procesos para asegurar su calidad y la transformación desde diferentes modelos de sistemas de almacenamiento de contenidos (Saorín, 2012)".

En palabras del informe final del Grupo Incubador del W3C de Datos de 25 de Octubre de 2011(http://www.larramendi.es/LAM/Incubator/lld/XGR-lld-20111025.html)

(23)

“dependerá de la comunidad de profesionales tareas como identificar, reutilizar o conectar conjuntos y modelos de datos.”

A continuación hay que conocer una terminología para comprender algunos conceptos:

- Conjuntos de datos (o datasets), son colecciones de metadatos estructurados, en nuestro campo es similar a una colección de registros bibliográficos que son afirmaciones sobre cosas, formadas por un elemento de la entidad y un valor para ese elemento. También hay que considerar este concepto como un conjunto de tripletas que pueden ser interrogadas o descargadas desde un punto específico, sin que se haga una distinción estricta entre datos y metadatos.

Esta manera de tratarlos originara sus propios datos y reutilizara sus vocabularios RDF que especificaran dominios y rangos.

- Vocabularios de valores, definen recursos como materias o autores que se utilizan como valores de elementos en los registros de metadatos. Son componentes estructurales que sirven para llenar de contenido los registros de metadatos. En nuestro campo se usan obligatoriamente determinados vocabularios (tesauros, listas de encabezamientos de materia y ficheros de autoridades) para seleccionar los posibles valores de un elemento de metadatos. Así, un vocabulario de valores es una lista de los valores permitidos para un elemento.

- Conjuntos de elementos de metadatos, definen las clases y atributos utilizados para describir entidades de interés. Estos conjuntos de elementos se concretan generalmente por medio de RDF Schemas, OWL (Ontology Web Language) agrupados bajo el término "vocabulario RDF". También hay que tener en cuenta los Requisitos Funcionales de los Registros Bibliográficos (FRBR) que definen entidades como Obra y los elementos que las enlazan y describen. Resource Description and Access (RDA) define los elementos de catalogación según el modelo FRBR. Con MARC21 se define los elementos (campos) para describir

(24)

registros bibliográficos y de autoridades. FOAF (Friend of a Friend) define los elementos para describir personas que pueden utilizarse para describir autores.

(25)

2.3. PRINCIPIOS LINKED DATA

Los Datos Enlazados, como parte de la Web Semántica, se basa en la aplicación de ciertos principios básicos y necesarios, que fomentarán el crecimiento de la Web, tanto a nivel de los documentos HTML (vista tradicional de la Web) como a nivel de los datos expresados en RDF (vista de la Web semántica).

1. Usar URIs para identificar las cosas 2. Usar URIs HTTP

3. Ofrecer información sobre los recursos usando RDF 4. Incluir enlaces a otros URIs

Para conseguir tener los datos interconectados, como si la Web fuese una gran base de datos, se deben respetar los cuatro pasos anteriores para conseguir tener los datos interconectados. Gracias a esta interconexión, se permite reutilizar la información de cualquier manera esperada o inesperada, lo que ofrece un valor añadido a la Web.

Usar URIs para identificar las cosas

Al nombrar los conceptos o cosas mediante URIs, se ofrece una abstracción del lenguaje natural y así se consigue evitar ambigüedades y así ofrecer una forma estándar y unívoca para referirnos a cualquier recurso.

Usar URIs HTTP

Se pretende el uso de URIs sobre HTTP para asegurar que cualquier recurso pueda ser buscado y accedido en la Web. Por tanto las URIs no son sólo direcciones, son identificadores de los recursos.

(26)

Ofrecer información sobre los recursos usando RDF

Una vez que se localiza y se accede a un recurso identificado mediante una URI HTTP, se debe obtener información útil sobre dicho recurso, representada mediante descripciones estándares en formato RDF. Con esto se persigue que cualquier conjunto de datos o vocabulario, ofrezca información relativa a la información que representa.

De esta forma, si una aplicación desea obtener información sobre un concepto identificado mediante una URI, cuando hace una llamada HTTP para obtener el recurso, debería obtener información fácilmente procesable en formato RDF. De la misma forma, si se proveen puntos de consulta avanzada, como SPARQL, el resultado ante una consulta podrá ser interpretado de forma automática.

Incluir enlaces a otros URIs

Es importante poder enlazar datos en cualquier lugar. Para ello es necesario conectar los datos que tenemos en sitios Web de forma que no se queden aislados y así se pueda compartir información con otras fuentes externas y que otros sitios puedan enlazar los datos propios de la misma forma que se hace con los enlaces en HTML.

A través de la utilización de enlaces a recursos provenientes de sitios más especializados en determinados dominios, se ofrece un valor añadido a la información que se provee.

Algo a tener en cuenta es que los enlaces de los recursos mediante URIs pueden hacerse localmente y a través de toda la Red. Gracias a estos mecanismos, cualquier recurso es susceptible de ser enriquecido con cualquier tipo de información especializada, incluso la que no se espera que sea combinable. De la forma inversa, al publicar información en RDF y utilizando URIs, cualquiera podría hacer referencia a esos datos.

(27)

Estos principios son una serie de recomendaciones para seguir avanzando en la Web semántica, donde para publicar solo se necesita que se cumplan los tres primeros principios, pero si no logramos el último paso serian esos datos menos visibles y no podrían reutilizarse.

2.4. VENTAJAS DEL ENFOQUE DE DATOS ENLAZADOS

Los Datos Enlazados se pueden compartir, extender y reutilizar fácilmente. En la visión de Datos Enlazados ofrece oportunidades en las prácticas de creación y distribución de datos de las bibliotecas, permiten una extensión en la forma de trabajo tradicionalmente sobre el modelo de colaboración e intercambio por las bibliotecas. También soportan

funcionalidades multilingües en una doble vertiente para los datos como para los servicios a los usuarios.

En esta nueva perspectiva los datos pueden describirse en colaboración con otras bibliotecas y enlazarse a otros datos proporcionados por otras instituciones muy similar al sistema actual donde se vinculan los documentos Web con lo que se logra que cualquier individuo o organización aporte un conocimiento específico de forma que permite reutilizar y recombinar ese conocimiento.

El uso de identificadores permite diferentes descripciones para referirse a una misma cosa consiguiendo identificadores globales únicos para designar diferentes tipologías como obras, lugares, eventos, materias y otros objetos. Esto enriquecerá a las bibliotecas ya que sus recursos se citaran en mayor numero que operando individualmente como consecuencia de esto obtendremos mayores fuentes de datos que serán muchos más accesibles. Resumiendo, habrá abundantes enlaces a datos que entre ellos podrán

completarse mediante fuentes autorizadas, frente a las fuentes tomadas de forma tradicional.

(28)

Otro aspecto a resaltar es la reutilización de los identificadores que permitirán a los proveedores de datos aportar afirmaciones parciales o completas sobre parte de sus datos, es decir, en el sistema actual de datos en un documento se intercambian siempre en forma de registros, cada uno representa una descripción completa. En cambio, en la nueva

filosofía de trabajo, la organización puede aportar afirmaciones individuales sin llegar a ser completas sobre un recurso y la suma de ellas dotara de un recurso identificado

enriquecido. De este modo, en el contexto de Datos Enlazados no existe contribución demasiado pequeña, ya que de un solo atributo puede dar lugar a que aparezcan conexiones importantes en fuentes desconocidas anteriormente. Una utilidad significativa es que los datos de autoridades de nombres y materias de las bibliotecas contribuirán a reducir el número de descripciones bibliográficas redundantes existentes en la Web, permitiendo identificar claramente las entidades clave que comparten los Datos Enlazados reduciendo la redundancia en los metadatos que representan los fondos bibliográficos actuales.

Los Datos Enlazados pueden no ser visibles para los usuarios de los servicios de bibliotecas e instituciones culturales porque los cambios están por dentro pero mientras que la estructura esté más interrelacionada mejorara en la localización y uso de los datos. Los Datos Enlazados están construidos sobre los enlaces (URIs) que amplían la exploración a un espacio informativo continuo esos conjuntos de datos que usan RDF y URIs se

presentan como un grafo global de información, en donde las herramientas y los usuarios pueden navegar libremente. Estos datos estructurados, expresados con tecnologías como RDF en Atributos (RDFa) cumplen funciones como por ejemplo, en los algoritmos de relevancia sobre motores de búsqueda, en acciones de rastreo en la Web, y en las redes sociales. También facilitarán que otros servicios de búsqueda de información reutilicen los datos bibliotecarios como la gestión de citas y referencias bibliográficas simplificándolas a copiar y pegar URIs, además de la recuperación automática de citas en Datos Enlazados o la creación de enlaces desde los recursos Web a los recursos bibliotecarios llevará a que los datos de las bibliotecas se integren plenamente en los documentos de investigación y en las bibliografías

La tecnología de Datos Enlazados puede ayudar a las organizaciones para mejorar sus procesos internos de tratamiento de datos y para mantener mejores enlaces, por

(29)

ejemplo, entre los objetos digitalizados y sus descripciones. También pueden mejorar los procesos de publicación, incluso en aquellas organizaciones cuyos datos no son totalmente abiertos. La adopción de una tecnología general como Datos Enlazados proporciona a las bibliotecas una mayor capacidad de elección de proveedores, del mismo modo que el uso de los formatos normalizados de Datos Enlazados les permite contratar e interactuar con un mayor número de desarrolladores.

Los Datos Enlazados nos brindara la posibilidad de gestionar la información "en la nube", lo que puede ser más rentable que los sistemas actuales, con esto posibilitaría que las pequeñas instituciones o los proyectos individuales estuvieran más interconectados y fueran más visibles, reduciéndose en mayor medida los costes de infraestructura.

Respecto a los datos abiertos son una oportunidad, si se establecen adecuadas condiciones de licencias permitirá que los metadatos descriptivos se reutilicen y mejoren la visibilidad de las instituciones que los producen. En las bibliotecas existirá una fuente global de datos abiertos y compartidos que pueden usarse y reutilizarse para la descripción de recursos y tareas de catalogación, con esto disminuirán las tareas redundantes. La utilización de la Web y de los identificadores darán lugar a descripciones de recursos actualizadas que a los catalogadores permitirá reunir descripciones de recursos de otros campos. En los Datos Enlazados hay una separación entre la semántica de los datos y entre el formato, de este modo, los Datos Enlazados conservan su significado incluso si cambian los formatos cosa que no sucede con los formatos de metadatos que dependen de una particular estructura de datos.

Entre los retos y oportunidades en las que se encontraran las empresas y los desarrolladores sobre el campo de bibliotecas no dependerán de un formato propietario propio de las bibliotecas. El método de Datos Enlazados permite recuperar y combinar distintas tipologías de datos entre todos los proveedores de metadatos. De este modo, para acceder los datos no será necesario los protocolos específicos de las bibliotecas como por ejemplo el Protocolo para la Recuperación de Información Z39.50 y en protocolos Web generalizados como el protocolo de Transferencia de Hipertexto (HTTP). Los

(30)

desarrolladores eliminaran la barrera que tenían a la hora de trabajar sobre formatos de datos específicos de las bibliotecas como son ISO 2709 y formato MAchine-Readable Cataloging (MARC) que requieren aplicaciones y herramientas a medida. Es otra filosofía en donde se permite volcar los datos en la Web. Las empresas podrán ofrecer sus productos fuera del mercado bibliotecario, además empresas que no pertenecen al sector de las bibliotecas podrán adaptar sus productos a las necesidades específicas de las bibliotecas.

Como resultado de esto el uso de RDF y HTTP ofrecerá a los desarrolladores no ser dependientes de un software específico al campo de actividad en el que operen.

(31)

C APÍTULO 3

CASOS DE USOS DE BIBLIOTECAS

Los casos de uso que trataremos a continuación tienen unas ventajas potenciales que las tecnologías de Linked Data ofrecen para la descripción de los recursos de las bibliotecas y para que entre instituciones compartan estas descripciones. Estas ofrecen en algunos casos la representación o creación de relaciones entre los recursos, las cuales se agrupan en entidades similares o especificando las relaciones existentes. Al crear nuevas relaciones se pueden realizar bien por mecanismos automáticos como son las inferencias o por el caso contrario por acciones manuales como etiquetado o catalogación, Entre los usos de las relaciones, sirven para encontrar información a través de la navegación o de los servicios de búsqueda, y para sindicarse o agregar materiales procedentes de diferentes fuentes.

El informe del Grupo Incubador de Datos Enlazados de Bibliotecas del W3C muestra un conjunto de casos de uso de la comunidad bibliotecaria y de otros sectores afines. Los casos se pueden dividir en ocho grupos temáticos que se describen a continuación:

 Datos bibliográficos

 Datos de autoridades

 Alineamiento de vocabularios

 Archivos y datos heterogéneos

 Citas

 Objetos digitales

 Colecciones

 Usos sociales y usos innovadores

(32)

A continuación os mostramos un resumen y características de estos casos, extraídos de Grupo Incubador de Datos Vinculados de Bibliotecas: Casos de uso Informe de Grupo Incubador del W3C de 25 de octubre de 2011 (http://www.larramendi.es/LAM/Incubator/lld/XGR-lld-usecase- 20111025.html)

3.1. DATOS BIBLIOGRÁFICOS

Entre sus usos:

 Normalización semántica de elementos bibliográficos, permitiendo un conjunto de elementos estándar

 Eliminación de duplicados y unificación de registros, con esto se consigue un único registro para cada recurso con los enlaces a los distintos ejemplares.

 Etiquetado de recursos Web con términos bibliográficos normalizados

 Interfaces integradas de búsqueda de metadatos en diferentes proveedores, permite buscar todos los recursos de un consorcio de instituciones por medio de una única interfaz integrada que proporciona todos los ejemplares disponibles de un recurso, presentándolos según diferentes criterios.

 Agregación de información

 Anotación de registros bibliográficos que han sido obtenidos al realizar una búsqueda

(33)

Ejemplos de algunos de esos usos:

AGRIS (http://agris.fao.org/)

Desde 1975 la base de datos AGRIS (Sistema de información Internacional para las Ciencias y la tecnología agrícolas) agrega y difunde referencias bibliográficas, tales como artículos de investigación, estudios y tesis. Las referencias incluyen metadatos sobre conferencias, investigadores, editores, instituciones y materias, catalogadas por más de 150 instituciones participantes de más de 100 países. La estrategia de los Datos Enlazados de AGRIS se centra en dos objetivos: configurar AGRIS como productor de Datos Enlazados para explotar la riqueza semántica de sus datos, creando un conjunto de datos RDF sobre las ciencias agrícolas, y exponerlos a otros servicios Web que puedan consumir y enlazar a los datos AGRIS. La estrategia de Datos Enlazados de AGRIS (Sistema Internacional de Información para las Ciencias y la Tecnología agrícolas) se centra en la explotación de la riqueza semántica de sus datos, creando un conjunto de datos abiertos sobre las ciencias agrícolas.

Data BNF (http://data.bnf.fr/semanticWeb)

La Bibliothèque nationale de France (BnF) publica en la Web diferentes tipos de recursos. Las tecnologías de los Datos Enlazados pueden ayudar a la BnF a reunir datos de diversas fuentes, conforme a un modelo de datos escalable e interoperable, y mejorar la publicación de los recursos de su catálogo en línea, así como a alinear y enlazar éstos a otros recursos de interés de la Web. Las tecnologías de los Datos Enlazados pueden contribuir a que la Bibliothèque nationale de France (BnF) agrupe los datos de diferentes fuentes según un modelo de datos escalable e interoperable para mejorar así la publicación de los recursos en su catálogo en línea.

(34)

3.2. DATOS DE AUTORIDADES

 Mejora de metadatos por medio de documentos aportados por los usuarios, pueden incluir metadatos sobre un autor, el título de la obra, palabras clave, etc., además el sistema puede sugerir distintas posibilidades, recuperadas de ficheros de autoridad, de tesauros o de vocabularios controlados. Los valores propuestos se identificarán únicamente por sus URI y cuyas ventajas permitirán una recuperación precisa, mejorará la usabilidad y se reducirán problemas como la duplicidad de los registros.

 Ampliación de los resultados de búsqueda a partir de datos de autoridades que permitirá obtener todas las formas de nombre de una entidad de nombre autorizada. Los sistemas pueden reconocer las diferentes formas de los nombres y dirigir a los usuarios a todos los registros asociados con la forma autorizada. Además, estos sistemas pueden proponer términos relacionados para otras posibles búsquedas.

 Agregación de datos de autoridades, pueden crearse enlaces semánticos entre los registros permitiendo a las instituciones donde se vincule sus registros de autoridad con los de otros grupos, cuya agregación de información procedente de distintas instituciones favorecerá a los usuarios.

Ejemplos de algunos de esos usos:

Linked Data Service of the German National Library (http://www.dnb.de/EN/datendienste/linkedData)

En Alemania los Datos de autoridades se agrupan y se mantienen de forma cooperativa. Estos datos, así como los datos bibliográficos de la Biblioteca Nacional de Alemania, son apropiados para muchas bibliotecas y para otras instituciones de patrimonio cultural. Los Datos Enlazados proporcionan un marco para la publicación de los datos de la Biblioteca Nacional de Alemania y para enlazarlos a otras fuentes de interés.

(35)

Virtual International Authority File (VIAF) (http://viaf.org/) VIAF fusiona los ficheros de autoridad de nombres de distintas instituciones en un único servicio de registros de autoridades. El enfoque de los Datos Enlazados de VIAF proporciona una experiencia y unos conocimientos muy útiles sobre cómo aplicar los principios de los Datos Enlazados a los registros de autoridad.

3.3 AGRUPACIÓN ALINEAMIENTO DE VOCABULARIOS

Los casos de uso de enriquecimiento y localización de información se centran en las colecciones que han aplicado vocabularios, de origen o destino, que a su vez han sido utilizados en operaciones de alineamiento. Estos casos ofrecen:

 Enriquecimiento de colecciones basado en vocabularios

 Localización de información indexada en colecciones heterogéneas a partir de vocabularios

 Exploración de espacios temáticos por medio de la navegación entre vocabularios.

 Localización multilingüe de información.

 Conexiones entre diferentes campos, disciplinas y comunidades profesionales

La mejora y reutilización de vocabularios, o bien para ampliar otros vocabularios de valores, o para la creación de nuevos vocabularios de valores puede efectuarse:

 A partir de un vocabulario común como punto de apoyo y ampliándolo con vocabularios especializados que se convierten así en extensiones locales del núcleo compartido de alto nivel.

(36)

 Mediante la fusión de vocabularios, es decir, apoyando la construcción de nuevos vocabularios, o bien alineando vocabularios, o bien por medio de la integración de un vocabulario en otro.

Con la publicación, localización y mantenimiento de herramientas y servicios de alineamiento de vocabularios pueden darse los siguientes servicios:

 La descripción a nivel de alineamiento permite generar puntos únicos de adquisición de alineamientos de vocabularios de valores y/o los contenidos proporcionados por esos vocabularios.

 La gestión de cambios y versiones de alineamientos (por ejemplo, mapas de enlaces) ofrecen servicios de actualización y notificación que permiten que las aplicaciones que utilicen los vocabularios alineados se mantengan a la par de los cambios en las fuentes de origen o bien que puedan centrarse en una versión estable determinada.

Ejemplo de los casos individuales

Civil War Data 150 (http://www.civilwardata150.net/)

Civil War Data 150 ("CWD150") es un proyecto cooperativo para compartir y conectar datos relacionados con la Guerra Civil Norteamericana a través de instituciones locales, estatales y federales. Mediante la agregación de diversas fuentes de información, el alineamiento de vocabularios en una ontología específica para la Guerra Civil Norteamericana, es posible localizar información sobre un determinado lugar, regimiento, batalla u oficial. CWD150 utilizará la tecnología de los Datos Enlazados para establecer conexiones basadas en identificadores sólidos y en una taxonomía de la Guerra Civil,

(37)

especialmente para regimientos, batallas, campos de batalla, oficiales, soldados y marineros.

3.4. ARCHIVOS Y DATOS HETEROGÉNEOS Los casos de uso en este apartado se centran:

 Conexiones semántica para conjunto de archivos que quieren mejorar la forma en que comparten información para establecer conexiones entre sus colecciones a través de las materias, los nombres, los nombres de lugares y otros tipos de información contenida en sus metadatos.

 Localización fortuita, en las bases de datos actuales no permiten que los usuarios puedan seguir las conexiones que puedan revelarse en las descripciones de materiales de archivo. Dado que es difícil predecir los métodos que utilizan quienes buscan información y qué información les resultará útil, los Datos Enlazados permitirían a los usuarios seguir cualquiera de los enlaces a los que apunte algún dato de los metadatos del archivo.

 Convergencia para obtener una mayor visibilidad un archivo visibilidad puede enlazar sus materiales con recursos Web. Se podría hacer esto creando y exportando los metadatos

 Mejora de la gestión de datos, facilita y mejora la interoperabilidad entre datos heterogéneos, descritos por medio de diferentes formatos de metadatos.

 Incremento del uso de materiales preservados digitalmente por un número mayor de usuarios.

(38)

Ejemplos de los casos individuales:

Europeana (http://pro.europeana.eu/linked-open-data)

Europeana ofrece un servicio que reúne archivos, bibliotecas, museos y material audiovisual de toda Europa. Europeana agrega metadatos a partir de varios proveedores de patrimonio cultural. Proporciona un mecanismo de búsqueda unificado sobre diversas colecciones de objetos, utilizando los metadatos a través del portal Web o por medio de una API. Su objetivo es aumentar la reutilización y la referencia a los objetos digitales que la conforman. Se pretende mejorar la interoperabilidad semántica entre los modelos de metadatos, a enriquecer los metadatos existentes, a mejorar la recolección de objetos y enlaces, así como a mejorar los procesos de búsqueda y a facilitar el acceso a los metadatos a terceros.

LOCAH (http://blogs.ukoln.ac.uk/locah/)

El proyecto LOCAH investiga la creación de vínculos entre The Hub y otras fuentes de datos, lo que incluye DBPedia, BBC, LCSH, entre otros. Los estudios de usuarios y el análisis de entradas al sistema indican que los usuarios de Archives Hub buscan con frecuencia de forma lateral (o expandida) a través de las descripciones. Por tanto los Datos Enlazados es una forma de ampliar las ventajas de la búsqueda lateral y de ayudar a los usuarios a descubrir materiales relacionados contextualmente, por medio de la creación de vínculos a colecciones de archivos y a otras fuentes a menudo muy dispersas.

3.5. AGRUPACION DE CITAS

Los casos de uso en este apartado se centran:

 Mejora de la representación de las publicaciones en la que los materiales referenciados en las citas estén accesibles directamente a partir de la cita

 Mejora de la navegación permitiendo a los usuarios naveguen desde una cita directamente a su localización en la publicación referenciada

 Evaluación automática de publicaciones

 Recuperación del contexto de cita

(39)

Ejemplos de los casos individuales:

Enhanced Publications

(http://www.surf.nl/en/publicaties/Pages/EnhancedPublications.aspx)

El objetivo de Enhanced Pubications es incluir no sólo el artículo, sino también los datos subyacentes, los modelos, algoritmos, imágenes ilustrativas, conjuntos de metadatos y otros datos posteriores a la publicación, como comentarios o valoraciones. La utilización de Datos Enlazados a este escenario puede ayudar a agrupar el material de investigación y a crear un todo lógico de ese proceso de investigación con el fin de que resultados puedan contrastarse y, por tanto, sean más transparentes.

3.6. OBJETOS DIGITALES

 Agrupamiento

 Enriquecimiento, que permite a los usuarios finales que interrelacionen recursos, tales como descripciones relacionadas, personas o temas.

Por ejemplo, un poema de un repositorio de textos digitales puede estar enlazado al poeta definido en un fichero de autoridad en cualquier lugar de la Web. Incluso, podría hacerse una vinculación de grano fino a nivel de los términos individuales de un documento.

 Exploración través de grupos y de recursos que pertenecen a estos grupos lo que permite que los usuarios finales exploren las conexiones entre los recursos.

 Reutilización de la totalidad o partes de una colección, la totalidad o parte de sus metadatos, en cualquier sitio de la Web enlazada.

(40)

NDNP (http://www.neh.gov/divisions/preservation/national-digital-newspaper- program)

El National Digital Newspaper Program (NDNP) es una asociación entre el National Endowment for the Humanities (NEH), la Library of Congress (LC) y otros proyectos estatales para proporcionar un mejor acceso a la prensa de los Estados Unidos publicada entre 1836 y 1922. El objetivo es permitir que las partes interesadas puedan extraer datos de la aplicación Web para utilizarla en sus propios entornos. La aplicación Web se diseñó especialmente para generar una dirección URL para cada cabecera, número y página.

3.7. COLECCIONES

 Descripciones a nivel de colección, proporcionando metadatos con la finalidad de que los usuarios accedan y recuperen información sobre colecciones de distintas instituciones, lugares, en soporte electrónico o físico.

 Localización innovadora de colecciones como identificación de agrupaciones cercanas en ubicación donde se solicite la información o también para aplicaciones de dispositivos móviles.

 Servicios de información de comunidad

Library Address Data (http://www.hbz-nrw.de/)

. El HBZ (Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen) ha creado un conjunto de datos de identificadores de bibliotecas en Datos Enlazados, que se puede utilizar en diferentes escenarios para establecer enlaces, así como la vinculación de

(41)

los datos bibliográficos con los datos de fondos y ejemplares o en aplicaciones móviles de geolocalización que proporcionen horarios de apertura al público, información sobre el edificio o sobre el personal de la biblioteca

3.8. USOS SOCIALES Y USOS INNOVADORES Los casos de uso en este apartado se centran:

 Infraestructura distribuida para la publicación/agregación ya que las personas realizan acciones que, una vez agregadas, pueden proporcionar colecciones más amplias o recomendaciones más.

 Contribución colectiva, pueden ser "tradicionales", en las que muchas personas envían sus aportaciones a un servidor compartido y colaboraciones multipersonales dentro de un espacio compartido, o a la conservación de los recursos de una comunidad.

 Datos legibles por máquinas, existe una gran variedad de formatos RDF o microformatos, los cuales pueden distribuirse por medio de interfaces de programación de aplicaciones (APIs).

Ejemplo de los casos individuales Mendeley (http://www.mendeley.com)

Durante el proceso de publicación científica, nos encontramos que las publicaciones una vez impresas se sitúan en un contexto aislado de los datos y de las referencias. Por eso Mendeley nos ofrece recuperar el contexto original de estas publicaciones, mediante metadatos basados en la atención y aportados socialmente de forma multitudinaria, además de métodos algorítmicos para vincular esos documentos. Estas funciones harán uso de Datos Enlazados y del análisis de los grafos de enlaces (por ejemplo, de los lectores, co- citas, etc.). Las ventajas para los investigadores es que podrán utilizar Mendeley para encontrar investigaciones afines que otros colegas hayan incorporadopreviamente en esa base de datos Mendeley.

(42)

C APÍTULO 4

4.1. INTRODUCCIÓN

La incorporación de los datos abiertos enlazados de la BNE permitirá a los ciudadanos acceder, con más facilidad, a datos de calidad, de gran valor cultural y social, que se encuentran enlazados con datos de otras bibliotecas internacionales. La Biblioteca Nacional de España (BNE), a partir de ahora, está publicando los catálogos bibliográficos y de autoridades en formato RDF (Resource Description Framework) siguiendo los principios de los datos enlazados para realizar acciones para mostrar, intercambiar y conectar información.

La Biblioteca Nacional de España es un organismo autónomo encargado del depósito del Patrimonio Bibliográfico y Documental de España. Dedicada a reunir, catalogar y conservar fondos bibliográficos, custodia más de 28 millones de publicaciones producidas en territorio español desde comienzos del siglo XVIII.

La iniciativa datos.bne.es nace de la colaboración de los equipos Ontology Engineering Group (OEG) y la Biblioteca Nacional de España donde convierte y publican los catálogos bibliográficos y de autoridades de la BNE en RDF, mediante ontologías o vocabularios aceptados por la IFLA, logrando que los datos sean accesibles en la Web Semántica y permitiendo enlazarlos con una serie de datasets de la nube, como por ejemplo VIAF, que se trata de un Fichero de Autoridades Virtual Internacional, del que hemos hablado en el capitulo anterior. Con esta iniciativa, la BNE y España se adhiere a las iniciativas de otras bibliotecas que en otros países, como Reino Unido con la British Library y la Deutsche Nationalbiblioth de Alemania.

Las primeras conclusiones del proyecto fueron puestas en conocimiento en la sesión del Grupo de Interés sobre Web semántica de IFLA en el 77º Congreso Mundial de Bibliotecas e Información, organizado por la IFLA en Puerto Rico. Paralelamente, el grupo

(43)

W3C de Datos Enlazados en el contexto de las Bibliotecas ha publicado un informe de casos y aplicaciones de utilidad, como evidencia de las posibilidades que nos ofrecen este tipo de iniciativas en la Web semántica.

La incorporación de los datos enlazados de la BNE posibilitara a los usuarios a acceder a datos de calidad, con un valor añadido culturalmente y socialmente, ya que estarán interconectados con datos de otras bibliotecas internacionales. A las instituciones que utilizan datos culturales, les dotara de nuevas aplicaciones e ideas de trabajo innovadoras para disfrutar de los datos de la BNE. Por último resaltar que los datos enlazados permiten incrementar la interoperabilidad entre las bibliotecas a distintos niveles tanto a nivel internacional, nacional, regional y local, provocando datos de mayor calidad que las bibliotecas ofrecerán a su comunidad.

El portal es uno de los primeros, en realizar acciones a nivel internacional sobre los modelos propuestos por IFLA, como ISBD (International Standard for Bibliographic Description), el estándar internacional para descripción bibliográfica, o FRBR (Functional Requirements for Bibliographic Records), el modelo de requisitos funcionales para registros bibliográficos, que aporta una forma estandarizada de describir datos bibliográficos que además ofrezca el intercambio de registros bibliográficos a nivel internacional dentro de un modelo conceptual normalizado.

En la transformación en números son alrededor de siete millones de registros almacenados en formato MARC 21 en los catálogos bibliográficos y de autoridades según informa la BNE en su página, para esta finalidad se uso la herramienta MARiMbA (MArc Rdf and Mappings generAtor). Este recurso soporta todo el proceso de generación de RDF a partir de registros MARC 21. La herramienta permite utilizar cualquier vocabulario y simplifica el proceso de asignación de correspondencias entre los vocabularios elegidos y MARC 21.

Después de describir los datos con los modelos de IFLA y se pasa a generar los catálogos bibliográficos y de autoridades en RDF, el siguiente paso ha sido conectar estos

(44)

datos con otras bases de conocimiento existentes en RDF. Con estas acciones los datos de la BNE se encuentran enlazados con otros datos albergados en fuentes de datos internacionales a través de VIAF, el fichero de autoridades virtual internacional. Para terminar, la licencia usada en los datos es CC0 (Creative Commons Public Domain Dedication), que es abierta y encaminada a la reutilización. La BNE además participa, según lo establecido en el Real Decreto 1495/2011, de 24 de octubre, en la reutilización de la información del sector público y expuesto por CENL (Conference of European National Librarians).

(45)

4.2. ASPECTOS PREVIOS A LA CREACIÓN DE UN SERVICIO DE DATOS ENLAZADOS

Aspectos Técnicos

Con el fin de establecer un servicio de datos enlazados se requiere de cierta infraestructura. Esto comprende un medio de almacenamiento de datos un servidor Web, y una herramienta que interpreta las peticiones entrantes Web, que se traduce en consultas para el almacenamiento de datos y devuelve los resultados. Dada la relativa novedad del movimiento de datos vinculado, las opciones tecnológicas son todavía escasas en gran medida en el desarrollo.

Aspectos Conceptuales

Otra cuestión esencial es el de modelo de datos, habrá que elegir entre las muchas ontologías disponibles, cada una contara con una serie de ventajas e inconvenientes. Un aspecto importante a tener en cuenta en este contexto es la definición de propiedades sobre personas, que pueden o no ajustarse a los modelos de datos. Habrá ocasiones que una ontología por sí sola no solucione todos los problemas, será necesario en ese momento combinar ontologías para tratar propiedades personalizadas en esos casos particulares que son difíciles de modelar.

Otra cuestión es la especificación de URI, las bibliotecas y las organizaciones que publican sus datos son dueñas de sus conjuntos de datos aislados sin ningún tipo de identificadores públicos y los datos existentes con flujos de trabajo de intercambio. Se crearan nuevas URIs para entidades y sus descripciones. Las bibliotecas ya utilizan gran cantidad de identificadores públicos para sus datos y las entidades que describen, y en ellas hay masivamente un intercambio de datos. Un esquema de identificación adecuada debería funcionar para todos los flujos de trabajo, tanto para datos tradicionales como datos enlazados.