• No se han encontrado resultados

Datos enlazados en la Biblioteca Nacional de España

N/A
N/A
Protected

Academic year: 2021

Share "Datos enlazados en la Biblioteca Nacional de España"

Copied!
31
0
0

Texto completo

(1)

Datos Enlazados en la BNE:

datos.bne.es

Daniel Vila Suero Asunción Gómez-Pérez

Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid

http://www.oeg-upm.net [email protected]

Acknowledgements: B. Villazón, E. Montiel-Ponsoda, R. Santos, A. Manchado, M. Hernández Agustí, M. Jiménez Piano, E. Escolano

II Jornada sobre la Reutilización de la Información del Sector Público Madrid, España 15 de Febrero de 2012

This work is supported by the Spanish Project TIN2010-17550 for the

(2)

Indice

1.

Los datos enlazados de forma

intuitiva

2.

Los fundamentos

3.

El proceso

4.

Marimba

(3)

¿Quién ha traducido “El Quijote” a otros idiomas?

Múltiples fuentes de datos multilingües

La información local puede estar incompleta

La información remota no es accesible de manera

(4)

Consultas complejas sobre diferentes fuentes de datos

http://www.bne.es/

http://www.viaf.org/ http://d-nb.info

¿Cuántos obras escritas por Miguel de Cervantes Saavedra están registradas en La BNE y en la DNB?

(5)

Datos de las diferentes bibliotecas expuestos vía Web

5 BD de la BNE BD VIAF BD DNB

¿Cuántos obras escritas por Miguel de Cervantes Saavedra están registradas en La BNE y en la DNB?

http://www.bne.es/

http://www.viaf.org/

(6)

M. Cervantes Don Quixote Hebrew creator Translated into 1960 Year of publication VIAF located

Integración de datos

M. Cervantes El Quijote Hebreo Autor Traducido en 1950 Año de Publicación BNE Ubicado en

M. Cervantes Don Quijote

Deutsch Autor Übersetzung 2011 P-Jahr Deutsche National Bibliothek Bibliothek M. Cervantes El Quijote Autor 1605 Año de Publicación BNE Ubicado en BD BNE BD VIAF BD DNB

(7)
(8)

Indice

1.

Los datos enlazados de forma

intuitiva

2.

Los fundamentos

3.

El proceso

4.

Marimba

(9)

Utilidad de los datos enlazados

• 

Combinar datos

de fuentes

heterogéneas

en diferentes formatos

con diferente nivel de

detalle

en diferentes idiomas

de diferentes países

Facilitar la integración de

datos

(10)

Linked Open Data

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

2011

D

D

D

D

D

D

D

D

D

a

Linke

e

e

e

e

e

e

e

e

e

e

d

d

d

d

d

d

d

d

d

d

d

Open

D

D

BNE

(11)

Los fundamentos

Identificadores Unicos: URI

identifican un nombre o un recurso en internet.

Modelos en RDF(S) Cer El Quijote Cervantes Es autor Cer Obra Persona Es autor Es una Es una http://datos.bne.es/resource/XX1718747 http://datos.bne.es/resource/XX3383563 http://iflastandards.info/ns/fr/frbr/frbrer/C1005 http://iflastandards.info/ns/fr/frbr/frbrer/C1001

Enlazar con otros datos

Same As http://viaf.org/viaf/17220427 Cervantes Same As Same As http://dbpedia.org/resource/Miguel_de_Cervantes Cervantes

(12)

El modelo (Ontología) y los datos

Obra Lengua Traducción Año Fecha de Publicación Biblioteca Ubicado en Persona Es autor

Tiene como materia

El Quijote Cervantes Es autor Catalán Traducción 1960 Fecha de Publicación BNE Ubicado en

Tiene como materia

Vida de Cervantes

Ontología

(13)

El modelo (Ontología) y los datos

13 http://iflastandards.info/ns/fr/frbr/frbrer/C1001 http://iflastandards.info/ns/fr/frbr/frbrer/C1002 Traducción Año Fecha de Publicación http://xmlns.com/foaf/0.1/Organization Ubicado en http://iflastandards.info/ns/fr/frbr/frbrer/C1005 Es autor

Tiene como materia

http://datos.bne.es/resource/XX3383563 http://datos.bne.es/resource/XX1718747 Es autor http://datos.bne.es/resource/XX1924295 Traducción 1960 Fecha de Publicación BNE Ubicado en

Tiene como materia

http://datos.bne.es/resource/bimo0002045496

Vida de Miguel de Cervantes Saavedra Don Quijote de la Mancha

Cervantes Saavedra, Miguel de Catalán Ontología Datos http://datos.bne.es/# Lengua Obra Biblioteca Persona

(14)

Indice

1.

Los datos enlazados de forma

intuitiva

2.

Los fundamentos

3.

El proceso de transformación

4.

Marimba

(15)

Especificación Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación

Registros en formato

MARC 21

3.9

millones

registros bibliográficos

4.2 millones

registros autoridad

(16)

Modelado: FRBR Obras Expresiones Manifestaciones

Obra 1

Obra 2

Obra 3

Expresión 1

Expresión 2

Manifestación1

Manifestación2

Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación

(17)

Ontología basada en vocabularios de IFLA Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación

(18)

Marimba utiliza la ontología para generar RDF BNE Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación

(19)

Marimba enlaza con otros recursos:

VIAF, DNB, SUDOC, LIBRIS, DBpedia

BNE http://datos.bne.es/resource/XX1718747 Same As Same As Same As Same As Same As LIBRIS http://libris.kb.se/resource/auth/45369 SUDOC http://www.idref.fr/026774771/id DNB http://d-nb.info/gnd/11851993X DBpedia http://dbpedia.org/resource/Miguel_de_Cervantes VIAF http://viaf.org/viaf/17220427 Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación

(20)

Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación

Marimba enlaza con otros recursos:

(21)

Publicación

Publicación de los datos

Publicar los metadatos sobre el dataset con VOID Para facilitar el descubrimiento del dataset

•  Registrar el conjunto de datos en DataHub •  Generar el sitemap usando sitemap4rdf •  Cargar el sitemap en Google y Sindice

Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación

(22)

Explotación de los datos

select distinct COUNT(?Obras) where {

http://datos.bne.es/resource/XX1718747 <http://iflastandards.info/ns/fr/frbr/frbrer/P2010> ?Obras } URI Cervantes Is author

Consultas SPARQL:

http://datos.bne.es/sparql

Interfaz web

http://linkeddata3.dia.fi.upm.es/bne-demo

Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación

(23)

Funcionalidades de Marimba

• 

Funcionalidades principales:

•  Generación de RDF: A través de plantillas de mappings

•  Generación de enlaces owl:sameAs con otros datasets (A partir de VIAF)

• 

Valor añadido:

•  Permite mejorar y limpiar los datos de origen (registros MARC 21), gracias a la información contenida en las

plantillas de mappings

(24)

Marimba: Proceso de transformación a RDF y mappings

IDENTIFICACIÓN ANOTACIÓN RELACIÓN

MAPPING A

MAPPING B

MAPPING C

Mapping Identificación de Entidades:

Dada una etiqueta de campos y una combinación de subcampos, se determina a qué entidad FRBR se relaciona.

Por ejemplo:

100 $a $d Persona (FRBR Grupo 2) 100 $a $t Obra (FRBR Grupo 1)

(25)

Marimba: Proceso de transformación a RDF y mappings

IDENTIFICACIÓN ANOTACIÓN RELACIÓN

MAPPING A

MAPPING B

MAPPING C

Mapping Anotación de Entidades:

Dada una etiqueta de campos y de subcampo, se determina qué propiedad o atributo de la entidad se anota:

Por ejemplo:

100 $d Fecha asociada a persona 100 $t Titulo de la obra

(26)

Marimba: Proceso de transformación a RDF y mappings

IDENTIFICACIÓN ANOTACIÓN RELACIÓN

MAPPING A

MAPPING B

MAPPING C

I I

IDDDEEENNNTTTIIIFFFIIICCCCCCCCCCCCCAAACCCIIIÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓNNN AAANNNOOOTTTAAACCCIÓIIÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓÓNNN RRREEELLLLAAACCCIIIÓÓÓNNN

Mapping Relación entre Entidades:

Dados dos tipos de entidades E1 y E2 (e.g. Persona y Obra), y dado un identificador de subcampo que representa la variación de subcampos entre E1 y E2 en su punto de acceso principal y sabiendo que el valor del punto de acceso de E1 está contenido en E2, se determina que tipo de relación existe entre E1 y E2.

Por ejemplo:

Persona-Obra $t Persona es creadora de Obra Obra-Obra $n Obra es parte de Obra

(27)

Marimba: “Mejoras en los datos de origen”

• 

Durante las sucesivas iteraciones para generar RDF,

se han producido mejoras en los registros de

origen. Algunos ejemplos son:

•  Se han identificado combinaciones de subcampos NO válidas de acuerdo al estándar MARC 21:

•  Ejemplo: 100 $a $d $1

•  Se han identificado errores en la codificación de ciertas cadenas de caracteres:

•  Ejemplo: BiografÃas.

•  Se han identificado errores en algunos campos de control:

•  Ejemplo: Se ha hallado un indicador en el campo 001, que no de acuerdo al estándar no presenta indicadores.

(28)

Marimba: Descubriendo enlaces con otros datasets

• 

Marimba utiliza VIAF como fuente para generar

enlaces de equivalencia (owl:sameAs) a otros

conjuntos de datos bibliográficos.

• 

Para ello, utilizando un fichero que contiene las

correspondencias entre VIAF y las bibliotecas que

participan en VIAF:

1)  Localiza los Ids de la BNE y almacena su correspondiente en VIAF.

2)  A partir de los IDs correspondientes en VIAF, genera enlaces a otras bibliotecas que también tienen una correspondencia con dichos IDs.

(29)

• 

Modelado:

•  Open Metadata Registry •  Neon Toolkit

• 

Mapeado y generación:

•  MARiMbA: Orientado a bibliotecarios, soporta y facilita todo el proceso de transformación de MARC21 a RDF

• 

Publicación:

•  Virtuoso Universal Server •  Pubby

•  CKAN registry •  Sitemap4rdf

• 

Explotación:

•  Aplicaciones Web que visualicen los datos usando SPARQL

(30)

Otras Iniciativas de datos enlazados de bibliotecas

• 

Biblioteca Nacional Francesa

• 

Biblioteca del Congreso de EEUU

• 

Biblioteca Nacional Alemana

• 

Biblioteca Británica

• 

España:

•  Lista de Encabezamientos de Materia para Bibliotecas Públicas del Ministerio de Cultura

•  En SKOS

•  Enlazados con RAMEAU y materias del LOC •  Biblioteca Virtual de la Escuela de Salamanca •  Casos de uso en el W3C:

•  Biblioteca Virtual de Polígrafos

(31)

Resultados datos.bne.es

• 

Número total de registros de autoridad: 4.100.000

• 

Número total de registros bibliográficos: 2.390.140

• 

Número total de tripletas RDF: 58.053.215

• 

Número de enlaces (15% autoridades): 587.520

• 

Fuentes enlazadas:

•  VIAF

•  SUDOC (Sistema Universitario de Documentación) FR •  GND (Autoridades Biblioteca Nacional Alemana) GER •  LIBRIS Suecia

•  DBPedia

Referencias

Documento similar

En esta tesis se presenta una forma diferente de generar programas sin algoritmo, en donde la especificación inicial y la fuente de subrutinas serán suficientes para que

Teniendo nuevamente en cuenta aquí la antes citada concepción moralmente neutral del principio del discurso, dadas estas implicancias teóricamente opuestas al planteo de la

27 Para el análisis del valor que agrega la generación de energía en Chile, no se encontró información respecto del PIB en función de la generación o distribución

Afortunadamente, tanto los historiadores a secas como los filósofos españoles están dando un giro a los estudios sobre la España contemporánea: positivismo,

representar las diferentes dimensiones que puede tener un tablero, el turno del jugador al que le toca mover ficha en juegos de mes sencillos, una lista de condiciones que determinan

Esta guía se acompaña también con el código utilizado para el proceso de transformación de datos, así como con el código utilizado para la explotación de datos, que podrían

Por tanto, a través de GENBOT, se podrá obtener un chatbot que se integrará en Telegram e interpretará consultas en lenguaje natural que después, serán traducidas a un

Para terminar esta comunicación, nos gustaría destacar la gran acogida que han tenido las experiencias llevadas a cabo, y en lo que respecta al profesor, como hemos indicado al