El Dublin Core es la principal iniciativa de metadatos a nivel mundial, el estándar más utilizado (ISO 158362003) para la descripción, gestión y recuperación de información electrónica y una infraestructura reconocida por todas las comunidades de información digital para la construcción de la Web Semántica. Por todo ello, en esta actividad paralela se analizará el uso de este estándar en proyectos españoles, a través de experiencias o iniciativas de implantación en nuestro país, que sirvan para evaluar e incentivar el uso de este estándar en España, así como para lograr una mayor cohesión de nuestros proyectos con la masa crítica internacional. La mesa redonda será una antesala perfecta para la conferencia internacional DC2005 que se celebra este año en septiembre en nuestro país ( http://dc2005.uc3m.es).
1. La Biblioteca Digital del Ateneo
Esta comunicación se enmarca en el objetivo del taller de mostrar experiencias españolas en curso, donde se emplee el Dublin Core. Tal es el caso de la experiencia que llevamos a cabo en la construcción de la Biblioteca Digital del Ateneo de Madrid. La Biblioteca del Ateneo es una biblioteca de investigación que nació como colección bibliográfica del Ateneo de Madrid, fundado en 1835.Tiene una extensa colección de libros y publicaciones periódicas, especialmente rica en obras del siglo XIX y primer tercio del siglo XX, abarcando todas las materias y varios idiomas. Sus fondos constan de 350.000 volúmenes aproximadamente, entre los que destaca una colección de 27.000 folletos (publicaciones de menos de 50 páginas). Además contiene colecciones de periódicos y revistas científicas, (alrededor de 100.000 vols) y otros materiales como cristales, microfilms, etc.En el año 2001, con el objetivo de modernizar e incorporar las nuevas tecnologías de la información, para facilitar la gestión y difusión de los contenidos de los fondos de la Biblioteca General, surge el proyecto ACLAMA. también con el objeto de facilitar las tareas de investigación para los socios del Ateneo así como a cualquier usuario en general, se crean una infraestructura que posibilita el uso de la biblioteca digital. La biblioteca digital contiene los siguientes tipos de objetos digitales, libros, folletos, publicaciones periódicas, imágenes, audio y manuscritos. En estos momentos, en la biblioteca digital del Ateneo existen unas 800 obras de textos digitalizadas, más de 5000 imágenes, 600 horas de audio de los actos y conciertos del Ateneo(todavía no de acceso público).
2. Proceso general de creación de objetos digitales
materiales digitalización deposito repositorio Acceso publico
WWW
1. Material a digitalizar, En primer lugar se establecen los criterios de selección de material que se incorporará en la biblioteca digital 2. Digitalización. En segundo lugar se procederá a la digitalización del material, siguiendo las técnicas más adecuadas según sea el caso 3. OCR / Retoque fotografico / Optimización del sonido Para garantizar que el acceso mayoritario a los contenidos digitales, en el caso del texto se realiza el OCR y corrección posterior de los textos, en el caso de las imágenes se retocan y convierten a diversos formatos segun calidades, en el caso del audio, se quitan ruidos, normalizaciones y compresión . 4. Almacenamiento en el depósito . Una ver digitalizados los materiales, pasan al depósito, zona destinada al control de calidad final, así como a la creación de los metadatos correspondientes a: – Creación de cabecera (xml/TEI) – Creación de codas (Dublin Core)
5. Almacenamiento en repositorio . Una vez creados los metadatos, los objetos digitales son almacenados en el repositorio. 6. Acceso público. En última estancia, los materiales almacenados en el repositorio podrán ser accedidos a través de la web.
3. La estructura de objetos digitales
Objetos digitales A cada una de las obras digitalizadas, ya sean texto, imagen o audio, la consideraremos un objeto digital, es decir, es un ítem, un todo coherente, que corresponde al equivalente de un objeto físico, un libro, un folleto, una imagen o un archivo de audio. En ciertos casos, conviene considerar cada subdivisión coherente de un objeto digital como un objeto digital secundario o de nivel inferior. Como puede ser el caso: en un concierto cada pieza de un autor, en un recital de poesía cada poema recitado, es un conferencia de varios autores la intervención de cada ponente, en un libro un capítulo particular.Los objetos digitales son las unidades que tienen una dirección especifica en los directorios existentes en el repositorio. Los objetos están compuestos por varias partes: la parte principal que corresponde al contenido; la parte auxiliar que corresponde a información sobre el contenido y sobre las propias características como objeto digital. La parte auxiliar está formada a su vez por una cabecera y por una coda.
La parte principal corresponderá al contenido de los libros, folletos, periódicos, cartas y cristales que se suministrarán por la red. Estos contenidos estarán codificados con formatos diferentes (XML, PDF, RTF, TXT) para adecuarse en su difusión a las necesidades del usuario. A formatos distintos corresponden objetos digitales distintos aunque tengan el mismo contenido (texto).
bibliográfica y del contenido (utilizando el estándar Dublín Core). Codas La coda contendrá información descriptiva sobre las peculiaridades o atributos de cada objeto (consideraremos como objetos distintos los distintos formatos de una misma obra digitalizada, aunque usaremos una misma coda para todos los objetos correspondientes a un mismo contenido). Las codas proporcionarán información sobre la localización del objeto digital, los formatos en los que se encuentra, materia a la que pertenece, autor, lengua y otras características bibliográficas, etc.. Su función es facilitar al usuario final, el descubrimiento y navegación por la información, ya que sin ellos sería muy difícil unir repositorios de información con distintos orígenes. En resumidas cuentas las codas son registros informáticos compuestos de diferentes campos, cada uno de ellos puede alojar uno o varios atributos, con los que describir a los objetos digitales, a los objetos digitales secundarios asociados, y también a colecciones de objetos vinculados entre sí por alguna propiedad. Cuando se trate de colecciones de objetos digitales tendremos dos tipos de codas, en un tipo se describirán los objetos (y eventualmente los objetos secundarios asociados) y en otro tipo las colecciones. Las codas de los objetos describirán las características específicas del objeto y reflejará las relaciones con otros objetos Las codas de las colecciones describirán las características generales de esa colección, es decir, información que no se encontrará en ninguno de los objetos de la misma. Esta es una cosa importante de resaltar, que mientras entre los objetos digitales y los objetos físicos existe una relación directa, de las codas sabemos que están asociacdas a un objetos digital pero pueden existir codas que no estan asociadas a objetos digitales, por ejemplo si tenemos un conjunto de articulos encuardernados en un volumen, del cual tendremos coda para cada articulo y otra para el volumen fisico que las engloba.
4. Empleo del Dublin Core en el sistema de gestión de las codas
Todos los objetos digitales almacenados en el repositorio tienen asociada una coda, es decir, los metadatos asociados a dicho objeto digital, para ello usamos el vocabulario del DCMI (Dublín Core Metadata Iniciative ) y la sintaxis de RDF, cuyo objetivo es facilitar la recuperación de contenidos a través de la Web. Debemos tener en cuenta que el futuro de la Web es la Web Semántica, donde se pretende estructurar los recursos digitales según su significado, crear un entorno donde los agentes de software sean capaces de realizar un aprendizaje inteligente de manera que la recuperación de información sea más eficaz . RDF está realizándose de cara a la futura web, por tanto el RDF es un lenguaje diseñado para poder ser el punto de apoyo de la Web Semántica , es un marco para la descripción de recursos (significado en inglés de las siglas Resource Description Framework) o metadata para la Web. El RDF proporciona estructuras comunes que pueden ser usadas para el intercambio de datos mediante la interoperatibilidad del XML. El RDF intenta proporcionar un método de expresión semántica no ambiguo en un código entendible por la máquina.descripción de los recursos, en el caso del Ateneo el vocabulario utilizado será Dublín Core.
El objetivo del Dublín Core es definir un conjunto básico de atributos que sirvan para describir todos los recursos existentes en la red. La definición del conjunto básico de atributos se ha llevado a cabo a nivel internacional y con participantes de diversas disciplinas.
Podemos resumir las principales características de Dublín Core de la siguiente manera:
Simplicidad, pensado para que pueda ser utilizado tanto por bibliotecarios como por cualquier autor que desee describir sus documentos y aumentar su visibilidad.
Consenso internacional en el número y definición de los elementos.
Flexibilidad, nada en el DC es obligatorio, todos los elementos son opcionales y repetibles, así el usuario elige la profundidad de una descripción.
Las codas, son los ficheros utilizados para la descripción de los recursos digitales de la Biblioteca del Ateneo, estarán almacenadas en un directorio en el servidor del Ateneo de Madrid, dicho directorio será independiente del depósito y del repositorio, y sobre las codas recaerá la administración y gestión del repositorio. Para establecer la forma de gestión de las codas hemos hecho un análisis de las herramientas disponible para ello.
Las codas estan basadas en los 15 elementos basicos del Dublin Core, si bien haremos especial hincapie en el uso de los “refinamientos” de los elementos basicos destinados a la descripcion de las relaciones entre objetos HasPart, HasVersion, IsPartOf, ...pues estas relaciones son las que nos facilitarán la relación con otros materiales relacionados, permitiendo así una búsqueda de información más afinada.
Estructura de la coda.
Para definir la estructura de los registros de la coda usaremos el estándar Dublín Core, del que, a continuación, damos una descripción sucinta. En este estándar se utilizan quince elementos base, que están agrupados en los tres bloques siguientes :[DC Elements 1 ]
1. Titulo (Etiqueta: TITLE). Nombre dado al documento por el creador o editor del recurso.2. Autor o Creador. (Etiqueta: CREATOR). La persona, institución o congreso responsable principal de la creación intelectual del contenido del recurso.
3. Materia y palabras clave (Etiqueta: SUBJECT). Asunto o tema sobre el que versa el recurso. 4. Descripción (Etiqueta: DESCRIPTION). Descripción textual del contenido del recurso, incluyendo resúmenes en el caso de documentos, o descripción del contenido en el caso de recursos visuales.
[DC Elements 2]
6. Colaborador (Etiqueta: CONTRIBUTOR). Persona a organización, que ha hecho contribuciones intelectuales significativas pero secundarias con respecto a las personas especificadas en el elemento CREATOR . 7. Fecha (Etiqueta: DATE). Fecha en la que el recurso ha sido publicado o puesto a disposición de los usuarios en la forma presente. 8. Tipo de recurso (Etiqueta: TYPE). La categoría del recurso, tales como página Web, novela, poema, informe técnico, ensayo, diccionario. 9. Formato (Etiqueta: FORMAT). El formato de un recurso se usa para reconocer el software y hardware que se necesitan para mostrar a operar con el recurso. 10. Identificador (Etiqueta: IDENTIFIER). Cadena de símbolos o numero utilizado para identificar unívocamente un recurso digital.
[DC Elements 3]
11. Fuente (Etiqueta: SOURCE). Cadena de símbolos o numero usado para identificar unívocamente el objeto (tanto impreso como electrónico) del que se deriva el recurso, si es aplicable. 12. Lengua (Etiqueta: LANGUAGE). Es la Lengua en la que se expresa el contenido intelectual del recurso.. 13. Relación (Etiqueta: RELATION). Indica la relación de este recurso con otro. 14. Cobertura (Etiqueta: COVERAGE). Características espaciotemporales del recurso incluyendo datos geoespaciales. 15.Gestión de los derechos (Etiqueta: RIGHTS). Es un enlace electrónico a una noticia sobre el copyright, a una frase que indique cómo gestionar los derechos, o de un servicio que pudiera suministrar información sobre la forma legal de acceder al recurso.
Ejemplo de coda
Veamos un ejemplo. Damos a continuación la coda correspondiente al objeto digital : Discursos 012.txt La coda correspondiente a dicho objeto digital, almacenada en el Repositorio, tiene la siguiente forma: <?xml version="1.0" ?> <!DOCTYPE rdf:RDF (View Source for full doctype...)> -- - <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/"> -- - <rdf:Description rdf:about="CodaDiscursos-012"> <dc:title>Discurso pronunciado por el Exmo. Sr. D. Francisco Martinez de la Rosa, el dia 13 de Noviembre de 1856, con motivo de la apertura de las cátedras del Ateneo Científico y Literario de esta corte.</dc:title><dc:creator>Martinez de la Rosa, Francisco</dc:creator> <dc:subject/>
<dc:description/>
<dc:publisher>Biblioteca del Ateneo de Madrid</dc:publisher> <dc:contributor/>
<dc:date>200309</dc:date> <dc:type>folletos</dc:type> <dc:format>txt</dc:format> <dc:format>pdf</dc:format> <dc:format>xml</dc:format>
<dc:identifier>http://ateneodemadrid.net/folletos/Discursos12.txt</dc:identifier>
<dc:identifier>http://ateneodemadrid.net/folletos/Discursos012.pdf</dc:identifier> <dc:identifier>http://ateneodemadrid.net/folletos/Discursos012.xml</dc:identifier>
<dc:source>Discurso pronunciado por el Exmo. Sr. D. Francisco Martinez de la Rosa, el día 13 de Noviembre de 1856, con motivo de la apertura de las cátedras del Ateneo Científico y Literario de esta corte. Madrid.1856. Imprenta de Tejado. San Bartolomé, 14.</dc:source>
<dc:language>es</dc:language>
<dc:relation>Introduzca la URL de la obra relacionada</dc:relation> <dc:coverage/>
<dc:rights>Dominio Público</dc:rights> </rdf:Description>