• No se han encontrado resultados

1. La Biblioteca Digital del Ateneo

N/A
N/A
Protected

Academic year: 2021

Share "1. La Biblioteca Digital del Ateneo"

Copied!
7
0
0

Texto completo

(1)

El Dublin Core es la principal iniciativa de metadatos a nivel mundial, el estándar más utilizado (ISO 15836­2003) para la descripción, gestión y recuperación de información electrónica y una infraestructura reconocida por todas las comunidades de información digital para la construcción de la Web Semántica. Por todo ello, en esta actividad paralela se analizará el uso de este estándar en proyectos españoles, a través de experiencias o iniciativas de implantación en nuestro país, que sirvan para evaluar e incentivar el uso de este estándar en España, así como para lograr una mayor cohesión de nuestros proyectos con la masa crítica internacional. La mesa redonda será una antesala perfecta para la conferencia internacional DC­2005 que se celebra este año en septiembre en nuestro país ( http://dc2005.uc3m.es). 

1.­ La Biblioteca Digital del Ateneo

Esta comunicación se enmarca en el objetivo del taller de mostrar experiencias españolas en curso, donde se emplee el Dublin Core. Tal es el caso de la experiencia que llevamos a cabo en la construcción de la Biblioteca Digital del Ateneo de Madrid. La Biblioteca del Ateneo es una biblioteca de investigación que nació como colección bibliográfica del Ateneo de Madrid, fundado en 1835.Tiene una extensa colección de libros y publicaciones periódicas, especialmente rica en obras del siglo XIX y primer tercio del siglo XX, abarcando todas las materias y varios idiomas. Sus fondos constan de 350.000 volúmenes aproximadamente, entre los que destaca una colección de 27.000 folletos (publicaciones de menos de 50 páginas). Además contiene   colecciones   de   periódicos   y   revistas   científicas,   (alrededor   de   100.000   vols)   y   otros materiales como cristales, microfilms, etc.

En   el   año   2001,   con   el   objetivo   de   modernizar   e   incorporar   las   nuevas   tecnologías   de   la información,  para facilitar la gestión y difusión de los contenidos de los fondos de la Biblioteca General, surge el proyecto ACLAMA. también con el objeto de facilitar las tareas de investigación para los socios del Ateneo así como a cualquier usuario en general, se crean una infraestructura que posibilita el uso de la biblioteca digital. La biblioteca digital contiene los siguientes tipos de objetos digitales, libros, folletos, publicaciones periódicas, imágenes, audio y manuscritos. En estos momentos, en la biblioteca digital del Ateneo existen unas 800 obras de textos digitalizadas, más de 5000 imágenes, 600 horas de audio de los actos y conciertos del Ateneo(todavía no de acceso público).

2.­ Proceso general de creación de objetos digitales

materiales      digitalización        deposito      repositorio Acceso  publico

       WWW

(2)

1.­ Material a digitalizar, En primer lugar se establecen los criterios de selección de material que se incorporará en la biblioteca digital 2.­ Digitalización. En segundo lugar se procederá a la digitalización del material, siguiendo las técnicas más adecuadas según sea el caso 3.­ OCR / Retoque fotografico / Optimización del sonido Para garantizar que el acceso mayoritario a los contenidos digitales, en el caso del texto se realiza el OCR y corrección posterior de los textos, en el caso de las imágenes se retocan y convierten a diversos formatos segun calidades, en el caso del audio, se quitan ruidos, normalizaciones y compresión . 4.­ Almacenamiento en el depósito . Una ver digitalizados los materiales, pasan al depósito, zona destinada al control de calidad final, así como a la creación de los metadatos correspondientes a: – Creación de cabecera (xml/TEI) – Creación de codas (Dublin Core)

5.­ Almacenamiento en  repositorio   . Una  vez  creados los metadatos,   los  objetos  digitales son almacenados en el repositorio. 6.­ Acceso público. En última estancia, los materiales almacenados en el repositorio podrán ser accedidos a través de la web.

3.­ La estructura de objetos digitales

Objetos digitales A cada una de las obras digitalizadas, ya sean texto, imagen o audio, la consideraremos un  objeto digital, es decir, es un ítem, un todo coherente, que corresponde al equivalente de un objeto físico, un libro, un folleto, una imagen o un archivo de audio. En ciertos casos, conviene considerar cada subdivisión coherente de un objeto digital como un objeto digital secundario o de nivel inferior. Como puede ser el caso: en un concierto cada pieza de un autor, en un recital de poesía cada poema recitado, es un conferencia de varios autores la intervención de cada ponente, en un libro un capítulo particular.

Los  objetos   digitales  son   las   unidades   que   tienen   una   dirección   especifica   en   los   directorios existentes en el repositorio. Los objetos están compuestos por varias partes: la parte principal que corresponde al contenido; la  parte auxiliar  que corresponde a información sobre el  contenido  y sobre las propias características como objeto digital. La parte auxiliar está formada a su vez por una cabecera y por una coda.

La parte principal corresponderá al contenido de los libros, folletos, periódicos, cartas y cristales que se suministrarán por la  red. Estos contenidos estarán codificados con formatos  diferentes (XML, PDF, RTF, TXT) para adecuarse en su difusión a las necesidades del usuario. A formatos distintos corresponden objetos digitales distintos aunque tengan el mismo contenido (texto). 

(3)

bibliográfica y del contenido (utilizando el estándar Dublín Core). Codas La  coda  contendrá información descriptiva sobre las peculiaridades o atributos de cada objeto (consideraremos como objetos distintos los distintos formatos de una misma obra digitalizada, aunque usaremos una misma coda para todos los objetos correspondientes a un mismo contenido). Las codas proporcionarán información sobre la localización del objeto digital, los formatos en los que se encuentra, materia a la que pertenece, autor, lengua y otras características bibliográficas, etc.. Su función es facilitar al usuario final, el descubrimiento y navegación por la información, ya que sin ellos sería muy difícil unir repositorios de información con distintos orígenes.  En resumidas cuentas las codas son registros informáticos compuestos de diferentes campos, cada uno de ellos puede alojar uno o varios atributos, con los que describir a los objetos digitales, a los objetos digitales secundarios asociados, y también a colecciones de objetos vinculados entre sí por alguna propiedad. Cuando se trate de colecciones de objetos digitales tendremos dos tipos de codas, en un tipo se describirán los objetos (y eventualmente los objetos secundarios asociados) y en otro tipo las colecciones. Las codas de los objetos describirán las características específicas del objeto y reflejará las relaciones con otros objetos     Las codas de las colecciones describirán las características generales de esa colección, es decir, información que no se encontrará en ninguno de los objetos de la misma. Esta es una cosa importante de resaltar, que mientras entre los objetos digitales y los objetos físicos existe una relación directa, de las codas sabemos que están asociacdas a un objetos digital pero pueden existir codas que no estan asociadas a objetos digitales, por ejemplo si tenemos un conjunto de articulos encuardernados en un volumen, del cual tendremos coda para cada articulo y otra para el volumen fisico que las engloba.

4.­ Empleo del Dublin Core en el sistema de gestión de las codas

Todos los objetos digitales almacenados en el repositorio tienen asociada una coda, es decir, los metadatos asociados a dicho objeto digital, para ello usamos el vocabulario del   DCMI (Dublín Core Metadata Iniciative ) y la sintaxis de RDF, cuyo objetivo es facilitar la recuperación de contenidos a través de la Web. Debemos tener en cuenta que el futuro de la Web es la Web Semántica, donde se pretende estructurar los recursos digitales según su   significado, crear un entorno donde los agentes de software sean capaces de realizar un aprendizaje inteligente de manera que la recuperación de información sea más eficaz . RDF está  realizándose de cara a la futura web, por tanto el RDF es un lenguaje diseñado para poder ser   el   punto   de   apoyo   de   la   Web   Semántica   ,   es   un   marco   para   la   descripción   de   recursos (significado en inglés de las siglas Resource Description Framework)  o metadata para la Web. El RDF proporciona estructuras comunes que pueden ser usadas para el intercambio de datos mediante la interoperatibilidad del XML. El RDF intenta proporcionar un método de expresión semántica no ambiguo en un código entendible por la máquina.

(4)

descripción de los recursos, en el caso del  Ateneo el vocabulario utilizado será Dublín Core.

El objetivo del Dublín Core   es definir un conjunto básico de atributos que sirvan para describir todos los recursos existentes en la red. La definición del conjunto básico de atributos se ha llevado a cabo a nivel internacional y con participantes de diversas disciplinas.

Podemos resumir las principales  características de Dublín Core de la siguiente manera:

Simplicidad, pensado para que pueda ser utilizado tanto por bibliotecarios como por cualquier autor que desee describir sus documentos y aumentar su visibilidad.

Consenso internacional en el número y definición de los elementos.

Flexibilidad, nada en el DC es obligatorio, todos los elementos son opcionales y repetibles, así el usuario elige la profundidad de una descripción.

Las codas, son los ficheros  utilizados para la descripción de los recursos digitales de la Biblioteca del Ateneo, estarán almacenadas en un directorio en el servidor del Ateneo de Madrid,  dicho directorio   será   independiente   del   depósito   y   del   repositorio,   y   sobre   las   codas   recaerá   la administración y gestión del repositorio. Para establecer la forma de gestión de las codas hemos hecho un análisis de las herramientas disponible para ello.

Las codas estan basadas en los 15 elementos basicos del Dublin Core, si bien haremos especial hincapie en el uso de los “refinamientos” de los elementos basicos destinados a la descripcion de las relaciones entre objetos HasPart, HasVersion, IsPartOf, ...pues estas relaciones son las que nos facilitarán   la   relación   con   otros   materiales   relacionados,   permitiendo   así   una   búsqueda   de información más afinada.

Estructura de la coda. 

Para definir la estructura de los registros de la coda usaremos el estándar Dublín Core, del que, a continuación, damos una descripción sucinta. En este estándar se utilizan quince elementos base, que están agrupados en los tres bloques siguientes :

[DC Elements ­ 1 ] 

1. Titulo (Etiqueta: TITLE). Nombre dado al documento por el creador o editor del recurso.

2.   Autor   o   Creador.   (Etiqueta:   CREATOR).   La   persona,   institución   o   congreso   responsable principal de la creación intelectual del contenido del recurso. 

3. Materia y palabras clave (Etiqueta: SUBJECT). Asunto o tema sobre el que versa el recurso. 4.   Descripción   (Etiqueta:   DESCRIPTION).   Descripción   textual   del   contenido   del   recurso, incluyendo resúmenes en el caso de documentos, o descripción del contenido en el caso de recursos visuales.

(5)

[DC Elements ­ 2]

6. Colaborador (Etiqueta: CONTRIBUTOR). Persona a organización, que ha hecho contribuciones intelectuales   significativas   pero   secundarias   con   respecto   a   las   personas   especificadas   en   el elemento CREATOR . 7. Fecha (Etiqueta: DATE). Fecha en la que el recurso ha sido publicado o puesto a disposición de los usuarios en la forma presente. 8. Tipo de recurso (Etiqueta: TYPE). La categoría del recurso, tales como página Web, novela, poema, informe técnico, ensayo, diccionario.  9. Formato (Etiqueta: FORMAT). El formato de un recurso se usa para reconocer el software y hardware que se necesitan para mostrar a operar con el recurso.  10. Identificador (Etiqueta: IDENTIFIER). Cadena de símbolos o numero utilizado para identificar unívocamente un recurso digital. 

[DC Elements ­ 3]

11.   Fuente   (Etiqueta:   SOURCE).   Cadena   de   símbolos   o   numero   usado   para   identificar unívocamente   el   objeto   (tanto   impreso   como   electrónico)   del   que   se   deriva   el   recurso,   si   es aplicable.  12. Lengua (Etiqueta: LANGUAGE). Es la Lengua en la que se expresa el contenido intelectual del recurso.. 13. Relación (Etiqueta: RELATION). Indica la relación de este recurso con otro.  14. Cobertura (Etiqueta: COVERAGE). Características espaciotemporales del recurso incluyendo datos geoespaciales.  15.Gestión de los derechos (Etiqueta: RIGHTS). Es un enlace electrónico a una noticia sobre el copyright, a una frase que indique cómo gestionar los derechos, o de un servicio que pudiera suministrar información sobre la forma legal de acceder al recurso.

(6)
(7)

Ejemplo de coda

Veamos un ejemplo. Damos a continuación la coda correspondiente al objeto digital : Discursos­ 012.txt  La coda correspondiente a dicho objeto digital, almacenada en el  Repositorio, tiene la siguiente forma: <?xml version="1.0" ?> <!DOCTYPE rdf:RDF (View Source for full doctype...)> -- - <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/"> -- - <rdf:Description rdf:about="CodaDiscursos-012"> <dc:title>Discurso pronunciado por el Exmo. Sr. D. Francisco Martinez de la Rosa, el dia 13 de Noviembre de 1856, con motivo de la apertura de las cátedras del Ateneo Científico y Literario de esta corte.</dc:title>

<dc:creator>Martinez de la Rosa, Francisco</dc:creator> <dc:subject/>

<dc:description/>

<dc:publisher>Biblioteca del Ateneo de Madrid</dc:publisher> <dc:contributor/>

<dc:date>2003­09</dc:date> <dc:type>folletos</dc:type> <dc:format>txt</dc:format> <dc:format>pdf</dc:format>    <dc:format>xml</dc:format> 

<dc:identifier>http://ateneodemadrid.net/folletos/Discursos­12.txt</dc:identifier>

<dc:identifier>http://ateneodemadrid.net/folletos/Discursos­012.pdf</dc:identifier> <dc:identifier>http://ateneodemadrid.net/folletos/Discursos­012.xml</dc:identifier>

<dc:source>Discurso pronunciado por el Exmo. Sr. D. Francisco Martinez de la Rosa, el día 13 de Noviembre de 1856, con motivo de la apertura de las cátedras del Ateneo Científico y Literario de esta corte. Madrid.1856. Imprenta de Tejado. San Bartolomé, 14.</dc:source>

<dc:language>es</dc:language>

<dc:relation>Introduzca la URL de la obra relacionada</dc:relation> <dc:coverage/>

<dc:rights>Dominio Público</dc:rights> </rdf:Description>

Referencias

Documento similar

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),

Cada título se entregará junto con un fichero XML estructurado según el esquema Metadata Encoding &amp; Transmission Standard (METS) y un fichero con los metadatos Dublin Core

Primeros ecos de la Revolución griega en España: Alberto Lista y el filohelenismo liberal conservador español 369 Dimitris Miguel Morfakidis Motos.. Palabras de clausura

95 Los derechos de la personalidad siempre han estado en la mesa de debate, por la naturaleza de éstos. A este respecto se dice que “el hecho de ser catalogados como bienes de

Tras establecer un programa de trabajo (en el que se fijaban pre- visiones para las reuniones que se pretendían celebrar los posteriores 10 de julio —actual papel de los

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación