• No se han encontrado resultados

Recuperación de Información Multilenguaje para Bibliotecas Digitales -Edición Única

N/A
N/A
Protected

Academic year: 2017

Share "Recuperación de Información Multilenguaje para Bibliotecas Digitales -Edición Única"

Copied!
119
0
0

Texto completo

(1)

México a

INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE 

MONTERREY 

PRESENTE.­

, en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución, distribución pública y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO, dentro del círculo de la comunidad del Tecnológico de Monterrey.

El Instituto se compromete a respetar en todo momento mi autoría y a otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.

De la misma manera, manifiesto que el contenido académico, literario, la edición y en general cualquier parte de LA OBRA son de mi entera responsabilidad, por lo que deslindo a EL INSTITUTO por cualquier violación a los derechos de autor y/o propiedad intelectual y/o cualquier responsabilidad relacionada con la OBRA que cometa el suscrito frente a terceros.

PGI­13.5­F­3 Formato Información y Carta Permiso. Tesis, Tesinas, Disertaciones Doctorales. Versión 5  _ de 20

(2)

I N S T I T U T O  T E C N O L Ó G I C O Y  D E  E S T U D I O S  S U P E R I O R E S  D E  M O N T E R R E Y 

C A M P U S  M O N T E R R E Y 

P R O G R A M A  D E  G R A D U A D O S  E N  T E C N O L O G I A S  D E  I N F O R M A C I Ó N Y  E L E C T R Ó N I C A 

TECNOLÓGICO 

DE MONTERREY 

RECUPERACIÓN DE INFORMACIÓN MULTILENGUAJE 

PARA BIBLIOTECAS DIGITALES 

PRESENTADA COMO REQUISITO PARCIAL PARA OBTENER EL  G R A D O  ACADÉMICO DE: 

M A E S T R I A  E N  C I E N C I A S  E N  T E C N O L O G I A  I N F O R M A T I C A 

P O R 

E R I K A  L E T I C I A  S A N C H E Z  C H A M O C H I N 

(3)

R E C U P E R A C I O N  D E  I N F O R M A C I O N 

M U L T I L E N G U A J E  P A R A  B I B L I O T E C A S 

D I G I T A L E S 

P O R 

E R I K A  L E T I C I A  S A N C H E Z  C H A M O C H I N 

T E S I S 

Presentada al Programa de Graduados en Tecnologías de Información y Electrónica 

Este trabajo es requisito parcial para obtener el grado de  Maestría en Ciencias en Tecnología Informática 

INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE  M O N T E R R E Y 

CAMPUS  M O N T E R R E Y 

(4)

Instituto Tecnológico y de Estudios Superiores de 

Monterrey 

Campus Monterrey 

División de Mecatrónica y Tecnologías de Información 

Programa de Graduados en Tecnologías de Información y Electrónica 

Los miembros del comité de tesis recomendamos que la presente tesis de la  L.C.C. Erika Leticia Sánchez Chamochin sea aceptada como requisito parcial para ob­ tener el grado académico de Maestría en Ciencias en Tecnología Informática. 

Comité de Tesis 

Dr. Juan Carlos Lavariega  Jarquín 

Asesor principal 

Dra. Lorena Guadalupe  Gómez Martínez 

Sinodal 

M C T Martha Sordia  Salinas 

Sinodal 

Dr .Joaquín Acevedo  Mascaría. 

Director de Investigación y Posgrado Escuela de Ingeniería 

(5)

Resumen 

El presente documento se enfoca en las bibliotecas digitales; de manera más  específica, en el servicio de búsqueda y recuperacion de información ya que se le  considera uno de los servicios clave en el desarrollo de éstas. El objetivo general  del presente trabajo consiste en la implementación de la búsqueda multilenguaje en  una biblioteca digital aplicando técnicas de recuperación de información. Se usaría la  biblioteca digital PDLib perteneciente al ITESM, de esta manera, el diseno de este  sistema se basa en la arquitectura y componentes de dicha aplicación. 

A lo largo de este documento, se explicara el concepto de recuperación de infor­ macion multilenguaje (Cross Lingual Information Retrieval ­ CLIR), su importancia  en la era actual, se definirán las metodologías y tecnicas de aplicación, su importancia  en relación con las bibliotecas digitales, las distintas iniciativas o grupos existentes,  así como las clasificaciones y estandares relacionados con el tema. 

Se presentaría la estrategia utilizada para implementar la recuperación de infor­ maciíon multilenguaje bajo un entorno de biblioteca digital, utilizando un modelo  de traducciíon de máquina y expansión de queries; aprovechando herramientas ya  existentes e implementadas en PDLib como lo son el protocolo RELTEX (Relational  Text Protocol), con la cual, mediante el uso de la herramienta de recuperación de  información Lucene (IR tool), se puede soportar el uso de campos diníamicos. 

Así mismo, se realiza una descripción detallada de aquellos cambios y confi¬  guraciones necesarios para el procedimiento de expansión de queries, mediante el  API de Google para traducciones; la cual resultó ser una herramienta útil para la  implementación de este tipo de sistemas. 

(6)

Dedicatoria 

A Dios  Por darme vida, fuerza y paciencia durante los 'últimos años.

A mis padres: Mario y Paula  Por su amor, su ejemplo y su apoyo incondicional.

A mis hermanitos: Abraham y Fernando  Por su alegría que me animaban a seguir adelante.

(7)

Agradecimientos 

Agradezco primeramente a mi asesor el Dr. Juan Carlos Lavariega Jarquín por  todo su apoyo y valiosa asesoría recibida durante el desarrollo de la presente tesis, por  su amistad y por ser un valioso ejemplo de motivación para mí, tanto personal como  acadíemicamente. 

A mis sinodales la  M C T Martha Sordia Salinas y la Dra. Lorena Guadalupe Gómez  Martínez por todos sus acertados comentarios y sus valiosas aportaciones a este trabajo. 

También agradezco a los miembros del equipo Phronesis y PDLib por compartir  conmigo sus ideas y experiencia. Finalmente, un sincero agradecimiento a todos  aquellos profesores que de alguna manera me ayudaron y brindaron su amistad  durante mis estudios de posgrado. 

(8)

Contenido 

1. Introducción 

1.1. Definición del Problema 9  1.2. Objetivos y Alcances 12 

1.3. Justificación 13  1.4. Organización del documento 13 

2.1. La biblioteca digital 15  2.1.1. Principales normas y estándares 17 

2.1.2. Principales servicios y retos 19  2.2. La recuperación de la información 22 

2.3. La búsqueda multilenguaje 25  2.3.1. Técnicas de Traducción de Maquina (Machine­Translation)  . . . 26 

2.3.2. Técnicas Basadas en el Conocimiento (Knowledge­Based)  . . . . 28  2.3.3. Técnicas Basadas en el Corpus Lingüístico (Corpus­Based)  . . . 30 

2.3.4. Mecanismos de Fusión (Merging Mechanisms) 31 

2.4. Análisis comparativo 32  3. Definición de un sistema  C L I R para bibliotecas digitales 35 

3.1. Importancia de un sistema CLIR en las bibliotecas digitales 35 

3.1.1. Principales ventajas 37  3.2. PDLib (Personal Digital Library) 38 

3.2.1. Características generales 38 

3.2.2. Tipos de acceso 39  3.2.3. Arquitectura 39  3.2.4. DataServer 41  3.2.5. Modelo de datos 43  3.2.6. Servicio de búsqueda e indexamiento 45 

3.3. Características del sistema 47  4. Implementación del Sistema  C L I R en PDLib 49 

4.1. Arquitectura general 49  4.1.1. Características del usuario 51 

4.2. Principales Modificaciones 52 

2. Antecedentes  15 

(9)

Contenido

4.2.1. Aspecto Interno 52  4.2.2. Aspecto Externo 55  4.2.3. Modelo de datos 57  4.3. Pruebas y Análisis de Resultados 61 

4.3.1. Configuración de usuarios 61  4.3.2. Carga de documentos 61  4.3.3. Pruebas de las Búsquedas Multilenguaje 63 

4.3.4. Análisis de Resultados 68  5. Conclusiones y Trabajos Futuros 71 

5.1. Conclusiones 71  5.2. Trabajos futuros 72  A. Archivo de configuración de lenguajes 73 

B. Manual de Desarrollador del  A P I de Google para traducciones 79 

B.1. Traduciendo el Hello World 79 

B.2. Lenguajes Utilizados 81  C. Código fuente del Traductor para PDLib 83 

(10)

Indice de figuras 

2.1.  Proceso de recuperación de información  . 23 

3.1.  Arquitectura general de PDLib  . 40 

3.2.  Arquitectura del Servidor de Datos  . 42 

3.3.  Modelo de Datos de PDLib.  . 44 

3.4.  Mapeo lógico entre el indexamiento y el modelo de datos  . 46 

3.5.  Arquitectura general de RELTEX  . 47 

3.6.  Proceso de recuperación de información multilenguaje.  . 48  4.1.  Arquitectura general del proceso CLIR en PDLib  . 50 

4.2.  Buísqueda multilenguaje en PDLib.  . 52 

4.3.  Proceso de traducción y extensión de queries.  . 54  4.4.  PDLib ­ Pagina principal del Cliente Web  . 55  4.5.  Búsqueda simple antes y después de implementar el sistema CLIR. . .  . 56  4.6.  Búsqueda avanzada antes y después de implementar CLIR  . 57  4.7.  Configuración de cuenta de usuario en PDLib  . 58  4.8.  Modificaciones en el modelo de datos de PDLib  . 58 

4.9.  Arquitectura del DSAPI  . 60 

4.10.  Proceso de búsqueda e indexamiento del DSAPI  . 60  4.11.  Interfaz de PDLib para la carga de documentos  . 62  4.12.  Búsqueda simple monolingüe de documentos en PDLib  . 64  4.13.  Búsqueda simple multilingüe de documentos en PDLib  . 65  4.14.  Búsqueda avanzada monolingüe de documentos en PDLib  . 66  4.15.  Buísqueda avanzada multilingüe de documentos en PDLib.  . 67  4.16.  Proporción de documentos en la búsqueda simple  . 68  4.17.  Proporción de documentos en la búsqueda avanzada.  . 69  4.18.  Comparación de tiempos de respuesta en la búsqueda simple  . 70  4.19.  Comparación de tiempos de respuesta en la buúsqueda avanzada. . . .  . 70 

(11)
(12)

Índice de tablas 

2.1.  Normas y estándares relacionados con el acceso a la información. . . 17  4.1.  Distribución de documentos cargados en PDLib  . 63  4.2.  Resultados de ejecución de la búsqueda simple monolingue  . 65  4.3.  Resultados de ejecucion de la búsqueda simple multilingüe  . 65  4.4.  Resultados de ejecución de la búsqueda avanzada monolingüe.  . 66  4.5.  Resultados de ejecución de la búsqueda avanzada multilingüe  . 67 

(13)
(14)

Capítulo 1 

Introducción 

Desde el surgimiento del World Wide Web, la cantidad de informacion que podemos  encontrar va en aumento día con día; frecuentemente surgen por Internet distintos  recursos tales como sitios web, comunidades y sistemas e­learning que resultan de  utilidad para el usuario y que se enfocan en la educacion en línea o a distancia. 

Ejemplos de dichos recursos educativos son los sitios web de universidades donde  es posible estudiar algun curso o licenciatura, independientemente del lugar donde  nos encontremos. Universidades como Edutechnology Consulting de Iberoamerica, The  Atlantic International University, The University of Phoenix y la Universidad Virtual  del Instituto Tecnologico y de Estudios Superiores de Monterrey (ITESM) ofrecen  estudios en línea de licenciatura y posgrado. 

Los sistemas e­learning, tambien conocidos como LMS (Learnig Management Sys­ tem), representan otro tipo de recursos para la educación a distancia que permiten la  administracion de cursos y clases en línea. Generalmente, son usados en las universi¬  dades como un apoyo complementario a la educacióon presencial. En la actualidad hay  diversas variantes de estos recursos y cada universidad implementa aquel que se adap¬  te a su metodología de enseńanza; algunos ejemplos son: Moodle, Dokeos, Blackboard,  Sakai y TCExam [Mason 06]. 

En general, la información disponible a traves de cada uno de estos recursos cu­ bre diversos ómbitos como: finanzas, mercadotecnia, literatura, ingenierías, educacion,  computacióon, medicina, entre otras y los formatos en los que podemos encontrar esta  informacioón son html, pdf o rtf (por mencionar algunos). Para facilitar su administra¬  ción, diversas instituciones han desarrollado sus propios mecanismos de clasificacion y  almacenamiento. Las bibliotecas digitales representan una forma de dicha clasificacion,  donde se publica la informacióon de una biblioteca como libros, revistas, folletos y diver¬  sos medios informativos en formato de texto, audio o video [Martónez Equihua 07]. Una  biblioteca digital ofrece ademóas diversos servicios para los usuarios como buósquedas,  almacenamiento y publicacióon de documentos. La informacióon que se puede encontrar  en las bibliotecas digitales, en algunos casos, se puede imprimir, grabar, mandar por  correo electróonico e incluso editar. Estas caracterósticas las convierten en un gran recur¬  so para científicos, profesores y alumnos, e incluso usuarios con actividad empresarial  [Lesk 97]. 

(15)

Capítulo 1. Introducción

Sin embargo, al tener diversos documentos en formato digital, se facilita su distribu­ cioón y por tanto es posible cometer pirateróa y, con ello, que los autores carezcan de los  beneficios que, por derecho, les corresponden [Tennant 00]; por tanto, una biblioteca  digital tambióen debe ofrecer un mecanismo de proteccióon para los derechos de autor. 

Otra de las consideraciones a tomar en cuenta para una biblioteca digital es la  cantidad de archivos almacenados que puede llegar a ser enorme, por lo que esta he¬  rramienta debe proporcionar una manera de comprimir el tamanńo de los archivos y  facilitar su almacenamiento e intercambio. Otro de los riesgos que se corre al tener  esta informacióon es que es posible eliminar accidentalmente alguón archivo, por lo que  se debe contar con una tóecnica de proteccióon de la informacióon y asó evitar estas even¬  tualidades; esto implica ademóas que se debe ser muy meticuloso con la importancia de  los archivos que se estóan manejando [Martónez Equihua 07]. 

Actualmente existen diversos proyectos enfocados al desarrollo de bibliotecas digi¬  tales, entre los mós relevantes se encuentran el proyecto DELOS 1 (European Network  of Excellence on Digital Libraries, fundado por la Comision Europea), Greenstone 2  (UNESCO Digital Library Software) y BRICKS Framework 3 (framework de codigo  abierto para bibliotecas digitales), entre otros. 

Por otra parte, existen diversas bibliotecas digitales alrededor del mundo, la mayoróa  de óestas pertenecen a alguna universidad, institucioón u organizacióon dedicada a la  investigacióon. De manera particular, las principales universidades de Móexico ya cuentan  con una biblioteca digital; sin embargo, todas ellas requieren que el usuario sea alumno  o pertenezca a la institucióon respectiva, entre dichas universidades se encuentran: 

• Universidad Nacional Autónoma de Mexico ­ UNAM (http://bidi.unam.mx): In¬  cluye revistas electróonicas con acceso a texto completo, en inglóes y portuguóes  especializadas en diversas óareas del conocimiento. 

• Universidad de las Americas de Puebla ­ UDLA (http://ciria.udlap.mx/): Contie¬  ne libros digitalizados (ebooks) en texto completo y ligas externas a almanaques,  anuarios, diccionarios, directorios, documentos gubernamentales, enciclopedias,  mapas, tesis, artóculos, perióodicos y revistas de cualquier óarea de investigacióon.  • El Colegio de Mexico (http://biblio.colmex.mx): Pone a disposicion de los usua¬ 

rios, cataólogos, servicios a los usuarios, folletos y documentos de circulacióon in¬  terna e informativa. Tambióen se han incluido recursos en Internet recomendados  para realizar buósquedas. Contiene un catóalogo de biblioteca con ligas a los de  otras bibliotecas, y documentos digitales de diverso contenido. 

• Biblioteca Nacional de Ciencia y Tecnología ­ BNCT (http://www.bnct.ipn.mx): Sistema perteneciente al Instituto Politóecnico Nacional (IPN); entre los servicios  que ofrece se encuentran la consulta del cataólogo de: libros, mapas, revistas,  mediateca, archivos histoóricos, etcóetera; consulta a diversas bases de datos como  1

http://www.delos.info 

2

 http:/ /www.greenstone. org 

3

(16)

1.1. Deñnición del Problema

Dialog@site, Infotrac y a otras mas de 80 bases de datos especializadas en el area  de bioingenieróa, comunicaciones, computacióon, ingenieróa electróonica, mecóanica  agrócola, etcóetera. 

• ITESM (http://biblioteca.itesm.mx): A partir de agosto de 1999 se puede acceder  a la biblioteca digital de esta institucióon desde cualquier lugar. Cuenta con un  catóalogo, de los acervos de las bibliotecas del sistema y con ligas de referencia a  otras. 

No hay duda que a medida que transcurra el tiempo el nuómero de bibliotecas  digitales iróa en aumento y distintos proyectos seguiraón surgiendo; todo con el objetivo  de incrementar la cantidad de la informacióon digital disponible, ya que las ventajas que  implica el contar con una biblioteca digital se hacen móas evidentes dóa a dóa. Sin duda,  las bibliotecas digitales auón se encuentran en una etapa de crecimiento y auón quedan  muchos obstóaculos por vencer, siempre y cuando su objetivo principal sea el de ofrecer  un servicio eficiente y de calidad a los usuarios [Lesk 97]. 

El presente documento se enfoca en las bibliotecas digitales; de manera mas específi¬  ca, en el servicio de buósqueda y recuperacióon de informacióon ya que se le considera uno  de los servicios clave en el desarrollo de estas [Yang 05]. En el resto de este capítulo,  se definira el ambito y el contexto de los problemas que se presentan particularmente  en la busqueda de informacion en bibliotecas digitales; ademas, se describe de manera  general una propuesta para solucionar dichos problemas. 

1.1 Definición del Problema 

La mayoría de los avances en el campo de las bibliotecas digitales se han concentrado  en ambientes monolenguajes donde (en la mayoría de los casos) el principal lenguaje  ha sido el Ingles debido a que las primeras investigaciones se han realizado en regiones  como Europa y Estados Unidos donde este es el idioma nativo [Peters 97]. Sin embargo,  durante los ultimos ańos se han llevado a cabo diversas conferencias internacionales  relacionadas con bibliotecas digitales, lo cual comprueba que estos sistemas ya no solo  son aplicables sobre areas donde se habla Ingles, sino que se ha extendido a lo largo  del mundo. 

De acuerdo a [Peters 97] existen dos retos en el acceso multilenguaje a bibliotecas  digitales: 

• Reconocimiento, manipulacion y despliegue multilenguaje: Permitir a los usuarios  acceder al sistema, independientemente de su localizacion, del lenguaje que hablen  y del idioma en que la informacion esta almacenada. 

(17)

1.1. Deñnición del Problema

Dialog@site, Infotrac y a otras mas de 80 bases de datos especializadas en el area  de bioingenieróa, comunicaciones, computacióon, ingenieróa electróonica, mecóanica  agrócola, etcóetera. 

• ITESM (http://biblioteca.itesm.mx): A partir de agosto de 1999 se puede acceder  a la biblioteca digital de esta institucióon desde cualquier lugar. Cuenta con un  catóalogo, de los acervos de las bibliotecas del sistema y con ligas de referencia a  otras. 

No hay duda que a medida que transcurra el tiempo el nuómero de bibliotecas  digitales iróa en aumento y distintos proyectos seguiraón surgiendo; todo con el objetivo  de incrementar la cantidad de la informacióon digital disponible, ya que las ventajas que  implica el contar con una biblioteca digital se hacen móas evidentes dóa a dóa. Sin duda,  las bibliotecas digitales auón se encuentran en una etapa de crecimiento y auón quedan  muchos obstóaculos por vencer, siempre y cuando su objetivo principal sea el de ofrecer  un servicio eficiente y de calidad a los usuarios [Lesk 97]. 

El presente documento se enfoca en las bibliotecas digitales; de manera mas específi¬  ca, en el servicio de buósqueda y recuperacióon de informacióon ya que se le considera uno  de los servicios clave en el desarrollo de estas [Yang 05]. En el resto de este capítulo,  se definira el ambito y el contexto de los problemas que se presentan particularmente  en la busqueda de informacion en bibliotecas digitales; ademas, se describe de manera  general una propuesta para solucionar dichos problemas. 

1.1 Definición del Problema 

La mayoría de los avances en el campo de las bibliotecas digitales se han concentrado  en ambientes monolenguajes donde (en la mayoría de los casos) el principal lenguaje  ha sido el Ingles debido a que las primeras investigaciones se han realizado en regiones  como Europa y Estados Unidos donde este es el idioma nativo [Peters 97]. Sin embargo,  durante los ultimos ańos se han llevado a cabo diversas conferencias internacionales  relacionadas con bibliotecas digitales, lo cual comprueba que estos sistemas ya no solo  son aplicables sobre areas donde se habla Ingles, sino que se ha extendido a lo largo  del mundo. 

De acuerdo a [Peters 97] existen dos retos en el acceso multilenguaje a bibliotecas  digitales: 

• Reconocimiento, manipulacion y despliegue multilenguaje: Permitir a los usuarios  acceder al sistema, independientemente de su localizacion, del lenguaje que hablen  y del idioma en que la informacion esta almacenada. 

(18)

10  Capítulo 1. Introducción

El segundo punto representa un area en la cual se han centrado las investigacio­ nes durante los ultimos anos. Esto se debe a que el nómero de documentos digitales  disponibles a traves de la Internet ha ido incrementóndose considerablemente, por lo  que en ocasiones el usuario requiere una busqueda de algun documento en particular.  Normalmente una busqueda a traves de la Web se realiza por medio de palabras clave  para finalmente obtener una lista de direcciones ordenadas por orden de relevancia con  respecto a las palabras clave. 

Los motores de busqueda (del ingles search engines) son sistemas informóticos ca¬  paces de indexar en una base de datos diversos archivos almacenados en servidores; re¬  presentan una herramienta util ya que facilitan la busqueda de informacion en la Web.  Existen diversos tipos de motores, cada uno de los cuales presentan diversas estrategias  para la busqueda de información; de manera general y de acuerdo a [Glossbrenner 01]  y [Hock 99] estos son: 

Buscadores jeróarquicos: Conocidos tambióen como spiders, se encargan de recorrer  los archivos de los servidores recopilando informacióon sobre el contenido en una  base de datos indexada. Al realizar una buósqueda, se hace una consulta a la  base de datos y presenta los resultados por orden de relevancia. Estos buscadores  revisan perióodicamente los servidores para actualizar su base de datos. Algunos  ejemplos de este tipo de buscadores son: Google, MSN Search y Altavista.  Directorios: Presentan la informacióon de los sitios registrados como una coleccióon  de directorios. La buósqueda se realiza de manera manual por temas, categoróas o  palabras clave. Debido a que estos buscadores no recorren los servidores, la base  de datos es realizada manualmente, es decir, se tiene que registrar a un sitio en  el óarea temóatica correspondiente para que óeste pueda aparecer en el listado del  directorio. Dicha inscripcioón se realiza de manera gratuita o pagada. Ejemplos de  directorios son: Yahoo, Terra, OpenDirectory, entre otros. 

Metabuscadores: Realizan buósquedas en otros motores de buósqueda, analizando  sus resultados y presentando una recopilacióon de dichos resultados en pantalla.  No disponen de una base de datos propia que mantener, sino que utilizan las de  varios buscadores para encontrar la informacioón solicitada por el usuario. Dogpile,  MetaCrawler y Profusion son algunos ejemplos de este tipo de buscadores.  Buscadores de portal: Son pequenńos motores que realizan la buósqueda uónicamente  a travóes del sitio Web donde estóan implementados. Wikipedia y las paóginas web  de IEEE y ACM manejan este tipo de buscadores. 

(19)

1.1. Definición del Problema 11 

Entre los servicios que una biblioteca digital puede ofrecer se encuentra el de la  buósqueda de documentos, ya sea utilizando un motor de tipo spider o de tipo directorio.  Mediante palabras clave se realiza una buósqueda a lo largo de todos los documentos  disponibles en la biblioteca digital, presentando como resultado final un listado de  aquellos documentos que resultaron relevantes con respecto a dichas palabras clave  [Alvarez Cavazos 07]. Una biblioteca digital tambióen puede realizar una buósqueda a  travóes de otras bibliotecas o colecciones digitales. 

En general, el motor de buósqueda de una biblioteca digital debe ser capaz de manejar  la buósqueda a travóes de grandes voluómenes de datos e informacióon; en ocasiones dicha  informacioón estóa escrita en distintos lenguajes y almacenada en distintos formatos.  Sin embargo, los usuarios realizan buósquedas en un determinado lenguaje y esperan  obtener la informacioón relevante sin importar el tipo de archivo y el lenguaje. Aunque  generalmente dichos resultados se presenten en el mismo lenguaje en que se realizoó la  consulta, es probable que con ciertas especificaciones o configuraciones de perfil puedan  presentarse móas de un lenguaje entre los resultados. A este tipo de buósqueda se le  conoce como Recuperacióon de Informacioón Multi­Lenguaje (CLIR por sus siglas en  inglóes) [Yang 05]. Generalmente, los sistemas CLIR tienen las siguientes caracterósticas  [Peters 97]: 

Multiplataforma: Un sistema CLIR debe implementarse correctamente en cual¬  quier explorador Web, incluyendo aquellos exploradores basados en texto como  Lynx; ademóas de que debe disenńarse de tal manera que sea soportado por un  sistema operativo y hardware independiente de plataforma. Asó mismo, deben  tener un disenńo capaz de adaptarse a distintos tamanńos de pantallas. 

Interfaz Multilenguaje: El uso de una interfaz (incluyendo manuales o guóas de  usuario) multilenguaje, mejora la buósqueda de los usuarios tanto novatos como  expertos. Igualmente, dicha interfaz debe permitir al usuario elegir aquellos len¬  guajes de su preferencia para desplegar los resultados. 

Buósqueda Avanzada: Es importante que el usuario tenga la opcioón de realizar  una buósqueda avanzada de acuerdo a sus preferencias, debe considerarse tambióen  que el usuario tenga la libertad de seleccionar aquellos metadatos sobre los que  se realizaróa la buósqueda. 

CLIR es un aórea relacionada con la recuperacióon de informacióon la cuaól ha sido  objetivo de estudio durante los ultimos 10 anos y recientemente el objetivo principal  de estudio del Foro Europeo de Evaluacioón Multilenguaje (CLEF por sus siglas en  ingles) 4 , del Workshop on Cross­Linguistic Information Retrieval (Zurich, SIGIR '96)  y del Workshop on Cross­Language Text and Speech Retrieval (Stanford AAAI­97  Spring Symposium Series) [Oard 96]. 

4

(20)

12  Capítulo 1. Introduccion

Actualmente, se han identificado tres propuestas para implementar un sistema  CLIR, de acuerdo a [Peters 97] dichas tóecnicas son: tóecnicas de traduccióon de texto,  tóecnicas basadas en el conocimiento y tóecnicas basadas en el cuerpo del texto (me¬  jor conocidas como traduccióon de queries). Cada uno de estos móetodos presenta tanto  ventajas como desventajas; sin embargo, la solución mas efectiva y confiable es una  combinacioón de dichos paradigmas. Dicha combinacióon dependeróa de las necesidades  del sistema donde se implementaróan. 

1.2 Objetivos y Alcances 

Considerando todo lo anteriormente expuesto, el objetivo general del presente tra¬  bajo es: 

Proponer e implementar en una biblioteca digital la búsqueda multilenguaje de documentos aplicando tecnicas de CLIR.

Para poder alcanzar esta meta, se definen los objetivos particulares que en conjunto  conforman nuestro objetivo general: 

Disenńar un sistema de buósqueda multilenguajes basóandonos en las tóecnicas de la  disciplina CLIR. 

Realizar la implementacióon y pruebas correspondientes del sistema sobre una  biblioteca digital. 

• Definir la(s) tecnica(s) de CLIR que se aplicarón en el diseńo del sistema de  buósqueda, adaptóandose a las caracterósticas y propiedades de la biblioteca digital.  Describir cada una de las herramientas que se utilizaraón para el desarrollo del  sistema de buósqueda. 

• Presentar los resultados finales del desarrollo e implementacion. 

• Fomentar el desarrollo de investigacion en el órea de bibliotecas digitales y recu­ peracióon de informacioón multilenguaje. 

En base a estos objetivos, es importante tener en cuenta cada una de las principales  consideraciones que delimitaróan el alcance del presente proyecto: 

(21)

12  Capítulo 1. Introduccion

Actualmente, se han identificado tres propuestas para implementar un sistema  CLIR, de acuerdo a [Peters 97] dichas tóecnicas son: tóecnicas de traduccióon de texto,  tóecnicas basadas en el conocimiento y tóecnicas basadas en el cuerpo del texto (me¬  jor conocidas como traduccióon de queries). Cada uno de estos móetodos presenta tanto  ventajas como desventajas; sin embargo, la solución mas efectiva y confiable es una  combinacioón de dichos paradigmas. Dicha combinacióon dependeróa de las necesidades  del sistema donde se implementaróan. 

1.2 Objetivos y Alcances 

Considerando todo lo anteriormente expuesto, el objetivo general del presente tra¬  bajo es: 

Proponer e implementar en una biblioteca digital la búsqueda multilenguaje de documentos aplicando tecnicas de CLIR.

Para poder alcanzar esta meta, se definen los objetivos particulares que en conjunto  conforman nuestro objetivo general: 

Disenńar un sistema de buósqueda multilenguajes basóandonos en las tóecnicas de la  disciplina CLIR. 

Realizar la implementacióon y pruebas correspondientes del sistema sobre una  biblioteca digital. 

• Definir la(s) tecnica(s) de CLIR que se aplicarón en el diseńo del sistema de  buósqueda, adaptóandose a las caracterósticas y propiedades de la biblioteca digital.  Describir cada una de las herramientas que se utilizaraón para el desarrollo del  sistema de buósqueda. 

• Presentar los resultados finales del desarrollo e implementacion. 

• Fomentar el desarrollo de investigacion en el órea de bibliotecas digitales y recu­ peracióon de informacioón multilenguaje. 

En base a estos objetivos, es importante tener en cuenta cada una de las principales  consideraciones que delimitaróan el alcance del presente proyecto: 

(22)

1.3. Justiñcacion 13 

• Se usaró la biblioteca digital PDLib 5 perteneciente al ITESM y la cuól se des¬  cribe móas adelante. Por tanto, el sistema de buósqueda seraó disenńado en base a la  arquitectura y componentes de dicha aplicacióon. 

PDLib es una aplicacióon con soporte para dispositivos moóviles, sin embargo la  implementacióon y pruebas correspondientes del sistema de buósqueda se reali­ zaróa bajo la aplicacioón de cliente Web. 

1.3 Justificacion 

Ya hemos visto que el manejo multilenguaje es una característica importante para  las bibliotecas digitales. Sin embargo, es importante tener en cuenta algunas conside¬  raciones que hacen de este trabajo una investigacióon sobresaliente: 

De acuerdo a [Peters 97], las bibliotecas digitales multilenguaje se han vuelto cada  vez maós comunes, por ejemplo, en ciudades donde el lenguaje nativo y el Ingles son  usados para documentar investigaciones científicas, en instituciones europeas donde se  manejan diversos lenguajes, en organizaciones internacionales, entre otros. Es impor¬  tante estar conscientes de permitir un acceso global en cualquier tipo de bibliotecas  digitales independientemente del lenguaje que se maneje en su contenido. 

Por otra parte, la investigacióon en la disciplina de CLIR es de importancia espe¬  cialmente en el óambito de las bibliotecas digitales, debido a que es un óarea que apenas  estóa en pleno desarrollo y pocas implementaciones han sido mostradas. 

Finalmente, el hecho de soportar muóltiples lenguajes en una buósqueda es una pro¬  piedad de importancia para cualquier biblioteca digital, esto se debe a distintas razones.  Primero, auón si una biblioteca digital contiene material en un solo lenguaje el contenido  puede ser accedido por usuarios que hablan otros idiomas. Asó mismo, de acuerdo a  [Borgman 97] las bibliotecas digitales se han convertido en una forma permanente de  almacenamiento de los documentos digitales, provocando que la informacioón sea bus¬  cada, procesada, formateada y compartida por los usuarios los cuales pueden hablar  distintos lenguajes y tener distintas plataformas de hardware y software. 

1.4 Organización del documento 

A lo largo de la presente tesis se describiróan los antecedentes y la metodologóa  necesaria para comprender los conceptos fundamentales que son de utilidad para el  desarrollo del presente proyecto. En el capítulo 2 se describirón a detalle las carac­ terísticas que definen a una biblioteca digital, los principales protocolos, normas y  estaóndares que se utilizan para su desarrollo y los principales retos que se presentan  en la actualidad para este tipo de herramientas. Así mismo, se define el concepto de  buósqueda multilenguaje y las diferentes tóecnicas para su implementacióon. 

5

(23)

1.3. Justiñcacion 13 

• Se usaró la biblioteca digital PDLib 5 perteneciente al ITESM y la cuól se des¬  cribe móas adelante. Por tanto, el sistema de buósqueda seraó disenńado en base a la  arquitectura y componentes de dicha aplicacióon. 

PDLib es una aplicacióon con soporte para dispositivos moóviles, sin embargo la  implementacióon y pruebas correspondientes del sistema de buósqueda se reali­ zaróa bajo la aplicacioón de cliente Web. 

1.3 Justificacion 

Ya hemos visto que el manejo multilenguaje es una característica importante para  las bibliotecas digitales. Sin embargo, es importante tener en cuenta algunas conside¬  raciones que hacen de este trabajo una investigacióon sobresaliente: 

De acuerdo a [Peters 97], las bibliotecas digitales multilenguaje se han vuelto cada  vez maós comunes, por ejemplo, en ciudades donde el lenguaje nativo y el Ingles son  usados para documentar investigaciones científicas, en instituciones europeas donde se  manejan diversos lenguajes, en organizaciones internacionales, entre otros. Es impor¬  tante estar conscientes de permitir un acceso global en cualquier tipo de bibliotecas  digitales independientemente del lenguaje que se maneje en su contenido. 

Por otra parte, la investigacióon en la disciplina de CLIR es de importancia espe¬  cialmente en el óambito de las bibliotecas digitales, debido a que es un óarea que apenas  estóa en pleno desarrollo y pocas implementaciones han sido mostradas. 

Finalmente, el hecho de soportar muóltiples lenguajes en una buósqueda es una pro¬  piedad de importancia para cualquier biblioteca digital, esto se debe a distintas razones.  Primero, auón si una biblioteca digital contiene material en un solo lenguaje el contenido  puede ser accedido por usuarios que hablan otros idiomas. Asó mismo, de acuerdo a  [Borgman 97] las bibliotecas digitales se han convertido en una forma permanente de  almacenamiento de los documentos digitales, provocando que la informacioón sea bus¬  cada, procesada, formateada y compartida por los usuarios los cuales pueden hablar  distintos lenguajes y tener distintas plataformas de hardware y software. 

1.4 Organización del documento 

A lo largo de la presente tesis se describiróan los antecedentes y la metodologóa  necesaria para comprender los conceptos fundamentales que son de utilidad para el  desarrollo del presente proyecto. En el capítulo 2 se describirón a detalle las carac­ terísticas que definen a una biblioteca digital, los principales protocolos, normas y  estaóndares que se utilizan para su desarrollo y los principales retos que se presentan  en la actualidad para este tipo de herramientas. Así mismo, se define el concepto de  buósqueda multilenguaje y las diferentes tóecnicas para su implementacióon. 

5

(24)

1.3. Justiñcacion 13 

• Se usaró la biblioteca digital PDLib 5 perteneciente al ITESM y la cuól se des¬  cribe móas adelante. Por tanto, el sistema de buósqueda seraó disenńado en base a la  arquitectura y componentes de dicha aplicacióon. 

PDLib es una aplicacióon con soporte para dispositivos moóviles, sin embargo la  implementacióon y pruebas correspondientes del sistema de buósqueda se reali­ zaróa bajo la aplicacioón de cliente Web. 

1.3 Justificacion 

Ya hemos visto que el manejo multilenguaje es una característica importante para  las bibliotecas digitales. Sin embargo, es importante tener en cuenta algunas conside¬  raciones que hacen de este trabajo una investigacióon sobresaliente: 

De acuerdo a [Peters 97], las bibliotecas digitales multilenguaje se han vuelto cada  vez maós comunes, por ejemplo, en ciudades donde el lenguaje nativo y el Ingles son  usados para documentar investigaciones científicas, en instituciones europeas donde se  manejan diversos lenguajes, en organizaciones internacionales, entre otros. Es impor¬  tante estar conscientes de permitir un acceso global en cualquier tipo de bibliotecas  digitales independientemente del lenguaje que se maneje en su contenido. 

Por otra parte, la investigacióon en la disciplina de CLIR es de importancia espe¬  cialmente en el óambito de las bibliotecas digitales, debido a que es un óarea que apenas  estóa en pleno desarrollo y pocas implementaciones han sido mostradas. 

Finalmente, el hecho de soportar muóltiples lenguajes en una buósqueda es una pro¬  piedad de importancia para cualquier biblioteca digital, esto se debe a distintas razones.  Primero, auón si una biblioteca digital contiene material en un solo lenguaje el contenido  puede ser accedido por usuarios que hablan otros idiomas. Asó mismo, de acuerdo a  [Borgman 97] las bibliotecas digitales se han convertido en una forma permanente de  almacenamiento de los documentos digitales, provocando que la informacioón sea bus¬  cada, procesada, formateada y compartida por los usuarios los cuales pueden hablar  distintos lenguajes y tener distintas plataformas de hardware y software. 

1.4 Organización del documento 

A lo largo de la presente tesis se describiróan los antecedentes y la metodologóa  necesaria para comprender los conceptos fundamentales que son de utilidad para el  desarrollo del presente proyecto. En el capítulo 2 se describirón a detalle las carac­ terísticas que definen a una biblioteca digital, los principales protocolos, normas y  estaóndares que se utilizan para su desarrollo y los principales retos que se presentan  en la actualidad para este tipo de herramientas. Así mismo, se define el concepto de  buósqueda multilenguaje y las diferentes tóecnicas para su implementacióon. 

5

(25)

14  Capítulo 1. Introduccion

A lo largo del capítulo 3 se realiza un replanteamiento del problema, unificando  los dos tópicos de interés: las bibliotecas digitales y la recuperacion de informacion  multilenguaje. Asó mismo, se presentaróa la biblioteca digital PDLib, proyecto sobre el  cuóal se realizaróa la implementacióon del sistema. 

Durante el capítulo 4 se describe lo que se propone hacer en detalle sobre el sistema  y el modo en que se atacaróan los problemas en particular. Se presentan tambióen los  procesos de planeacióon, disenńo, desarrollo, pruebas y anóalisis de resultados correspon¬  dientes a la implementacioón del sistema. 

(26)

Capítulo 2 

Antecedentes 

En este capítulo se describen aspectos generales de las bibliotecas digitales, se dis­ cute a detalle el proceso de recuperacion de la informacion, así como una descripcion  general de las bósquedas multilenguaje y algunos proyectos previos relacionados con  este trabajo y que proporcionarón el marco teorico necesario para comprender la ter­ minología usada en el cuerpo de la presente tesis. 

2.1 La biblioteca digital 

Como ya se ha mencionado, la cantidad de informacion que podemos encontrar en  la Web va en aumento día con día la cual cubre diversos ómbitos como finanzas, merca­ dotecnia, literatura, ingenierías, educacion, computacion, medicina, etc. Así mismo, los  formatos en los que podemos encontrar esta informacion tambien son variados (texto,  imagen, audio, video o cualquier otra fuente de informacion). 

Sin embargo, dicha información puede provenir de fuentes o sitios poco seguros y  confiables, es decir, no se tiene la certeza de que la informacion que se visualiza en la  Web esta validada por algón organismo internacional o científico como la IEEE o ACM.  Ademas, la informacion que se maneja en la mayoría de los sitios se encuentra desor­ ganizada, dificultando el acceso, la busqueda y la recuperacion de la misma. Es por eso  que las bibliotecas digitales representan en la actualidad una forma de administracion  y clasificacion de la informacion. 

La idea actual de la biblioteca digital es en realidad no solo una definicion, sino  varias definiciones que tienden a cambiar desde la perspectiva de los diversos auto­ res [Martínez Equihua 07]. A continuacion, se presentan diversas definiciones que en  conjunto representan el concepto general de una biblioteca digital: 

• Las bibliotecas digitales son un conjunto de recursos electrónicos y capacidades técnicas asociadas para la creación, busqueda y uso de la información. Represen-tan una extension y mejora de los sistemas de almacenamiento y recuperacion que manipulan datos en cualquier medio (texto, sonido, imagen) existentes en redes distribuidas. Integran una variedad de instituciones de informacion (como bibliotecas tradicionales, museos, archivos, escuelas) en lugares físicos donde los

(27)

Capítulo 2 

Antecedentes 

En este capítulo se describen aspectos generales de las bibliotecas digitales, se dis­ cute a detalle el proceso de recuperacion de la informacion, así como una descripcion  general de las bósquedas multilenguaje y algunos proyectos previos relacionados con  este trabajo y que proporcionarón el marco teorico necesario para comprender la ter­ minología usada en el cuerpo de la presente tesis. 

2.1 La biblioteca digital 

Como ya se ha mencionado, la cantidad de informacion que podemos encontrar en  la Web va en aumento día con día la cual cubre diversos ómbitos como finanzas, merca­ dotecnia, literatura, ingenierías, educacion, computacion, medicina, etc. Así mismo, los  formatos en los que podemos encontrar esta informacion tambien son variados (texto,  imagen, audio, video o cualquier otra fuente de informacion). 

Sin embargo, dicha información puede provenir de fuentes o sitios poco seguros y  confiables, es decir, no se tiene la certeza de que la informacion que se visualiza en la  Web esta validada por algón organismo internacional o científico como la IEEE o ACM.  Ademas, la informacion que se maneja en la mayoría de los sitios se encuentra desor­ ganizada, dificultando el acceso, la busqueda y la recuperacion de la misma. Es por eso  que las bibliotecas digitales representan en la actualidad una forma de administracion  y clasificacion de la informacion. 

La idea actual de la biblioteca digital es en realidad no solo una definicion, sino  varias definiciones que tienden a cambiar desde la perspectiva de los diversos auto­ res [Martínez Equihua 07]. A continuacion, se presentan diversas definiciones que en  conjunto representan el concepto general de una biblioteca digital: 

• Las bibliotecas digitales son un conjunto de recursos electrónicos y capacidades técnicas asociadas para la creación, busqueda y uso de la información. Represen-tan una extension y mejora de los sistemas de almacenamiento y recuperacion que manipulan datos en cualquier medio (texto, sonido, imagen) existentes en redes distribuidas. Integran una variedad de instituciones de informacion (como bibliotecas tradicionales, museos, archivos, escuelas) en lugares físicos donde los

(28)

16  Capítulo 2. Antecedentes

recursos son seleccionados, colectados, organizados, preservados y accedidos en apoyo a comunidades especificas de usuarios [Martínez Equihua 07]. 

• Una biblioteca digital es una coleccion de servicios e información que apoya a los  usuarios en el uso de informacion, asi como en la organización y presentacion de  dicha informacion utilizando medios electronicos y digitales [Martínez Gómez 04]. 

Una biblioteca digital puede conceptualizarse como una coleccion organizada de  documentos en diversos formatos digitales para los cuales existen diversos ser¬  vicios. La biblioteca digital facilita el desarrollo de actividades de estudio e in­ vestigacion colaborativa entre usuarios distribuidos geograficamente ademas que  debe proporcionar mecanismos de almacenamiento, busqueda y recuperacion de  documentos completos [Cervera Evia 04]. 

• Podemos definir a la biblioteca digital como una coleccion organizada de la in­ formacion, con servicios asociados en los que la informacion esta almacenada en  formato digital y accesible en red [Penńa; et.al. 03]. 

Es de notarse que las definiciones de una biblioteca digital dadas anteriormente  coinciden en los siguientes aspectos: 

• Se proporcionan diversos servicios que facilitan la administracion y manejo de la  informacion. 

Se integran por diversas colecciones de documentos creados y administrados por  diferentes organizaciones. 

• Se puede compartir la informacion a un mayor numero de usuarios por medio de  la Web. 

• Se puede encontrar la informacion de manera mas eficiente, gracias a los servicios  proporcionados. 

En base a todo lo anterior, podemos afirmar que las bibliotecas digitales en sí son  un conjunto de documentos 1 que pueden ser administrados y accedidos por medio de  la Web gracias a que proporcionan diversos servicios. 

En los siguientes apartados, se describen de manera general los estandares aplicados  para el desarrollo e implementacion de bibliotecas digitales, los principales servicios que  esta proporciona, así como los principales retos que se presentan en la actualidad en  relacion a dicha herramienta. 

*Es importante resaltar que las características y formatos de un documento pueden ser muy diver­ sos: fotos, mapas, libros, archivos digitales, artículos de revistas, cintas de musica, paginas html, etc.  Por tanto, en este trabajo se utiliza el termino documento para referirnos a cualquiera de los tipos de 

(29)

2.1. La biblioteca digital  17 

2.1.1 Principales normas y estóndares 

Actualmente la bibliotecología cuenta con una gran cantidad de normas y estanda­ res para cada una de las areas de desarrollo y aplicacion; dichos estandares tienen  el objetivo de definir soluciones que sean aplicables y reusables en forma amplia  [Martínez Equihua 07].  En todo lo referente al acceso a la informacion y las bibliotecas digitales, las normas  y estandares que se aplican son los mismos que para la informatica y las telecomunica­ ciones en general [Leloup 98]. Dentro de una serie de estóndares aplicados en bibliotecas  digitales resumimos los mós importantes en la tabla 2.1  2

(30)

18  Capítulo 2. Antecedentes 

Aunque existen diversos protocolos de comunicacion, Z39.50 y OAI son de interés  especial para el desarrollo e implementacion de bibliotecas digitales, ya que actuan  como un nicho de oportunidades para emprender proyectos de colaboracion con otras  universidades. Dichos protocolos se resumen a continuacion: 

Open Archives Initiative (OAI) 

En octubre de 1999, se creo en Santa Fe, Nuevo Mexico, la Iniciativa de Archivos  Abiertos (conocida como OAI, por sus siglas en ingles)3. OAI es un consorcio integrado  por Universidades, centros de investigacion y otros participantes de todo el mundo y  comprende acervos de diversas disciplinas (computacion, economía, física, etc.) y tipos  de publicaciones (disertaciones, reportes técnicos y artículos, entre otros). 

El objetivo final de la OAI es abarcar todo el material digital generado por los  autores en universidades y centros de investigación que promueven el acceso libre a los  resultados de sus proyectos. Para el avance de OAI es necesario contar con un modelo  apropiado de bibliotecas digitales y desarrollar e integrar herramientas y servicios que  operen en un ambiente altamente distribuido y escalable. 

A partir de la OAI, surge OAI­PMH (Open Archives Initiative­Protocol for Me­ tadata Harvesting) el cual es un protocolo para el intercambio de metadatos que no  incluye mecanismos para el intercambio de texto completo. Esta basado en un modelo  que establece una division muy clara entre los proveedores de datos y los proveedores  de servicios. 

El ITESM­Campus Monterrey, con la colaboracion del Virginia Tech, en los Esta­ dos Unidos y la Universidad de las Americas­Campus Puebla (UDLAP) iniciaron en  conjunto un proyecto cuyo objetivo principal fue el de contribuir con los fines de OAI,  investigando tecnicas y herramientas para soportar busquedas federadas, colecciones  multilingües, recuperacion de información e interfaces de usuario basadas en agentes,  visualizacion de información y arquitecturas de bibliotecas digitales de alto rendimiento  [Martínez Gomez 04]. Actualmente, dicho proyecto se mantiene como una propuesta  para un desarrollo futuro. 

Protocolo de comunicacion Z39.50 

El protocolo Z39.50  4, cuyo nombre oficial en ingles es Information Retrieval, Ap­ plication Service Definition and Protocol Specification: ANSI/NISO Z39.50­1995, es  un protocolo que especifica estructuras de datos y el intercambio de reglas que per¬  miten a un cliente buscar bases de datos en un servidor y recuperar registros que son  identificados como un resultado de esa operacion. 

El protocolo tiene persistencia y esta orientado a la conexion, es decir, define interac­ ciones entre el cliente y el servidor ónicamente. El protocolo Z39.50 especifica una API  ónicamente para las interacciones entre el cliente y el servidor [Martínez Equihua 07]. 

3

 http:/ /www.openarchives. org / 

4

(31)

2.1. La biblioteca digital  19 

Una de las funciones basicas del Z39.50 permite al cliente transmitir una bósqueda  al servidor. La bósqueda produce un conjunto de resultados que son almacenados en  el servidor. 

2.1.2 Principales servicios y retos 

Con respecto a los servicios proporcionados, las bibliotecas digitales comparten  ciertas características fundamentales en el manejo de informacion. De manera gene¬  ral, una biblioteca digital ofrece diversos servicios adicionales a los que ofrece una  biblioteca digital tradicional [Ramírez Arellano 04]. Algunos de los que podrían con­ siderarse como servicios basicos dentro de una biblioteca digital se mencionan en  [Hurtado Alvarado 06], [Martínez Equihua 07] y [Ramírez Arellano 04]: 

• Servicios de bósqueda: Consiste en localizar fuentes y recursos informativos  en un contexto relevante para el usuario. Las bibliotecas digitales usan diversas  tecnicas para la recuperación de información como las bósquedas en metadatos,  busquedas en texto completo y busquedas en contenidos para otros formatos.  • Servicios de conversion: Permite transformar un documento o informacion de 

cualquier tipo en cualquier otra representacion o formato para su presentacion.  • Servicios de metadatos: Este servicio consiste en describir el significado de 

ciertos campos como: clave, los protocolos utilizados, el autor, o la vigencia. Se  utilizan algunas tecnicas con el objetivo de presentar informacion valiosa, como  la extraccion automótica de los metadatos antes de almacenar los documentos,  o el uso de agentes para definir el perfil de los usuarios y filtrar informacion no  importante para ellos. 

• Servicios de deteccion de copias: Consiste en identificar el material registrado  que debe compararse para detectar similitudes y copias no autorizadas. 

• Servicios de publicacion: Administra el proceso de creación, registro y dise­ minacion de nueva información de modo tal que facilite su identificacion a los  usuarios para los que puede resultar mas relevante. 

Servicios de autenticacióon: Administra los derechos de acceso a diversos re¬  cursos y servicios. Ademas que tambien se toma en cuenta la cantidad de usuarios  que puede soportar la biblioteca digital y los tiempos de trafico. 

Servicios de intermediacioón: En este servicio se administra e integra aquella  informacion procedente de diversas fuentes  y / o colecciones. 

(32)

2.1. La biblioteca digital  19 

Una de las funciones basicas del Z39.50 permite al cliente transmitir una bósqueda  al servidor. La bósqueda produce un conjunto de resultados que son almacenados en  el servidor. 

2.1.2 Principales servicios y retos 

Con respecto a los servicios proporcionados, las bibliotecas digitales comparten  ciertas características fundamentales en el manejo de informacion. De manera gene¬  ral, una biblioteca digital ofrece diversos servicios adicionales a los que ofrece una  biblioteca digital tradicional [Ramírez Arellano 04]. Algunos de los que podrían con­ siderarse como servicios basicos dentro de una biblioteca digital se mencionan en  [Hurtado Alvarado 06], [Martínez Equihua 07] y [Ramírez Arellano 04]: 

• Servicios de bósqueda: Consiste en localizar fuentes y recursos informativos  en un contexto relevante para el usuario. Las bibliotecas digitales usan diversas  tecnicas para la recuperación de información como las bósquedas en metadatos,  busquedas en texto completo y busquedas en contenidos para otros formatos.  • Servicios de conversion: Permite transformar un documento o informacion de 

cualquier tipo en cualquier otra representacion o formato para su presentacion.  • Servicios de metadatos: Este servicio consiste en describir el significado de 

ciertos campos como: clave, los protocolos utilizados, el autor, o la vigencia. Se  utilizan algunas tecnicas con el objetivo de presentar informacion valiosa, como  la extraccion automótica de los metadatos antes de almacenar los documentos,  o el uso de agentes para definir el perfil de los usuarios y filtrar informacion no  importante para ellos. 

• Servicios de deteccion de copias: Consiste en identificar el material registrado  que debe compararse para detectar similitudes y copias no autorizadas. 

• Servicios de publicacion: Administra el proceso de creación, registro y dise­ minacion de nueva información de modo tal que facilite su identificacion a los  usuarios para los que puede resultar mas relevante. 

Servicios de autenticacióon: Administra los derechos de acceso a diversos re¬  cursos y servicios. Ademas que tambien se toma en cuenta la cantidad de usuarios  que puede soportar la biblioteca digital y los tiempos de trafico. 

Servicios de intermediacioón: En este servicio se administra e integra aquella  informacion procedente de diversas fuentes  y / o colecciones. 

(33)

20  Capítulo 2. Antecedentes 

toda la biblioteca por cada modificacion de esta. El indexamiento puede realizarse  sobre la información almacenada en las bibliotecas digitales, sobre los metadatos  de esta, o en ambos; ademós, su complejidad depende del tipo de indexamiento y  del formato de la informacion (el formato textual es mas sencillo de indexar res¬  pecto a los formatos como audio o video digital, que requieren de procesamiento  extra). 

• Servicios automatizados de informacion personalizada: Proporcionan  modulos programables por el usuario para filtrar, organizar, mutar y distribuir  informacion. La interfaz de usuario es uno de los componentes mós importantes  de las bibliotecas digitales, ya que incorpora la interacción con el usuario y el  despliegue de grandes cantidades de datos eficientemente. 

• Servicios financieros: Para aplicar cargos por el uso de los diversos servicios y  para pagar a los proveedores, incluyendo servicios bancarios electróonicos. 

Servicios de almacenamiento: Las bibliotecas digitales son capaces de alma¬  cenar grandes cantidades de informacióon en diferentes formatos de texto, audio,  imagen o video. Las bibliotecas digitales usan diferentes mecanismos para el al¬  macenamiento, como puede ser el sistema de archivos del sistema operativo del  servidor o mediante Sistemas Gestores de Bases de Datos con soporte para obje¬  tos binarios, lo cual permite mantener dentro de la base de datos los documentos,  agregando escalabilidad y una mejor organizacióon a la biblioteca digital. Con el  objetivo de optimizar espacio en disco duro, las bibliotecas digitales tambióen  utilizan tóecnicas como la compresióon para el almacenamiento digital. 

Servicios de Seguridad: Las bibliotecas digitales permiten mantener diferentes  niveles de seguridad independientes para cada documento o coleccióon de docu¬  mentos. Ademóas de permitir el acceso puóblico o privado a determinada informa­ cióon. 

Servicios de Presentacióon: Este servicio permite la presentacióon del contenido  de la biblioteca digital a travóes de distintos dispositivos. Los dispositivos gene¬  ralmente se clasifican en ligeros y pesados, siendo estos ultimos aparatos como  computadoras personales, laptops o notebooks. Mientras que los dispositivos lige¬  ros son aquellos que el usuario puede portar y transportar faócilmente a cualquier  lugar donde se desplace, como PDAs y celulares. 

(34)

2.1. La biblioteca digital  21 

Creacióon y captura: El material que se almacena en la biblioteca digital debe  de estar en formato digital. Para material que no se encuentra en formato di¬  gital es necesario contar con alguna tóecnica de transformacióon para obtener su  representacióon digital. 

• Clasificacion e indexamiento: Los documentos que pertenecen a la biblioteca  deben de ser clasificados e indexados para poder ser accedidos posteriormente  de una manera precisa y eficiente. Por lo que debe implementarse un metodo de  indexamiento  y / o clasificacion eficiente y acorde a las necesidades de la biblioteca  digital. 

• Bósqueda y acceso: Es necesario que la gran cantidad de información conte­ nida en la biblioteca digital sea accesible de una manera rapida y eficiente, lo  que implica que la biblioteca debe incluir tóecnicas de buósqueda avanzada y de  recuperacióon. Uno de los retos móas importantes de las bibliotecas digitales es  encontrar informacióon relevante en las buósquedas. Debido a la gran cantidad de  informacióon que puede contener una biblioteca digital, óesta caracteróstica ahorra  tiempo en la navegacióon de los resultados. 

Distribucióon y Portabilidad: Debe de ser posible acceder la biblioteca digital  remotamente y desde cualquier dispositivo para obtener acceso a los documentos  o secciones de estos de una manera rópida y confiable. 

Administracióon y control de acceso: Es necesario que la biblioteca digital  incorpore mecanismos con el fin de evitar intrusiones no autorizadas a los docu¬  mentos garantizando de esta manera el control de acceso. 

Personalizacióon: Las bibliotecas digitales deben satisfacer las necesidades de  informacion específicas de los usuarios. Para ello, la interfaz de una biblioteca di¬  gital debe ser usable de tal manera que se satisfagan las preferencias individuales.  Compartimiento de la informacióon: Las bibliotecas digitales deben ser ca¬  paces de acceder al contenido de otras bibliotecas o comunidades digitales de  tal manera que en conjunto conformen una sola biblioteca digital mundial. Para  brindar un mejor servicio las bibliotecas digitales necesitan estar comunicadas  entre só, de tal forma que una buósqueda pueda ser realizada en diversas bibliote¬  cas digitales con arquitecturas heterogóeneas a travóes de protocolos especializados  como OAI. 

(35)

22  Capítulo 2. Antecedentes 

Obsóervese que son muchos los retos que se plantean en la actualidad para per¬  feccionar y mejorar los servicios ofrecidos por una biblioteca digital. En el presente  trabajo, nos enfocamos a uno de dichos retos, el cuóal consideramos de importancia  para el desarrollo e implementacióon de una biblioteca digital: el servicio de buósqueda  y recuperacióon de la informacióon. 

2.2 La recuperación de la informacion 

Las investigaciones relacionadas con las bibliotecas digitales tambióen se han exten¬  dido en el contexto de la investigacioón en recuperacioón de la informacioón. Eóste toópico  representa una de las piezas para proporcionar una alta efectividad a los sistemas de  bibliotecas digitales, al mismo tiempo que mantiene la facilidad de uso para los usuarios 

[Peńa; et.al. 03]. 

De acuerdo a [Meadow 92], la recuperacion de la información (denotada como IR  por sus siglas en ingles ­ Information Retrieval) comprende el conjunto de tareas que 

permiten localizar y acceder a los elementos que son relevantes para una determinada  necesidad de informacioón con ayuda de un sistema informóatico. 

Otros tóerminos usados para referirse a este proceso son: informaótica documental,  documentacioón automóatica y documóatica [Penńa; et.al. 03]. En conjunto el hardware,  los programas y los datos que facilitan la localizacióon de los documentos adecuados a  la necesidad de la información es conocido como Sistema de Recuperacion de la  Informacióon. Dicho sistema representa el nuócleo principal del funcionamiento de los  motores de busqueda (los cuóles se mencionan en la seccion 1.1) [Hock 99]. 

En la figura 2.1 se modela el proceso de IR de forma general. Este proceso inicia  cuando el usuario hace una peticioón (mejor conocida como query), la cuaól es procesa¬ 

da por el sistema IR usando una terminología específica y, mediante un lenguaje de  recuperacióon adecuado para el entorno informóatico, el sistema realiza una buósqueda a  lo largo de la base de datos de los óndices representativos de cada documento. Dicha  buósqueda proporciona sus resultados al sistema, el cual los interpreta para realizar aho¬  ra la buósqueda en una base de datos donde se encuentran los documentos resultantes;  de esta manera se realiza un procesamiento de presentacioón para determinar el orden  en que los registros resultantes serón presentados finalmente al usuario. 

Desde el punto de vista de la IR, una biblioteca digital puede ser vista como un  sistema de IR extendido ya que óesta maneja una variedad de formatos, voluminosas co¬  lecciones de documentos y por tanto, requiere metodologías eficientes para su bósqueda,  catalogacióon e indexacióon [Penńa; et.al. 03]. 

Figure

Figura  2.1: Proceso de recuperacion  de  informacián. 
Figura  3.1: Arquitectura  general  de PDLib. 
Figura  3.2: Arquitectura  del  Servidor de Datos. 
Figura  3.3: Modelo de Datos  de PDLib. 
+7

Referencias

Documento similar

• If a generation only contains a set of contiguous cells embraced by the left and the right markers and every cell that has not a marker has the symbol ◊, then the generation

In short, we will see that if the report of the author of 4 Macc of the economic and legal functioning of the temple treasury (3.20-4.14) contains within it subtle notes of a

Un estudi previ va comparar aquesta capacitat entre diferents rius afectats per entrades d’efluents d’EDARs durant l’època de baix cabal (Martí et al. Els resultats d’aquest

In the previous sections we have shown how astronomical alignments and solar hierophanies – with a common interest in the solstices − were substantiated in the

The Screens menu allows the user to determine which data buer is displayed in the image area, and how the data is displayed. In each case the mapping between the data buer and

In analogy to query clarity, we hypothesise that the amount of uncertainty involved in user and item data (reflecting ambiguity in the users’ tastes, and popularity

If the company discloses information concerning each item, it will take the value 1, and 0 otherwise; POW_DIST represents the power distance, one of the six culture

Many evaluation techniques for content based image retrieval are based on the availability of a ground truth, that is on a ”correct” categorization of images so that, say, if the