México a
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE
MONTERREY
PRESENTE.
, en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución, distribución pública y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO, dentro del círculo de la comunidad del Tecnológico de Monterrey.
El Instituto se compromete a respetar en todo momento mi autoría y a otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.
De la misma manera, manifiesto que el contenido académico, literario, la edición y en general cualquier parte de LA OBRA son de mi entera responsabilidad, por lo que deslindo a EL INSTITUTO por cualquier violación a los derechos de autor y/o propiedad intelectual y/o cualquier responsabilidad relacionada con la OBRA que cometa el suscrito frente a terceros.
PGI13.5F3 Formato Información y Carta Permiso. Tesis, Tesinas, Disertaciones Doctorales. Versión 5 _ de 20
I N S T I T U T O T E C N O L Ó G I C O Y D E E S T U D I O S S U P E R I O R E S D E M O N T E R R E Y
C A M P U S M O N T E R R E Y
P R O G R A M A D E G R A D U A D O S E N T E C N O L O G I A S D E I N F O R M A C I Ó N Y E L E C T R Ó N I C A
TECNOLÓGICO
DE MONTERREY
RECUPERACIÓN DE INFORMACIÓN MULTILENGUAJE
PARA BIBLIOTECAS DIGITALES
PRESENTADA COMO REQUISITO PARCIAL PARA OBTENER EL G R A D O ACADÉMICO DE:
M A E S T R I A E N C I E N C I A S E N T E C N O L O G I A I N F O R M A T I C A
P O R
E R I K A L E T I C I A S A N C H E Z C H A M O C H I N
R E C U P E R A C I O N D E I N F O R M A C I O N
M U L T I L E N G U A J E P A R A B I B L I O T E C A S
D I G I T A L E S
P O R
E R I K A L E T I C I A S A N C H E Z C H A M O C H I N
T E S I S
Presentada al Programa de Graduados en Tecnologías de Información y Electrónica
Este trabajo es requisito parcial para obtener el grado de Maestría en Ciencias en Tecnología Informática
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE M O N T E R R E Y
CAMPUS M O N T E R R E Y
Instituto Tecnológico y de Estudios Superiores de
Monterrey
Campus Monterrey
División de Mecatrónica y Tecnologías de Información
Programa de Graduados en Tecnologías de Información y Electrónica
Los miembros del comité de tesis recomendamos que la presente tesis de la L.C.C. Erika Leticia Sánchez Chamochin sea aceptada como requisito parcial para ob tener el grado académico de Maestría en Ciencias en Tecnología Informática.
Comité de Tesis
Dr. Juan Carlos Lavariega Jarquín
Asesor principal
Dra. Lorena Guadalupe Gómez Martínez
Sinodal
M C T Martha Sordia Salinas
Sinodal
Dr .Joaquín Acevedo Mascaría.
Director de Investigación y Posgrado Escuela de Ingeniería
Resumen
El presente documento se enfoca en las bibliotecas digitales; de manera más específica, en el servicio de búsqueda y recuperacion de información ya que se le considera uno de los servicios clave en el desarrollo de éstas. El objetivo general del presente trabajo consiste en la implementación de la búsqueda multilenguaje en una biblioteca digital aplicando técnicas de recuperación de información. Se usaría la biblioteca digital PDLib perteneciente al ITESM, de esta manera, el diseno de este sistema se basa en la arquitectura y componentes de dicha aplicación.
A lo largo de este documento, se explicara el concepto de recuperación de infor macion multilenguaje (Cross Lingual Information Retrieval CLIR), su importancia en la era actual, se definirán las metodologías y tecnicas de aplicación, su importancia en relación con las bibliotecas digitales, las distintas iniciativas o grupos existentes, así como las clasificaciones y estandares relacionados con el tema.
Se presentaría la estrategia utilizada para implementar la recuperación de infor maciíon multilenguaje bajo un entorno de biblioteca digital, utilizando un modelo de traducciíon de máquina y expansión de queries; aprovechando herramientas ya existentes e implementadas en PDLib como lo son el protocolo RELTEX (Relational Text Protocol), con la cual, mediante el uso de la herramienta de recuperación de información Lucene (IR tool), se puede soportar el uso de campos diníamicos.
Así mismo, se realiza una descripción detallada de aquellos cambios y confi¬ guraciones necesarios para el procedimiento de expansión de queries, mediante el API de Google para traducciones; la cual resultó ser una herramienta útil para la implementación de este tipo de sistemas.
Dedicatoria
A Dios Por darme vida, fuerza y paciencia durante los 'últimos años.
A mis padres: Mario y Paula Por su amor, su ejemplo y su apoyo incondicional.
A mis hermanitos: Abraham y Fernando Por su alegría que me animaban a seguir adelante.
Agradecimientos
Agradezco primeramente a mi asesor el Dr. Juan Carlos Lavariega Jarquín por todo su apoyo y valiosa asesoría recibida durante el desarrollo de la presente tesis, por su amistad y por ser un valioso ejemplo de motivación para mí, tanto personal como acadíemicamente.
A mis sinodales la M C T Martha Sordia Salinas y la Dra. Lorena Guadalupe Gómez Martínez por todos sus acertados comentarios y sus valiosas aportaciones a este trabajo.
También agradezco a los miembros del equipo Phronesis y PDLib por compartir conmigo sus ideas y experiencia. Finalmente, un sincero agradecimiento a todos aquellos profesores que de alguna manera me ayudaron y brindaron su amistad durante mis estudios de posgrado.
Contenido
1. Introducción 7
1.1. Definición del Problema 9 1.2. Objetivos y Alcances 12
1.3. Justificación 13 1.4. Organización del documento 13
2.1. La biblioteca digital 15 2.1.1. Principales normas y estándares 17
2.1.2. Principales servicios y retos 19 2.2. La recuperación de la información 22
2.3. La búsqueda multilenguaje 25 2.3.1. Técnicas de Traducción de Maquina (MachineTranslation) . . . 26
2.3.2. Técnicas Basadas en el Conocimiento (KnowledgeBased) . . . . 28 2.3.3. Técnicas Basadas en el Corpus Lingüístico (CorpusBased) . . . 30
2.3.4. Mecanismos de Fusión (Merging Mechanisms) 31
2.4. Análisis comparativo 32 3. Definición de un sistema C L I R para bibliotecas digitales 35
3.1. Importancia de un sistema CLIR en las bibliotecas digitales 35
3.1.1. Principales ventajas 37 3.2. PDLib (Personal Digital Library) 38
3.2.1. Características generales 38
3.2.2. Tipos de acceso 39 3.2.3. Arquitectura 39 3.2.4. DataServer 41 3.2.5. Modelo de datos 43 3.2.6. Servicio de búsqueda e indexamiento 45
3.3. Características del sistema 47 4. Implementación del Sistema C L I R en PDLib 49
4.1. Arquitectura general 49 4.1.1. Características del usuario 51
4.2. Principales Modificaciones 52
2. Antecedentes 15
2 Contenido
4.2.1. Aspecto Interno 52 4.2.2. Aspecto Externo 55 4.2.3. Modelo de datos 57 4.3. Pruebas y Análisis de Resultados 61
4.3.1. Configuración de usuarios 61 4.3.2. Carga de documentos 61 4.3.3. Pruebas de las Búsquedas Multilenguaje 63
4.3.4. Análisis de Resultados 68 5. Conclusiones y Trabajos Futuros 71
5.1. Conclusiones 71 5.2. Trabajos futuros 72 A. Archivo de configuración de lenguajes 73
B. Manual de Desarrollador del A P I de Google para traducciones 79
B.1. Traduciendo el Hello World 79
B.2. Lenguajes Utilizados 81 C. Código fuente del Traductor para PDLib 83
Indice de figuras
2.1. Proceso de recuperación de información . 23
3.1. Arquitectura general de PDLib . 40
3.2. Arquitectura del Servidor de Datos . 42
3.3. Modelo de Datos de PDLib. . 44
3.4. Mapeo lógico entre el indexamiento y el modelo de datos . 46
3.5. Arquitectura general de RELTEX . 47
3.6. Proceso de recuperación de información multilenguaje. . 48 4.1. Arquitectura general del proceso CLIR en PDLib . 50
4.2. Buísqueda multilenguaje en PDLib. . 52
4.3. Proceso de traducción y extensión de queries. . 54 4.4. PDLib Pagina principal del Cliente Web . 55 4.5. Búsqueda simple antes y después de implementar el sistema CLIR. . . . 56 4.6. Búsqueda avanzada antes y después de implementar CLIR . 57 4.7. Configuración de cuenta de usuario en PDLib . 58 4.8. Modificaciones en el modelo de datos de PDLib . 58
4.9. Arquitectura del DSAPI . 60
4.10. Proceso de búsqueda e indexamiento del DSAPI . 60 4.11. Interfaz de PDLib para la carga de documentos . 62 4.12. Búsqueda simple monolingüe de documentos en PDLib . 64 4.13. Búsqueda simple multilingüe de documentos en PDLib . 65 4.14. Búsqueda avanzada monolingüe de documentos en PDLib . 66 4.15. Buísqueda avanzada multilingüe de documentos en PDLib. . 67 4.16. Proporción de documentos en la búsqueda simple . 68 4.17. Proporción de documentos en la búsqueda avanzada. . 69 4.18. Comparación de tiempos de respuesta en la búsqueda simple . 70 4.19. Comparación de tiempos de respuesta en la buúsqueda avanzada. . . . . 70
Índice de tablas
2.1. Normas y estándares relacionados con el acceso a la información. . . 17 4.1. Distribución de documentos cargados en PDLib . 63 4.2. Resultados de ejecución de la búsqueda simple monolingue . 65 4.3. Resultados de ejecucion de la búsqueda simple multilingüe . 65 4.4. Resultados de ejecución de la búsqueda avanzada monolingüe. . 66 4.5. Resultados de ejecución de la búsqueda avanzada multilingüe . 67
Capítulo 1
Introducción
Desde el surgimiento del World Wide Web, la cantidad de informacion que podemos encontrar va en aumento día con día; frecuentemente surgen por Internet distintos recursos tales como sitios web, comunidades y sistemas elearning que resultan de utilidad para el usuario y que se enfocan en la educacion en línea o a distancia.
Ejemplos de dichos recursos educativos son los sitios web de universidades donde es posible estudiar algun curso o licenciatura, independientemente del lugar donde nos encontremos. Universidades como Edutechnology Consulting de Iberoamerica, The Atlantic International University, The University of Phoenix y la Universidad Virtual del Instituto Tecnologico y de Estudios Superiores de Monterrey (ITESM) ofrecen estudios en línea de licenciatura y posgrado.
Los sistemas elearning, tambien conocidos como LMS (Learnig Management Sys tem), representan otro tipo de recursos para la educación a distancia que permiten la administracion de cursos y clases en línea. Generalmente, son usados en las universi¬ dades como un apoyo complementario a la educacióon presencial. En la actualidad hay diversas variantes de estos recursos y cada universidad implementa aquel que se adap¬ te a su metodología de enseńanza; algunos ejemplos son: Moodle, Dokeos, Blackboard, Sakai y TCExam [Mason 06].
En general, la información disponible a traves de cada uno de estos recursos cu bre diversos ómbitos como: finanzas, mercadotecnia, literatura, ingenierías, educacion, computacióon, medicina, entre otras y los formatos en los que podemos encontrar esta informacioón son html, pdf o rtf (por mencionar algunos). Para facilitar su administra¬ ción, diversas instituciones han desarrollado sus propios mecanismos de clasificacion y almacenamiento. Las bibliotecas digitales representan una forma de dicha clasificacion, donde se publica la informacióon de una biblioteca como libros, revistas, folletos y diver¬ sos medios informativos en formato de texto, audio o video [Martónez Equihua 07]. Una biblioteca digital ofrece ademóas diversos servicios para los usuarios como buósquedas, almacenamiento y publicacióon de documentos. La informacióon que se puede encontrar en las bibliotecas digitales, en algunos casos, se puede imprimir, grabar, mandar por correo electróonico e incluso editar. Estas caracterósticas las convierten en un gran recur¬ so para científicos, profesores y alumnos, e incluso usuarios con actividad empresarial [Lesk 97].
8 Capítulo 1. Introducción
Sin embargo, al tener diversos documentos en formato digital, se facilita su distribu cioón y por tanto es posible cometer pirateróa y, con ello, que los autores carezcan de los beneficios que, por derecho, les corresponden [Tennant 00]; por tanto, una biblioteca digital tambióen debe ofrecer un mecanismo de proteccióon para los derechos de autor.
Otra de las consideraciones a tomar en cuenta para una biblioteca digital es la cantidad de archivos almacenados que puede llegar a ser enorme, por lo que esta he¬ rramienta debe proporcionar una manera de comprimir el tamanńo de los archivos y facilitar su almacenamiento e intercambio. Otro de los riesgos que se corre al tener esta informacióon es que es posible eliminar accidentalmente alguón archivo, por lo que se debe contar con una tóecnica de proteccióon de la informacióon y asó evitar estas even¬ tualidades; esto implica ademóas que se debe ser muy meticuloso con la importancia de los archivos que se estóan manejando [Martónez Equihua 07].
Actualmente existen diversos proyectos enfocados al desarrollo de bibliotecas digi¬ tales, entre los mós relevantes se encuentran el proyecto DELOS 1 (European Network of Excellence on Digital Libraries, fundado por la Comision Europea), Greenstone 2 (UNESCO Digital Library Software) y BRICKS Framework 3 (framework de codigo abierto para bibliotecas digitales), entre otros.
Por otra parte, existen diversas bibliotecas digitales alrededor del mundo, la mayoróa de óestas pertenecen a alguna universidad, institucioón u organizacióon dedicada a la investigacióon. De manera particular, las principales universidades de Móexico ya cuentan con una biblioteca digital; sin embargo, todas ellas requieren que el usuario sea alumno o pertenezca a la institucióon respectiva, entre dichas universidades se encuentran:
• Universidad Nacional Autónoma de Mexico UNAM (http://bidi.unam.mx): In¬ cluye revistas electróonicas con acceso a texto completo, en inglóes y portuguóes especializadas en diversas óareas del conocimiento.
• Universidad de las Americas de Puebla UDLA (http://ciria.udlap.mx/): Contie¬ ne libros digitalizados (ebooks) en texto completo y ligas externas a almanaques, anuarios, diccionarios, directorios, documentos gubernamentales, enciclopedias, mapas, tesis, artóculos, perióodicos y revistas de cualquier óarea de investigacióon. • El Colegio de Mexico (http://biblio.colmex.mx): Pone a disposicion de los usua¬
rios, cataólogos, servicios a los usuarios, folletos y documentos de circulacióon in¬ terna e informativa. Tambióen se han incluido recursos en Internet recomendados para realizar buósquedas. Contiene un catóalogo de biblioteca con ligas a los de otras bibliotecas, y documentos digitales de diverso contenido.
• Biblioteca Nacional de Ciencia y Tecnología BNCT (http://www.bnct.ipn.mx): Sistema perteneciente al Instituto Politóecnico Nacional (IPN); entre los servicios que ofrece se encuentran la consulta del cataólogo de: libros, mapas, revistas, mediateca, archivos histoóricos, etcóetera; consulta a diversas bases de datos como 1
http://www.delos.info
2
http:/ /www.greenstone. org
3
1.1. Deñnición del Problema 9
Dialog@site, Infotrac y a otras mas de 80 bases de datos especializadas en el area de bioingenieróa, comunicaciones, computacióon, ingenieróa electróonica, mecóanica agrócola, etcóetera.
• ITESM (http://biblioteca.itesm.mx): A partir de agosto de 1999 se puede acceder a la biblioteca digital de esta institucióon desde cualquier lugar. Cuenta con un catóalogo, de los acervos de las bibliotecas del sistema y con ligas de referencia a otras.
No hay duda que a medida que transcurra el tiempo el nuómero de bibliotecas digitales iróa en aumento y distintos proyectos seguiraón surgiendo; todo con el objetivo de incrementar la cantidad de la informacióon digital disponible, ya que las ventajas que implica el contar con una biblioteca digital se hacen móas evidentes dóa a dóa. Sin duda, las bibliotecas digitales auón se encuentran en una etapa de crecimiento y auón quedan muchos obstóaculos por vencer, siempre y cuando su objetivo principal sea el de ofrecer un servicio eficiente y de calidad a los usuarios [Lesk 97].
El presente documento se enfoca en las bibliotecas digitales; de manera mas específi¬ ca, en el servicio de buósqueda y recuperacióon de informacióon ya que se le considera uno de los servicios clave en el desarrollo de estas [Yang 05]. En el resto de este capítulo, se definira el ambito y el contexto de los problemas que se presentan particularmente en la busqueda de informacion en bibliotecas digitales; ademas, se describe de manera general una propuesta para solucionar dichos problemas.
1.1 Definición del Problema
La mayoría de los avances en el campo de las bibliotecas digitales se han concentrado en ambientes monolenguajes donde (en la mayoría de los casos) el principal lenguaje ha sido el Ingles debido a que las primeras investigaciones se han realizado en regiones como Europa y Estados Unidos donde este es el idioma nativo [Peters 97]. Sin embargo, durante los ultimos ańos se han llevado a cabo diversas conferencias internacionales relacionadas con bibliotecas digitales, lo cual comprueba que estos sistemas ya no solo son aplicables sobre areas donde se habla Ingles, sino que se ha extendido a lo largo del mundo.
De acuerdo a [Peters 97] existen dos retos en el acceso multilenguaje a bibliotecas digitales:
• Reconocimiento, manipulacion y despliegue multilenguaje: Permitir a los usuarios acceder al sistema, independientemente de su localizacion, del lenguaje que hablen y del idioma en que la informacion esta almacenada.
1.1. Deñnición del Problema 9
Dialog@site, Infotrac y a otras mas de 80 bases de datos especializadas en el area de bioingenieróa, comunicaciones, computacióon, ingenieróa electróonica, mecóanica agrócola, etcóetera.
• ITESM (http://biblioteca.itesm.mx): A partir de agosto de 1999 se puede acceder a la biblioteca digital de esta institucióon desde cualquier lugar. Cuenta con un catóalogo, de los acervos de las bibliotecas del sistema y con ligas de referencia a otras.
No hay duda que a medida que transcurra el tiempo el nuómero de bibliotecas digitales iróa en aumento y distintos proyectos seguiraón surgiendo; todo con el objetivo de incrementar la cantidad de la informacióon digital disponible, ya que las ventajas que implica el contar con una biblioteca digital se hacen móas evidentes dóa a dóa. Sin duda, las bibliotecas digitales auón se encuentran en una etapa de crecimiento y auón quedan muchos obstóaculos por vencer, siempre y cuando su objetivo principal sea el de ofrecer un servicio eficiente y de calidad a los usuarios [Lesk 97].
El presente documento se enfoca en las bibliotecas digitales; de manera mas específi¬ ca, en el servicio de buósqueda y recuperacióon de informacióon ya que se le considera uno de los servicios clave en el desarrollo de estas [Yang 05]. En el resto de este capítulo, se definira el ambito y el contexto de los problemas que se presentan particularmente en la busqueda de informacion en bibliotecas digitales; ademas, se describe de manera general una propuesta para solucionar dichos problemas.
1.1 Definición del Problema
La mayoría de los avances en el campo de las bibliotecas digitales se han concentrado en ambientes monolenguajes donde (en la mayoría de los casos) el principal lenguaje ha sido el Ingles debido a que las primeras investigaciones se han realizado en regiones como Europa y Estados Unidos donde este es el idioma nativo [Peters 97]. Sin embargo, durante los ultimos ańos se han llevado a cabo diversas conferencias internacionales relacionadas con bibliotecas digitales, lo cual comprueba que estos sistemas ya no solo son aplicables sobre areas donde se habla Ingles, sino que se ha extendido a lo largo del mundo.
De acuerdo a [Peters 97] existen dos retos en el acceso multilenguaje a bibliotecas digitales:
• Reconocimiento, manipulacion y despliegue multilenguaje: Permitir a los usuarios acceder al sistema, independientemente de su localizacion, del lenguaje que hablen y del idioma en que la informacion esta almacenada.
10 Capítulo 1. Introducción
El segundo punto representa un area en la cual se han centrado las investigacio nes durante los ultimos anos. Esto se debe a que el nómero de documentos digitales disponibles a traves de la Internet ha ido incrementóndose considerablemente, por lo que en ocasiones el usuario requiere una busqueda de algun documento en particular. Normalmente una busqueda a traves de la Web se realiza por medio de palabras clave para finalmente obtener una lista de direcciones ordenadas por orden de relevancia con respecto a las palabras clave.
Los motores de busqueda (del ingles search engines) son sistemas informóticos ca¬ paces de indexar en una base de datos diversos archivos almacenados en servidores; re¬ presentan una herramienta util ya que facilitan la busqueda de informacion en la Web. Existen diversos tipos de motores, cada uno de los cuales presentan diversas estrategias para la busqueda de información; de manera general y de acuerdo a [Glossbrenner 01] y [Hock 99] estos son:
Buscadores jeróarquicos: Conocidos tambióen como spiders, se encargan de recorrer los archivos de los servidores recopilando informacióon sobre el contenido en una base de datos indexada. Al realizar una buósqueda, se hace una consulta a la base de datos y presenta los resultados por orden de relevancia. Estos buscadores revisan perióodicamente los servidores para actualizar su base de datos. Algunos ejemplos de este tipo de buscadores son: Google, MSN Search y Altavista. Directorios: Presentan la informacióon de los sitios registrados como una coleccióon de directorios. La buósqueda se realiza de manera manual por temas, categoróas o palabras clave. Debido a que estos buscadores no recorren los servidores, la base de datos es realizada manualmente, es decir, se tiene que registrar a un sitio en el óarea temóatica correspondiente para que óeste pueda aparecer en el listado del directorio. Dicha inscripcioón se realiza de manera gratuita o pagada. Ejemplos de directorios son: Yahoo, Terra, OpenDirectory, entre otros.
Metabuscadores: Realizan buósquedas en otros motores de buósqueda, analizando sus resultados y presentando una recopilacióon de dichos resultados en pantalla. No disponen de una base de datos propia que mantener, sino que utilizan las de varios buscadores para encontrar la informacioón solicitada por el usuario. Dogpile, MetaCrawler y Profusion son algunos ejemplos de este tipo de buscadores. Buscadores de portal: Son pequenńos motores que realizan la buósqueda uónicamente a travóes del sitio Web donde estóan implementados. Wikipedia y las paóginas web de IEEE y ACM manejan este tipo de buscadores.
1.1. Definición del Problema 11
Entre los servicios que una biblioteca digital puede ofrecer se encuentra el de la buósqueda de documentos, ya sea utilizando un motor de tipo spider o de tipo directorio. Mediante palabras clave se realiza una buósqueda a lo largo de todos los documentos disponibles en la biblioteca digital, presentando como resultado final un listado de aquellos documentos que resultaron relevantes con respecto a dichas palabras clave [Alvarez Cavazos 07]. Una biblioteca digital tambióen puede realizar una buósqueda a travóes de otras bibliotecas o colecciones digitales.
En general, el motor de buósqueda de una biblioteca digital debe ser capaz de manejar la buósqueda a travóes de grandes voluómenes de datos e informacióon; en ocasiones dicha informacioón estóa escrita en distintos lenguajes y almacenada en distintos formatos. Sin embargo, los usuarios realizan buósquedas en un determinado lenguaje y esperan obtener la informacioón relevante sin importar el tipo de archivo y el lenguaje. Aunque generalmente dichos resultados se presenten en el mismo lenguaje en que se realizoó la consulta, es probable que con ciertas especificaciones o configuraciones de perfil puedan presentarse móas de un lenguaje entre los resultados. A este tipo de buósqueda se le conoce como Recuperacióon de Informacioón MultiLenguaje (CLIR por sus siglas en inglóes) [Yang 05]. Generalmente, los sistemas CLIR tienen las siguientes caracterósticas [Peters 97]:
Multiplataforma: Un sistema CLIR debe implementarse correctamente en cual¬ quier explorador Web, incluyendo aquellos exploradores basados en texto como Lynx; ademóas de que debe disenńarse de tal manera que sea soportado por un sistema operativo y hardware independiente de plataforma. Asó mismo, deben tener un disenńo capaz de adaptarse a distintos tamanńos de pantallas.
Interfaz Multilenguaje: El uso de una interfaz (incluyendo manuales o guóas de usuario) multilenguaje, mejora la buósqueda de los usuarios tanto novatos como expertos. Igualmente, dicha interfaz debe permitir al usuario elegir aquellos len¬ guajes de su preferencia para desplegar los resultados.
Buósqueda Avanzada: Es importante que el usuario tenga la opcioón de realizar una buósqueda avanzada de acuerdo a sus preferencias, debe considerarse tambióen que el usuario tenga la libertad de seleccionar aquellos metadatos sobre los que se realizaróa la buósqueda.
CLIR es un aórea relacionada con la recuperacióon de informacióon la cuaól ha sido objetivo de estudio durante los ultimos 10 anos y recientemente el objetivo principal de estudio del Foro Europeo de Evaluacioón Multilenguaje (CLEF por sus siglas en ingles) 4 , del Workshop on CrossLinguistic Information Retrieval (Zurich, SIGIR '96) y del Workshop on CrossLanguage Text and Speech Retrieval (Stanford AAAI97 Spring Symposium Series) [Oard 96].
4
12 Capítulo 1. Introduccion
Actualmente, se han identificado tres propuestas para implementar un sistema CLIR, de acuerdo a [Peters 97] dichas tóecnicas son: tóecnicas de traduccióon de texto, tóecnicas basadas en el conocimiento y tóecnicas basadas en el cuerpo del texto (me¬ jor conocidas como traduccióon de queries). Cada uno de estos móetodos presenta tanto ventajas como desventajas; sin embargo, la solución mas efectiva y confiable es una combinacioón de dichos paradigmas. Dicha combinacióon dependeróa de las necesidades del sistema donde se implementaróan.
1.2 Objetivos y Alcances
Considerando todo lo anteriormente expuesto, el objetivo general del presente tra¬ bajo es:
Proponer e implementar en una biblioteca digital la búsqueda multilenguaje de documentos aplicando tecnicas de CLIR.
Para poder alcanzar esta meta, se definen los objetivos particulares que en conjunto conforman nuestro objetivo general:
Disenńar un sistema de buósqueda multilenguajes basóandonos en las tóecnicas de la disciplina CLIR.
Realizar la implementacióon y pruebas correspondientes del sistema sobre una biblioteca digital.
• Definir la(s) tecnica(s) de CLIR que se aplicarón en el diseńo del sistema de buósqueda, adaptóandose a las caracterósticas y propiedades de la biblioteca digital. Describir cada una de las herramientas que se utilizaraón para el desarrollo del sistema de buósqueda.
• Presentar los resultados finales del desarrollo e implementacion.
• Fomentar el desarrollo de investigacion en el órea de bibliotecas digitales y recu peracióon de informacioón multilenguaje.
En base a estos objetivos, es importante tener en cuenta cada una de las principales consideraciones que delimitaróan el alcance del presente proyecto:
12 Capítulo 1. Introduccion
Actualmente, se han identificado tres propuestas para implementar un sistema CLIR, de acuerdo a [Peters 97] dichas tóecnicas son: tóecnicas de traduccióon de texto, tóecnicas basadas en el conocimiento y tóecnicas basadas en el cuerpo del texto (me¬ jor conocidas como traduccióon de queries). Cada uno de estos móetodos presenta tanto ventajas como desventajas; sin embargo, la solución mas efectiva y confiable es una combinacioón de dichos paradigmas. Dicha combinacióon dependeróa de las necesidades del sistema donde se implementaróan.
1.2 Objetivos y Alcances
Considerando todo lo anteriormente expuesto, el objetivo general del presente tra¬ bajo es:
Proponer e implementar en una biblioteca digital la búsqueda multilenguaje de documentos aplicando tecnicas de CLIR.
Para poder alcanzar esta meta, se definen los objetivos particulares que en conjunto conforman nuestro objetivo general:
Disenńar un sistema de buósqueda multilenguajes basóandonos en las tóecnicas de la disciplina CLIR.
Realizar la implementacióon y pruebas correspondientes del sistema sobre una biblioteca digital.
• Definir la(s) tecnica(s) de CLIR que se aplicarón en el diseńo del sistema de buósqueda, adaptóandose a las caracterósticas y propiedades de la biblioteca digital. Describir cada una de las herramientas que se utilizaraón para el desarrollo del sistema de buósqueda.
• Presentar los resultados finales del desarrollo e implementacion.
• Fomentar el desarrollo de investigacion en el órea de bibliotecas digitales y recu peracióon de informacioón multilenguaje.
En base a estos objetivos, es importante tener en cuenta cada una de las principales consideraciones que delimitaróan el alcance del presente proyecto:
1.3. Justiñcacion 13
• Se usaró la biblioteca digital PDLib 5 perteneciente al ITESM y la cuól se des¬ cribe móas adelante. Por tanto, el sistema de buósqueda seraó disenńado en base a la arquitectura y componentes de dicha aplicacióon.
PDLib es una aplicacióon con soporte para dispositivos moóviles, sin embargo la implementacióon y pruebas correspondientes del sistema de buósqueda se reali zaróa bajo la aplicacioón de cliente Web.
1.3 Justificacion
Ya hemos visto que el manejo multilenguaje es una característica importante para las bibliotecas digitales. Sin embargo, es importante tener en cuenta algunas conside¬ raciones que hacen de este trabajo una investigacióon sobresaliente:
De acuerdo a [Peters 97], las bibliotecas digitales multilenguaje se han vuelto cada vez maós comunes, por ejemplo, en ciudades donde el lenguaje nativo y el Ingles son usados para documentar investigaciones científicas, en instituciones europeas donde se manejan diversos lenguajes, en organizaciones internacionales, entre otros. Es impor¬ tante estar conscientes de permitir un acceso global en cualquier tipo de bibliotecas digitales independientemente del lenguaje que se maneje en su contenido.
Por otra parte, la investigacióon en la disciplina de CLIR es de importancia espe¬ cialmente en el óambito de las bibliotecas digitales, debido a que es un óarea que apenas estóa en pleno desarrollo y pocas implementaciones han sido mostradas.
Finalmente, el hecho de soportar muóltiples lenguajes en una buósqueda es una pro¬ piedad de importancia para cualquier biblioteca digital, esto se debe a distintas razones. Primero, auón si una biblioteca digital contiene material en un solo lenguaje el contenido puede ser accedido por usuarios que hablan otros idiomas. Asó mismo, de acuerdo a [Borgman 97] las bibliotecas digitales se han convertido en una forma permanente de almacenamiento de los documentos digitales, provocando que la informacioón sea bus¬ cada, procesada, formateada y compartida por los usuarios los cuales pueden hablar distintos lenguajes y tener distintas plataformas de hardware y software.
1.4 Organización del documento
A lo largo de la presente tesis se describiróan los antecedentes y la metodologóa necesaria para comprender los conceptos fundamentales que son de utilidad para el desarrollo del presente proyecto. En el capítulo 2 se describirón a detalle las carac terísticas que definen a una biblioteca digital, los principales protocolos, normas y estaóndares que se utilizan para su desarrollo y los principales retos que se presentan en la actualidad para este tipo de herramientas. Así mismo, se define el concepto de buósqueda multilenguaje y las diferentes tóecnicas para su implementacióon.
5
1.3. Justiñcacion 13
• Se usaró la biblioteca digital PDLib 5 perteneciente al ITESM y la cuól se des¬ cribe móas adelante. Por tanto, el sistema de buósqueda seraó disenńado en base a la arquitectura y componentes de dicha aplicacióon.
PDLib es una aplicacióon con soporte para dispositivos moóviles, sin embargo la implementacióon y pruebas correspondientes del sistema de buósqueda se reali zaróa bajo la aplicacioón de cliente Web.
1.3 Justificacion
Ya hemos visto que el manejo multilenguaje es una característica importante para las bibliotecas digitales. Sin embargo, es importante tener en cuenta algunas conside¬ raciones que hacen de este trabajo una investigacióon sobresaliente:
De acuerdo a [Peters 97], las bibliotecas digitales multilenguaje se han vuelto cada vez maós comunes, por ejemplo, en ciudades donde el lenguaje nativo y el Ingles son usados para documentar investigaciones científicas, en instituciones europeas donde se manejan diversos lenguajes, en organizaciones internacionales, entre otros. Es impor¬ tante estar conscientes de permitir un acceso global en cualquier tipo de bibliotecas digitales independientemente del lenguaje que se maneje en su contenido.
Por otra parte, la investigacióon en la disciplina de CLIR es de importancia espe¬ cialmente en el óambito de las bibliotecas digitales, debido a que es un óarea que apenas estóa en pleno desarrollo y pocas implementaciones han sido mostradas.
Finalmente, el hecho de soportar muóltiples lenguajes en una buósqueda es una pro¬ piedad de importancia para cualquier biblioteca digital, esto se debe a distintas razones. Primero, auón si una biblioteca digital contiene material en un solo lenguaje el contenido puede ser accedido por usuarios que hablan otros idiomas. Asó mismo, de acuerdo a [Borgman 97] las bibliotecas digitales se han convertido en una forma permanente de almacenamiento de los documentos digitales, provocando que la informacioón sea bus¬ cada, procesada, formateada y compartida por los usuarios los cuales pueden hablar distintos lenguajes y tener distintas plataformas de hardware y software.
1.4 Organización del documento
A lo largo de la presente tesis se describiróan los antecedentes y la metodologóa necesaria para comprender los conceptos fundamentales que son de utilidad para el desarrollo del presente proyecto. En el capítulo 2 se describirón a detalle las carac terísticas que definen a una biblioteca digital, los principales protocolos, normas y estaóndares que se utilizan para su desarrollo y los principales retos que se presentan en la actualidad para este tipo de herramientas. Así mismo, se define el concepto de buósqueda multilenguaje y las diferentes tóecnicas para su implementacióon.
5
1.3. Justiñcacion 13
• Se usaró la biblioteca digital PDLib 5 perteneciente al ITESM y la cuól se des¬ cribe móas adelante. Por tanto, el sistema de buósqueda seraó disenńado en base a la arquitectura y componentes de dicha aplicacióon.
PDLib es una aplicacióon con soporte para dispositivos moóviles, sin embargo la implementacióon y pruebas correspondientes del sistema de buósqueda se reali zaróa bajo la aplicacioón de cliente Web.
1.3 Justificacion
Ya hemos visto que el manejo multilenguaje es una característica importante para las bibliotecas digitales. Sin embargo, es importante tener en cuenta algunas conside¬ raciones que hacen de este trabajo una investigacióon sobresaliente:
De acuerdo a [Peters 97], las bibliotecas digitales multilenguaje se han vuelto cada vez maós comunes, por ejemplo, en ciudades donde el lenguaje nativo y el Ingles son usados para documentar investigaciones científicas, en instituciones europeas donde se manejan diversos lenguajes, en organizaciones internacionales, entre otros. Es impor¬ tante estar conscientes de permitir un acceso global en cualquier tipo de bibliotecas digitales independientemente del lenguaje que se maneje en su contenido.
Por otra parte, la investigacióon en la disciplina de CLIR es de importancia espe¬ cialmente en el óambito de las bibliotecas digitales, debido a que es un óarea que apenas estóa en pleno desarrollo y pocas implementaciones han sido mostradas.
Finalmente, el hecho de soportar muóltiples lenguajes en una buósqueda es una pro¬ piedad de importancia para cualquier biblioteca digital, esto se debe a distintas razones. Primero, auón si una biblioteca digital contiene material en un solo lenguaje el contenido puede ser accedido por usuarios que hablan otros idiomas. Asó mismo, de acuerdo a [Borgman 97] las bibliotecas digitales se han convertido en una forma permanente de almacenamiento de los documentos digitales, provocando que la informacioón sea bus¬ cada, procesada, formateada y compartida por los usuarios los cuales pueden hablar distintos lenguajes y tener distintas plataformas de hardware y software.
1.4 Organización del documento
A lo largo de la presente tesis se describiróan los antecedentes y la metodologóa necesaria para comprender los conceptos fundamentales que son de utilidad para el desarrollo del presente proyecto. En el capítulo 2 se describirón a detalle las carac terísticas que definen a una biblioteca digital, los principales protocolos, normas y estaóndares que se utilizan para su desarrollo y los principales retos que se presentan en la actualidad para este tipo de herramientas. Así mismo, se define el concepto de buósqueda multilenguaje y las diferentes tóecnicas para su implementacióon.
5
14 Capítulo 1. Introduccion
A lo largo del capítulo 3 se realiza un replanteamiento del problema, unificando los dos tópicos de interés: las bibliotecas digitales y la recuperacion de informacion multilenguaje. Asó mismo, se presentaróa la biblioteca digital PDLib, proyecto sobre el cuóal se realizaróa la implementacióon del sistema.
Durante el capítulo 4 se describe lo que se propone hacer en detalle sobre el sistema y el modo en que se atacaróan los problemas en particular. Se presentan tambióen los procesos de planeacióon, disenńo, desarrollo, pruebas y anóalisis de resultados correspon¬ dientes a la implementacioón del sistema.
Capítulo 2
Antecedentes
En este capítulo se describen aspectos generales de las bibliotecas digitales, se dis cute a detalle el proceso de recuperacion de la informacion, así como una descripcion general de las bósquedas multilenguaje y algunos proyectos previos relacionados con este trabajo y que proporcionarón el marco teorico necesario para comprender la ter minología usada en el cuerpo de la presente tesis.
2.1 La biblioteca digital
Como ya se ha mencionado, la cantidad de informacion que podemos encontrar en la Web va en aumento día con día la cual cubre diversos ómbitos como finanzas, merca dotecnia, literatura, ingenierías, educacion, computacion, medicina, etc. Así mismo, los formatos en los que podemos encontrar esta informacion tambien son variados (texto, imagen, audio, video o cualquier otra fuente de informacion).
Sin embargo, dicha información puede provenir de fuentes o sitios poco seguros y confiables, es decir, no se tiene la certeza de que la informacion que se visualiza en la Web esta validada por algón organismo internacional o científico como la IEEE o ACM. Ademas, la informacion que se maneja en la mayoría de los sitios se encuentra desor ganizada, dificultando el acceso, la busqueda y la recuperacion de la misma. Es por eso que las bibliotecas digitales representan en la actualidad una forma de administracion y clasificacion de la informacion.
La idea actual de la biblioteca digital es en realidad no solo una definicion, sino varias definiciones que tienden a cambiar desde la perspectiva de los diversos auto res [Martínez Equihua 07]. A continuacion, se presentan diversas definiciones que en conjunto representan el concepto general de una biblioteca digital:
• Las bibliotecas digitales son un conjunto de recursos electrónicos y capacidades técnicas asociadas para la creación, busqueda y uso de la información. Represen-tan una extension y mejora de los sistemas de almacenamiento y recuperacion que manipulan datos en cualquier medio (texto, sonido, imagen) existentes en redes distribuidas. Integran una variedad de instituciones de informacion (como bibliotecas tradicionales, museos, archivos, escuelas) en lugares físicos donde los
Capítulo 2
Antecedentes
En este capítulo se describen aspectos generales de las bibliotecas digitales, se dis cute a detalle el proceso de recuperacion de la informacion, así como una descripcion general de las bósquedas multilenguaje y algunos proyectos previos relacionados con este trabajo y que proporcionarón el marco teorico necesario para comprender la ter minología usada en el cuerpo de la presente tesis.
2.1 La biblioteca digital
Como ya se ha mencionado, la cantidad de informacion que podemos encontrar en la Web va en aumento día con día la cual cubre diversos ómbitos como finanzas, merca dotecnia, literatura, ingenierías, educacion, computacion, medicina, etc. Así mismo, los formatos en los que podemos encontrar esta informacion tambien son variados (texto, imagen, audio, video o cualquier otra fuente de informacion).
Sin embargo, dicha información puede provenir de fuentes o sitios poco seguros y confiables, es decir, no se tiene la certeza de que la informacion que se visualiza en la Web esta validada por algón organismo internacional o científico como la IEEE o ACM. Ademas, la informacion que se maneja en la mayoría de los sitios se encuentra desor ganizada, dificultando el acceso, la busqueda y la recuperacion de la misma. Es por eso que las bibliotecas digitales representan en la actualidad una forma de administracion y clasificacion de la informacion.
La idea actual de la biblioteca digital es en realidad no solo una definicion, sino varias definiciones que tienden a cambiar desde la perspectiva de los diversos auto res [Martínez Equihua 07]. A continuacion, se presentan diversas definiciones que en conjunto representan el concepto general de una biblioteca digital:
• Las bibliotecas digitales son un conjunto de recursos electrónicos y capacidades técnicas asociadas para la creación, busqueda y uso de la información. Represen-tan una extension y mejora de los sistemas de almacenamiento y recuperacion que manipulan datos en cualquier medio (texto, sonido, imagen) existentes en redes distribuidas. Integran una variedad de instituciones de informacion (como bibliotecas tradicionales, museos, archivos, escuelas) en lugares físicos donde los
16 Capítulo 2. Antecedentes
recursos son seleccionados, colectados, organizados, preservados y accedidos en apoyo a comunidades especificas de usuarios [Martínez Equihua 07].
• Una biblioteca digital es una coleccion de servicios e información que apoya a los usuarios en el uso de informacion, asi como en la organización y presentacion de dicha informacion utilizando medios electronicos y digitales [Martínez Gómez 04].
Una biblioteca digital puede conceptualizarse como una coleccion organizada de documentos en diversos formatos digitales para los cuales existen diversos ser¬ vicios. La biblioteca digital facilita el desarrollo de actividades de estudio e in vestigacion colaborativa entre usuarios distribuidos geograficamente ademas que debe proporcionar mecanismos de almacenamiento, busqueda y recuperacion de documentos completos [Cervera Evia 04].
• Podemos definir a la biblioteca digital como una coleccion organizada de la in formacion, con servicios asociados en los que la informacion esta almacenada en formato digital y accesible en red [Penńa; et.al. 03].
Es de notarse que las definiciones de una biblioteca digital dadas anteriormente coinciden en los siguientes aspectos:
• Se proporcionan diversos servicios que facilitan la administracion y manejo de la informacion.
Se integran por diversas colecciones de documentos creados y administrados por diferentes organizaciones.
• Se puede compartir la informacion a un mayor numero de usuarios por medio de la Web.
• Se puede encontrar la informacion de manera mas eficiente, gracias a los servicios proporcionados.
En base a todo lo anterior, podemos afirmar que las bibliotecas digitales en sí son un conjunto de documentos 1 que pueden ser administrados y accedidos por medio de la Web gracias a que proporcionan diversos servicios.
En los siguientes apartados, se describen de manera general los estandares aplicados para el desarrollo e implementacion de bibliotecas digitales, los principales servicios que esta proporciona, así como los principales retos que se presentan en la actualidad en relacion a dicha herramienta.
*Es importante resaltar que las características y formatos de un documento pueden ser muy diver sos: fotos, mapas, libros, archivos digitales, artículos de revistas, cintas de musica, paginas html, etc. Por tanto, en este trabajo se utiliza el termino documento para referirnos a cualquiera de los tipos de
2.1. La biblioteca digital 17
2.1.1 Principales normas y estóndares
Actualmente la bibliotecología cuenta con una gran cantidad de normas y estanda res para cada una de las areas de desarrollo y aplicacion; dichos estandares tienen el objetivo de definir soluciones que sean aplicables y reusables en forma amplia [Martínez Equihua 07]. En todo lo referente al acceso a la informacion y las bibliotecas digitales, las normas y estandares que se aplican son los mismos que para la informatica y las telecomunica ciones en general [Leloup 98]. Dentro de una serie de estóndares aplicados en bibliotecas digitales resumimos los mós importantes en la tabla 2.1 2:18 Capítulo 2. Antecedentes
Aunque existen diversos protocolos de comunicacion, Z39.50 y OAI son de interés especial para el desarrollo e implementacion de bibliotecas digitales, ya que actuan como un nicho de oportunidades para emprender proyectos de colaboracion con otras universidades. Dichos protocolos se resumen a continuacion:
Open Archives Initiative (OAI)
En octubre de 1999, se creo en Santa Fe, Nuevo Mexico, la Iniciativa de Archivos Abiertos (conocida como OAI, por sus siglas en ingles)3. OAI es un consorcio integrado por Universidades, centros de investigacion y otros participantes de todo el mundo y comprende acervos de diversas disciplinas (computacion, economía, física, etc.) y tipos de publicaciones (disertaciones, reportes técnicos y artículos, entre otros).
El objetivo final de la OAI es abarcar todo el material digital generado por los autores en universidades y centros de investigación que promueven el acceso libre a los resultados de sus proyectos. Para el avance de OAI es necesario contar con un modelo apropiado de bibliotecas digitales y desarrollar e integrar herramientas y servicios que operen en un ambiente altamente distribuido y escalable.
A partir de la OAI, surge OAIPMH (Open Archives InitiativeProtocol for Me tadata Harvesting) el cual es un protocolo para el intercambio de metadatos que no incluye mecanismos para el intercambio de texto completo. Esta basado en un modelo que establece una division muy clara entre los proveedores de datos y los proveedores de servicios.
El ITESMCampus Monterrey, con la colaboracion del Virginia Tech, en los Esta dos Unidos y la Universidad de las AmericasCampus Puebla (UDLAP) iniciaron en conjunto un proyecto cuyo objetivo principal fue el de contribuir con los fines de OAI, investigando tecnicas y herramientas para soportar busquedas federadas, colecciones multilingües, recuperacion de información e interfaces de usuario basadas en agentes, visualizacion de información y arquitecturas de bibliotecas digitales de alto rendimiento [Martínez Gomez 04]. Actualmente, dicho proyecto se mantiene como una propuesta para un desarrollo futuro.
Protocolo de comunicacion Z39.50
El protocolo Z39.50 4, cuyo nombre oficial en ingles es Information Retrieval, Ap plication Service Definition and Protocol Specification: ANSI/NISO Z39.501995, es un protocolo que especifica estructuras de datos y el intercambio de reglas que per¬ miten a un cliente buscar bases de datos en un servidor y recuperar registros que son identificados como un resultado de esa operacion.
El protocolo tiene persistencia y esta orientado a la conexion, es decir, define interac ciones entre el cliente y el servidor ónicamente. El protocolo Z39.50 especifica una API ónicamente para las interacciones entre el cliente y el servidor [Martínez Equihua 07].
3
http:/ /www.openarchives. org /
4
2.1. La biblioteca digital 19
Una de las funciones basicas del Z39.50 permite al cliente transmitir una bósqueda al servidor. La bósqueda produce un conjunto de resultados que son almacenados en el servidor.
2.1.2 Principales servicios y retos
Con respecto a los servicios proporcionados, las bibliotecas digitales comparten ciertas características fundamentales en el manejo de informacion. De manera gene¬ ral, una biblioteca digital ofrece diversos servicios adicionales a los que ofrece una biblioteca digital tradicional [Ramírez Arellano 04]. Algunos de los que podrían con siderarse como servicios basicos dentro de una biblioteca digital se mencionan en [Hurtado Alvarado 06], [Martínez Equihua 07] y [Ramírez Arellano 04]:
• Servicios de bósqueda: Consiste en localizar fuentes y recursos informativos en un contexto relevante para el usuario. Las bibliotecas digitales usan diversas tecnicas para la recuperación de información como las bósquedas en metadatos, busquedas en texto completo y busquedas en contenidos para otros formatos. • Servicios de conversion: Permite transformar un documento o informacion de
cualquier tipo en cualquier otra representacion o formato para su presentacion. • Servicios de metadatos: Este servicio consiste en describir el significado de
ciertos campos como: clave, los protocolos utilizados, el autor, o la vigencia. Se utilizan algunas tecnicas con el objetivo de presentar informacion valiosa, como la extraccion automótica de los metadatos antes de almacenar los documentos, o el uso de agentes para definir el perfil de los usuarios y filtrar informacion no importante para ellos.
• Servicios de deteccion de copias: Consiste en identificar el material registrado que debe compararse para detectar similitudes y copias no autorizadas.
• Servicios de publicacion: Administra el proceso de creación, registro y dise minacion de nueva información de modo tal que facilite su identificacion a los usuarios para los que puede resultar mas relevante.
Servicios de autenticacióon: Administra los derechos de acceso a diversos re¬ cursos y servicios. Ademas que tambien se toma en cuenta la cantidad de usuarios que puede soportar la biblioteca digital y los tiempos de trafico.
Servicios de intermediacioón: En este servicio se administra e integra aquella informacion procedente de diversas fuentes y / o colecciones.
2.1. La biblioteca digital 19
Una de las funciones basicas del Z39.50 permite al cliente transmitir una bósqueda al servidor. La bósqueda produce un conjunto de resultados que son almacenados en el servidor.
2.1.2 Principales servicios y retos
Con respecto a los servicios proporcionados, las bibliotecas digitales comparten ciertas características fundamentales en el manejo de informacion. De manera gene¬ ral, una biblioteca digital ofrece diversos servicios adicionales a los que ofrece una biblioteca digital tradicional [Ramírez Arellano 04]. Algunos de los que podrían con siderarse como servicios basicos dentro de una biblioteca digital se mencionan en [Hurtado Alvarado 06], [Martínez Equihua 07] y [Ramírez Arellano 04]:
• Servicios de bósqueda: Consiste en localizar fuentes y recursos informativos en un contexto relevante para el usuario. Las bibliotecas digitales usan diversas tecnicas para la recuperación de información como las bósquedas en metadatos, busquedas en texto completo y busquedas en contenidos para otros formatos. • Servicios de conversion: Permite transformar un documento o informacion de
cualquier tipo en cualquier otra representacion o formato para su presentacion. • Servicios de metadatos: Este servicio consiste en describir el significado de
ciertos campos como: clave, los protocolos utilizados, el autor, o la vigencia. Se utilizan algunas tecnicas con el objetivo de presentar informacion valiosa, como la extraccion automótica de los metadatos antes de almacenar los documentos, o el uso de agentes para definir el perfil de los usuarios y filtrar informacion no importante para ellos.
• Servicios de deteccion de copias: Consiste en identificar el material registrado que debe compararse para detectar similitudes y copias no autorizadas.
• Servicios de publicacion: Administra el proceso de creación, registro y dise minacion de nueva información de modo tal que facilite su identificacion a los usuarios para los que puede resultar mas relevante.
Servicios de autenticacióon: Administra los derechos de acceso a diversos re¬ cursos y servicios. Ademas que tambien se toma en cuenta la cantidad de usuarios que puede soportar la biblioteca digital y los tiempos de trafico.
Servicios de intermediacioón: En este servicio se administra e integra aquella informacion procedente de diversas fuentes y / o colecciones.
20 Capítulo 2. Antecedentes
toda la biblioteca por cada modificacion de esta. El indexamiento puede realizarse sobre la información almacenada en las bibliotecas digitales, sobre los metadatos de esta, o en ambos; ademós, su complejidad depende del tipo de indexamiento y del formato de la informacion (el formato textual es mas sencillo de indexar res¬ pecto a los formatos como audio o video digital, que requieren de procesamiento extra).
• Servicios automatizados de informacion personalizada: Proporcionan modulos programables por el usuario para filtrar, organizar, mutar y distribuir informacion. La interfaz de usuario es uno de los componentes mós importantes de las bibliotecas digitales, ya que incorpora la interacción con el usuario y el despliegue de grandes cantidades de datos eficientemente.
• Servicios financieros: Para aplicar cargos por el uso de los diversos servicios y para pagar a los proveedores, incluyendo servicios bancarios electróonicos.
Servicios de almacenamiento: Las bibliotecas digitales son capaces de alma¬ cenar grandes cantidades de informacióon en diferentes formatos de texto, audio, imagen o video. Las bibliotecas digitales usan diferentes mecanismos para el al¬ macenamiento, como puede ser el sistema de archivos del sistema operativo del servidor o mediante Sistemas Gestores de Bases de Datos con soporte para obje¬ tos binarios, lo cual permite mantener dentro de la base de datos los documentos, agregando escalabilidad y una mejor organizacióon a la biblioteca digital. Con el objetivo de optimizar espacio en disco duro, las bibliotecas digitales tambióen utilizan tóecnicas como la compresióon para el almacenamiento digital.
Servicios de Seguridad: Las bibliotecas digitales permiten mantener diferentes niveles de seguridad independientes para cada documento o coleccióon de docu¬ mentos. Ademóas de permitir el acceso puóblico o privado a determinada informa cióon.
Servicios de Presentacióon: Este servicio permite la presentacióon del contenido de la biblioteca digital a travóes de distintos dispositivos. Los dispositivos gene¬ ralmente se clasifican en ligeros y pesados, siendo estos ultimos aparatos como computadoras personales, laptops o notebooks. Mientras que los dispositivos lige¬ ros son aquellos que el usuario puede portar y transportar faócilmente a cualquier lugar donde se desplace, como PDAs y celulares.
2.1. La biblioteca digital 21
Creacióon y captura: El material que se almacena en la biblioteca digital debe de estar en formato digital. Para material que no se encuentra en formato di¬ gital es necesario contar con alguna tóecnica de transformacióon para obtener su representacióon digital.
• Clasificacion e indexamiento: Los documentos que pertenecen a la biblioteca deben de ser clasificados e indexados para poder ser accedidos posteriormente de una manera precisa y eficiente. Por lo que debe implementarse un metodo de indexamiento y / o clasificacion eficiente y acorde a las necesidades de la biblioteca digital.
• Bósqueda y acceso: Es necesario que la gran cantidad de información conte nida en la biblioteca digital sea accesible de una manera rapida y eficiente, lo que implica que la biblioteca debe incluir tóecnicas de buósqueda avanzada y de recuperacióon. Uno de los retos móas importantes de las bibliotecas digitales es encontrar informacióon relevante en las buósquedas. Debido a la gran cantidad de informacióon que puede contener una biblioteca digital, óesta caracteróstica ahorra tiempo en la navegacióon de los resultados.
Distribucióon y Portabilidad: Debe de ser posible acceder la biblioteca digital remotamente y desde cualquier dispositivo para obtener acceso a los documentos o secciones de estos de una manera rópida y confiable.
Administracióon y control de acceso: Es necesario que la biblioteca digital incorpore mecanismos con el fin de evitar intrusiones no autorizadas a los docu¬ mentos garantizando de esta manera el control de acceso.
Personalizacióon: Las bibliotecas digitales deben satisfacer las necesidades de informacion específicas de los usuarios. Para ello, la interfaz de una biblioteca di¬ gital debe ser usable de tal manera que se satisfagan las preferencias individuales. Compartimiento de la informacióon: Las bibliotecas digitales deben ser ca¬ paces de acceder al contenido de otras bibliotecas o comunidades digitales de tal manera que en conjunto conformen una sola biblioteca digital mundial. Para brindar un mejor servicio las bibliotecas digitales necesitan estar comunicadas entre só, de tal forma que una buósqueda pueda ser realizada en diversas bibliote¬ cas digitales con arquitecturas heterogóeneas a travóes de protocolos especializados como OAI.
22 Capítulo 2. Antecedentes
Obsóervese que son muchos los retos que se plantean en la actualidad para per¬ feccionar y mejorar los servicios ofrecidos por una biblioteca digital. En el presente trabajo, nos enfocamos a uno de dichos retos, el cuóal consideramos de importancia para el desarrollo e implementacióon de una biblioteca digital: el servicio de buósqueda y recuperacióon de la informacióon.
2.2 La recuperación de la informacion
Las investigaciones relacionadas con las bibliotecas digitales tambióen se han exten¬ dido en el contexto de la investigacioón en recuperacioón de la informacioón. Eóste toópico representa una de las piezas para proporcionar una alta efectividad a los sistemas de bibliotecas digitales, al mismo tiempo que mantiene la facilidad de uso para los usuarios
[Peńa; et.al. 03].
De acuerdo a [Meadow 92], la recuperacion de la información (denotada como IR por sus siglas en ingles Information Retrieval) comprende el conjunto de tareas que
permiten localizar y acceder a los elementos que son relevantes para una determinada necesidad de informacioón con ayuda de un sistema informóatico.
Otros tóerminos usados para referirse a este proceso son: informaótica documental, documentacioón automóatica y documóatica [Penńa; et.al. 03]. En conjunto el hardware, los programas y los datos que facilitan la localizacióon de los documentos adecuados a la necesidad de la información es conocido como Sistema de Recuperacion de la Informacióon. Dicho sistema representa el nuócleo principal del funcionamiento de los motores de busqueda (los cuóles se mencionan en la seccion 1.1) [Hock 99].
En la figura 2.1 se modela el proceso de IR de forma general. Este proceso inicia cuando el usuario hace una peticioón (mejor conocida como query), la cuaól es procesa¬
da por el sistema IR usando una terminología específica y, mediante un lenguaje de recuperacióon adecuado para el entorno informóatico, el sistema realiza una buósqueda a lo largo de la base de datos de los óndices representativos de cada documento. Dicha buósqueda proporciona sus resultados al sistema, el cual los interpreta para realizar aho¬ ra la buósqueda en una base de datos donde se encuentran los documentos resultantes; de esta manera se realiza un procesamiento de presentacioón para determinar el orden en que los registros resultantes serón presentados finalmente al usuario.
Desde el punto de vista de la IR, una biblioteca digital puede ser vista como un sistema de IR extendido ya que óesta maneja una variedad de formatos, voluminosas co¬ lecciones de documentos y por tanto, requiere metodologías eficientes para su bósqueda, catalogacióon e indexacióon [Penńa; et.al. 03].