Interoperabilidad de una Biblioteca Digital Personal con Buscadores y Feeds en Internet-Edición Única

113  Descargar (0)

Texto completo

(1)

Monterrey, Nuevo León a de 200

Lic. Arturo Azuara Flores:

Director de Asesoría Legal del Sistema

Por medio de ¡a presente hago constar que soy autor y titular de la obra titulada "

en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de

el INSTITUTO.

El Instituto se compromete a respetar en todo momento mi autoría y a otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.

De la misma manera, desligo de toda responsabilidad a EL INSTITUTO por cualquier violación a los derechos de autor y propiedad intelectual que cometa el suscrito frente a terceros.

(2)

Interoperabilidad de una Biblioteca Digital Personal con

Buscadores y Feeds en Internet-Edición Única

Title Interoperabilidad de una Biblioteca Digital Personal con Buscadores y Feeds en Internet-Edición Única

Authors Miguel Angel Arellano Nieves

Affiliation ITESM-Campus Monterrey

Issue Date 2006-11-01

Item type Tesis

Rights Open Access

Downloaded 19-Jan-2017 10:16:04

(3)

CAMPUS MONTERREY

PROGRAMA DE GRADUADOS EN ELECTR ´ONICA,

COMPUTACI ´ON, INFORMACI ´ON Y COMUNICACIONES

TESIS

INTEROPERABILIDAD DE UNA BIBLIOTECA DIGITAL

PERSONAL CON BUSCADORES Y FEEDS EN INTERNET.

PRESENTADA COMO REQUISITO PARCIAL PARA OBTENER EL GRADO ACAD´EMICO DE:

MAESTR´IA EN CIENCIAS EN TECNOLOG´IAS DE LA INFORMACI ´ON

POR

MIGUEL ANGEL ARELLANO NIEVES

(4)

Campus Monterrey

Programa de Graduados en Electr´

onica,

Computaci´

on, Informaci´

on y Comunicaciones

Los miembros del comit´e de tesis recomendamos que la presente propuesta de sea aceptada para desarrollar el proyecto de tesis que es requisito parcial para obtener el grado de Maestro en Ciencias de Tecnolog´ıa Inform´atica.

Comit´

e de Tesis

Dr. David A. Garza Salazar

Asesor Principal

Dr. Ra´ul P´erez C´azarez Dr. Juan Carlos Lavariega Jarqu´ın

Sinodal Sinodal

Dr. Graciano Dieck Assad

Director del Programa de Posgrado en Electr´onica, Computaci´on, Informaci´on y Comunicaciones

(5)

por

MIGUEL ANGEL ARELLANO NIEVES

TESIS

Presentada al Programa de Graduados en Electr´onica, Computaci´on, Informaci´on y Comunicaciones

Este trabajo es requisito parcial para obtener el grado de Maestro en Ciencias en Tecnolog´ıa Inform´atica

INSTITUTO TECNOL ´OGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY

(6)

A Dios,

Que me ha dado la oportunidad y fortaleza

de cumplir este sue˜

no.

A mis padres

Que junto a ellos he logrado concluir este per´ıodo

y que por su incondicional apoyo y orientaci´

on,

se ha cumplido esta meta exitosamente.

A mis hermanos

(7)

A mi Asesor, Dr. David Garza Salazar

Por su confianza y valiosas recomendaciones para la realizaci´on de una mejor investigaci´on y por haber aceptado mi incorporaci´on al proyecto PDLib.

A mis amigos y compa˜

neros del proyecto PDLib

Gracias por su amistad y apoyo durante esta etapa. Ha sido un gran placer trabajar con ustedes.

A mis maestros, amigos y compa˜

neros del ITESM

(8)

1. Introducci´on 1

1.1. Planteamiento del problema . . . 3

1.2. Organizaci´on de la Tesis . . . 9

2. Antecedentes 10 2.1. Fundamento Te´orico . . . 11

2.1.1. Interoperabilidad entre sistemas de informaci´on . . . . 11

2.1.2. M´etodos para lograr interoperabilidad . . . 14

2.1.3. Necesidades de interoperabilidad en biblioteca digitales 16 2.2. RSS y Atom como formatos para el intercambio y sindical-izaci´on de contenido . . . 17

2.2.1. Ventajas de feeds . . . 20

2.2.2. Feeds en Bibliotecas Digitales . . . 21

2.3. Google y Yahoo como motores de b´usqueda para la recuperaci´on de informaci´on . . . 24

2.3.1. Ventajas de los motores de b´usqueda . . . 26

2.4. Utilizaci´on de Google, Yahoo y Feeds . . . 27

2.5. PDLib: Personal Digital Library . . . 30

2.5.1. Interoperabilidad en PDLib . . . 33

2.6. Trabajo Relacionado . . . 34

(9)

2.6.2. Arquitectura LFDL (Lightweight Federated Digital

Library) . . . 34

2.6.3. Visual Knowledge Builder . . . 36

2.6.4. Repo . . . 37

2.6.5. Digital Archiving System . . . 38

2.6.6. LION (Library Online) . . . 40

3. Dise˜no de la interacci´on de PDLib con los buscadores y feeds en Internet 42 3.1. Introducci´on . . . 42

3.2. Arquitectura de PDLib . . . 43

3.2.1. Clientes . . . 45

3.2.2. Servidor de Datos de PDLib . . . 47

3.2.3. Manejo de Objetos de PDLib . . . 49

3.3. Extensi´on de la Arquitectura de PDLib para la Interoperabil-idad con Buscadores y Feeds . . . 51

3.3.1. Soporte a b´usquedas Web . . . 53

3.3.2. Soporte a la administraci´on de feeds . . . 57

3.3.3. Prototipo preliminar de interoperabilidad con feeds . . 65

4. Prototipo de Interoperabilidad entre PDLib, buscadores y feeds 68 4.1. Introducci´on . . . 68

4.1.1. Implementaci´on de interoperabilidad en el Servidor de Datos . . . 68

4.2. Pruebas funcionales y resultados . . . 72

4.2.1. Resultados de b´usquedas en Google y Yahoo . . . 74

4.2.2. Almacenamiento de los resultados de b´usqueda a PDLib 75 4.2.3. Suscripci´on de feeds RSS y Atom . . . 76

(10)

4.2.5. Visualizaci´on de Items . . . 79 4.2.6. Almacenamiento de items en PDLib . . . 80 4.3. Impacto de PDLib interoperando con Google, Yahoo y feeds

en comparaci´on con otros sistemas . . . 82 4.4. Resumen . . . 86

5. Conclusiones y Trabajo Futuro 88

(11)

1.1. Sistema de Biblioteca Digital . . . 4

1.2. Estatus anterior de la biblioteca digital personal . . . 5

1.3. Estatus actual de la biblioteca digital personal . . . 5

1.4. Modelo de Interoperabilidad con buscadores y formatos de sindicalizaci´on. . . 7

2.1. Funciones de un Feed . . . 18

2.2. Elementos de un Buscador . . . 24

2.3. Clasificaci´on de buscadores por n´umero de consultas . . . 28

2.4. Feeds agregados de syndic8.com . . . 29

2.5. Uso de feeds por Industria . . . 29

2.6. Arquitectura de PDLib . . . 32

3.1. Arquitectura Conceptual PDLib . . . 44

3.2. Arquitectura Detallada PDLib . . . 46

3.3. Capa de Servidor de Datos Extendida . . . 52

3.4. B´usquedas en Google y Yahoo desde PDLib . . . 54

3.5. Bloglines como agregador de feeds . . . 57

3.6. Suscripci´on y actualizaci´on de feeds desde PDLib . . . 59

3.7. HTTP Conditional Get . . . 63

(12)

4.2. Entorno Operativo . . . 72

4.3. Resultados de una b´usqueda realizada en Google . . . 74

4.4. Almacenamiento de un resultado de b´usqueda como documento 76 4.5. Suscripci´on de un Feed RSS y Atom . . . 77

4.6. Interfaz de listado de feeds con su estatus de actualizaci´on . . 78

4.7. Listado de feeds y sus respectivos items . . . 80

4.8. Almacenamiento de un item como documento . . . 81

5.1. Estatus anterior de la biblioteca digital personal . . . 91

5.2. Estatus actual de la biblioteca digital personal . . . 91

(13)

2.1. Niveles de Interoperabilidad LISI . . . 12

3.1. Conjunto de objetos PDLib . . . 50 3.2. Problemas presentados al agregar feeds a PDLib . . . 67

(14)

Introducci´

on

Las bibliotecas digitales tienen como uno de sus objetivos ofrecer repositorios de informaci´on, aunque este es solo uno de muchos servicios que se pueden otorgar a sus usuarios [31].

En la actualidad las bibliotecas digitales han presentado una tendencia hacia la personalizaci´on de informaci´on, en las cuales son los propios usuarios quienes buscan y seleccionan los datos a almacenar en sus repositorios. En relaci´on a lo anterior, una de las herramientas m´as populares que se han venido utilizando para la recuperaci´on de contenido de inter´es personal en Internet son los buscadores, de los cuales pueden obtenerse servicios y beneficios que pueden ser utilizados para suministro de un repositorio personal, mediante la integraci´on con una biblioteca digital personal.

Lo anterior aclara la importancia de utilizar los diferentes servicios que existen en Internet para recuperar informaci´on digna de ser conservada y almacenada en una biblioteca digital. No obstante, en esta pr´actica, la informaci´on debe ser reunida desde una inmensidad de servicios, que por su enorme diversidad, puede convertirse en una situaci´on inc´omoda, adem´as de involucrar conocimientos computacionales que suelen confundir a los usuarios ajenos a este tipo de cultura tecnol´ogica.

(15)

y por lo tanto, pueden ser utilizados en cualquier aplicaci´on debido a su portabilidad, inclusive en una biblioteca digital personal. Con tales formatos se pueden crear archivos basados en XML utilizando las especificaciones de RSS y Atom, los cuales son llamados feeds

Un ejemplo de aquellos sitios que hacen uso de feeds, particularmente en formato RSS es CNN.com. Este sitio ofrece feeds de art´ıculos noticiosos en formato RSS a los visitantes, quienes pueden hacer uso de aplicaciones independientes llamadas agregadores o lectores de feeds, usadas para interpretar aquel contenido RSS basado en XML y procesarlo para que los usuarios puedan dar lectura a las noticias m´as actuales en un formato legible. CNN.com actualiza constantemente los feeds con la informaci´on m´as nueva y habilita al lector de feeds para hacer el monitoreo de modificaciones en los mismos, recuperando aquella informaci´on actualizada y poniendola a disposici´on del usuario de manera autom´atica.

De esta manera, el uso de feeds es trascendental ya que permite el acceso autom´atico de informaci´on que se encuentra evolucionando de manera acelerada en Internet.

Una convergencia entre una biblioteca digital personal y dichos formatos, puede ser de gran utilidad para los usuarios para facilitar la recopilaci´on de datos de inter´es personal y su almacenamiento.

En contraste con lo anterior, durante mucho tiempo las bibliotecas digitales se han preocupado por ofrecer recursos tales como publicaciones, art´ıculos, bibliograf´ıas y literaturas obtenidas de fuentes de informaci´on predeterminadas y limitadas, las cuales son accedidas con el uso de protocolos y est´andares. Esto significa que se ha restringido el uso diversos servicios que pueden ampliar el universo de recursos que se encuentran situados en Internet, lo que ha dado la oportunidad de abrir nuevas ´areas de exploraci´on en el mundo de las bibliotecas digitales.

(16)

As´ı pues, se ha dise˜nado la interoperabilidad entre los sistemas mencionados que la informaci´on pueda ser intercambiada, procesada y almacenada para su posterior utilizaci´on.

Este servicio fue logrado a pesar de que los sistemas involucrados utilizan distintos protocolos de comunicaci´on tales como HTTP, SOAP, XML-RPC, RSS y Atom, adem´as de formatos y estructuras de datos diversas. A la postre, al usuario se le debe proporcionar las herramientas necesarias, para que logre su cometido, el acceso a la informaci´on.

1.1.

Planteamiento del problema

Como se mencion´o en la secci´on anterior, los recursos digitales actualmente utilizados por los sistemas de bibliotecas digitales, son extra´ıdas de otros sistemas por medio de protocolos como SDLIP [26] y est´andares tales como OAI-PHM [6] o Z39.50 [18] para el manejo de interoperabilidad, haciendo uso de metadatos y otros recursos. Definitivamente, estos protocolos y est´andares limitan el n´umero de sistemas con los cuales se puede realizar intercambio de recursos, debido a que no todos cumplen con tales normas.

No obstante, se deben utilizar m´etodos y procedimientos que permitan a un sistema cubrir la necesidad de ser interoperable, misma ha ido en aumento, debido al crecimiento de informaci´on en la actualidad.

Por lo anterior, en este trabajo se ha fijado un objetivo, el cual es explorar interacciones potenciales entre una biblioteca digital y diversos sistemas de recuperaci´on de informaci´on en Internet, haciendo ´enfasis en la necesidad de involucrar diversas fuentes de informaci´on para permitir que esos recursos sean mayores y m´as productivos.

(17)

Los administradores son aquellos que gestionan el funcionamiento y los recursos de la biblioteca digital. Finalmente, los usuarios son aquellos que utilizan los recursos de una biblioteca digital para satisfacer sus necesidades de informaci´on. Los proveedores de contenido ofrecen los recursos para que puedan ser manejados como parte de una biblioteca digital. Los usuarios ´unicamente pueden hacer uso de la informaci´on almacenada en sus repositorios.

Figura 1.1: Sistema de Biblioteca Digital

Una biblioteca digital personal permite la inclusi´on de roles id´enticos a los de un sistema de biblioteca digital tradicional, aunque existe una diferencia importante que radica en la personalizaci´on de los repositorios, asignando parte de sus espacios para que los usuarios puedan agregar, eliminar y administrar sus propios recursos, lo cual les permite tener tanto los roles de usuarios, como proveedores de contenido, extendiendo las fuentes de informaci´on. Esto puede ser observado en la figura 5.1 que muestra el estatus anterior a la realizaci´on de este trabajo, para compararlo con el actual y verificar la amplitud que se ha logrado.

(18)

Figura 1.2: Estatus anterior de la biblioteca digital personal

(19)

informaci´on que los usuarios pueden utilizar para satisfacer sus necesidades, adem´as de permitir a estos ´ultimos poder fungir adicionalmente como proveedores de contenido, incrementando los recursos del sistema.

En la figura 1.3 se puede observar el estatus actual de una biblioteca digital personal, que tiene adem´as de la inclusi´on de los usuarios y proveedores de contenido tradicionales, como ingrediente adicional la incorporaci´on de proveedores de contenido de Internet que para efectos de este trabajo, son representados por buscadores y feeds, los cuales permiten recuperar recursos que evolucionan r´apidamente y se convierte en una amplia gama de fuentes de informaci´on para suministrar una sistema de este tipo.

De esta manera una biblioteca digital personal que interopera con buscadores y hace uso de feeds, tiene la capacidad de recopilar informaci´on que se encuentra actualizando a un ritmo acelerado por Internet de manera simple y autom´atica, lo que la convierte en excelentes recursos para alimentar un repositorio.

Este trabajo de tesis se encuentra bajo el contexto del proyecto PDLib (Personal Digital Library) desarrollado en el Instituto Tecnol´ogico de Estudios Superiores de Monterrey Campus Monterrey, espec´ıficamente en el Centro de Investigaci´on en Inform´atica. PDLib propone una arquitectura de software cliente/servidor que brinde el servicio de una biblioteca digital, desde la mayor´ıa de los equipos conectados a Internet, incluyendo los m´oviles, todo esto de manera personal.

En este trabajo se presentan distintas funcionalidades para que una biblioteca digital pueda accesar la informaci´on que es utilizada por otros servicios en Internet. As´ı pues, se tiene como objetivo principal ampliar la interoperabilidad entre la biblioteca digital personal y diversos sistemas, haciendo uso de buscadores y feeds que permitan recuperar la informaci´on actualizada de manera autom´atica y compartirla, a´un y cuando los sistemas involucrados no manejen los mismos est´andares tales como OAI-PHM [6] o Z39.50 [26] y protocolos como SOAP [34] o [33], para interoperar y comunicarse.

(20)

Interoperabilidad con buscadores de Internet. Esta funcionalidad es utilizada para realizar consultas de informaci´on desde la biblioteca digital personal a los recursos indexados de los motores de b´usqueda, entre los que se contemplan Google y Yahoo.

Interoperabilidad con formatos de sindicalizaci´on. Esta funcionalidad es utilizada para suscribir un feed que es construido con los formatos de sindicalizaci´on tales como RSS y Atom, dentro de una biblioteca digital personal, misma que autom´aticamente pueda estar recuperando informaci´on actualizada de cualquier sitio Web que maneje cualquiera de los formatos mencionados.

En la figura 1.4 se observan los modelos de interoperabilidad de una biblioteca digital con los buscadores y los formatos de sindicalizaci´on de Internet.

Figura 1.4: Modelo de Interoperabilidad con buscadores y formatos de sindicalizaci´on.

(21)

PDLib cuenta con una arquitectura mediante la cual da soporte a las peticiones realizadas por los usuarios.

En base a lo mostrado en la figura anterior, se puede mencionar que un usuario haciendo uso de un cliente Web, puede realizar una b´usqueda en cualquiera de los buscadores: Google o Yahoo. La petici´on primeramente es recibida por el servidor el cual la procesa para comunicarse con el motor de b´usqueda seleccionado. De esta manera se logra la comunicaci´on y por tanto la interacci´on con los buscadores mencionados.

Por otro lado, el usuario puede realizar la suscripci´on a un feed de alg´un sitio en Internet. Esta petici´on indica al servidor de datos que deber´a recuperar la informaci´on en formato RSS o Atom de la fuente indicada por el usuario.

En ambos casos, una vez que se ha efectuado la interacci´on con los servicios mencionados, la informaci´on que es recibida por el servidor, deber´a procesarse para ser enviada al cliente y as´ı satisfacer las necesidades de los usuarios. Es importante aclarar que la informaci´on integrada desde Internet a la biblioteca digital personal tiene el mismo comportamiento que los documentos personales a˜nadidos por el usuario y pueden ser administrados utilizando cualquiera de las operaciones permitidas sobre ellos. La esencia del proceso realizado en estas tareas es similar. Las dos tareas efectuadas trabajan directamente con la base de datos, haciendo peticiones, inserciones y actualizaciones de informaci´on.

De esta manera, se ha dise˜nado y desarrollado un trabajo que permite la interacci´on de una biblioteca digital personal con diferentes servicios en Internet, entre los que se incluyen los buscadores Google y Yahoo, as´ı como los feeds en sus formatos RSS y Atom, los cuales han sido seleccionados por su popularidad y por el auge que han conseguido en Internet.

(22)

personal a un nivel de aplicaciones.

1.2.

Organizaci´

on de la Tesis

(23)

Antecedentes

Una de las principales actividades realizadas en este trabajo es la investigaci´on en el entorno de interoperabilidad en las bibliotecas digitales y sistemas que manejan contenido, con la finalidad de verificar la forma en que este tipo de aplicaciones ofrecen servicios para recuperar informaci´on, haciendo uso de aquellos que se encuentran en Internet.

Con esto se pretende fundamentar la importancia de brindar la recuperaci´on de informaci´on dentro de una biblioteca digital, interactuando con los buscadores y los formatos de sindicalizaci´on, como se planteo en el cap´ıtulo anterior.

Es importante mencionar, que este cap´ıtulo contiene una secci´on que argumenta la importancia de los servicios que se plantean en este trabajo.

Adem´as, esta investigaci´on se apoya en la comparaci´on con otros trabajos relacionados a la recuperaci´on de informaci´on haciendo uso de la interoperabilidad con otros servicios, tratando de dilucidar un nuevo enfoque de servicios en el ´ambito de bibliotecas digitales.

(24)

2.1.

Fundamento Te´

orico

En esta secci´on se revisan los temas m´as relevantes para la mejor comprensi´on del trabajo de investigaci´on realizado. Se expone el tema de interoperabilidad como el trasfondo principal de este trabajo, sus caracter´ısticas, el objetivo que posee en sistemas que manejan informaci´on, como lo son las bibliotecas digitales y las herramientas que se utilizan para lograrlo.

En la siguiente secci´on se describen los conceptos m´as importantes en cuanto a interoperabilidad entre sistemas se refiere, ya que es el t´opico principal en el desarrollo de este documento. Es importante mencionar que uno de los sistemas involucrados en el desarrollo de este trabajo es PDLib, el cual es un sistema de biblioteca digital que permite el almacenamiento de cualquier documento digital y la b´usqueda de recursos almacenados en repositorios personales. Este proyecto esta dise˜nado para permitir a los usuarios recuperar documentos almacenados en su respectivas bibliotecas personales en cualquier momento, en cualquier lugar y desde cualquier dispositivo.

2.1.1.

Interoperabilidad entre sistemas de informaci´

on

En [23] se menciona que interoperabilidad es la capacidad de que dos o m´as sistemas puedan intercambiar informaci´on y usarla. El reto a vencer es convertir las estructuras de datos que se manejan para que puedan ser compatibles entre los involucrados.

Existen varios esfuerzos para el desarrollo de infraestructura que permitan a las bibliotecas digitales lograr una arquitectura flexible a trav´es de los servicios que se ofrecen y empleando la interacci´on con otros, para aumentar sus funcionalidades.

Para la lograr lo anterior, se deben tomar en consideraci´on varios aspectos como la estandarizaci´on, arquitecturas accesibles e interfaces flexibles, de tal manera, que permitan a los involucrados, coexistir para lograr una mejor productividad.

(25)

Tabla 2.1: Niveles de Interoperabilidad LISI

Nivel Informaci´on Intercambiada

Compa˜n´ıa Informaci´on y aplicaciones globales distribuidas y ampliamente compartidas.

Dominio Bases de datos compartidas, colaboraci´on sofisti-cada entre aplicaciones separadas.

Funcional El intercambio entre sistemas heterog´eneos es posible.

Conectados Intercambio entre sistemas homog´eneos, en donde existe una conexi´on electr´onica y aplicaciones y datos separados.

Incomunicados Entrada manual v´ıa discos, cintas o cualquier dispositivo de almacenamiento, ya que no existe una conexi´on f´ısica entre los sistemas.

de este rubro, en el cual se establecen las medidas para evaluar el grado de interoperabilidad entre sistemas aplicando medios estandarizados. En la tabla 2.1, se muestran los niveles de interoperabilidad de mayor a menor grado definidos por DoD C4ISR Working Group [10]

Adem´as de los niveles descritos en la tabla anterior, la interoperabilidad puede clasificarse en capas, tomando en cuenta sistemas que manejan informaci´on, incluyendo indudablemente a las bibliotecas digitales, que van desde la comunicaci´on, el intercambio de informaci´on y la manipulaci´on de datos en los sistemas implicados. A continuaci´on se describen las diversas capas que se hacen presencia en la interoperabilidad entre este tipo de sistemas [13]:

Sistema de Interconexi´on.- Esta capa se compone de protocolos de comunicaci´on y seguridad. Es la capa m´as baja de interoperabilidad. Algunos protocolos que se pueden mencionar en este nivel son TCP/IP y HTTP.

(26)

informaci´on. Los protocolos que se manejan en este nivel, regularmente est´an basados en XML, tales como Web Services.

Integraci´on de las Aplicaciones.- Esta es la capa m´as general y potente de la interoperabilidad, en la cual se tiene la capacidad de compartir el contenido usando estructuras de datos y metadatos entre las organizaciones.

Una vez descritos los niveles de interoperabilidad y las capas por las que debe transitar la informaci´on entre sistemas de informaci´on, se puede ubicar este trabajo de investigaci´on.

Considerando que PDLib, los buscadores en Internet y el manejo de formatos de sindicalizaci´on, son heterog´eneos entre s´ı, ya que son sistemas que tienen objetivos particulares distintos: PDLib brinda servicios para clasificar, organizar y almacenar informaci´on de usuarios; los buscadores de informaci´on, presta servicios de recopilaci´on de informaci´on de diversos sitios Web; y los formatos de sindicalizaci´on trabajan para compartir contenido de sitios Web, con informaci´on que se actualiza constantemente, el nivel de interoperabilidad puede clasificarse como Funcional, seg´un el modelo LISI.

Sin embargo, por el hecho de que estos sistemas comparten informaci´on separada tales como archivos, texto, enlaces a recursos Web y mensajes tambi´en pueden posicionarse en un nivel de interoperabilidad Conectados.

As´ı pues, este trabajo de interoperabilidad comparte dos niveles de interoperabilidad en el esquema del modelo LISI y por lo tanto, situarse entre los planos: Funcional y Conectados.

En cuanto a las capas de interoperabilidad, considerando la clasificaci´on descrita por Robertson en [13], este trabajo de interoperabilidad cubre las siguientes:

Sistema de Interconexi´on, ya que se tiene que lograr una comunicaci´on entre los sistemas por medio de protocolos, tema que ser´a descrito m´as adelante;

(27)

Integraci´on de las Aplicaciones, debido a que la informaci´on a la que se refiere en la capa anterior se basa en metadatos recuperados en PDLib desde los buscadores y los formatos de sindicalizaci´on.

En la siguiente secci´on se muestran los m´etodos utilizados para lograr la interoperabilidad, tomando en cuenta los niveles y pasando por cada una de sus capas, temas detallados anteriormente.

2.1.2.

etodos para lograr interoperabilidad

Desde hace tiempo, existen diversas estrategias para lograr la inter-operabilidad y estas no han cambiado en la actualidad, es decir, siguen consider´andose necesarias. Seg´un Paepcke [12] en el mundo de las bibliotecas digitales, existen los siguientes m´etodos para lograr hacerlas interoperables con otros sistemas de informaci´on:

Est´andares.- Es uno de los m´etodos m´as viejos y m´as importantes para conseguir que sistemas heterog´eneos interoperen entre s´ı. Los est´andares son diferentes entre s´ı, pero tienen una misma finalidad, la de permitir la compatibilidad entre sistemas de diferentes caracter´ısticas. Algunos est´andares se mencionan a continuaci´on, describi´endolos de una manera breve:

ISO 802.- Protocolo para la conexi´on de redes.

Z39.50.- Protocolo la recuperaci´on de informaci´on que especifica las estructuras de datos y reglas de intercambio que permiten a una m´aquina cliente buscar bases de datos en una m´aquina servidor y as´ı recuperar registros que son identificados como resultados de tal consulta [18].

HTTP.- Protocolo usado para la transferencia de hipertexto a trav´es del World Wide Web.

TCP/IP.- Protocolo de comunicaci´on usado para realizar la conexi´on de servidores en Internet.

(28)

descentralizado. Esta basado en el protocolo XML que consiste en tres partes: una cubierta que define un framework para describir que contiene un mensaje y como lo procesa; un conjunto de reglas de codificaci´on para expresar las instancias de los tipos de datos; una convenci´on para representar llamadas a procedimientos remotos y respuestas. Puede ser usado en combinaci´on con otros protocolos [34]. WSDL.- Es un formato XML para describir las capacidades de los servicios Web como colecciones de comunicaci´on con la capacidad de intercambiar mensajes. Es extensible al momento de permitir la descripci´on de los servicios y sus mensajes a pesar del formato del mensaje o protocolo de red que son usados para realizar la comunicaci´on. Puede usarse en conjunto con SOAP, HTTP GET/POST y MIME [33].

Intermediaci´on Externa.- La ´unica manera de ofrecer niveles altos de autonom´ıa entre componentes es encontrar un mecanismo de interoperabilidad fuera de los sistemas locales participantes, para intermediar entre componentes. Una funci´on primaria de tales mecanismos de intermediaci´on es la interpretaci´on de formatos de datos y las formas de interacci´on. Sin embargo, la interpretaci´on en el sentido de un simple mapeo no es suficiente para lograr completa interoperabilidad. Los componentes algunas veces carecen de tipos de datos u operaciones, lo que les impide interoperar con algunos clientes. Tales facilidades de intermediaci´on son llamados wrapperso proxies.

Los metadatos juegan un rol importante para proporcionar otro mecanismo de interoperabilidad, basados en la interacci´on, los cuales permiten evitar el uso de una infraestructura adicional requerida por los mecanismos de intermediaci´on.

Interacci´on basada en la especificaci´on.- Es un mecanismo de interoperabilidad cuando esta se ha logrado exhaustivamente, considerando la sem´antica y la estructura de todos los datos y operaciones. La visi´on de este mecanismo es permitir el uso de componentes sin previa ordenaci´on y sin la ayuda de intermediarios.

(29)

datos/funcionalidad y de su implementaci´on.

En el transcurso de este documento se observar´a que la forma utilizada para conseguir interoperabilidad entre los sistemas involucrados en este trabajo, es el de manejo de est´andares descritos en los p´arrafos anteriores, ya que la comunicaci´on con los buscadores y formatos de sindicalizaci´on se efect´ua mediante los protocolos SOAP y HTTP.

Habiendo descrito el tema de interoperabilidad, es importante esclarecer las razones por las cuales este t´opico debe estar presente en sistemas de bibliotecas digitales, lo cual se explica en la siguiente secci´on.

2.1.3.

Necesidades de interoperabilidad en biblioteca

digitales

Las bibliotecas digitales deben tener la capacidad de almacenar diversos tipos de contenido, tales como libros, tesis, art´ıculos, publicaciones, texto, im´agenes, videos y cualquier otro tipo de informaci´on.

Es fundamental, que para cualquier tipo de contenido, se aplique un nivel de administraci´on id´entica, permitiendo a sus usuarios accederlos, replicarlos, moverlos o borrarlos de sus repositorios personales. Sin embargo, una tarea previa que debe realizarse es la de permitir la recopilaci´on de esa informaci´on, lo cual hasta el momento es un importante reto, por el manejo de est´andares divididos, que en ocasiones no son compatibles entre sistemas, complicando el manejo de informaci´on.

Las bibliotecas digitales con el manejo de est´andares han adquirido ciertos problemas para la adquisici´on de informaci´on, ya que estas reglas, han limitado a permitir la interacci´on con sistemas que regularmente tienen la misma esencia y el mismo objetivo. La limitaci´on de la poblaci´on de sistemas con posibilidad de interacci´on, forza a la necesidad de buscar nuevas formas de comunicaci´on e intercambio de informaci´on por medio de la interoperabilidad, haciendo uso de est´andares o mecanismos que permitan la maximizaci´on de dicha poblaci´on, para dar la oportunidad a los usuarios de tener mayor cantidad de fuentes de informaci´on.

(30)

Brindar la oportunidad a los usuarios que tengan la necesidad de recopilar informaci´on de diferentes sitios, de manera que puedan indexarla sin tener que dirigirse a ´estos manualmente, Miller [24]. El usuario debe ser capaz de buscar y recuperar informaci´on de sistemas abundantes en informaci´on, logrando el acceso a contenido de texto completo de publicaciones, datos, im´agenes y dem´as objetos digitales, tal como lo menciona Pinfield y Dempsey en [25].

Hacer uso de servicios que otros sistemas heterog´eneos ofrecen, para la combinaci´on de funcionalidades y as´ı incrementar los m´etodos de recuperaci´on de informaci´on dentro de la biblioteca digital, por medio un esquema extensible.

Para lograr extender las funcionalidades en una biblioteca digital, en este trabajo se ha propuesto la utilizaci´on de otros servicios ofrecidos en Internet, entre los cuales se encuentran los formatos para la sindicalizaci´on e intercambio de contenido. Estos formatos son detallados en la siguiente secci´on.

2.2.

RSS y Atom como formatos para el

in-tercambio y sindicalizaci´

on de contenido

Sindicalizaci´on de contenido, el cual es utilizado para construir feeds, es un t´ermino utilizado para referir al acceso y publicaci´on de contenido Web (texto, im´agenes, videos, audio, etc.) en cualquiera de sus dos formatos disponibles: RSS y Atom.

Las publicaciones en Web pueden hacer su contenido disponible a trav´es de sindicalizaci´on, usando las tecnolog´ıas RSS y/o Atom para producir los feeds.

(31)

En [11] Hammersley da una definici´on m´as completa acerca de RSS y Atom: un archivo consistente y legible que permite a los sitios Web compartir sus contenidos con otras aplicaciones de una manera est´andar.

As´ı pues, los feeds pueden ser mensajes y enlaces a relatos de un contenido entero del sitio, permitiendo a los usuarios recibir notificaci´on de actualizaciones sobre una variedad de servicios.

En la figura 2.1 se muestra un diagrama de las funciones que realizan los feeds.

Figura 2.1: Funciones de un Feed

Arquitectura. Los formatos de sindicalizaci´on deben estructurar la informaci´on en colecciones de items o entries, llamados channels o feeds. En los dos niveles, tanto un feed o un item, existe un contenido, metadatos e informaci´on relacionada con los enlaces a los objetos de informaci´on.

Contenido. Se refiere a la descripci´on y reproducci´on de la informaci´on almacenada en el feed y sus items.

Identificaci´on y enlace. Los formatos deben identificar la localizaci´on del recurso original, representado por un enlace o URL.

(32)

o bien, pueden concentrarse algunos adicionales como autor, categor´ıa, fecha de publicaci´on, entre otros.

Para efectos de este trabajo, que es la recuperaci´on de informaci´on a trav´es de la interoperabilidad lograda con otros servicios proporcionados en Internet, se refererir´a a los formatos de sindicalizaci´on ´unicamente para el acceso de informaci´on en los formatos RSS y Atom, m´as no as´ı a la publicaci´on.

La recepci´on de informaci´on por parte de un usuario haciendo uso de este tipo de formatos, exige la realizaci´on de las siguientes actividades:

Encontrar un feed de inter´es personal.- En la actualidad existen sitios que publican informaci´on en formatos de sindicalizaci´on. Estos sitios, com´unmente utilizan iconos representativos que indican el formato de sindicalizaci´on utilizado para la publicaci´on de su informaci´on. Estos iconos, son generalmente usados para realizar el enlace al recurso del feed. Una de las caracter´ısticas de estos formatos, es que est´an formados por URLs que contienen regularmente la descripci´on de un archivo con extensi´on .rss, .atom, .xml, entre otras.

Utilizar un lector de feed.- Actualmente existen varias aplicaciones locales y Web que permiten la agregaci´on de feeds. Algunas de ellas son: Bloglines, Google Reader, navegadores como: Internet Explorer 7.0, Safari y FireFox, entre muchas otras. Estas aplicaciones pueden ser utilizadas para realizar la suscripci´on de un feed y la actualizaci´on del mismo. Existen aplicaciones que solo despliegan el contenido de la informaci´on, y otras que permiten la manipulaci´on de la misma.

Suscribir el feed.- Una vez elegido el lector de feeds o tambi´en llamado agregador, basta ´unicamente con agregar la URL del mismo en la secci´on correspondiente, para que el feed quede suscrito. Posteriormente, el lector de feeds, interpreta el formato XML y lo convierte a un formato desplegable y entendible para el usuario. En el caso de los navegadores, solo basta con teclear la URL del feed en la barra de direcciones, para poder ver el contenido del mismo. Este proceso es sencillo, el trabajo duro, es efectuado por la aplicaci´on.

(33)

y mostrarla a los usuarios. La ´unica tarea que debe realizar el usuario, es verificar si alguno de sus feeds tiene nuevas actualizaciones. Com´unmente, en los lectores de feeds, existe un indicativo de actualizaci´on, permiti´endole al usuario observar lo nuevo en sus feeds.

2.2.1.

Ventajas de feeds

Los formatos para la sindicalizaci´on de contenido, tales como RSS y Atom, hacen posible la recepci´on precisa de informaci´on, la cual es accesible a trav´es de la direcci´on disponible en Internet, en donde se realizan las actualizaciones de informaci´on. De esta manera, dan la oportunidad a los usuarios de obtener informaci´on actualizada de manera autom´atica con la ayuda de una aplicaci´on que funcione como lectora de feeds. Las ventajas m´as importantes de los feeds son las siguientes [35]:

Mejor uso del ancho de banda.- Los datos que son transferidos a trav´es de feeds, pueden llegar a necesitar menor ancho de banda que los recursos originales.

Claridad en la sem´antica.- Los feeds manejan una sem´antica clara y sencilla, la cual puede ser utilizada para contener los ´ultimos cambios en el sitio Web. Esta sem´antica esta basada en mensajes que pueden ser utilizados como objetos de informaci´on independientes.

Ahorro de tiempo.- Es m´as r´apido y sencillo que un lector de feeds realice el acceso a m´ultiples sitios y ofrezca la informaci´on que se encuentra en ellos de manera resumida, para decidir o no visitar el art´ıculo completo. Esto evita que se busque la informaci´on deseada y se visite de manera independiente cada uno de los sitios que la contienen.

Amplia Portabilidad.- Los feeds son construidos en tecnolog´ıas estandarizadas tales como: RSS y Atom, que a su vez est´an basadas en formato XML (s´olo texto), lo cual permite ser compartidos de manera independiente entre varios ambientes v´ıa Internet.

(34)

Se puede encontrar informaci´on actualizada.

La informaci´on puede ser desplegada y manipulada, seg´un el inter´es particular.

Se puede intercambiar la informaci´on y ser publicada.

Es importante mencionar, que estos formatos pueden ser utilizados de muchas maneras y pueden ser aplicados en cualquier sistema de informaci´on, debido a que est´an basados en formato XML que es totalmente portable. En el cap´ıtulo 3, se describe el uso de los feeds en el proyecto PDLib como parte de este trabajo de investigaci´on.

A continuaci´on se presenta una secci´on de amplia importancia para este trabajo, en la cual se describen el uso que en la actualidad se le est´a dando a los feeds dentro de sistemas de bibliotecas digitales.

2.2.2.

Feeds en Bibliotecas Digitales

El potencial de los feeds en un ambiente de bibliotecas, es tan grande como el de sus dem´as usos en otro contexto. Es importante mencionar que el mundo de las bibliotecas, principalmente las digitales, ha adquirido una oportunidad espl´endida para atraer a una poblaci´on amplia de interesados.

Las bibliotecas digitales que usan ciertos est´andares para la construcci´on de metadatos, pueden hacer uso de un formato de sindicalizaci´on para intercambiar el contenido, ya que los feeds, aunque son est´andares bien definidos, pueden integrar metadatos de otros est´andares exclusivos para bibliotecas, por el conjunto de elementos que pueden incluirse en sus formatos. Es importante aclarar, que los feeds podr´ıan utilizarse para el intercambio de informaci´on entre sistemas que manejan est´andares diferentes, m´as no as´ı que puedan sustituirlos.

(35)

Uno de los principales usos de los feeds es la recuperaci´on y actualizaci´on de informaci´on, tema que esta involucrado directamente en este trabajo y que puede permitir la interacci´on de bibliotecas digitales con un gran n´umero de sitios y organizaciones que publican contenido haciendo uso de tal tecnolog´ıa, lo cual pudiera ser utilizado como una opci´on de recopilaci´on de informaci´on y ser ofrecida como un servicio adicional dentro de este tipo de sistemas.

Uno de los principales sitios que est´a contribuyendo a la promoci´on de feeds relacionados al ´area de las bibliotecas es LISFeed.com [17]. LISFeed es un servidor que publica feeds de sitios orientados a las bibliotecas alrededor del mundo, haciendo m´as f´acil la b´usqueda en un solo lugar. Este proyecto trata de monitorear en agregadores de feeds de c´odigo abierto, nuevos feeds relacionados al tema de bibliotecas, actualizando la lista cada hora. Permite navegar por todos los feeds encontrados o bien buscar por alg´un t´ermino espec´ıfico. De esta manera existe informaci´on relevante para aquellos temas relacionados a contextos bibliotecarios.

Debido a que los feeds no tienen un l´ımite para ofrecer recursos, un incremental n´umero de bibliotecas han iniciado el ofrecimiento de feeds para promover y extender sus servicios con sindicalizaci´on de contenido. Algunas bibliotecas que ofrecen publicaciones a trav´es de feeds son los siguientes [9]:

Georgia State University Library

(http://www.library.gsu.edu/news/index.asp)

Lunar and Planetary Institute, Center for Information and Research Services

(http://www.lpi.usra.edu/library/whats new.shtml/)

Northwestern University Library

(http://www.library.northwestern.edu/news/) Ohio University Libraries

(http://www.library.ohiou.edu/newsblog/)

Rowland Institute at Harvard Library (http://blogs.law.harvard.edu/rihlib/)

(36)

University of North Carolina at Chapel Hill Libraries (http://www.lib.unc.edu/rss/)

Los feeds no est´an limitados a libros o monograf´ıas, por ejemplo, Legislative Reference Bureau (Hawaii) y la Universidad de Londres, tambi´en ofrece feeds para citar art´ıculos profesionales, o bien, algunos otros como la Universidad de Tennessee ofrecen feeds que contienen servicios multimedia para la comunidad de ense˜nanza y aprendizaje.

Con lo mencionado en esta secci´on se pueden mencionar varios usos que se le pueden dar a los feeds dentro del ´ambito de las bibliotecas digitales, los cuales se enlistan a continuaci´on [14]:

1. Blogs de bibliotecas.

2. Anuncios formales. 3. Libros

4. Portales

5. Motores de b´usqueda basados en feeds 6. Art´ıculos y publicaciones.

M´as adelante, en la secci´on 2.6, se describe una serie de trabajos relacionados en los cuales se incluye el uso de feeds como un servicio de recuperaci´on y publicaci´on de informaci´on, adem´as de poder observar la utilizaci´on que en la actualidad, se le da a este tipo de tecnolog´ıa en el ´ambito de las bibliotecas digitales.

(37)

2.3.

Google y Yahoo como motores de

usqueda para la recuperaci´

on de

infor-maci´

on

Motor de B´usqueda de Google.- Es un motor de b´usqueda que clasifica los resultados de b´usqueda dependiendo si la p´agina Web es una buena opci´on para esa consulta. Google toma en cuenta el uso que le dan los usuarios a la p´agina; las p´aginas con m´as votos o visitas, son consideradas m´as importantes que otras [19], de ah´ı que se pueda formar una clasificaci´on.

Motor de B´usqueda de Yahoo.- Es un motor de b´usqueda que clasifica la informaci´on por categor´ıas, ofreciendo como resultado aquellas p´aginas que contengan la informaci´on relevante para esa clase de informaci´on.

Estos dos motores de b´usqueda gestionan una cantidad enorme de sitios y p´aginas, con lo que se tiene una posibilidad extensa de obtener informaci´on de inter´es tras una consulta realizada, obteniendo los resultados m´as relevantes independientemente de como se clasifique la informaci´on en cada uno de ´estos.

En la figura 2.2 se muestra los elementos que componen un motor de b´usqueda, as´ı como la clasificaci´on que se propicia debido a la funci´on que realizan cada uno de ellos.

Figura 2.2: Elementos de un Buscador

(38)

clasificaci´on de resultados.

Base de datos. Es el contenedor de las descripciones de las p´aginas Web. El motor de b´usqueda encuentra la informaci´on por dos m´etodos: Aceptando aqu´ellas p´aginas que son enviadas por autores que desean exponer el contenido y por medio de crawlers Web, que son programas que transitan por Internet, visitando miles de p´aginas simult´aneamente, almacenando enlaces a la informaci´on de cada una de ellas. Una vez que la informaci´on ha sido recolectada por estos agentes, se procede a indexarla, lo que significa que ser´an almacenadas en los ´ındices de la base de datos. Este ´ındice es ordenado alfab´eticamente por el t´ermino de la b´usqueda. Esta estructura de datos permite el r´apido acceso a los documentos que contienen los t´erminos de b´usqueda que proporciona el usuario.

B´usqueda de usuario. Los usuarios pueden realizar una b´usqueda especificando las palabras m´as relevantes o significantes. Cabe mencionar que en la mayor´ıa de los motores de b´usqueda, se permite el uso de operadores l´ogicos (AND, OR, NOT) entre los t´erminos de la b´usqueda, para autorizar frases relevantes m´as espec´ıficas.

Los usuarios pueden hacer b´usquedas simples o b´asicas, en donde solo se debe especificar una o varias palabras relevantes, permitiendo el uso de operadores l´ogicos. Adem´as, los buscadores permiten hacer b´usquedas considerando el t´ıtulo de la p´agina, especificando palabras que se encuentran en una URL, o inclusive en el contenido HTML. Dichas b´usquedas son conocidas como b´usquedas avanzadas.

(39)

2.3.1.

Ventajas de los motores de b´

usqueda

El uso de motores de b´usqueda apremian diversas ventajas, las cuales est´an directamente relacionadas a la informaci´on que satisface las necesidades de aqu´ellos usuarios que los utilizan. A continuaci´on se describe una serie de ventajas que se presentan al utilizar los buscadores de informaci´on en Internet:

Los ´ındices de los motores de b´usqueda son habitualmente inmensos, representando significantes porciones de Internet, ofreciendo una amplia variedad y cantidad de recursos de informaci´on.

Los motores de b´usqueda clasifican la informaci´on que resulta de una consulta efectuada por un usuario, lo que permite desplegar los recursos de informaci´on que m´as se asemejan a lo buscado por medio de unas cuantas palabras.

Los buscadores en Internet, permiten realizar b´usquedas avanzadas, lo que da la oportunidad de especificar ´unicamente aquellos t´erminos por los cuales la aplicaci´on debe explorar, personalizando la informaci´on que se debe desplegar, para satisfacer necesidades espec´ıficas de los usuarios.

Las aplicaciones desarrolladas para efectuar b´usquedas en Internet son f´aciles de usar, ya que el usuario tan s´olo debe construir una consulta, por medio de palabras clave y ordenar al motor de b´usqueda que realice la indagaci´on de informaci´on.

Una ventaja que puede considerarse como no funcional, ya que para el usuario es transparente, es que los buscadores en todo momento se encuentran localizando sitios para ser indexados por medio de programas que transitan por toda la red, lo que incrementa los recursos de informaci´on.

(40)

2.4.

Utilizaci´

on de Google, Yahoo y Feeds

Hace algunos a˜nos se pens´o en enlazar dos computadoras y as´ı poder compartir recursos e informaci´on. Una vez que se logr´o lo anterior, se comenz´o a so˜nar en hacer lo propio utilizando m´as de dos computadoras, lo cual se ha logrado con la red mundial. Este enlace global, trajo consigo la necesidad de compartir los recursos entre los sistemas que trabajan sobre la red, lo cual, se dificultaba por el origen en que hab´ıan sido creados.

Entonces, surgieron los protocolos y est´andares para poder comunicar a los diversos sistemas y permitir el intercambio de informaci´on, lo que en la actualidad es totalmente considerado por los desarrolladores de software, para poder sacar amplio provecho de la interacci´on con otros sistemas y servicios ofrecidos en Internet. Es decir, los sistemas ya no son s´olo pensados en realizar tareas para lo que son dise˜nados, si no tambi´en para poder ofrecer servicios que otros sistemas puedan implementar usando los protocolos y est´andares disponibles en la actualidad e integrar servicios que otros brindan.

Lo anterior, hace pensar que la tecnolog´ıa avanza hac´ıa un futuro en el que la ubicaci´on de los recursos inform´aticos no importa.

Para fines de este trabajo se deb´ıa pensar en servicios o tecnolog´ıas que permitieran integrarse a una biblioteca digital personal, sin afectar las funcionalidades que se ofrecen com´unmente en un sistema de esta ´ındole, pero que extendieran los servicios para brindar la oportunidad de alimentar la biblioteca de recursos de inter´es personal para sus usuarios.

Lo anterior dio la pauta para pensar en los motores de b´usqueda o buscadores, como tradicionalmente se conocen, ya que son sistemas de extenso uso en Internet. Actualmente, muchos sitios y sistemas en Internet, han adoptado el uso de buscadores por la necesidad del usuario de encontrar informaci´on de inter´es particular. Estudios realizados en julio del a˜no en curso por [22], demuestran que los buscadores con mayor uso en Internet son Google y Yahoo, inclusive, por encima de otros que tienen m´as tiempo en funcionamiento.

La figura 2.3, es una gr´afica que muestra la utilizaci´on de los buscadores m´as populares en Internet por n´umero de consultas realizadas.

(41)

Figura 2.3: Clasificaci´on de buscadores por n´umero de consultas

elegidos, para aprovechar tanto sus servicios, como su popularidad para interactuar con PDLib.

Otro de los servicios que han sido considerados para ser aprovechados en la interoperabilidad que se persigue en esta investigaci´on, son los formatos de sindicalizaci´on, en cualquiera de sus formatos.

Estos formatos est´an siendo ampliamente utilizados por su portabilidad, ya que pueden ser empleados en cualquier sistema en Internet por basarse en formato XML.

Los feeds RSS y Atom, est´an teniendo bastante auge, ya que son capaces de actualizar su contenido y ofrecerlo a los sistemas agregadores que los apliquen.

Por ejemplo, el sitio Syndic8.com [30], donde se ofrecen feeds en sus dos formatos, RSS y Atom, correspondientes a una gran variedad de t´opicos, presenta estad´ısticas mensuales acerca de sus feeds agregados por los usuarios visitantes. En la siguiente gr´afica puede observarse la popularidad que est´a adquiriendo el uso de feeds en la comunidad Web, respecto a este sitio en particular. Cabe mencionar que los datos ofrecidos por Syndic8.com est´an registrados por mes, pero para efectos de graficar se hizo el c´alculo por a˜no y se elaboro su gr´afica correspondiente.

(42)

Figura 2.4: Feeds agregados de syndic8.com

1000 % respectivamente, tomando en cuenta el registro de su correspondiente a˜no anterior.

Originalmente usados para noticias, los feeds, han dado un giro impresionante, ya que se les ha sacado provecho para otro tipo de fines [11]. En la figura 2.5 se observa el uso que se les ha venido dando a los feeds en fechas recientes.

Figura 2.5: Uso de feeds por Industria

(43)

posibilidades de uso en una biblioteca digital personal. Cabe mencionar, que a pesar del giro de las otras ´areas, no dejan de ser interesantes para los usuarios.

Como se ha venido mencionando en las secciones y cap´ıtulos anteriores, la importancia de permitir a los usuarios de una biblioteca digital personal interactuar con otros servicios, es que tengan la capacidad de almacenar informaci´on que sea de su agrado e inter´es particular.

Aunado a lo anterior y tomando en cuenta que la mayor ventaja de los feeds, es que puede abarcar una amplia gama de ´areas de inter´es, se puede decir que ´esta tecnolog´ıa, es una excelente opci´on para ser incluida como un servicio adicional en una biblioteca digital.

En el transcurso de este cap´ıtulo, se ha venido comentando sobre la importancia de este trabajo en una biblioteca digital, por lo cual es importante realizar una descripci´on de aquella que se beneficiara con las funcionalidades de interoperabilidad, mismas que ser´an presentadas en el siguiente cap´ıtulo. Lo anterior ocurre en la siguiente secci´on, en donde se presenta PDLib como la biblioteca digital, explicando las funcionalidades que permite y la arquitectura que se maneja en la actualidad, misma que sufre cambios que se ir´an esclareciendo a lo largo de este documento.

2.5.

PDLib: Personal Digital Library

En [7] Kibirige menciona que una biblioteca digital se refiere a una colecci´on de informaci´on soportando objetos cuyos registros han sido codificados en formatos electr´onicos. Una biblioteca digital personal, se podr´ıa definir como una colecci´on de informaci´on organizada en documentos de diversos formatos digitales para los cuales se ofrecen servicios como env´ıo de documentos, indexaci´on de metadatos y texto completo, as´ı como b´usqueda y recuperaci´on de informaci´on, aumentada con servicios novedosos que auxilian en el manejo de informaci´on de cada usuario.

(44)

personal. De esta manera se permiten realizar funciones tales como:

Crear de documentos y colecciones.- PDLib permite a sus usuarios crear colecciones asign´andoles un nombre libre en cualquier ubicaci´on, es decir, en cualquier colecci´on padre o hija. Se les permite almacenar documentos de cualquier formato utilizando el cliente PDLib.

Clasificar documentos.- Los documentos pueden estar organizados en colecciones, lo que permite tener una clasificaci´on de los mismos. Para esto se tienen funciones como mover, copiar y borrar documentos, as´ı como editar sus metadatos.

Administrar documentos y colecciones.- Se le permite al usuario asignar estatus de p´ublico, para aquellas colecciones que pueden ver los dem´as usuarios y en las que se pueden realizar consultas de informaci´on, o bien un estatus privado, para aquellas que son de dominio personal y no deben ser accedidas por el resto de los usuarios.

Realizar b´usquedas de informaci´on.- El usuario tiene la posibilidad de realizar b´usquedas de informaci´on dentro de los documentos indexados en su biblioteca personal o en aquellos que se encuentren ubicados en colecciones p´ublicas de otros usuarios. Las b´usquedas simples pueden realizarse en el contenido de los documentos y en su t´ıtulo, o incluso en los metadatos de cada documento para realizar b´usquedas avanzadas.

En PDLib cada usuario tiene la capacidad de navegar por cada unas de las colecciones que conforman su biblioteca personal, para poder efectuar las funciones ya mencionadas y para descargar los documentos en su formato original.

Adem´as, PDLib, realiza la conversi´on de documentos que tambi´en pueden ser descargados. Los formatos de conversi´on pueden ser a texto plano o a su versi´on comprimida.

(45)

como: Windows, Linux, Mac OS y Palm OS. La funcionalidad esta dise˜nada para los siguientes tipos de acceso:

A trav´es de un servidor Web.- Permite el acceso por medio del protocolo HTTP, a cualquier dispositivo que cuente con un navegador.

A trav´es de un middleware.- El middleware es un componente dentro del proyecto PDLib, que da soporte de conexi´on a dispositivos m´oviles que accedan a la biblioteca digital [28].

En la figura 3.1 se puede observar la arquitectura conceptual dise˜nada para el proyecto PDLib, en la cual se pueden observar las capas que conforman el mismo, conteniendo aquella de Interoperabilidad que resulta ser interesante para efectos de este trabajo. Esta arquitectura se describe detalladamente en el siguiente cap´ıtulo.

Figura 2.6: Arquitectura de PDLib

(46)

seleccionando el proyecto PDLib para efectuar las implementaciones de servicios ofrecidos por un sistema de motor de b´usqueda y un sistema de feeds, y as´ı lograr el cometido, la interoperabilidad.

En la siguiente secci´on, se describe el grado de interoperabilidad que PDLib dispone actualmente, con lo cual se pretende dar a conocer lo que ya se ha realizado en relaci´on a este t´opico a nivel de protocolo.

2.5.1.

Interoperabilidad en PDLib

Actualmente el proyecto PDLib cuenta con una capa de interoperabilidad en la que se incluyen m´odulos que interact´uan con el protocolo para la recolecci´on de metadatos de OAI (Open Archive Initiative), con los cuales se hace posible la navegaci´on completamente transparente para el usuario a trav´es de diversas publicaciones que obedecen dicho protocolo.

A trav´es de este protocolo, PDLib tiene la facultad de agregar como repositorios aquellos recursos que los proveedores de datos y servicios exponen por medio de OAI, permitiendo en sus clientes navegar sobre colecciones que conforman tales repositorios.

En las colecciones se crean documentos propios de PDLib, los cuales contienen la informaci´on de los recursos incluidos, por medio de metadatos que respetan los est´andares de OAI. PDLib crea los documentos usando el conjunto de metadatos propio del proyecto, adem´as de incluir aquellos pertenecientes a OAI, los cuales incluyen t´ıtulo de la publicaci´on, fecha de creaci´on, autores, adem´as de permitir a los usuarios dirigirse hacia la publicaci´on del recurso por medio de un enlace a Internet e incluir una descripci´on que familiariza al usuario con el contenido completo.

Otro de los servicios que el proyecto PDLib ofrece actualmente, es la publicaci´on de contenido de las colecciones usando sindicalizaci´on a trav´es de RSS, facilitando a los agregadores o lectores de feeds la suscripci´on de los mismos. De esta manera los usuarios que suscriban los feeds creados con RSS en PDLib, podr´an verificar las actualizaciones del contenido de las colecciones de una biblioteca en su agregador o lector favorito.

(47)

En la secci´on siguiente, se tratar´an aquellos trabajos que se encuentran de alguna manera relacionados con este trabajo de interoperabilidad, y los cuales fueron seleccionados tomando en cuenta la manera en que interact´uan con otros servicios para la recuperaci´on de informaci´on.

2.6.

Trabajo Relacionado

A continuaci´on se presentan los trabajos que se encuentran dentro del contexto de interoperabilidad. Para realizar una comparaci´on acertada, se verifican los m´etodos y herramientas que se utilizan en sistemas que manejan informaci´on para lograr interoperabilidad con otros servicios y entre los cuales obviamente se contemplan otras bibliotecas digitales.

2.6.1.

Metabuscador

Es un software que permite al usuario introducir palabras clave en una interfaz simple y recuperar art´ıculos de texto completo y bibliograf´ıa simult´aneamente. Es considerada una v´ıa para que los bibliotecarios tengan acceso a diversas bases de datos o publicaciones.

Estas aplicaciones ejecutan una consulta a trav´es de bases de datos de bibliograf´ıa y texto completo, en donde cada una de ellas requiere un protocolo. As´ı pues, los resultados pueden ser obtenidos de m´ultiples bases de datos sin tener que repetir una consulta.

Un metabuscador tiene gran potencial, pero la comunidad de bibliotecar-ios considera que esta tecnolog´ıa tiene un proceso lento, ya que se tiene que tomar un tiempo considerable para decidir como presentar los resultados al usuario. Adem´as pueden permitir a las bibliotecas ofrecer un simple acceso a un amplio rango de productos y servicios comerciales [15].

2.6.2.

Arquitectura

LFDL

(Lightweight

Federated

Digital Library)

(48)

En [37] se comenta, que la biblioteca digital que se propone es una ligera aproximaci´on de proveedores de datos y los proveedores de servicios de interoperabilidad.

El proveedor de datos es totalmente transparente, siempre y cuando exista un protocolo que pueda mantenerlo intacto para asociarse a una biblioteca digital (LFDL). Para los proveedores de servicios, en este caso, la misma biblioteca digital (LFDL), no requiere demasiado para mantenerlo corriendo, ning´un nuevo c´odigo es necesario para que una biblioteca sea instalada, no se requiere recompilar o reiniciar. La ´unica cosa que es necesaria es, crear una descripci´on de metadatos de la conducta de cada biblioteca digital fuente.

Una vez que una biblioteca digital haya sido agregada, los usuarios finales pueden comenzar a buscar, usando una interfaz universal. En general, esta biblioteca digital usa un mecanismo de cach´e, para construir un repositorio local, el cual hace el sistema m´as robusto y eficiente.

La consulta y los resultados de la consulta, son almacenados en cache, de manera que cuando una consulta se repite, es m´as r´apido generar los resultados, sin tener que visitar la biblioteca digital de forma remota.

La arquitectura de una biblioteca digital LFDL es definida en tres componentes:

Un buscador para usuarios finales.- LFDL es una interfaz universal donde participan todas las bibliotecas digitales registradas y donde se pueden hacer b´usquedas.

Registro de bibliotecas digitales para proveedores de datos.- Se registra los metadatos de la biblioteca digital.

Manejo y mantenimiento de LFDL para proveedores de servicios .-Agregar y eliminar bibliotecas digitales, tiempo y n´umero de visitas, tiempo de respuesta, disponibilidad, consultas usadas y otros datos informativos.

La LFDL se compone de diferentes elementos:

Servidor

(49)

el cual mantiene el nombre de la biblioteca digital e informaci´on de metadatos.

Servidor Web

Es la interfaz entre el cliente y los servicios. La consulta de una biblioteca digital es enviada al servidor Web, el cual lleva la petici´on al proveedor de servicio apropiado, enviando los resultados al navegador.

Administrador LFDL

Manipula el registro, la actualizaci´on, la eliminaci´on y actualizaci´on de la biblioteca digital. Administra el sistema entero, incluyendo el cliente LDAP, el analizador de XML y el agente administrador.

Buscador

Hace la consulta de hecha por cada biblioteca digital, regresando el resultado al servidor Web.

2.6.3.

Visual Knowledge Builder

En [36] se habla de VKB, Visual Knowledge Builder por sus siglas en ingl´es, que es un ”spatial hypertext”(objetos colecciones que pueden ser agrupados y manejados y que al seleccionarlos se puede tener acceso a cierta informaci´on), usado principalmente para representar visualmente caracter´ısticas de bibliotecas para mejorar la usabilidad. Este proyecto permite a los usuarios hacer b´usquedas en Google y National Science Digital Library (NSDL), y procesar los resultados y organizarlos como parte de una nueva colecci´on. Estos resultados ordenados porrankingcontienen metadatos que pueden ser extra´ıdos de los resultados de b´usqueda y la URL origen del documento.

Los objetos de informaci´on y colecciones pueden ser cambiados de tama˜no, posicionados y movidos entre colecciones a trav´es de manipulaci´on directa. En la interfaz del sistema, el usuario puede cambiar aspectos de visibilidad para expresar alguna interpretaci´on de la informaci´on, tales como cambiar color de fondo, de borde, entre otras. Adem´as del t´ıtulo y URL, el usuario puede agregar otros metadatos directamente.

(50)

2.6.4.

Repo

Es un sistema basado en un modelo de interacci´on entre un usuario y varios objetos que ayudan a poblar de informaci´on su espacio [20]. Este modelo trabaja por medio un mecanismo que se describe a continuaci´on:

El usuario crea un evento de b´usqueda, en el cual selecciona un campo de acci´on y especifica una expresi´on de b´usqueda. El campo de acci´on determina la parte disponible del universo de informaci´on en donde buscar, el cual puede ser elementos de b´usquedas previas adem´as de repositorios (base de datos local, privada o p´ublica).

Un tipo de b´usqueda puede ser por repositorios apropiados, en esencia una metab´usqueda. El campo de acci´on pueden ser todos los repositorios y la b´usqueda trata de encontrar repositorios en lugar de documentos.

El usuario comienza la b´usqueda, cre´andose un proceso. El usuario puede parar, continuar o descartar el proceso. Una vez que la b´usqueda comienza, no puede ser cambiada.

El proceso crea un resultado de b´usqueda que contiene un conjunto de elementos que correspondieron a la consulta. Debido a que el proceso de b´usqueda puede ser interrumpido, es probable que los resultados est´en parcialmente completos.

Un historial de las b´usquedas es mantenido, as´ı que los usuarios puede reutilizar consultas previas. El historial puede ser adecuado de acuerdo a las necesidades y preferencias.

Dependiendo de la consulta especificada, los resultados puede ser conjunto de documentos, documentos, partes de documentos o repositorios.

(51)

Repo representa el contenido, origen, forma y funcionalidad de un n´umero de repositorios. En Repo no se ha atacado el uso de informaci´on por metadatos. Este proyecto maneja seis tipos de objetos:

Registrar.- Ofrece y mantiene un registro de repositorios, una meta informaci´on para cada repositorio. Soporta b´usqueda sobre repositorios, meta b´usqueda.

Repositorio de Clases.- Cada repositorio es una instancia de una clase de repositorio que cumple con un protocolo de repositorio. Las categor´ıas de est´andares manejados en repositorios son b´usqueda de documentos y b´usqueda de informaci´on de repositorio. Las operaciones de la primera categor´ıa son listar documentos y encontrarlos usando identificadores de repositorios. La segunda son operaciones que ofrecen acceso a una variedad de meta informaci´on.

M´etodos de b´usqueda.- Describen las t´ecnicas de b´usqueda soportadas por uno o m´as repositorios.

Evento de b´usqueda.- Es creado por el ´area de trabajo de la informaci´on para contener un nuevo incidente de b´usqueda por el usuario. Fija el campo de acci´on, especifica la expresi´on de b´usqueda, comenzando y manejando un proceso para ejecutar la consulta, reus´andola para su uso posterior y accediendo los resultados.

Resultados de b´usqueda.- Las clases de resultados de b´usqueda definen diferentes tipos de estructuras para organizar los resultados de una b´usqueda.

Elementos de los resultados.- Son objetos que son encontrados por una b´usqueda. Existen cuatro tipos de resultados: documentos, conjunto de documentos, partes de documentos y repositorios.

2.6.5.

Digital Archiving System

(52)

reportes t´ecnicos y art´ıculos.

El sistema consiste de una combinaci´on de selecci´on humana, revisi´on y t´ecnicas automatizadas basadas en software y as´ı comprender el dominio del proyecto. El flujo del sistema se describe a continuaci´on:

Selecci´on del sitio Web.- La selecci´on de URLs inici´o con las p´aginas de Space Sciences, Earth Sciences, Applied Engineering and Technology y Flight Programs and Projects. En la mayor´ıa de los casos las p´aginas fueron seleccionadas manualmente, eliminando aquella informaci´on irrelevante, tales como tel´efonos, anuncios, entre otros. Los analistas insertaban esas URLs en una hoja de Excel junto con las caracter´ısticas del sitio, incluyendo una taxonom´ıa, el n´umero de c´odigo, el a˜no de ´ultima modificaci´on, la audiencia.

Captura del sitio Web.- Los motores de b´usqueda usados por GSFC puede indexar p´aginas Web, pero no capturan los sitios actuales, por lo que se usa un software comercial llamado Rafabot 1.5, que sirve para descargar los sitios Web que ofrece una configuraci´on de par´ametros limitado y resultados que pueden ser buscados en archivos organizados. Para las URLs identificadas, Rafabot crea una carpeta con el nombre de la URL, conteniendo todas las p´aginas Web.

Crear la base de datos de los metadatos.- La creaci´on de metadatos incluye el esquema, la extracci´on autom´atica por medio de una herramienta llamada Web Data Extractor y la revisi´on y mejora humana de los metadatos.

B´usqueda de Metadatos.- Para realizar esta tarea utilizan Lucene, un motor de b´usqueda de c´odigo abierto usado para indexar y buscar los metadatos, adem´as del texto completo de archivos de p´aginas o con formatos de documentos. La b´usqueda permite al usuario ingresar los t´erminos y seleccionar metadatos espec´ıficos en donde buscar. Los campos utilizados son: t´ıtulo, descripci´on, keyword, tema, creador, entre otros.

Con la idea de mejorar la interoperabilidad del sistema, GSFC ha implementado OAI-PHM. La implementaci´on consiste de un servidor accesible por red, capaz de procesar solicitudes v´ıa HTTP y recibir los resultados en formato XML. OAI puede ser usado para contribuir con repositorios de metadatos.

(53)

digitales con metadatos.

2.6.6.

LION (Library Online)

En el a˜no 2001, NCI Library (National Cancer Institute) emprendi´o un proyecto de modernizaci´on con diversas metas: acceder una colecci´on de informaci´on en Internet, facilitar la colecci´on de materiales electr´onicos, ofrecer servicios personalizados y proactivos e incrementar su uso. Esta organizaci´on no encontr´o un sistema comercial de biblioteca que ofreciera la combinaci´on de servicios personalizados y la administraci´on de documentos electr´onicos. Por la raz´on anterior decidieron desarrollar su propio sistema llamado LION (Library Online) [1], una aplicaci´on Web con una administraci´on de base de datos.

LION puso en l´ınea las colecciones y servicios de NCI, incluyendo una colecci´on electr´onica creciente (4000 archivos locales y 2000 enlaces a Internet). Los servicios m´as usados son el actual servicio diario NCI Current Clips y el semanario Cancel Letter Newsletter.

Este proyecto hace uso de feeds RSS para alimentar las colecciones de informaci´on, espec´ıficamente aquellos que est´an enfocados a la salud. Hace uso de directorios de feeds entre los cuales se incluyen: AmphetaDesk, NewsIsFree, y Syndic8, adem´as de BBC News: Health, Moreover: Breast Cancer News, Moreover: Cancer News, New York Times: Health, y Reuters Health eLine. Esta informaci´on que adem´as de que puede ser vista por los usuarios puede, tambi´en puede almacenarse. De esta manera, los elementos pueden ser buscados, navegados, desplegados y almacenados en ´areas personales de otros usuarios.

El contenido total de los feed esta ´unicamente disponible en el sitio de LION, usando el correo electr´onico para enviar la informaci´on completa. En la actualidad LION solo maneja feeds correspondientes al formato RSS, quedando como trabajo a futuro agregar nuevos formatos tales como Atom, Pie, entre otros.

(54)
(55)

Dise˜

no de la interacci´

on de

PDLib con los buscadores y

feeds

en Internet

3.1.

Introducci´

on

En este cap´ıtulo se presentar´a la descripci´on de cada componente de la arquitectura de PDLib involucrado en el trabajo de comunicaci´on con los sistemas en Internet que se han manejado para recuperar informaci´on desde un una biblioteca digital personal.

Para la soluci´on del problema planteado se presenta una extensi´on de la arquitectura que permite la interacci´on flexible entre algunos servicios existentes en Internet, aumentando la infraestructura del proyecto PDLib con nuevos servicios.

Los temas principales que se manejan son:

Interoperabilidad entre sistemas de manejo de contenido Motores de b´usqueda en Internet

Figure

Figura 1.1: Sistema de Biblioteca Digital

Figura 1.1:

Sistema de Biblioteca Digital p.17
Figura 1.2: Estatus anterior de la biblioteca digital personal

Figura 1.2:

Estatus anterior de la biblioteca digital personal p.18
Figura 1.3: Estatus actual de la biblioteca digital personal

Figura 1.3:

Estatus actual de la biblioteca digital personal p.18
Figura 1.4: Modelo de Interoperabilidad con buscadores y formatos desindicalizaci´on.

Figura 1.4:

Modelo de Interoperabilidad con buscadores y formatos desindicalizaci´on. p.20
Tabla 2.1: Niveles de Interoperabilidad LISI

Tabla 2.1:

Niveles de Interoperabilidad LISI p.25
Figura 2.1: Funciones de un Feed

Figura 2.1:

Funciones de un Feed p.31
Figura 2.2: Elementos de un Buscador

Figura 2.2:

Elementos de un Buscador p.37
Figura 2.3: Clasificaci´on de buscadores por n´umero de consultas

Figura 2.3:

Clasificaci´on de buscadores por n´umero de consultas p.41
Figura 2.5: Uso de feeds por Industria

Figura 2.5:

Uso de feeds por Industria p.42
Figura 2.4: Feeds agregados de syndic8.com

Figura 2.4:

Feeds agregados de syndic8.com p.42
Figura 2.6: Arquitectura de PDLib

Figura 2.6:

Arquitectura de PDLib p.45
Figura 3.1: Arquitectura Conceptual PDLib

Figura 3.1:

Arquitectura Conceptual PDLib p.57
Figura 3.2: Arquitectura Detallada PDLib

Figura 3.2:

Arquitectura Detallada PDLib p.59
Figura 3.3: Capa de Servidor de Datos Extendida

Figura 3.3:

Capa de Servidor de Datos Extendida p.65
Figura 3.4: B´usquedas en Google y Yahoo desde PDLib

Figura 3.4:

B´usquedas en Google y Yahoo desde PDLib p.67
Figura 3.5: Bloglines como agregador de feeds

Figura 3.5:

Bloglines como agregador de feeds p.70
Figura 3.6: Suscripci´on y actualizaci´on de feeds desde PDLib

Figura 3.6:

Suscripci´on y actualizaci´on de feeds desde PDLib p.72
Figura 3.7: HTTP Conditional Get

Figura 3.7:

HTTP Conditional Get p.76
Figura 4.1: Jerarqu´ıa de Capas en la Implementaci´on del Servidor de Datos

Figura 4.1:

Jerarqu´ıa de Capas en la Implementaci´on del Servidor de Datos p.82
Tabla 4.1: Caracter´ısticas ofrecidas con la implementaci´on de interoperabili-dad

Tabla 4.1:

Caracter´ısticas ofrecidas con la implementaci´on de interoperabili-dad p.84
Figura 4.2: Entorno Operativo

Figura 4.2:

Entorno Operativo p.85
Figura 4.3: Resultados de una b´usqueda realizada en Google

Figura 4.3:

Resultados de una b´usqueda realizada en Google p.87
Figura 4.4: Almacenamiento de un resultado de b´usqueda como documento

Figura 4.4:

Almacenamiento de un resultado de b´usqueda como documento p.89
Figura 4.5: Suscripci´on de un Feed RSS y Atom

Figura 4.5:

Suscripci´on de un Feed RSS y Atom p.90
Figura 4.6: Interfaz de listado de feeds con su estatus de actualizaci´on

Figura 4.6:

Interfaz de listado de feeds con su estatus de actualizaci´on p.91
Figura 4.7: Listado de feeds y sus respectivos items

Figura 4.7:

Listado de feeds y sus respectivos items p.93
Figura 4.8: Almacenamiento de un item como documento

Figura 4.8:

Almacenamiento de un item como documento p.94
Figura 5.1: Estatus anterior de la biblioteca digital personal

Figura 5.1:

Estatus anterior de la biblioteca digital personal p.104
Figura 5.2: Estatus actual de la biblioteca digital personal

Figura 5.2:

Estatus actual de la biblioteca digital personal p.104
Figura 5.3: Base de Datos de Control

Figura 5.3:

Base de Datos de Control p.109