“D
ESARROLLO DE UN
SERVICIO
RECOMENDADOR DE
RECURSOS DIGITALES PARA EL SISTEMA
DS
PACE
”
1.
INTRODUCCIÓN
Desde hace dos décadas, las bibliotecas han efectuado con éxito una serie de transformaciones en su filosofía, provocadas, en su mayoría, por la irrupción de las tecnologías de la información y la comunicación, TIC, y también porque la enseñanza presencial basada en la clase magistral y en el libro está cambiando.
Las TIC han permitido a las bibliotecas mejorar la gestión de la organización, almacenamiento y acceso de la documentación tanto en soporte papel como en soporte electrónico. Además permiten que se realice todo de una forma radicalmente distinta y a su vez han provocado nuevas políticas bibliotecarias que dan como resultado nuevos servicios directos a los usuarios. La biblioteca universitaria en concreto, se convierte, cada vez más, en un equipamiento que está en un continuo movimiento con el fin de satisfacer las necesidades cambiantes de los estudiantes y de los profesores. Las nuevas formas de estudio, de lectura y de aprendizaje de los usuarios dan como resultado nuevos modelos de biblioteca. [Martínez, 2008]
En este sentido, el modelo que está protagonizando una evolución importante en los últimos años es la llamada biblioteca digital. Ésta se convierte en un nuevo equipamiento donde el usuario puede encontrar otros servicios de manera integrada y sin tener que hacer largos desplazamientos. De este modo, la biblioteca se convierte en el verdadero centro de los recursos educativos básicos para la comunidad.
Las direcciones políticas y de gestión de las universidades ven en este nuevo modelo la posibilidad de centralizar servicios antes dispersados, duplicados y, algunas veces, inaccesibles, de poco uso y excesivamente caros. Éste es otro de los factores, junto con la facilidad de acceso a la información, determinantes en el éxito del nuevo modelo de biblioteca digital.
Conceptos clave de un repositorio virtual Facilidad de acceso Alfabetización múltiple Optimización de recursos Gestión de la información
Haciendo ejercicio de abstracción es posible imaginar que el modelo de biblioteca digital es una instancia de uno más global y abstracto, el repositorio virtual, cuyas aplicaciones no solamente estarán ligadas a la enseñanza sino a muchos otros campos, como la dirección y gestión de proyectos o la distribución de cualquier tipo de material digital.
Los conceptos clave de un repositorio virtual son los siguientes:
[Mac Kee, 2007]
Con un repositorio se pretende crear un espacio de convergencia de servicios centrados en las necesidades de la comunidad o grupo de usuarios, mejorar la calidad de las tareas facilitando la interacción con documentos, personas y tecnología, tutelar el buen uso de los recursos informáticos y digitales, facilitar la producción de material y la investigación. Todo ello haciendo un uso eficiente de las TIC e intentando minimizar los costes de los sistemas tradicionales.
Actualmente existen varios sistemas de repositorios virtuales, entre los que destacan algunos por sus características innovadoras. Uno de ellos es DSpace, cuya primera versión fue desarrollada por el MIT (Massachusetts Institute of Technology) y HP Labs en 2002, y se inspira en el modelo de desarrollo utilizado por la Apache Foundation basado en la participación de la
comunidad de usuarios en el proceso de mejora de la aplicación. [Wikipedia, 2008] [ Dspace, 2008].
Como se ha comentado antes, estos repositorios se basan en la distribución de información digital contenida en ficheros o grupos de estos. Por ello, y teniendo en la mayoría de los casos ingentes cantidades de información, sería muy interesante aplicar alguna de las ramas de investigación del tratamiento de archivos a uno de estos sistemas de repositorio virtual. En este sentido la minería de documentos de textos, es uno de los campos, que a priori, pueden aportar una mejora en el rendimiento y la accesibilidad a la información.
El concepto de “Minería de Textos” se está usando cada vez más para referirse a todas aquellas tareas que, analizando grandes fragmentos de texto y los patrones que residen en ellos, intentan extraer información que probablemente sea útil [Sebastiani, 2002]. La principal diferencia entre la “Minería de Textos” y la “Minería de datos” es que en ésta última la información se obtiene normalmente de bases de datos, en la que la información está estructurada, por ello es mas sencillo que trabajar con documentos.
Como una de las partes de este proyecto va a centrarse en la “Clasificación de Textos” y las tareas que hay que realizar durante un proceso de minería de textos, a continuación se van a dar unas leves pinceladas para conocer un poco más la idea y cómo trabaja.
Fundamentalmente consiste en, a partir de un conjunto de documentos denominado Corpus, encontrar los que tienen un número considerable de palabras en común, y agruparlos en la misma categoría. Para conseguir esto, la primera tarea que se realiza es descomponer los textos en palabras con significado (esta acción es lo que se conoce como steaming). A continuación, se seleccionarán las llamadas tag words, tokens o palabras clave, con las que se construirá una matriz de ocurrencias. El motivo de elaborar esta tabla, a parte de lo representativo que resulta, es conseguir una estructura similar a las de las bases de datos para poder aplicar los algoritmos de Minería de Datos.
Sirva como ejemplo la siguiente forma de proceder; una vez construida la tabla, el algoritmo recibe el número de grupos que se van a formar. Seguidamente selecciona los n documentos que parecen representativos de lo n grupos, para acto seguido evaluar cada elemento comparando con el que ha sido elegido como representativo de su grupo. La comparación se basa en el número de palabras que tiene el documento y la ponderación que se le ha dado. Como se puede deducir la importancia de este algoritmo radica en la correcta elección de los documentos “maestros”.
Debido al nivel que han alcanzado estas técnicas, existen muchas formas de clasificar los documentos en base a la tabla y uno de los objetivos de este proyecto es exactamente el de conocerlas y plasmarlas en una aplicación.
2.
OBJETIVOS
El objetivo general de este proyecto consiste en desarrollar un sistema de recomendación basado en técnicas de minería de textos para el repositorio virtual DSpace, que actúe como un módulo de éste. De esta manera, el sistema podrá hacer sugerencias sobre los recursos que le pueden interesar a un usuario concreto basándose en su perfil y de manera automática.
Profundizando un poco más en los objetivos, se pretende:
Objetivos relacionados con los conocimientos
Objetivos relacionados con la aplicación
Desarrollar la capacidad de trabajo basado en la investigación y la obtención de información por mí mismo.
Desarrollar métodos para constituir y analizar el conjunto de documentos con el que se va a operar.
Conocer el procedimiento para la realización de un proyecto de mayor magnitud que los realizados hasta el momento, para su correcto desarrollo y documentación.
Desarrollar un parser eficaz para la división de los textos en unidades con significado.
Estudiar, caracterizar y analizar los problemas de minería de datos, y mas concretamente los relacionados con la minería de textos.
Implementar algoritmos de minería de textos ya existentes, y/o realizar modificaciones sobre ellos.
Profundizar en los algoritmos existentes que se aplican a este tipo de problemas y, si surge la ocasión, mejorarlos.
Construir una interfaz sencilla, usable y accesible.
Ampliar los conocimientos del lenguaje de programación JAVA 2 y su entorno de desarrollo.
Conseguir acoplar el nuevo módulo dentro del sistema DSpace y que se integre correctamente con él.
Ampliar los conocimientos sobre repositorios virtuales, y concretamente, sobre DSpace.
Como objetivo personal me gustaría señalar el contribuir con la comunidad DSpace en la mejora de esta herramienta.
3.
FASES
DE
DESARROLLO
FASE DE PREPARACIÓN
En esta fase se realizará un estudio de las distintas herramientas necesarias para el desarrollo del proyecto, así como la instalación de la plataforma DSpace en una máquina que actuará como servidor de pruebas.
1. Instalar correctamente el servidor de DSpace bajo una plataforma Linux Ubuntu. El sistema corre sobre un servidor Apache Tomcat y una base de datos PostgreSQL. La instalación de ambos requisitos también se lleva a cabo en esta fase.
2. Estudio del funcionamiento interno de DSpace y obtención de información sobre cómo sería posible integrar el módulo de recomendación.
3. Desarrollar una pequeña aplicación capaz de introducir directamente en base de datos un conjunto amplio de documentos con los que ir probando los avances en el desarrollo.
4. Búsqueda y análisis de aplicaciones, librerías y algoritmos actuales sobre minería de textos.
5. Estudiar el lenguaje Java y su biblioteca de clases. Estudiar las técnicas de representación mediante XML.
6. Familiarización con IDE’s que permitan el desarrollo con JAVA, véase Borland JBuilder o Eclipse, y HTML/XML como puede ser DreamWeaver.
FASE DE DISEÑO
Una vez concluida la fase anterior, para abordar el desarrollo de la aplicación, hay que obtener tanto la arquitectura definitiva del problema como el diseño de la interfaz de forma que pueda ser implementada adecuadamente.
FASE DE IMPLEMENTACIÓN
En esta fase se desarrollará la aplicación con las herramientas decididas en la fase de preparación, teniendo en cuenta la arquitectura obtenida en la fase anterior.
FASE DE PRUEBAS
Las pruebas de la aplicación se realizarán de dos formas distintas. La primera consistirá en el control rutinario que se va haciendo contra el código mientras se desarrolla, para comprobar su correcto funcionamiento. En segundo lugar, y al finalizar el proceso de desarrollo se someterá la aplicación a un conjunto de pruebas diseñadas tanto para poner a prueba la interfaz como la funcionalidad de ésta.
FASE DE DOCUMENTACIÓN
La documentación del proyecto se realizará de manera paralela al desarrollo de las demás fases, siempre que esto sea posible. Ésta incluirá la memoria del mismo y manuales de código y de usuario.
4.
RECURSOS
RECURSOS HARDWARE
Durante el desarrollo del proyecto se hará uso de varias máquinas:
• Ordenador portátil Intel Centrino 1,8 Ghz’s, 1 Gb de memoria RAM y 80 Gb’s de disco duro.
• Ordenador sobremesa Intel Core 2 Quad Q6600 2,4 Ghz’s, 4 Gb’s de memoria RAM y 500 Gb’s de disco duro.
• Máquina servidora del laboratorio del grupo de investigación AYRNA.
RECURSOS SOFTWARE
• El sistema operativo que se utilizará será Linux Ubuntu 7.10 • Servidor http y contenedor de servlets, Apache Tomcat 5.5. • Sistema gestor de bases de datos PostgreSQL 8.2.
• Kit de desarrollo JDK 6 update 4. • Apache Ant 1.7.
• Repositorio virtual DSpace 1.4.2.
• Driver de acceso a bases de datos JDBC 2 • ECLIPSE, entorno de desarrollo Java.
• Para elaborar la documentación se usará el paquete Microsoft Office 2007.
• Como lector de documentos se va a utilizar Adobe Reader 8.
RECURSOS HUMANOS
Autor:
Germán Cuellar Jiménez DNI: 80154841W
Avenida de América 55, 4º - 2 14005, Córdoba
Directores:
Sebastián Ventura Soto.
Profesor del Departamento de Informática y Análisis Numérico de la Universidad de Córdoba.
Correo: [email protected]
Eva Gibaja Galindo.
Profesora del Departamento de Informática y Análisis Numérico de la Universidad de Córdoba.
Correo: [email protected]
5.
BIBLIOGRAFÍA
9 Sebastiani, F., Machine Learning in Automated Text Categorization. ACM Computing Surveys. Ed. Marzo 2002. Vol 34, No. 1. Pag. 1 – 47. 9 Wikipedia. DSpace, the free encyclopedia. [En línea]. [Consulta:
29/02/2008]. <http://en.wikipedia.org >.
9 Dspace. About DSpace. [En línea]. [Consulta: 06/03/2008].
<http://www.dspace.org/index.php?option=com_content&task=blogcateg ory&id=44&Itemid=156>.
9 Martínez, D. El centro de recursos para el aprendizaje, CRAI. El nuevo
modelo de biblioteca universitaria. Universitat Politécnica de Catalunya.
[En línea]. [Consulta: 29/02/2008]. <http://www.aab.es/pdfs/gtbu_crai.pdf>
9 Mac Kee, N. Los centros para el aprendizaje y la investigación, CRAI. Colegio de Bibliotecólogos del Perú. [En línea]. [Consulta: 1/03/2008]. <http://eprints.rclis.org/archive/00009065/01/mackee_crai.pdf>