135
Capítulo 8 - CONCLUSIONES Y
POSIBLES TRABAJOS FUTUROS
8.1 Introducción
Se presentan estimaciones del impacto de la mejora introducida en el área de los repositorios digitales. Se indican posibles desarrollos futuros a partir de las bases sentadas.
8.2 Conclusiones
En el presente trabajo se han integrado diversas cuestiones que van desde conceptos del área de la bibliotecología hasta el estudio de normas y diferentes herramientas de interoperabilidad. El objetivo principal en este sentido, fue el de crear un marco teórico sobre el cual está inmerso un desarrollo que conlleva a la normalización de la información de un repositorio institucional, en este caso el perteneciente a SeDiCI (Servicio de Difusión de la Creación Intelectual de la UNLP).
Los repositorios institucionales, además de su cometido de almacenamiento, preservación y de las facilidades que adicionan para la recuperación de la información, constituyen una fuente de datos para estudios y estadísticas vinculadas a la producción científica de una institución, que se utilizan por las Secretarías de Ciencia y Técnica y otros organismos científicos superiores.
A pesar de estas aptitudes, la gran cantidad de información proveniente de diversas fuentes dificulta la normalización de los datos y metadatos y con ello se ven obstaculizadas las tareas de recuperación de la información por parte de los usuarios interesados en obtener documentos de un sistema de este tipo. Como se pudo apreciar, entre los problemas que se pueden detectar en la información contenida en un repositorio institucional, se encuentran: registros duplicados, clasificaciones duplicadas, información incompleta, información errónea, entre otros. En este tipo de repositorios, los datos de autores, títulos y temas son particularmente importantes para analizar la producción científica de la institución, por lo que para poder explotar una fuente de este tipo y automatizar la generación de indicadores de producción científica, por ejemplo por área, surge como necesidad que los datos estén normalizados, lo cual implica un análisis exhaustivo de los procesos técnicos vinculados a la catalogación del material.
Para la toma de decisiones, las instituciones deben basarse en la neutralidad y objetividad de los datos, más que en intuiciones, deseos y/o esperanzas. Las decisiones acertadas, se basan en datos objetivos y fiables.
Los métodos y algoritmos introducidos en el presente trabajo mejoran la calidad de los datos y por lo tanto, la calidad de la información obtenida. De este modo, con una buena calidad de información es posible realizar estudios a futuro y obtener avances a corto plazo, permitiendo así nuevas vías de exploración. Al aplicar las transformaciones desarrolladas, se optimiza el uso y se maximiza el aprovechamiento del material con que
136
cuenta la biblioteca digital, con la garantía de que el tratamiento que se realizó está apegado a reglas y estándares bibliotecarios, así como a las políticas internas del repositorio. Esto conlleva a facilitar los procesos de recuperación de información por parte de los usuarios,aumentando la cantidad de información relevante de las búsquedas, es decir, simplificando la tarea de acceder a la información y detectar qué datos son útiles y cuales no lo son.Asimismo, el desarrollo aquí propuesto permite optimizar los procesos de intercambio de información, debido a que la misma ahora estará en su mayoría normalizada. En un mundo cada vez más interconectado, y particularmente en un momento en que los repositorios institucionales tienden a abrir y compartir cada vez más su información en búsqueda de una mayor difusión, contar con datos que garanticen cierto nivel de calidad asegura una mejor exposición de la producción científica de la institución.
8.3 Trabajos Futuros
Dado que los procesos de normalización se aplican sobre todos los recursos recolectados, es primordial que los mismos sean implementados de forma eficiente. De lo contrario, es probable que las etapas de transformación y normalización se conviertan en un cuello de botella para el funcionamiento normal de aplicación. Debido a esto es importante considerar la realización de un estudio que permita medir y cuantificar la performance sobre los algoritmos que realizan la ejecución de los filtros, considerando un volumen de registros elevado, a fin de establecer la escalabilidad de la implementación, y determinar en caso de ser necesario, los cambios en las implementaciones, buscando primordialmente disminuir el impacto de estos componentes durante la ejecución de la aplicación de recolección (harvester). Esta cuantificación debe considerar el tiempo de ejecución de las transformaciones así como también los recursos de hardware que las mismas requieren durante ese tiempo, ya que podrían llegar a degradar el normal funcionamiento del repositorio en caso de un excesivo consumo de recursos.
Por otra parte, podrían implementarse nuevos filtros de transformación, por ejemplo, un filtro que incorpore a cierto documento la/s afiliación/es de su/s autor/es a partir de una base de datos de afiliaciones normalizadas. Asimismo, sería provechoso normalizar el dato que contiene el lugar de publicación de un documento, a partir de información tomada de una base de datos de revistas y publicaciones normalizada, como por ejemplo SHERPA-RoMEO. Otro caso que se puede considerar es realizar una normalización avanzada del tipo de documento (dc:type), el cual según el caso posee información sobre la versión o el tipo del ítem. En este sentido es viable desarrollar por ejemplo un nuevo filtro que utilice varios diccionarios de datos aceptando términos traducidos.
Utilizando los filtros desarrollados hasta el momento, podría pensarse en incorporar una herramienta gráfica al harvester que permita la creación de filtros o plejos o puestos utiliza do po eje plo d ag a d d op , de a e a de ue los mismos puedan combinarse de diferentes maneras cumpliendo distintas funciones dependiendo de cómo son fusionados.
Por último, el presente trabajo conduce hacia un futuro análisis respecto de las necesidades de normalización de datos requeridas a fin de lograr una integración con tecnologías semánticas.