Procedimiento para transformar en tesauros los vocabularios controlados de las bibliotecas asociadas a la red TIC del Proyecto VLIR en Cuba
184
0
0
Texto completo
(2) Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos estudios. Se autoriza su utilización bajo la licencia siguiente: Atribución- No Comercial- Compartir Igual. Para cualquier información contacte con: Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830 Teléfonos.: +53 01 42281503-1419.
(3) Un gran descubrimiento resuelve un gran problema, pero en la solución de cualquier problema hay una pizca de descubrimiento. Tu problema puede ser modesto, pero si es un reto para tu curiosidad y hace que entren en juego tus facultades de inventivas, y si lo resuelves con tus propios medios, experimentarás la tensión y gozarás el triunfo del descubrimiento. George Polya.
(4) Dedicatoria.
(5) Andisleydis Esta tesis está dedicada: A las mujeres que me sostuvieron cuando no podía sola. Que se bautizaron como madres cuando más lo necesitaba. A esas que el Señor puso en mi camino no para sustituir una montaña sino para glorificar su nombre. A esas que exigieron que me convirtiera en una persona de bien, valiéndome de mis conocimientos sin desmoronar nunca por orgullo el intelecto de mis semejantes aprovechando la calidad de testigo. A quienes detuvieron la represa de lágrimas que me ahogaban cuando no podía resolver mis problemas y me enseñaron a llenar esa profundidad con pequeñas rocallas, que poco a poco, me subieran nuevamente a la superficie. A esas mujeres que como simples mortales transformaron como verdaderas diosas mi mundo, llenando de amor y sabiduría mis días. A quienes inquietaron mis constantes olimpiadas y redujeron mi ritmo tomándome de la mano. A quienes sanaron con besos cálidos las llagas de desilusión que en ocasiones adornaban mi vida. A quienes cuando mis sábanas se rompían y las adversidades lucían tan reales nunca las cambiaron sino que ayudaron a remendarlas para dormir nuevamente sobre ellas. A esas mujeres que me enseñaron a no conformarme con la simplicidad porque impone silencio en mi obra y otorga un gusto desabrido a quienes la consumirán. A quienes me ayudaron a valorar en lo que me estoy convirtiendo, puntualizando que más que una simple bibliotecaria soy el medio para eternizar en el tiempo los tesoros de los remedios del alma. A Bárbara Marlene por traerme a este mundo, por elegir mi vida por encima de la suya, por a pesar de no verme crecer, tropezar, reír, llorar y amar, decidió que era mejor darme oxígeno y regalarme esos momentos. Estoy triste porque no te veo pero soy igual a ti, cuando me miro al espejo tú eres mi mano, mi voz, mi risa, mi sueño. A Benilda, una mujer que vino al mundo para ser mi abuela, sin embargo la vida y las circunstancias a su larga edad la llevó a ser más que eso, la convirtió en mi madre,.
(6) ella me regaló la oportunidad de sentir que era eso y no perderme el amor inquebrantable y sacrificado de ese ser que lo da todo por su pequeño y aún con 23 años continua batallando por mí. Esa mujer es mi montaña, mi fuerza, mi orgullo, mi ejemplo, mi vida, verdaderamente MI TODO. Te amo mamita. A Silvia, enérgica mujer que no se conformó con mi destino y decidió formar parte de él. Que ayudó a mi abuela con mi cuidado al punto de cargar con su hijo y conmigo en brazos, que se desvelaba con el solo hecho de pensar que estaba enferma. Le agradezco por brindarme una casa a la que llamar hogar. Extraño tus regaños porque detrás de ellos estaba tu amor de madre leona guiándome. Cito una de tus frases porque han facilitado mi vida en la Universidad: Habla poco y te entenderán Habla claro y te atenderán Habla alto y te escucharán Fuiste mi molde indiscutiblemente y hoy salgo airosa para gritarte que ¡Salí bien!, que ¡Me hiciste bien!, por ello aunque ya no te encuentres conmigo, donde quiera que estés sé que sigues velando por mí y estás orgullosa de la mujer que ha creado este aporte. Te idolatro mimi. A Nélida, esta mujer nunca pensé que fuera a ocupar un lugar en mi corazón, nunca pensé recibir un amor tan limpio y desinteresado, nunca creí que sería un faro para iluminar mis actos, nunca pensé que sus oídos serían mis confidentes y sus ojos mi espejo de crítica, por eso sin nunca pensar te has convertido en alguien muy especial. Te quiero mima. Hago un pequeño espacio para alguien que no lleva el nombre de madre pero es igual de especial: A mi tío Pedro Pablo, el hombre que se convirtió en mi guardián, que me abrazó fuertemente en su coraza para no perderme, que sin necesidad ni obligación me sostuvo y quiso como hija propia, que no me abandonó a mi suerte sino que me ayudó a encontrarla, y aunque no lleve el nombre de padre para mí lo es porque soy testimonio de su entrega y amor. Sin ti no sería nadie, te quiero. Sencillamente no alcanzan las palabras para agradecerles lo que han hecho por mí, solo resta decir que por ustedes soy quien soy y estoy donde estoy y que eternamente estaré.
(7) en gratitud por haberme convertido y ayudado a vivir la vida como una LOCA INCONCUSA..
(8) Lisbely Dedico esta Tesis A esas personas que siempre han confiado en mí, que sabían que podía llegar a ser alguien en esta vida y que nunca me abandonaron cuando quería desistir (por esos caprichos de niñita consentida). A aquellos que me enseñaron que si el camino es largo y difícil es el camino correcto, que siempre se debe hacer bien sin esperar nada a cambio porque algún día esas acciones la vida te las devolverá multiplicadas, a ser valiente, decidida, divertida y amorosa, a no pensar en el que dirán, a hacer valer mis decisiones por encima de todo y a respetarme porque cuando uno se respeta a sí mismo tiene las agallas suficientes para respetar a los demás. En fin, a mi abuelo Carlos que aunque me duró poco tiempo en esta vida me regaló los mejores días de mi infancia. Siempre bueno, que digo, buenísimo, noble, sincero, todos te querían, por eso vivo orgullosa de ti y donde me pare digo: ¡yo soy la nieta de CARLOS RIVAS! Para mí no hay mejor hombre en este mundo que tú, yo sé, que desde lejos siempre has guiado mis pasos, que me cuidas y que estas muy orgulloso de tu NIETA.. Te amo y siempre estás conmigo. A mi Mamita Linda, que siempre ha batallado conmigo, que ha sufrido mis derrotas y ha gozado de mis victorias. Tú fuiste el motor de arranque para seguir cuando ya no podía más, cuando dije: ¡no me gusta la Universidad, no quiero estudiar, esta carrera no me gusta!, tú me hiciste entender que lo que estaba haciendo era lo correcto y que lo más importante en esta vida es la superación personal y que no me debo conformar. A esta mujer que me apoya en todo, que vive orgullosa de su hija, que me defiende a capa y espada, que más que MADRE es mi AMIGA, que lo dió todo para que yo estudiará porque sabía que podía, para que logrará esta carrera universitaria a pesar de todos los contratiempos y situaciones que la vida y el destino se encargaron de poner en nuestros caminos. A ti que con regaños y castigos hiciste de mí la MUJER que hoy soy, con.
(9) defectos como todos pero también con muchas virtudes, a ti, DANAY RIVAS, luchadora incansable, va dedicada esta Tesis.. Te amo con mi vida, lo eres todo para mí..
(10) Agradecimientos.
(11) Andisleydis A mi hermano que me condujo en hombros a pesar de convertirme día a día en una carga más pesada, nunca se quejó, nunca se cayó, siempre llegó. A mi hermana por ser mi reloj viejo, que a pesar de estar llena de problemas siempre estuvo ahí, siempre estuvo al día, siempre lo llenó todo con amor. Tú me demostraste que se puede ser grande si se quiere, solo hay que desearlo lo suficiente y el mundo entero lo creerá, eres ejemplo de esfuerzo y en ti pensé todos los días cuando me cansaba el solo hecho de abrir la tesis. A Dianelys (mi flaqui) que sin llevar mi sangre supo convertirse en una hermana. Por dedicarme su tiempo cuando no le alcanzaba ni para ella, por exigirme ser algo más que un monigote, por hacerme ver lo que estaba bien y mal, a la vez que me reprendía cuando me equivocaba o quería abandonar. Por demostrarme el valor de la amistad y cuando lo necesité decir las palabras exactas para apaciguarme. Hiciste cortas mis noches y largas las tuyas, contigo lo he compartido todo, gracias por existir y ayudarme a propugnar mis ideas, eres el fungus de mi vida. A Albertico, mi hermano, por recordarme lo que es estudiar y el esfuerzo que tuve que entregar para estar donde estoy. A mi tutor Amed por demostrarme que las cosas si se van hacer, deben hacerse bien, por enseñarme a no ser conformista, a aspirar a la grandeza, a no tener miedo al cambio, a aprender de los tropiezos, a ver que cuando las cosas se ponen difíciles es cuando se está demasiado cerca de lo que se busca pero aún no sé ve. A ese hombre que a pesar de que era quisquillosa fue paciente y aclaró todas mis dudas. Esta tesis tiene tu huella y gracias a ti nunca seré la misma, sufrí una metamorfosis y la investigación que se presenta es obra de ello. A mi tutora Asleny por tenderme la mano cuando más lo necesité, por consagrarme siempre un espacio en su agenda cuando le era difícil realizar las tareas con el tiempo que tenía, por brindarme sus útiles recomendaciones y nunca recibir una respuesta negativa cuando necesité verla. A mi tutor Luis Daniel por alentarme a que siempre expresara lo que sentía y lo que quería como resultado de esta tesis. Por estar atento por el avance de la misma hasta por.
(12) las redes sociales. Por no decir no cuando lo llamábamos constantemente con dudas o problemas tecnológicos. A Rosi (mi Chuchita) por en tan poco tiempo y con tan poca edad tener el valor de guiarme, cuidarme y quererme; por transformarse en un diablo despertador cuando me quedaba rendida por tantas horas de trabajo, y pedirme sin que me diera cuenta todos los días un poquito más. Has guiado mis pasos luego de tropezar con las piedras de mi camino y nunca has pedido que se te reconozca ese mérito. No empezaste conmigo desde cero, pero no te hizo falta para ganarte mi corazón porque eres grande, fiel, leal, y a los problemas les pones la cara de frente y eso lo admiro. Estoy agradecida por haberte conocido, te convertiste sin querer en alguien muy especial para mí. A mi novio Gabriel por ser exigente y convertir esta tesis en su prioridad, por sufrir en carne propia mis frustraciones, mis alegrías, mis llantos y mis dolores. Llegaste a mi vida en una etapa difícil y llena de retos, sin embargo, no te asustaste ni me dejaste sola cuando pensaba que el barco en el que estaba se hundiría. Contigo aprendí lo que es una relación indivisble y gracias ello convertimos las debilidades en fortalezas. Tu mano en ocasiones se convirtió en la mía cuando ya no podía continuar, más que novio fuiste amigo. Titi, tú me enseñaste a desear ser lo mejor en lo que hago, te lo agradezco. Pequi, esta tesis es tuya. A Gretica por su apoyo incondicional, por ayudarme en los momentos difíciles y brindarme palabras gratificantes que me permitieron rebasar muchos de ellos, en fin, por estar en la buenas y en las malas. Por tomarme de la mano y guiar mis primeros pasos como alumna ayudante para llegar a convertirme en lo que soy hoy. Por exigirme todos los días ser una persona de bien y cuando no quería enfrentarme en un aula a un grupo de estudiantes no se conformó y supó educarme para rebasar esa limitante. Gracias a ti crecí como persona y futura licenciada en Ciencias de la Información. Nena supiste pasar el límite de profe y convertirte en AMIGA. A mi papá por su cariño y ayuda. A mi primo Fernando por levantarme el ánimo cuando las cosas no salían como quería y siempre perdía información por fallos tecnológicos. Gracias por no gritar, no reír, gracias por ayudar..
(13) A mi primo Lester y Odett por su constante preocupación por el progreso de la tesis. Por sus cómicas historias que a veces ayudaban a desestresarme. Por sus locuras de todos los días que me hacían reír hasta llorar. A esas dos personas que en todo momento me tendieron la mano y en lo que me hizo falta dijeron PRESENTE. A mi primo Victor por quererme e impulsarme a ser mejor cada día. A mis tías María y Julia Amelia por su comprensión, atención y confianza. A Luna por joderme siempre con la tesis pero como un padre brindarme siempre su apoyo tanto material como espiritual. A mis profesores por transmitirme sus conocimientos, sus experiencias, por tomarme como discípula y guiar mi formación. A los que ya no están pero aun lejos continuan pendientes de mi. A mis compañeras por convertirse en camaradas y regalarme los mejores cinco años de mi vida, a esas con las que compartí viajes, salidas, risas, secretos, peleas, a esas que me soportaron todos los días, que a pesar de ser diferentes supimos ver lo mejor de cada una y aprendimos a convivir, a esas que siempre querré y donde quiera que el destino nos llevé serán recordadas con lágrimas, pero con alegría, como mis guaris: Dianelys, Marialys, Anabel, Lisbelys, Marcia, Adriana, Claudia D, Claudia T, Marbelys, Beatriz. A Liliana González y José Antonio López porque sus granitos de arena bajo arduas jornadas de trabajo impulsaron el resultado de la investigación. A mi primo Victor por quererme e impulsarme a ser mejor cada día. Al PA de Gabi por ser ejemplo intransigente de superación, por convertirse en alguien especial en mi vida y enseñarme siempre cosas nuevas, por cultivar las ansias de ser importante en la profesión que ejerceré en un futuro no muy lejano, por preocuparse y brindarme la mano, muchas gracias. A Ayita por su cariño incondicional, apoyo y amor infinito, por considerarme algo más que una nuera, imaginarme una hija. A Lisbelys, Danay y Yolanda por brindarme su hogar y apoyo, por aguantar mis locuras y aconsejarme siempre que lo necesité. Danay tu ayuda y hospitalidad facilitó el desarrollo de esta tesis. A toda mi familia por ser mi mayor sostén y darme fuerzas para seguir adelante..
(14) Para todos los que creyeron en mí y no dudaron en lo que podía ofrecer, muchas gracias, con cariño Andisleydis.
(15) Lisbely A mi mamita querida porque nunca se rindió, por toda la paciencia y dedicación que me ha tenido todos estos años. A mi abuela Yolanda que apoyó estos cinco años de la Universidad incondicionalmente a mi mamá y a mí. Esta que aunque no lo demuestre por su carácter tan fuerte nos quiere mucho y bien. A mis padrinos Amarilis y Ariel, a ustedes que siempre nos han apoyado en la buenas y en las malas, que me aconsejan, que más que mis padrinos son mis tíos, mis amigos, que desde pequeña me protegen y quieren, les agradezco desde el fondo de mi corazón, por eso digo que mis padres no pudieron hacer mejor elección. A Carli, que más que más que primo es mi hermano, a ti y a Daimet que me ayudaron hacer la boleta cuando no sabía ni que quería estudiar, que me dijeron que la Universidad es una de las experiencias más grandes de nuestras vidas, gracias. A mi papá, por su cariño y ayuda. A Amed, que desde que empecé la carrera de Ciencias de la Información dijo que sería mi tutor y aquí está, al pie del cañón. Siempre estuvo dispuesto, nunca me dio un no por respuesta. A ese que se entregó por completo a esta tesis y me dijo: ¡Tú puedes y la vas hacer, porque yo creo en ti sobrina!, Muchas gracias. A Asleni y Luis Daniel por dedicarme su tiempo, por ayudarme y por estar siempre al pendiente de la evolución de la tesis. A mis tres mosqueteras Ari, Rosy y Mirta que a pesar de no compartir las mismas carreras me han apoyado como han podido. A mis compañeras por permitirme compartir con ellas estos cinco años, por soportar mi mal humor en ocasiones, mis bromas pesadas, por ayudarme siempre que lo necesite y.
(16) por demostrarme que es cierto que cinco años son suficientes para acostumbrarse a esa vida tan agradable que compartimos y que tanto vamos a extrañar. A mi compañera Andy, por brindarme su apoyo. A mis profesores por ser ejemplos a seguir y por brindarme sus conocimientos. A Liliana que estando ocupada en sus tareas siempre me ayudó y estuvo dispuesta a cooperar en lo que hiciera falta. A todos aquellos que confiaron en mí y que me apoyaron, MUCHÍSIMAS GRACIAS de todo corazón. Lisbely.
(17) Resumen: los lenguajes controlados asociados a las normas para la construcción de tesauros, así como los modelos computacionales y sus diversos procedimientos, hacen posible la creación de un procedimiento para la automatización de tesauros en las bibliotecas asociadas a la Red TIC del Proyecto VLIR en Cuba. Se destaca en la investigación la aplicación de métodos matemáticos y las diversas técnicas como la Ley de Zip, TF-IDF, N-grams y Stop World Elimination, aportando un enfoque mixto predominantemente cuantitativo. La creación de un procedimiento que proporcione la transformación de los vocabularios controlados en un lenguaje interoperable, facilita la indización y la recuperación eficiente de la información, erradicando las problemáticas relacionadas a dichos fenómenos informacionales.. Palabras Clave: lenguajes controlados, lenguaje interoperable, modelos computacionales, procedimiento para la automatización de tesauros, bibliotecas, Red TIC..
(18) Abstract: The controlled languages associated with the standards for the construction of thesauri, as well as the computational models and their various procedures, make possible the creation of a procedure for the automation of thesauri in the libraries associated with the ICT Network of the VLIR project in Cuba. The application of mathematical methods and the various techniques such as Zip Law, TF-IDF, N-grams and Stop World Elimination are highlighted in the research, providing a predominantly quantitative mixed approach. The creation of a procedure that provides the transformation of the controlled vocabularies in an interoperable language, facilitates the indexing and the efficient recovery of the information, eradicating the problems related to said informational phenomena.. Keywords: controlled languages, interoperable language, computer models, procedure for the automation of thesaurus, libraries, ICT Network.. Title: Procedure to transform in to thesauri the controlled vocabularies of the libraries associated with the ICT Network of the VLIR Project in Cuba..
(19) Tabla de Contenido Introducción: .................................................................................................................................................. 1 Capítulo 1: Referentes Teóricos sobre procedimientos para transformar los vocabularios controlados en Tesauros ............................................................................................................................. 7 1 .1 Vocabulario. Concepto..................................................................................................................... 7 1.1.1 Vocabularios Controlados ......................................................................................................... 8 1.2 Modelos Computacionales y Normas para la Automatización de Tesauros .......................... 20 1.3 Procedimientos para la Construcción Automática de Tesauros............................................... 28 Capítulo 2: Referentes Metodológicos de la Investigación .................................................................. 38 2.1 Tipo de Estudio: ............................................................................................................................... 38 2.2 Espacio físico y temporal de la investigación .............................................................................. 38 2.3 Etapas de Investigación .................................................................................................................. 40 2.4 Objeto y Campo de Investigación de la Investigación ............................................................... 40 2.5 Métodos de Investigación ............................................................................................................... 41 2.6 Técnicas de investigación .............................................................................................................. 43 2.7 Métodos Matemáticos ..................................................................................................................... 50 2.9 Población y muestra: ....................................................................................................................... 60 2.10 Operacionalización de la Variable .............................................................................................. 61 2.11 Limitaciones del Estudio ............................................................................................................... 64 Capítulo 3. Procedimento para transformar en tesauros los vocabularios controlados de las bibliotecas asociadas a la Red TIC del Proyecto VLIR en Cuba. ....................................................... 65 3.1 Diagnóstico de los Procesos de Indización en las Bibliotecas asociadas a la Red TIC del Proyecto VLIR ......................................................................................................................................... 65 3.2 Procedimiento para la construcción de Tesauros....................................................................... 72 Conclusiones: ............................................................................................................................................ 100 Recomendaciones:................................................................................................................................... 101 Bibliografía: ................................................................................................................................................ 102 Anexos ....................................................................................................................................................... 118.
(20) Introducción: En los últimos años se ha evidenciado un crecimiento de la producción documental en el ambiente digital. Lo anterior supone el empleo de nuevas técnicas para el procesamiento que satisfagan necesidades de los usuarios y sistemas de información. Ante estos cambios se hace necesario que tanto el emisor como el receptor de la información logren entenderse en un entorno en el que cada vez existe mayor auge del documento electrónico, lo que conlleva al aumento del ruido, que entorpece el proceso de comunicación. Para dar respuesta a esta necesidad surgen los lenguajes documentales. Martín (2009, p. 1) los define como “sistema artificial de signos utilizados en las operaciones de indización que permite la representación de contenido documental para su posterior recuperación, sirviendo como medio para la interrogación, recuperación y difusión de información pertinente para el usuario.” Con base en lo expuesto se tiene que la indización es un proceso comunicacional donde:. Ilustración 1 Modelo de comunicación de la indización Fuente: elaboración Propia. Los tesauros y otros lenguajes controlados impresos en formatos duros y gestados por bases de datos son el punto de mira de la mayoría de las investigaciones encaminadas a estudiar su uso en la Web 3.0. Para ello se han evolucionado de grandes sistemas de etiquetado hasta sistemas que sirven de soporte a la Web 3.0 mediante el uso de tecnologías de última generación, entre las que se encuentra Extensible Markup Language1 (XML), Resource Description Framework2 (RDF), Web Ontology Language3 (OWL) y Simple Knowledge Organization System4 (SKOS).. 1. Lenguaje de Marcado Extensible: es un meta-lenguaje que permite definir lenguajes de marcas desarrollado por el World Wide Web Consortium o W3C (Consorcio Mundial de la red).. 1.
(21) SKOS permite aprovechar la estructura base y el contenido de los esquemas conceptuales. De estos últimos se valen las listas de encabezamiento de materia, taxonomías, folksonomías, esquemas de clasificación, terminologías y tesauros para la descripción de los contenidos orientado a mejorar los sistemas de organización del conocimiento. Un tesauro que se represente mediante SKOS mantiene sus propiedades, al contar con un lenguaje de alto nivel y exigencia lógica como RDF se pueden vitalizar mejores lenguajes e interconectar los desarrollados y especificados por SKOS. Los cambios que han operado en la concepción de la web y de los sistemas de información documental hacen necesaria la búsqueda de metodologías eficientes para que los sistemas soportados en lenguajes controlados evolucionen a sistemas cada vez más eficientes. Dichos procedimientos para el ámbito de la web semántica han sido descritos por varios autores como Pastor (1992), Moreiro et al. (1999), Pastor (2009), Fernández (2010) y Cavieres et al. (2010), sin embargo ninguno es eficiente para una red de bibliotecas dado que sus aportaciones solo han sido usadas en determinados dominios o en determinados contextos y en una red de bibliotecas abunda la pluralidad de metodologías y formas de construcción de léxicos. Por ello constituye un reto resolver este problema para una red de bibliotecas universitarias como las de la Red TIC del Proyecto VLIR en Cuba. Las primeras aproximaciones a estos trabajos surgen en la década del 60 en los Estados Unidos (EE.UU) en actividades de las Ciencias de la Computación, conducidas a la extracción de palabras clave relacionadas con la actividad de recuperación de información. Estos aportes han evolucionado hasta hoy con las transformaciones de las estructuras de marcado para ontologías traducidas en diferentes esquemas de organización de la información. Por ello procesos de construcción automática mediante técnicas incrementales son ineficientes hasta para la construcción de léxicos controlados. Su alto apego a la lógica y su poca sensibilidad a los contextos y los dominios los hace inoperantes en algunos contextos.. 2. Marco de Descripción de Recursos: lenguaje de descripción de la W3C, para la descripción de vocabularios que permite no solo ordenar los datos, sino que mediante la representación de las propiedades y sentencias ofrece una mejor visión semántica de los datos. 3 Lenguaje de Ontología Web: lenguaje de marcado para publicar y compartir datos usando ontologías en la World Wide Web (Red Mundial). 4 Sistema simple de organización del conocimiento: iniciativa de la W3C en forma de aplicación de RDF que proporciona un modelo para representar la estructura básica y el contenido de esquemas conceptuales.. 2.
(22) La Red TIC del Proyecto VLIR está compuesta por diversas bibliotecas universitarias con diferencias en recursos humanos, tecnológicos y sus usuarios. En dichas bibliotecas existen dificultades para la recuperación de la información y para la interoperabilidad semántica de sus contenidos y/o documentos. No todas las bibliotecas indizan por igual, se cometen errores y falta de consistencia en los procesos de indización. La inadecuada indización dificulta la eficiencia de la recuperación de información, lo que influye en el desempeño de las plataformas usadas para gestionar la información en la red. Estas características imponen un reto al intentar desarrollar cualquier proceso normativo en el terreno de la indización para un entorno complejo y pluridisciplinar, siendo la primera vez que se asume una investigación en Ciencias de la Información en la Universidad Central “Marta Abreu” de Las Villas (UCLV) desde la lingüística computacional para resolver problemas de la recuperación de la información. Aportando procedimientos de índole teóricos en la indización, y a la vez introduciéndose en parcelas de las Ciencias de la Computación para resolver problemas de la Red TIC del Proyecto VLIR desde una óptica multidisciplinar.. Antecedentes: Se realizó una búsqueda a nivel nacional e internacional sobre investigaciones vinculadas a la materia que se trata en la investigación. Esta exploración arrojó resultados favorables a nivel internacional, sin embargo, no existen trabajos de este tipo en el país: . “Generación automática de tesauros. Propuesta de un método lingüístico-estadístico” (Moreiro et al., 1999). Se persigue diseñar y construir una plataforma de gestión de repositorios (tesauro de software) capaz de almacenar, procesar, gestionar y recuperar cualquier tipo de documento, sin importar su presentación, soporte y forma de acceso, para lograrlo se apoyan del tesauro de descriptores.. . “Proyecto de indexado automático para documentos en el campo de la física de altas energías” (Montejo, 2001). Dirigido por el Laboratorio Europeo de Física de Partículas (CERN) en Ginebra (Suíza) y encaminado a desarrollar un sistema automático de indexado por asignación. El indexado por asignación consiste en la selección de palabras clave dentro de un léxico controlado (en este caso un tesauro) que describan y resuman los conceptos más importantes tratados en un texto dado. El sistema propone palabras clave según el tesauro del laboratorio alemán DESY (Deutsche Elektronen-Synchrotron) a partir de artículos completos en inglés relacionados con Física de Altas Energías. 3.
(23) . “Building a web thesaurus from web link structure” (Creación de un diccionario de sinónimos web a partir de la estructura del enlace web) (Chen et al., 2003). Se propone un enfoque novedoso para la construcción automática de un tesauro específico de dominio desde la Web, utilizando información de estructura de enlace. El enfoque propuesto es capaz de identificar nuevos términos y reflejar la última relación entre los términos a medida que la Web evoluciona.. . “Los Tesauros en la Web Semántica: SKOS y la norma ISO 25964” (Pastor, 2015). Una lectura crítica de los procedimientos para la automatización de tesauros atendiendo a la aplicabilidad de la Norma ISO 25964 en SKOS.. . “Building thesaurus-based knowledge graph based on schema layer” o “Elaboración de un gráfico de conocimiento basado en tesauros apoyado en la capa de esquema” (Qiao et al., 2017). Usa técnicas de Big Data a partir de la función MapReduce5 para construir tesauros, las herramientas que sustentan ese desarrollo son los procesos de construcción de grafos a partir de reglas y heurísticas.. Planteamiento del problema: Las bibliotecas universitarias asociadas a la Red TIC del Proyecto VLIR en Cuba no han podido transformar en tesauros los vocabularios controlados que usan en la indización. En estas entidades los referidos procesos se ejecutan con herramientas en formato HTML o en soporte duro, lo que desfavorece la representación, la recuperación de la información y la categorización de la producción científica, todo ello para ambiente Web. Se deriva la siguiente interrogante científica: ¿Cómo transformar en tesauros los vocabularios controlados de las bibliotecas asociadas a la Red TIC del Proyecto VLIR en Cuba?. Como sistema de objetivos se propone: Objetivo General: proponer un procedimiento para transformar en tesauros los vocabularios controlados de las bibliotecas asociadas a la Red TIC del Proyecto VLIR en Cuba.. Objetivos Específicos: 1. Enunciar los referentes teóricos conceptuales y metodológicos sobre la construcción de tesauros a partir de vocabularios controlados. 5. Es un modelo de programación para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing (informática de productos básicos).. 4.
(24) 2. Diagnosticar el estado de la indización y los procesos de construcción de tesauros de las bibliotecas asociadas a la Red TIC del Proyecto VLIR en Cuba. 3. Elaborar un procedimiento para la construcción de tesauros en las bibliotecas asociadas a la Red TIC del Proyecto VLIR en Cuba.. Como preguntas de investigación se formulan: 1. ¿Cuáles son los referentes teóricos conceptuales y metodológicos sobre la construcción de tesauros a partir de vocabularios controlados? 2. ¿Qué estado presenta la indización y los procesos de construcción de tesauros en las bibliotecas universitarias asociadas a la Red TIC del Proyecto VLIR en Cuba? 3. ¿Cuáles son los pasos y requerimientos que necesitan las bibliotecas universitarias asociadas a la Red TIC del Proyecto VLIR en Cuba para la construcción de tesauros a partir de los vocabularios controlados que poseen? Se declara como justificación de la investigación: Este procedimiento permitirá transformar los vocabularios que hoy se utilizan en los procesos de indización en las bibliotecas universitarias de la Red TIC del Proyecto VLIR en Cuba garantizando consistencia y normalización en los procesos de indización. Además este procedimiento facilitará una recuperación eficiente de la información en las bibliotecas universitarias de dicho proyecto. Los mecanismos de control e inferencia semántica asociados a SKOS garantizaran que los errores de sinonimia, polisemia, exhaustividad y corrección léxica sean eliminados en aras de garantizar la búsqueda y recuperación de la información de forma efectiva, sin ruido y con altos valores de precisión y recobrado. Desde el punto de vista metodológico la investigación servirá de guía para la construcción de léxicos especializados al incluir los mecanismos de construcción basados en las reglas exigidas a nivel internacional. El impacto social de uso de la investigación estriba en que al contener datos estandarizados en formato SKOS las plataformas que usa y desarrolla la red podrán interpretar con otras plataformas con fines similares dando visibilidad a la ciencia de la Red TIC.. 5.
(25) Estructura capitular: La investigación consta con tres capítulos esencialmente organizados y constituidos siguiendo el hilo de los objetivos propuestos: En el primer capítulo apoyado de la revisión documental con un gran nivel de síntesis, se exponen los aspectos teóricos conceptuales referentes a la construcción de tesauros, se hace un recorrido por los lenguajes documentales que pretenden modelar una lógica deductiva al lector que no conozca sobre el tema. Se examinan y resumen una serie de modelos computacionales y normas para la automatización de tesauros con el objetivo de trazar los primeros pasos que se deben respetar durante este proceso, porque figuran su naturaleza y significado y de ellos se desprenden las vías que se escojan para aplicar los procedimientos para su construcción. El segundo capítulo refleja el desarrollo de la investigación en cuanto a las referencias metodológicas sobre las que se sustenta la misma, dígase enfoque, tipo de investigación, estructuración de las etapas transcurridas, el contexto en que se enmarca, la elección de la población y muestra, operacionalización de la variable objeto de estudio para elaborar el instrumento de medición, los métodos y técnicas utilizados, así como un pequeño análisis de las fuentes consultadas en su desarrollo. El capítulo tres proyecta los principales resultados obtenidos en la investigación a partir del procesamiento de las encuestas realizadas a los individuos referidos en el estudio, declarándose el comportamiento de los mismos antes los procesos de indización. Se declara en concreto lo referente a la construcción del tesauro a través de varias fases: selección del corpus documental, aplicación de técnicas discriminantes (programa AntConc), normalización de las técnicas, marcado (programa Protegé) y edición-difusión (programa Vocbench). Para el procesamiento y representación de las fuentes referenciadas en la investigación se utilizó la norma Harvard: Creating Your Reference List and Bibliography Using Harvard (Creando su lista de referencia y bibliografía usando Harvard) en su versión del 2008, adquiriéndose una correcta organización y equivalencia en la información plasmada en el cuerpo del trabajo y que respalda la presente investigación.. 6.
(26) Capítulo 1: Referentes Teóricos sobre procedimientos para transformar los vocabularios controlados en Tesauros El profesional de la información para poder crear un lenguaje controlado debe educarse y conocer primero sobre el lenguaje natural. Antes de analizar este conjunto de vocabularios que componen el lenguaje controlado, es necesario ante todo conocer cuál es la acepción del término vocabulario.. 1 .1 Vocabulario. Concepto Toda lengua posee un tesoro de términos léxicos, recogidos en su correspondiente Diccionario Académico, que están a disposición de todos los individuos de la comunidad lingüística. Pero cada uno de esos individuos ni posee, ni conoce, ni emplea de la misma manera ese caudal léxico. El léxico de una lengua puede ser analizado en tres niveles de utilización: a nivel del individuo hablante, a nivel de los grupos sociales que lo utilizan y a nivel de la propia lengua (GIAL, s.f).. Para un hablante, atendiendo al GIAL (s.f) el vocabulario es el “conjunto de términos lexicales que emplea para comunicarse.” Su vocabulario queda manifiesto y comprobable en el conjunto de textos orales o escritos a que dan lugar sus realizaciones lingüísticas, no olvidando que es más reducido el vocabulario que se suele emplear que el caudal léxico efectivo que se conoce. El léxico que comprendemos y el léxico que utilizamos son dos realidades distintas. Suele haber abundancia del primero y escasez del segundo. A esto se denomina vocabulario pasivo y activo, respectivamente (GIAL, s.f).. Las acepciones términos léxico y vocabularios no son sinónimos. La primera de ellas se expresa regularmente como el conjunto de vocablos o términos lexicales que tiene como oyente o lector un individuo lingüístico, o sea, que es capaz de interpretar y representar hechos y cosas, mientras que el segundo se entiende a la parte de ese léxico que ha pasado a ser actualizado lingüísticamente, esto es, que el individuo es capar de utilizar en sus comunicaciones (GIAL, s.f). En una dimensión cultural se asocia al vocabulario de una persona con su educación o nivel cultural. La variedad de palabras empleadas en la comunicación se relaciona con capacidad intelectual. La riqueza del vocabulario es un instrumento útil para la adaptación social y para comunicarse con éxito con más personas. El vocabulario empleado para hablar con un amigo difiere del utilizado para comunicarse con un superior jerárquico o un desconocido (Pérez y Merino, 2013).. 7.
(27) Si se centra en lo planteado por (Jorge, 2011, p. 196): En el léxico del español, el análisis del vocabulario se ha solido hacer fundamentalmente bajo tres perspectivas distintas: la perspectiva de la lexicografía tradicional, la perspectiva de los campos semánticos y, por último, la perspectiva de la familia de palabras. Son tres formas distintas de comprender el léxico de una lengua, es decir, tres formas de entender qué es el significado (Ver tabla 1).. Formas de entender que es el significado La lexicografía tradicional considera que el vocabulario de una lengua solo está formado por aquellas palabras que tienen un significado conceptual, es decir, solo forman parte del léxico las palabras que señalan una realidad determinada. La perspectiva de los campos semánticos considera que las palabras se asocian por analogía del significado, conformando estructuras. Parten de una idea conceptual del significado, es decir, no tienen en cuenta el valor invariante del significado, sino que agrupan las palabras por proximidad referencial, según el punto de vista del investigador. El estudio de la familia de palabras es un método que permite dar cuenta del verdadero entramado interno de las lenguas. Se puede definir las familias de palabras como estructuras abiertas de signos que comparten una misma significación primaria, unido a las variaciones gramaticales y denotativas de esa raíz, en definitiva, son todas las palabras que comparten un mismo lexema, ya sean palabras simples, derivadas o compuestas. Tabla 1. Formas de entender que es el significado. Fuente: (Jorge, 2011). El vocabulario es el elemento molecular del lenguaje, es el constituyente esencial en el aprendizaje de las restantes actividades lingüísticas (lectura, escritura, composición, conversación, etc.). La correlación del vocabulario con la inteligencia general ha sido mostrada por varios autores (Thermann, García Hoz o Superman). Su valor, como prueba intelectual, viene confirmada por su aparición en casi la totalidad de los tests intelectuales (GIAL. s.f).. Por tanto, el uso del vocabulario constituye la habilidad de mayor importancia en el desarrollo del proceso de aprendizaje de los individuos. Estos tienen una función reguladora y de control de la comunicación, por ello en dependencia de la actividad donde se especialicen se les denomina vocabularios libres y controlados. A continuación se especifica el caso que ocupa esta investigación.. 1.1.1 Vocabularios Controlados Los vocabularios controlados son herramientas gestadas en el terreno de la recuperación de la información cuya estructura sintáctica es un sistema de signos que transmiten significados en los 8.
(28) procesos de búsqueda y recuperación. Este tipo de lenguaje ha sido empleado de forma abierta en las Ciencias de la Información y se diferencia de la anteriormente descrita en varios aspectos siendo sus principales usos la indización y la recuperación de la información (Ver tabla 2). Fortalezas . Precisión al nombrar personas, instituciones. Debilidades . etc.. VOCABULARIO NATURAL. . Exhaustividad lo que facilita altos niveles de. intelectual (sinónimos; generalidad; etc.) . recuperación. . Actualización inmediata del vocabulario.. . Vocabulario del Autor.. . Palabras y frases del autor empleadas en la. La búsqueda requiere de un alto esfuerzo. Errores. de. sintaxis:. Problemas. por. asociación de palabras incorrectas. . La. Exhaustividad. puede. conducir. a. problemas de precisión.. búsqueda y recuperación de información. . Bajo Costo.. . Intercambio eficiente de la Información entre bases de datos.. . Facilita la búsqueda (sinónimos; formas de. . asociación; jerarquías).. VOCABULARIO CONTROLADO. . Supera los problemas de sintaxis con los. a los detalles. . términos compuestos. . resulta positivo y los indizadores pueden. En niveles normales de indicación elude la. Un activo en las bases de datos y los sistemas multilingüe.. Lagunas de exhaustividad, ya que el coste de la indización y el lenguaje natural. cometer errores de omisión.. pérdida de precisión. . Lagunas de especificidad si se desciende. . Actualización Periódica.. . Las palabras del autor pueden ser mal interpretadas y la elección de términos de indización erróneos puede traer pérdidas. . Para interrogar el sistema hay que conocer el lenguaje controlado.. . Alto costo. . Intercambio del material complejo por la incompatibilidad. de. los. lenguajes. controlados. Tabla 2. Comparación entre Vocabulario Natural y Controlado. Fuente: (Gil-Leiva, 2010). 9.
(29) Los altos niveles de especialización que presentan estos vocabularios hacen de ellos herramientas léxicas de tipologías diversas que operan en disimiles contextos y entidades informativas. En la actualidad sin el control léxico que ejerce cualquier lenguaje de indización los usuarios deberían escoger variadas opciones de búsqueda para cada uno de los términos empleados en el lenguaje natural. La falta de control léxico conllevaría a la pérdida de tiempo o a encontrase en la engorrosa situación de tener que seleccionar entre documentos de diferentes materias, pero con igual denominación, específicamente los que coincidan con el concepto al que se desea llegar. Es puntual destacar que su calidad puede medirse de formas diversas (Ver Anexo 1). A continuación se muestra un conjunto de vocabularios que facilitan este proceso de búsqueda. Lista de Encabezamientos de Materias Junca (2010, p. 12) afirma que “el origen de este tipo de lenguaje documental lo encontramos en Estados Unidos de América. Aparece por primera vez en 1876 de manos de Charles A. Cutter.” Charles era el bibliotecario en jefe del Ateneo de Boston cuando el gobierno de Estados Unidos le encomendó un estudio sobre la catalogación en las bibliotecas del país. El informe estaba compuesto por cuatro volúmenes, el último de los cuales contenía las Rules for a printed dictionary catalogue (Reglas para un catálogo de diccionario impreso), donde recoge las reglas para encontrar e indizar un documento según su materia. Surge ya el nombre de headings (encabezamientos) para designar los términos de indización (Junca, 2010). Bajo esa tesitura, ya se puede comenzar a hablar de materia como el argumento específico sobre el que trata un documento y como encabezamiento su práctica catalográfica, cuyo objetivo estaría encaminado a dar cuenta y hacer accesibles las publicaciones que posee una biblioteca. Constituye, además, atendiendo a lo que cataloga Martín (2009, p. 14) como: La expresión lingüística (palabra o conjunto de palabras) que representa el contenido temático de un documento y que se utiliza para hacer búsquedas en un catálogo, bibliografía o índice. Puede constar de un elemento, si el tema se expresa con un solo término, o de varios elementos, si el tema se expresa mediante la combinación de un conjunto de términos dispuestos en una cadena según unas reglas sintácticas preestablecidas. Esta sintaxis especial es la que precisamente diferencia los encabezamientos de materia de los descriptores (términos preferidos).. 10.
(30) La polisemia es un fenómeno del lenguaje que consiste en que una misma palabra tenga varios significados. Es intrínseca a la palabra materia, usada bien para indicar el argumento específico de una publicación como se expresó anteriormente o bien para expresar lingüísticamente en el interior de un lenguaje específico de indización el argumento que este encabezamiento representa, lo expuesto anteriormente se puede visualizar en la ilustración 2:. Ilustración 2. Objeto de los encabezamientos de materia. Fuente: elaboración propia. De ello puede deducirse que los encabezamientos de materia se emplean para designar la temática de un documento, sin embargo, es importante resaltar que no provienen del uso que un autor determinado hace de la terminología, sino del uso común y aceptado en la lengua de la institución y en la disciplina de la que proceden. El término reconocido como encabezamiento de materia puede no aparecer en la obra que se cataloga. Sin embargo, es el proceso de indización el que marca que se debe traducir los términos utilizados en el documento, procedentes del lenguaje natural, al lenguaje de indización, que por su propia naturaleza es siempre un lenguaje artificial (Departamento de Proceso Técnico de la Biblioteca Nacional de España, 2016). Según Castro y San Segundo (1999, p. 3) “las listas de encabezamientos de materia incorporan una estructura en la que la organización jerárquica es imperfecta y no se diferencian las relaciones jerárquicas y asociativas ya que ambas aparecen unidas en un mismo reenvío.” Igualmente afirman que un problema que se presenta es: La falta de actualización y adecuación de muchos encabezamientos y campos semánticos al lugar, sociedad, usuarios y momento en el que se están utilizando (…) desde un punto de vista técnico, en ocasiones faltan criterios lógicos o normativos que justifique tanto la selección de la terminología empleada como en la estructuración semántica (Castro y San Segundo, 1999, p. 6).. 11.
(31) Lo cual apunta hacia la conclusión de que no se actualizan con un grado de periodicidad requerida. Esto evidencia la necesidad de crear nuevos términos a medida que se emplean en las nuevas bibliografías y así brindar un mejor tratamiento al contenido para su recuperación. Los términos que se emplean en algunos casos son generales, repetidos y menos ricos. Esto conduce a la generación de falsas asignaciones temáticas y a la persistencia de problemas de consistencia entre indizadores y entidades de información. La situación descrita con anterioridad ha conllevado a que los usuarios no puedan realizar consultas con un nivel de homogeneidad. Clasificaciones y Taxonomías En los últimos años, son varios los Sistemas de Organización del Conocimiento (SOC) que se han utilizado con éxito para organizar la información en la World Wide Web 6 : desde los tradicionales sistemas de clasificación y tesauros, hasta las más novedosas taxonomías, ontologías y las redes semánticas (Fernández, 2007). Se les denomina taxonomía a los términos que a continuación se relacionan como si fueran sinónimos: las clasificaciones, taxonomías, tesauros y ontologías. En este subepígrafe se hará referencia a dos de ellos, a la taxonomía y a la clasificación por estar estrechamente ligados en el mundo documental, pero antes de profundizar en el término es importante destacar una aclaración terminológica: “Una taxonomía es otro nombre para una clasificación, un término que procede de la Biología, aunque se usa mucho también en ambientes informáticos y de gestión (management)” (Codina y Pedraza, 2017). Centelles (2005) indica una propuesta de definición para este término: “una taxonomía es un tipo de vocabulario controlado en que todos los términos están conectados mediante algún modelo estructural (jerárquico, arbóreo, facetado...) y especialmente orientado a los sistemas de navegación, organización y búsqueda de contenidos de los sitios web.” De acuerdo con Abed et al. (2009, p. 326): “una taxonomía es un proceso científico (o un sistema particular) de categorizar entidades, es decir, de organizarlas en grupos. Un sistema taxonómico debe ser claro y consistente, flexible, exhaustivo y práctico”.. 6. Red informática mundial: es un sistema de distribución de documentos de hipertexto o hipermedios interconectados y accesibles vía Internet.. 12.
(32) Por otro lado es indicado por (Noriega et al., 2015) como “la ley de los conjuntos o de las divisiones/que regula la ordenación.” Se sigue la idea de Abed et al. (2009) que plantean que la base para el desarrollo de una buena taxonomía son las características taxonómicas, que son las propiedades o atributos de los objetos que se categorizarán, y deben satisfacer ciertos requisitos, como lo muestra la siguiente ilustración:. Ilustración 3. Características de la taxonomía. Fuente: elaboración propia. Para profundizar en cada de las características visualizadas (Ver Anexo 2). La taxonomía juega un papel protagonista en el desarrollo de los sitios web, atendiendo a sus características, en la búsqueda de información. Los sistemas que permiten buscar contenidos en el entorno web pueden clasificarse en tres grandes tipos: de exploración ("browsing"), de recuperación ("searching") y de filtraje ("filtering") (Centelles, 2005). La complejidad de la arquitectura de los lenguajes de clasificación, ralentizan y hacen muy costosa la representación de grandes volúmenes de información. La multiplicidad de contenidos en la red, la interacción disciplinar y la comprensión sobre la naturaleza de la construcción de conocimientos de los dominios, apoyan propuestas taxonómicas basadas en categorías menos estructuradas y sin notaciones que reflejen las relaciones jerárquicas (Gruber, 1995). Otra forma de Estructura Taxonómica muy estudiada y gestada en la especialidad Ciencia de la Información son los Sistemas de Clasificación Documental.. 13.
(33) Si bien la diversidad de estos léxicos es amplia: Clasificación Decimal Universal (CDU), Clasificación Decimal de Dewey (CDD), Clasificación de la Biblioteca del Congreso (LCC), Clasificación Colonoda o Facetada de Ranganathan (CC), etc. desde el orden lingüístico la crítica fundamental a estos modelos tradicionales reside en su poca capacidad para perdurar en el tiempo y en los costos de su actualización. La aparición constante de fusiones disciplinares y el descubrimiento de nuevas comunidades de práctica con diversas necesidades de información hace de estos sistemas herramientas atascadas en el tiempo, superadas por algoritmos de clasificación en el entorno digital. Las nuevas necesidades de información que se gestan en los medios de comunicación, los cambios experimentados en objetos de información y los planos paradigmáticos, deparan para estos modelos de representación componentes transdisciplinares de mayor efectividad para la representación de los hiperenlaces. Con esta premisa se prevee la elaboración de múltiples ontologías conceptuales especializadas que se conecten en el ciberespacio (Montejo, 2001). Por esta razón Hjørland (2003) propone una clasificación orientada a las comunidades que hacen y usan el conocimiento y que por ello demandan estudios diferenciados de su comportamiento. Una clasificación menos trascendente, si se quiere, pero más efectiva en cuanto a la optimización del conocimiento, y sin dudas más cercana a los cambios por la vía del aprendizaje constante. Atendiendo a esto se evidencia que la clasificación taxonómica del conocimiento no es un proceso anquilosado y estático y su existencia en el terreno de las Ciencias de la Información estará en consonancia con la representación de la realidad, esta es la tarea que Beghtol (1988) reconoce que debe asumir la clasificación necesariamente definida lingüísticamente como herramienta pragmática de organización del conocimiento. El nuevo mundo para la clasificación y la taxonomía está dentro de las ontologías, formas de generar estructuras léxicas de carácter horizontal y transversal. Las ontologías han devenido modelos de innovación dentro de los sistemas de clasificación. Según Hernández (2007b) en una era destinada al uso ontológico, el contenido informacional no reside ahora solamente en el documento como unidad física, sino en la interactividad intangible de los mismos, así que el desarrollo de los lenguajes de marca intenta no solo aportar soluciones para la clasificación de estos recursos, sino servir de guía para la representación de los usuarios y de sus necesidades, temáticas. Las expresiones más complejas y completas de los lenguajes documentales. 14.
(34) tradicionales son los tesauros cuya estructura supera la organización taxonómica clásica y se basan en la ramificación y la asociación para lograr sus objetivos. Tesauros Los tesauros caracterizan las propiedades de los documentos haciendo referencia a sus contenidos y asociando a los mismos, grupos de descriptores escogidos de dichos tesauros. Su papel consiste en facilitar un lenguaje controlado que no dependa de la lengua natural del documento sino de un conjunto de términos normalizados (Codina y Pedraza, 2011). Pérez (2004) reconoce a los tesauros como un tipo de lenguaje combinatorio que consta de listas de términos que representan un ámbito científico y técnico determinado y que tiene una serie de relaciones semánticas entre los términos que lo conforman. Dichas relaciones semánticas se enmarcan en tres tipos: equivalencia, asociación y jerarquía. Este tipo de lenguajes documentales cuentan con una gran flexibilidad y capacidad de especialización, convirtiéndolos útiles en entornos de Recuperación de Información (RI) como Internet. En lugar de términos normalizados ¿por qué no utilizar la lengua natural del documento como hacen, por ejemplo, los motores de búsqueda? Existen varias razones propuestas por Codina y Pedraza (2011), entre las más importantes se encuentran: 1. Para aplicar una indización en lenguaje natural es necesario disponer de documentos de texto completo, y en algunos sistemas documentales se carece de los mismos. Uno de estos casos lo constituyen las bases de datos académicas de tipo referencial, en las que únicamente se puede trabajar con los datos de la referencia bibliográfica y a lo sumo un pequeño resumen. Es necesario para ello un lenguaje controlado como el que proporcionan los tesauros. 2. Algunos sistemas de información contienen documentos audiovisuales (y no textuales) como fotografías y vídeo. En tales casos el texto, cuando lo hay, es solo un complemento que contiene incluso menos información que en el caso de las bases de datos referenciales. 3. En ciertos entornos, aunque haya documentos de texto completo se ha observado que el sistema incrementa mucho sus prestaciones de cara a los usuarios si, además de la indización por texto completo, se puede utilizar un lenguaje controlado que ayude a los usuarios a explorar el fondo documental.. 15.
(35) Se puede declarar que el uso de un lenguaje natural en el proceso de indización no ofrece mayores oportunidades de almacenamiento, recuperación, acceso y difusión de la información, debido a que se hace complejo el tratamiento del documento por presentar las razones previamente enunciadas. Esto convierte los términos normalizados en una clara fortaleza a aprovechar en el proceso de descripción y representación del contenido de un documento, por constituir una vía rápida de exploración de un fondo documental, con mayores posibilidades de especificidad en la recuperación de registros pertinentes a una materia. Los tesauros tienen diferentes estructuras (Ver anexo 3), formas de interoperabilidad (Ver anexo 4), utilizan disímiles softwares para su construcción (Ver anexo 5). Según Codina y Pedraza (2011, p. 557), “los tesauros sirven para representar las necesidades de información de los usuarios, o sea las preguntas que formulan al sistema (los usuarios indizan las preguntas)”. Lo anterior expuesto convierte a los tesauros en intermediarios en un proceso de búsqueda de información que permite al usuario representar sus necesidades de información mediante el mismo sistema de descriptores que, preliminarmente, sirvió para indizar o representar el contenido de los documentos (Codina y Pedraza, 2011). Barcala (2015, p. 16) asegura que “lo interesante de los Tesauros radica en que por su estructura de búsqueda por términos postcoordinados, se recupera información pertinente y acotada a cada estrategia en particular.” Del examen anterior se deduce, que los tesauros se pueden usar para caracterizar las dos entradas de todo sistema de información documental: documentos y preguntas, esto quiere decir que un usuario puede encontrarse con una fórmula de búsqueda simple para determinado término, sin embargo, cuando selecciona uno de los posibles documentos que responden a dicha búsqueda, puede encontrarse con una serie de descriptores con los cuales se ha indizado el mismo y convertirse desde ese momento en posibles interrogantes a las que quisiera darle respuesta. Con ello los tesauros se transforman en una herramienta útil en el mejoramiento de las opciones de recuperación. Varios han sido los autores que han hecho alusión al concepto de tesauro en sus investigaciones. Dentro de las definiciones sobre el término que las autoras han considerado. 16.
(36) relevante citar a pesar de la antigüedad de su escritura, porque han sentado las bases para su posterior análisis (Ver Anexo 6). Un vocabulario controlado es el encargado de representar los conceptos, temas o contenido de los documentos mediante la asociación a los mismos de un conjunto de términos que presentan relaciones semánticas, para un mejor almacenamiento y recuperación de la información. Los autores Ramírez y Torres (2017, p. 53) aportan una nueva definición al conjunto de las ya existentes, pero no culminan aquí sus ideas, sino que respaldan la opinión de que: Frente a los lenguajes clasificatorios cuya función es describir el tema de un documento, los términos contenidos en un tesauro responden al análisis del texto o materia. Un tesauro recoge todos los conceptos y no sólo los que corresponden al título o el texto. Un único tema (aquello de lo que trata el documento) suele desarrollarse mediante una serie de ideas o conceptos que se pueden describir por medio de una serie de términos o descriptores. El tesauro incorporará todos esos términos en una base de datos y cada uno de ellos se convertirá en un punto de acceso para la recuperación del documento. La potencia de un tesauro radica, además, en la posibilidad de combinar todos esos términos o descriptores, lo que le convierte en un lenguaje combinatorio mucho más rico que los tradicionales encabezamientos de materias. Un tesauro es pues, una herramienta de control terminológico muy útil para el análisis, descripción y recuperación automatizados.. Se han descrito varias definiciones de los tesauros, pero es fundamental conocer algunas de sus funciones para determinar el grado de utilidad que presentan en la actualidad, algunas de ellas son las propuestas por Martínez (2015): 1. Normalizar el vocabulario de un dominio específico a fin de controlar las posibles entradas de búsqueda y recuperación de información mediante el uso del lenguaje natural utilizado por los usuarios. 2. Los tesauros no agrupan todos los términos de un dominio, como ocurre en los diccionarios especializados, sino que se encargan de agrupar aquellos que podrían ser utilizados por los usuarios en las consultas, por lo tanto, está concebido en función de las necesidades de los usuarios. 3. El tesauro trae inmerso relaciones verticales (jerarquías y/o niveles) y relaciones horizontales (categorías), que permite establecer telarañas entre términos de manera invisible para crear relaciones que facilitan la navegación entre diversos tópicos que complementan y perfeccionan temáticamente las búsquedas del usuario. 4. Es un lenguaje documental que responde a la particularidad, que la designación de términos descriptores, específicos y no descriptores que hacen parte de las relaciones jerárquicas, asociativas y equivalencia son propuestas por el bibliotecólogo y/o 17.
(37) documentalista en una estructura especializada. Esta es validada por usuarios especialistas quienes son el fin último que motiva la construcción del tesauro para la recuperación de información. 5. Los tesauros además de controlar la terminología existente en un dominio, cumple funciones recurso para la indización, clasificación temática, ordenación de fuentes especializadas y recuperación de información, previa validación del documentalista y especialista del dominio respectivamente, lo que asegura la calidad en el uso de términos inequívocos como descriptores de temáticas especializadas. 6. Es un lenguaje documental que facilita la indización y por ende la clasificación de las fuentes susceptibles de descripción, mediante la representación del contenido de los documentos con el uso de términos descriptores, que cuentan con estructuras invisibles de conocimiento especializado. 7. El tesauro debe controlar las posibles entradas utilizada por los usuarios en un sistema de información, de tal forma que brinde alternativas terminológicas que conduzcan a la obtención de resultados satisfactorios que se logran con la eficiente normalización y conformación de estructura y/o taxonomía del dominio especializado. 8. Generalmente el usuario desconoce la estructura mental que lo conduce a la temática propia de su necesidad de información, el tesauro mediante sus relaciones semánticas induce a éste a través de su taxonomía para seleccionar los términos descriptores a ser utilizados en el sistema de información que le permita la recuperación de fuentes que motiva la consulta. Los términos que conforman el tesauro se interrelacionan entre ellos bajo tres modalidades de relación, Martín (2009) los describe como: 1. Relación de equivalencia 2. Relación jerárquica 3. Relación asociativa Para complementar lo expuesto anteriormente remitirse al (Anexo 7): criterio estructural de los tesauros y (Anexo 8): tipos de relaciones y abreviaturas estándar. Lamarca (2013) refiere sobre los nuevos retos que están por venir y expone que hoy en día: Se precisa contar con un tesauro que pueda adaptarse a las necesidades de interoperabilidad y escalabilidad de la red, y que pueda soportar la capacidad y potencia estructural que ofrece un lenguaje como XML. El lenguaje XML sí puede ser un soporte adecuado para compartir. 18.
(38) bajo un estándar común y universal una herramienta de control terminológico como es un tesauro. XML aporta la estructura para que los sistemas sean interoperables, pero se precisan también una serie de herramientas que puedan mostrar las relaciones semánticas. Además, los tesauros en línea no son flexibles ni dinámicos ni pueden tratar objetos. De esta forma, se comenzaron a utilizar lenguajes, en conjunción con XML, que sí ofrecen una potente y rica estructuración semántica, como el lenguaje RDF, RDFSchema o lenguajes semánticos como DAM-OIL, OWL y el uso de todo tipo de esquemas y ontologías, que permiten marcar la información de tal forma que sea legible por máquina y de una forma flexible y dinámica.. En vista de que se ha tratado algunas de sus utilidades es necesario destacar algunas de sus limitaciones (Ver Anexo 9). Finalizando este apartado es necesario destacar que toda institución que pueda permitírselo debe hacer uso de un tesauro por las ventajas que proporciona. Constituyen una herramienta proveedora de mayores beneficios para la indización, la navegación y la recuperación de la información, no obstante, su uso y construcción obliga a respetar regulaciones en tanto que olvidarse de ellas culminaría en una inadecuada construcción léxica o en errores de indización. En efecto los tesauros ofrecen varias oportunidades, aun así, ¿Por qué migrar los clásicos tesauros a modelos computacionales más complejos? Apreciado bajo un enfoque unificador, se considera que en los tiempos actuales urge la necesidad de que se pueda representar la semántica de un dominio de manera que sea entendible para los humanos a la vez que procesable para las máquinas. A ello se le añade otros aspectos que hay que tomar en consideración: 1. La migración de tesauros a otros sistemas, requiere del incremento de la precisión de la semántica en las relaciones existentes en los tesauros. 2. Transformar los tesauros en sistemas computacionales de organización del conocimiento conlleva un determinado coste, a pesar de ello genera buenos beneficios por lo que se está consolidando una tendencia muy importante en el desarrollo de la lingüística computacional y las Ciencias de la Información. 3. Las operaciones que pueden realizarse en un tesauro son comprobar la idoneidad de un término o ver las relaciones existentes con otros términos. 4. Algunos sistemas y modelos computacionales para gestar tesauros ofrecen la habilidad de comprobar la consistencia de la misma y deducir la existencia de los objetos de forma automática.. 19.
(39) 5. Los beneficios añadidos por la consistencia y el razonamiento completo modelos computacionales para la indización, justifican el coste de la precisión en la semántica de sus relaciones (Carras, 2004). Los modelos computacionales para la automatización de tesauros aportan los lenguajes lógicos formales que permiten la ejecución de relaciones. Dichos lenguajes evolucionan de una estructura semántica ambigua y pobre a otra expresiva y precisa.. 1.2 Modelos Computacionales y Normas para la Automatización de Tesauros Normas para la construcción de tesauros Han sido muchas las normas y procedimientos dictados a nivel internacional para la construcción de tesauros y vocabularios desde que en 1970 Francia comenzara los esfuerzos en el desarrollo de las primeras normas internacionales, posteriormente se sumó Inglaterra. A continuación se realiza un análisis crítico de las normas de referencia para la construcción de léxicos: a) Todas presentan una relación referido a aspectos lingüísticos y a la elección de los términos (UNE, 1990). b) Sola las últimas versiones poseen miras en la interoperabilidad y el formato SKOS (Pastor, 2015). c) No permiten abordar las complejidades lingüísticas del ciberespacio por su rigidez en la construcción léxica (Hernández, 2007a). d) Los principios de construcción que sostienen se basan más en la indización del documento y del usuario que en la dimensión del dominio (Hjørland, 2003, Leiva, 2010). e) No constituyen una evolución hacia una estructura léxica reusable por otras aplicaciones (Obrst et al., 2007). f). No tiene en cuenta herramientas y procedimientos computacionales registrados por la lingüística computacional para construir vocabularios (Hernández, 2007).. Las normativas para la estructura interna y organización de un tesauro (Ver Anexo 10) son un elemento clave que complementa a las normas para la construcción general de estas herramientas.. 20.
Figure
+7
Documento similar