CONSTRUCCION DE UN SISTEMA FORMAL
DE RECUPERACION DE LEMAS Y FORMAS
DESDE CD-ROM
l. El Archivo Digital de Manuscritos y Textos Españoles
A fines del verano de 1992, la Sociedad Estatal del Quinto Centenario y la empresa MICRONET, S.A., en colaboración con la Biblioteca Nacional y una serie de universidades asociadas‘, han puesto a disposición del público el primer disco de ADMYTE (Archivo Digital de Manuscritos y Textos Españoles), en el que se incluyen, bajo el
doble formato de la reproducción en imágenes facsímiles y de la transcripción digital en código ASCII, ¡trás de 50 incunables de la Biblioteca Nacional. Este disco es el primero de una colección cuyo
propósito es la conservación del patrimonio cultural de estos
incunables y distintos textos españoles antiguos en soporte informático CD-ROM.2. El caudal léxico de ADMYTE
Es difícil determinar el número exacto de palabras digitalizadas en los documentos incluidos en el primer disco de ADMYT E. Haciendo un cálculo aproximativo se llega, sin embargo, a cifrar el número total de apariciones de palabras en tomo a los 4.600.000, de la siguiente manera: los documentos digitalizados ocupan en ADMYTE una cantidad de memoria informática de 32 megabytes (32.000.000 de bytes o caracteres); si se calcula la longitud media de la palabra
13a lndpit, XIII (1993)
castellana medieval en siete letras, el número de apariciones textuales de formas léxicas recogidas en ADMYTE asciende a los 4,6 millones apuntados, las cuales, una vez eliminadas las repeticiones, representan un caudal de voces aproximado de 160.0% formas léxicas distintas. 3. Dos sistemas de recuperación léxica en ADMYTE
Estas 160.000 formas se han reunido por orden alfabético en una Lista de Formas que permite la fácil localización de una palabra en los documentos por medio de un rápido sistema de búsqueda. De esta
manera se proporciona al usuario la posibilidad de realizar
indagaciones sobre el caudal léxico de ADMYTE en muy poco tiempo y por medio de sencillas instrucciones dadas al ordenador. En unos pocos segundos, el usuario puede saber si una fomia se halla contenida o no en los textos; y en caso afirmativo, puede obtener información sobre el documento o documentos a que pertenece cada una de ellas, conocer el número total de páginas en que aparece en cada documento, y finalmente acceder a uno o todos los contextos en que la fonna aparece en los documentos, según convenga.La enorme potencia de esta herramienta informática está reforzada por la de otro instrumento complementario: el Glosario de Lzmas, en el cual las formas castellanas de frecuencia superior a l de la Lista de Forums (46.918 formas diferentes) aparecen reorganizadas en virtud a su pertenencia a un paradigma léxico, representado por uno de los 11.165 lemas de que se compone el Glosario. Gracias al Glosario el usuario no pierde tiempo en buscar formas asociadas que aparecen en distintos lugares de la Lista de Formas debido a su variación gráfica, facilitándosele con ello la localización de la fonna deseada en el texto o textos en donde aparece.
4. la cobertura textual "del glosario de lemas
Nam 181
¡,2 Indpit, xm (1993)
absoluta media de 100 apariciones por palabra’, entonces obtenemos los siguientes resultados: 7.000.000 de caracteres, o 7 megabytes de memoria, correspondientes a estas palabras excluibles; restados del total de 32, quedan 25 megabytes de texto lematizable, de los que 721.000 caracteres (bytes) corresponden a las ¡estantes 103.000 fomias supuestamente castellanas y no lematizadas: o sea, un 3% del total, con lo que el número de formas textuales lematizadas se sitúa de nuevo en el 97%.
S. Estructura del glosario de lemas de ADMYTE
Las entradas del Glosario están estructuradas de la siguiente manera: por una parte está el lema, que encabeza la entrada y que se caracteriza por ser una palabra —que puede estar o no presente en los textos de ADMYTE— cuya función única y exclusiva es servir de etiqueta para representar un paradigma léxico; por otra parte está el contenido de la entrada, que consiste siempre en una lista de formas
que aparecen en los textos y que pertenecen al paradigma (o
paradigmas) representado por el lema.Además, el Glosario contiene su propia Lista de Formas, en las que aparecen listadas también por orden alfabético las formas que se encuentran clasificadas bajo alguno de los lemas del mismo. Partiendo de esta segunda Lista de Formas del Glosario, el usuario puede encontrar todas las formas relacionadas de esta manera con una forma dada simplemente con pulsar una tecla. El proceso es instantáneo, pues cada una de estas casi 47.000 formas de la Lista de Formas del Glosario va referida a un campo de memoria de la máquina que contiene el lema bajo el que se la ha clasificado, de modo que pulsando sobre cualquiera de las fonnas se ofrece en pantalla el lema y todas las formas asociadas a él.
La lematización se ha llevado a cabo sin consultar los contextos en que las fonnas aparecen en los textos, por dos razones:
En primer lugar, porque de haberse comprobado el contexto o contextos de cada forma antes de asignarle un lema, las horas de
26m: 13.3
trabajo necesarias para la confección del Glosario se hubieran
multiplicado de tal manera que la realización del mismo hubiera sido de todo punto inviable’.En segundo lugar, porque el soporte informático sobre el que está construido ADMYTE obliga a hallar una solución especial a los problemas de homonimia de algunas formas, y esta solución es necesariamente "indiferente" al valor que las formas puedan adquirir en un contexto dado. Si por un lado la intuición lingüística nos indica que la consulta de los contextos es fundamental a la hora de lematizar las formas, por otro la realidad léxica de ADMYTE, que es infomütica, hace ver lo inútil de esta tarea de consulta. Trataremos de ilustrar este punto por medio de un ejemplo: dada una forma léxica intrínseca
mente ambigua por su homonimia con otra forma, digamos moneda, es imposible —y esto es lo importante desde el punto de vista que se ha adoptado para ADMYTE- hacer una búsqueda por procedimientos informáticos en la que el programa ‘se salte", por ejemplo, la forma de la tercera persona del singular del presente de indicativo del verbo monedar, pero que se detenga cuando la forma moneda es el sustantivo. Es decir, como el Glosario de Lemus está concebido y articulado como una herramienta informática cuya función consiste en facilitar la búsqueda de formas en los documentos, los problemas de homonimia no tienen solución. O mejor, ni siquiera se plantean como problema. De esta manera, moneda (verbo) y moneda (sustantivo), son una misma y única forma en ADMYTE, independientemente de cuál sea su significado real en cada contexto particular.
Debe quedar claro que la forma que adopta este Glosario de Lanas ha venido impuesta por los condicionamientos informáticos aludidos, sin que en ningún momento se haya pretendido llegar a conclusión teórica alguna sobre como debe considerarse la estructura del léxico, o sobre la forma de llevar a cabo un diccionario informático,
aunque seguramente la solución dada aquí al problema de la
homonimia desde un punto de vista informático es algo que se impone’ Piénsese que el problema fundamental de hallar un criterio ¡nambiguo de
¡u lupa, xm (1993)
de forma racional e inevitable.
En cualquier caso, la estructura final del Glosario está
condicionada única y exclusivamente por los factores prácticos ya apuntados, y por los objetivos que se aspira a cumplir por medio del mismo, y que están fundamentalmente orientados a la búsqueda de palabras en los textos de los documentos. En este sentido, la función del Glosario de lanas consiste en mostrar al usuario cuáles de las formas posibles de entre las agrupables bajo un lema determinado están efectivamente presentes en los textos de los documentos‘.En relación con los problemas de homonimia importa poco si una forma se considera perteneciente a un paradigma o a otro, siempre que al usuario le sea posible discurrir bajo qué lema se encuentra listada una determinada forma en el Glosario. Es decir, el problema de lematización que ha habido que resolver a la hora de confeccionar esta herramienta de ADMYTE es sencillamente decidir, en cada uno de los casos de homonimia como el de moneda, bajo qué lema de los dos
posibles —o incluso tres a veces— se lematizan estas fonnas
homónimas. La labor llevada a cabo en la elaboración del Glosario ha consistido, pues, en dos cosas: la primera, en contestar a preguntas como la siguiente: ¿bajo qué lema aparecerá en el Glosario una forma como moneda: bajo MONEDA, bajo MONEDAR o bajo otro lema distinto de estos dos?; la segunda: una vez encontrada una nespuesta a esta pregunta, en mantener el criterio de lematización para el resto de los casos de homonimia.En las reglas de lematización que se dan al final de este artículo se encuentra la respuesta a cuestiones como ésta, y a otras a las cuales aún no nos hemos referido y que hallan allí su mejor planteamiento. Por ahora nos ha interesado dejar clara la estructura fundamental del Glosario: cada forma es única, por muy homónima que sea de otra u otras supuestas formas distintas. O por decirlo de
otra manera: los problemas de homonimia no lo son, sino de
Notas 1:5
polisemia. En estos casos, pues, sólo hay una forma, eso sl, con distintos significados, a los cuales ADMYTE se muestra indiferente. Pen) no es sólo la incapacidad de la máquina de discernir entre estos distintos significados lo que nos ha empujado a considerar todos los
casos de homonimia como casos de polisemia, y a ignorar las
diferencias de significado. Hay otra razón igualmente poderosa, que tiene que ver no ya con la limitación de los soportes informáticos, sino con los límites que se han impuesto al horizonte lexicográfico deADMYTE.
¡,5 Ildpü, xm (1913)
en problemas de índole teórica que internan la factibilidad de un proyecto como el del Glosario de ADMYTE dentro de las fronteras de la utopia. En pocas palabras, no hay razón teórica ninguna que libre al realizador del Glosario de tener que definir todos las formas
lematizadas, una vez que se ha decidido a definir las formas
homónimas. Piénsese que incluso si moneda sólo apareciera en los documentos como forma verbal, su homonimia intrínseca con el sustantivo requeriría que ellexicógrafo la definiera de todas formas. ¿Y qué decir del significado de todas aquellas palabras antiguas que el usuario puede desconocer? La realidad no ofrece escapatoria ninguna:una vez definidas algunas fonnas no se podria justificar el no
definirlas todas. Pero incluso en este último caso: ¿cómo justificar que la indicación ‘verbo’ o ‘sustantivo’ es suficiente para definir la forma nroncda en cada una de sus dos acepciones? ¿Dónde empieza y dónde termina la explicación del significado de las formas? Por este camino se entra de lleno en la cuestión teórica de los límites de la definición lexicográñca, lo cual no es —ni debe serlo- una preocupación deADMYTE.
El objetivo del Glosario de lemas de ADMYÏ E consiste, sencillamente, en agrupar las formas de los documentos bajo lemas que representen un paradigma (o paradigmas) a los que una forma puede pertenecer. En ste sentido importa poco que haya formas que puedan representar dos significados radicalmente distintos. Lo que importa es mantener un criterio de lematización fijo y coherente, de modo que el usuario sea capaz de manejar el Glosario y tenga un medio de encontrar la relación que existe entre las formas que aparecen en los documentos de ADMYTE. Todo ello orientado al fin de facilitar la búsqueda, por medio de procedimientos informáticos, de las formas que aparecen en los documentos.
6. Criterios de lematización
. . Las formas se han asignado a un lema de acuerdo a los
siguientes criterios:Mm: 137
su forma no reflexiva. El participio de pasado se comidera, a todos los efectos, forma verbal (incluidos los irregulares que hoy funcionan sólo como adjetivos, siempre que en el DRAE se les defina en primer lugar como participios de tal verbo), pero no así el de presente, que se lematiza aparte.
EXCLUIR < excluyo, excluiné, excluido, excluso, etc.
peroEXCLUYENTE < excluyente, excluyentes.
2) La forma moderna es siempre la preferida para establecer
el lema:
MUJER < mujer, mugier, muier, etc.
NACER < nacer, nascer, etc.
Cuando las formas de una palabra antigua se puedan repartir entre dos lemas modernos, vendrán clasificadas bajo los lemas que guarden mayor identidad gráfica con ellos:
celebro > CELEBRAR
cerebro, cerebros. > CEREBRO
3) Por lo general se respetan las equivalencias de lemas que propone el DRAE, y se uüliza como lema la forma preferida allí, con algunas condiciones:
a) Las formas deben tener la misma etimología y ser
perfectamente sinónimas (según el mismo DRAE):CALUMNIAR < calumniar, caloñar.
CONTRARIAR < contrariar, contrallar.
CONSTREÑIR < contreñir, constringir.
NUTRIR < nutrir, nudrir.
SOPLAR < soplar, sollar.
1,, napa, xm (1993)
bajo lemas diferentes:
DFZMERO < dezmero, dezmera, desmero, etc.
DIEZMERO < diezmero, diezmera, etc.
B) Aparte de variaciones de este tipo, las formas deberán diferir sólo en el prefijo (nunca en el sufijo) para ser lematizadas
conjuntamente bajo la forma preferida del DRAE, y si no son
absolutamente sinónimas, la forma preferida debe al menos incluir todo el significado de la forma no elegida:AMONEDAR < amonedar, monedar.
BAJAR < bajar, abajar.
LIMPIAR < limpiar, alimpiar.
ENNEGRECER < ennegnecer, negrecer.
4) Para evitar la distribución de las formas bajo un excesivo número de lemas, se ha tolerado cierta variabilidad en la consideración de la formas prefijadas. Se ha procurado con ello no dar lema propio a un número indeterminado de formas no representadas en el DRAE y que se distinguen de alguno de sus lemas tan sólo por la presencia o ausencia de un prefijo (por lo general A- o EN-), o por la variación en el uso de ellos. En estos casos se ha optado por subordinar estas formas a un lema mayoritario del DRAE que implique únicamente esta variación prefijal:
abatallar > BATALLAR
encomenzar > COMENZAR
encortar > ACORTAR
veriguar ‘> AVERIGUAR
. S) n Las palabras que sólo difieren en el sufijo, incluso si tienen el mismo significado, se lema tizan aparte, haciéndose caso omiso de las indicaciones del DRAE. Son sufijos diferentes a estos efectos:
mu: 139
-EAR, -ECER, -IR -0R, -URA, -ZON
Sin embargo, se consideran variantes los siguientes (y por tanto la forma se lematiza bajo el lema que el DRAE dé como preferido):
-AL, -AR
-ADGO, -ADO, -AZGO -MENTO, -MIENTO
6) Cuando una o más formas de una palabra son homónimas de otra u otras formas de otra palabra, se utiliza el lema de la palabra de paradigma más amplio para todo el paradigma de la palabra de paradigma menos incluyente (más sus posibles variantes), siendo así que el verbo prevalece sobre el adjetivo, y éste sobre el sustantivo:
MORAR :
"morar" moro, moras, mora, moramos, moráis, etc. "moro" moro, moros, mora, moras.
INFECCIONAR :
‘infeccionar’ infecciono, infeccione, infecciones, etc. "infección" infección, infecciones.
PAPAR :
"papar" papo, papas, papa, papudo, papada, etc.
"P4P" Pam Paras
‘papago’ papado, pfios, papadgo, papadgos.
‘papa a" papada, p as.
7) Si las formas homónimas pertenecen a dos verbos, se lematizan bajo uno solo de sus posibles lemas siguiendo un orden de conjugación, prevaleciendo la primera sobre la segunda:
ojo, oio > OJAR (no OIR)
sienta, siente > SENTAR (no SENTIR)
19o Inapit, XIII (1993)
vengo, venga > VENGAR (no VENIR)
vista, vistas > VER (no VESTIR)
Y si los dos verbos pertenecen a la misma conjugación, se ha adoptado como lema el infinitivo que guarda mayor parecido con la forma:
recuesta > RECUESTAR (no RECOSTAR)
APÉNDICE: El Glosario en ADMYfE-O
(por Francisco A. Martos Marin)
En el período trarscurrido entre la entrega del artículo del Dr. Mayor y su paso a la imprenta se ha publicado (verano de 1993) el disco 0 de ADMYTE, un disco de carácter más técnico, pues no contiene imágenes, sólo transcripciones, pero incluye un conjunto de programas, entre los que se cuentan PhiloBiblon, con las bases de datos bibliográficas del español antiguo, BETA/BOOST, del catalán antiguo, BITECA y del gallego-portugués (BITAP), TACT (en su versión especialmente construida para ADMYTE, con la inclusión de varias bases de datos ya generadas, entre las que merece destacarse la del Cancionero d: Baena) y UNITE. Los sesenta y cuatro títulos incluidos corresponden a transcripciones de manuscritos realizadas por diversos especialistas, acompañadas de las correspondientes introducciones y de todo el complejo sistema de búsquedas habitual en este archivo digital.
Este sistema de búsquedas es la razón de este apéndice. Por una parte es preciso señalar que el sistema de búsquedas por palabras se ha mejorado con la incorporación de un índice inverso, que convierte la búsqueda de centenares de ejemplos de sufijos en cuestión de escasos segundos y que es tramparente al usuario: éste ordena la búsqueda y el sistema decide si es más rápido hacerla por el índice directo o por el inverso, en función de los simbolos comodín que se incluyan.
192 lndpit, x111 (1993)
BIBLIOGRAFIA
ADMYTE, Archivo Digital d: Tartas y Manuscñtos Españoles. CD-ROM y Manual Español. Disco 1. Sociedad Estatal del Quinto Centenario MICRONET, S.A., Madrid, 1992.
MARCOS MARIN, Francisco, "Estándares y Estándar: ADMYTE, el Archivo Digital de Manuscritos y Textos Españoles y sus soluciones para codificar e intercambiar datos textuales", Actas del Congreso d: la