Pràctica 8
Extracció automàtica de
terminologia
Índex
Introducció...3
Objectius...3
1. Obtenció de l’eina i lectura del manual d’usuari...4
2. Arxius disponibles per fer l'extracció de terminologia...4
3. Extracció de terminologia...4
4. Cerca automàtica d'equivalents de traducció...5
5. Extracció de termes monoparaula...5
6. Per ampliar coneixements: extracció de terminologia amb Okapi
Rainbow...6
Introducció
En aquesta pràctica farem servir un programa d’extracció automàtica de terminologia. L’extracció automàtica de terminologia consisteix a trobar un conjunt de candidats a terme a partir d’un text o conjunt de textos. També aprendrem a cercar automàticament els equivalents de traducció dins d'un corpus paral·lel.
Objectius
● Comprendre els fonaments bàsics de l’extracció automàtica de terminologia.
● Saber fer servir una eina d’extracció automàtica de terminologia gratuïta, de codi obert i de lliure distribució.
1. Obtenció de l’eina i lectura del manual d’usuari
En aquesta pràctica farem servir l'eina TES (Terminology Extraction Suite) que es pot descarregar de
http
://
lpg
. uoc
. edu
/ TES
. Aquesta plana redirecciona automàticament ahttp://sourceforge.net/projects/terminology-extraction-suite
des d'on hem d'anar a la pestanya Files. Es poden descarregar tres arxius zip (que cal descomprimir abans de fer-los servir):● TES-09.03-win.zip: és la versió per Windows, compilada en un executable. Feu servir aquesta versió si feu servir Windows
● TES-09.03.zip: conté els arxius font en Perl. Es poden executar a qualsevol sistema operatiu que tingui un intèrpret de Perl instal·lat.
● tes-09.03-mac.zip: és la versió per a MAC
En tots tres arxius es distribueixen els manuals d'usuari en diversos idiomes.
2. Arxius disponibles per fer l'extracció de terminologia
Amb els arxius corresponents a aquesta pràctica també trobareu diversos corpus:
● Diari Oficial de la Generalitat de Catalunya (DOGC) (català-castellà):
●corpus-DOGC-cat-spa.txt
●corpus-DOGC-spa-cat.txt
●corpus-DOGC-cat.txt
●corpus-DOGC-spa.txt
● ONU (Organización de las Naciones Unidas):.
●corpus-ONU-eng-spa.txt
●corpus-ONU-eng.txt
●corpus-ONU-spa.txt
● EMEA (European Medicines Agency):.
●corpus-EMEA-eng-spa.txt
●corpus-EMEA-eng.txt
●corpus-EMEA-spa.txt
3. Extracció de terminologia
4. Cerca automàtica d'equivalents de traducció
Per fer aquesta part podeu continuar amb l'exercici anterior o bé començar una nova extracció. Amb el corpus bilingüe que correspongui al vostre corpus de treball, seleccioneu automàticament els equivalents de traducció dels termes que heu seleccionat. Confeccioneu un glossari bilingüe d'almenys 50 termes.
En quants casos la primera proposta d'equivalent de traducció és la correcta?
5. Extracció de termes monoparaula
Una de les grans dificultats per a les tècniques d’extracció de terminologia és la detecció de termes monoparaula, és a dir, aquells termes formats per una única paraula. Per a les tècniques estadístiques, la dificultat rau en el fet que les combinacions d’una paraula són totes les paraules del text, i si filtrem per paraules buides el que obtenim és una llista de totes les paraules del corpus excepte les paraules buides.
L’extracció de terminologia de tipus lingüístic es troba amb la mateixa dificultat per detectar termes monoparaula. El model típic seria N (substantius), de manera que acabaríem extraient tots els substantius del text, i no únicament els que presenten algun interès des del punt de vista terminològic.
L’extracció automàtica de termes monoparaula no està resolta satisfactòriament des del punt de vista tècnic, però hi ha algunes tècniques que es poden aplicar:
● Filtrar els candidats obtinguts per una llista de “totes” les paraules generals de la llengua amb totes les seves formes (formari). D’aquesta manera obtindríem totes les paraules poc comunes, incloses les possibles faltes d’ortografia, i noms propis i paraules estrangeres. Aquesta tècnica no és satisfactòria perquè moltes paraules generals també són termes d’especialitat.
● Algunes especialitats tenen un elevat nombre de cultismes (pensem en la medicina, per exemple). Els cultismes es caracteritzen per acabar amb uns sufixos molt típics (per exemple -itis, en medicina). Detectant les paraules que acaben amb aquests sufixos podem fer una detecció d’aquest tipus de termes. Aquesta tècnica té l’inconvenient que no és prou general.
6. Per ampliar coneixements: extracció de terminologia
amb Okapi Rainbow
L'eina Okapi de Rainbow, que ja coneixeu de pràctiques anteriors, és capaç de portar a terme extracció automàtica de terminologia, però no la cerca automàtica d'equivalents de traducció. Per fer el procés d'extracció heu de fer:
Afegir un corpus monolingüe a la llista, fent Add Documents.
Anar a Utilities > Term extraction
S'obrirà una pantalla com la següent:
Aquí podem fer els ajustaments necessaris, entre els que cal destacar:
● La ruta de l'arxiu de resultats amb l'Output Path
● Si volem obrir en un navegador el fitxer de resultats amb Open the result file after completion
● El Minimum/Maximum number of words per term