Recursos de l’entorn experimental

In document Estratègies estadístiques aplicades a l'extracció automàtica de terminologia (página 106-109)

EXTRACCIÓ RECURSIVA DE TOKENS TERMINOLÒGICS

4.1 Recursos de l’entorn experimental

Per a la implementació del mètode TSR hem seleccionat un conjunt de recursos lingüístics que provenen d’un entorn real de treball terminolò- gic. En aquest sentit, hem volgut evitar la creació de recursos ad-hoc per al nostre propòsit experimental. D’una banda, els corpus d’especiali- tat que hem seleccionat provenen de l’Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra (UPF), el Centre de Ter- minologia Termcat i el Joint Research Centre de la Unió Europea. D’altra banda, els termes que ens serveixen per a l’avaluació dels resultats obtin- guts amb el mètode TSR i que anomenemtermes de referènciahan estat seleccionats manualment dels corpus d’especialitat per terminòlegs.

4.1.1

Corpus d’especialitat

Els corpus d’especialitat que hem utilitzat per a analitzar els resultats del mètode TSR han estat seleccionats pel fet de pertànyer a diferents àmbits d’especialitat, tenir un volum de contingut divers, estar disponibles en quatre llengües i també per disposar de tots els termes que hi són presents. La tipologia dels corpus d’especialitat seleccionats permet constatar la rendibilitat que ofereix el mètode TSR en cada un dels casos i veure si és possible l’extrapolació del mètode a altres corpus i llengües.

Dominis d’especialitat i llengües dels corpus

Els dominis d’especialitat dels corpus pertanyen a tres àmbits: l’econo- mia, la medicina i els serveis socials. En l’àmbit econòmics’utilitzen tres corpus provinents de l’Acquis Communautaire, que correspon a un con- junt de textos legislatius de la Unió Europea escrits des de 1950 fins a l’actualitat, els quals són compilats pel Joint Research Centre de la Unió Europea. Aquests corpus els tenim disponibles en tres llengües: anglès, francès i espanyol. El corpus en espanyol té un volum de 13.381 paraules, el corpus en anglès en té 7.863 i el corpus en francès en té 14.188.

Del mateixàmbit econòmictambé s’empra un corpus compilat per l’Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra (UPF). Aquest corpus és en espanyol i té un volum de 41.385 pa- raules.

De l’àmbit mèdics’empra un corpus compilat per l’IULA. Aquest corpus és en espanyol i té un volum de 98.532 paraules.

Pel que fa a l’àmbit dels serveis socials s’utilitzen un parell de corpus compilats pel Departament de Benestar Social i el Centre de Terminologia Termcat. Aquests corpus els tenim disponibles en dues llengües: en català i en espanyol. El corpus en espanyol té un volum de 26.855 paraules i el corpus en català en té 25.840.

Corpus d’entrenament i corpus de prova

Per tal d’avaluar la rendibilitat del mètode TSR, dividim els corpus d’es- pecialitat en dues parts: elcorpus d’entrenament, que correspon a la part del corpus d’on seleccionem els termes de referència que serviran de base per a extreure els termes presents en la resta del corpus, que anomenem corpus de prova. D’aquesta manera, podem comprovar quina capacitat té el mètode TSR d’extreure termes a partir d’una breu llista de termes de referència que pertanyen al mateix domini d’especialitat i que no són en el corpus de buidatge. El corpus d’entrenament correspon a un trenta per cent del contingut total del corpus i el corpus de prova correspon al setanta per cent restant del corpus.

4.1.2

Termes de referència

Els termes de referència que emprem en la nostra proposta experimental serveixen per a avaluar els resultats obtinguts amb el mètode TSR i ai- xí poder-los comparar amb els resultats que s’obtenen amb el mètode de freqüència. Corresponen a tots els termes extrets manualment per termi- nòlegs dels corpus d’especialitat que acabem de descriure i que hem fet

servir per a implementar el mètode TSR. Aquests termes ens han estat cedits pel Centre de Terminologia Termcat i l’Institut Universitari de Lin- güística Aplicada de la Universitat Pompeu Fabra.1

Tal com indiquem en l’apartat??, en la nostra proposta experimental ava- luem els resultats obtinguts amb termes bigrams; per aquest motiu, con- siderem solament els termes de referència bigrams que han estat extrets manualment dels corpus. Així, el nombre de termes bigrams presents en els corpus d’especialitat queda distribuït de la manera següent:

• Corpus d’economia en espanyol de l’IULA: 211 termes.

• Corpus d’economia en espanyol del JRC: 80 termes.

• Corpus d’economia en anglès del JRC: 97 termes.

• Corpus d’economia en francès del JRC: 76 termes.

• Corpus de medicina en espanyol de l’IULA: 307 termes.

• Corpus de serveis socials en espanyol del Termcat: 61 termes.

• Corpus de serveis socials en català del Termcat: 62 termes.

Aquests termes de referència ens serveixen per a definir la rendibilitat que pot oferir el mètode TSR en ser incorporat en un procés d’extracció au- tomàtica de terminologia. Tal com indiquen?, hi ha unes determinades propietats que mostren que un candidat és un terme i corresponen al ni- vell d’unithood, determhoodo de pertinença a l’àmbit d’especialitat (ús especialitzat) que tingui; ara bé, aquestes propietats no són gens clares d’identificar. Per aquest motiu, hem considerat oportú d’avaluar la nostra proposta experimental a partir de corpus dels quals disposéssim a priori tots els termes, i així poder identificar exactament el nombre de termes que permet recuperar el mètode TSR comparant-lo amb el mètode de fre- qüència, i extrapolar el mètode a altres àmbits.

1Agraïm sincerament la cessió desinteressada del buidatge terminològic dels corpus

In document Estratègies estadístiques aplicades a l'extracció automàtica de terminologia (página 106-109)