Ma« ftntènia Martí i Antonir.
Tesi Doctoral
"Processament i n f o r m à t i c del l l e n g u a t g e n a t u r a l s un sistema d ' a n à l i s i m o r f o l * s ; c * per o r d i n a d o r "
Departamunt d« F i l o l o g i a Rimanica
F a c u l t a t d» F i l o l o g i a d« l a U n i v e r s i t a t de Barcelona
Barcelona 1988
D i r e c t o r a , s
Ora. Teresa Cabré i Castellví
Tutor i
Dr. Jesús Tusào
1
m*z wtsmm i mam mmmimmm
At#s q u * l a M j c r i a d ' i n v e s t i g a c i o n s en el t e r r e n y d»
1 a L i n g ü i s t i c a Computacional s ' h a n desenvolupat sobre l a l l e n g u a anglesa i que, com se s a p , aquesta l l e n g u a presenta « a l t poques v a r i a n t » f l e x i v e s per a cada a r r e l , i a l a vegada moltes i r r e g u l a r i t a t s des del punt de v i s t a de l a i t o r f o l o g i a , l a » a j o r i a de l e s
i n v e s t i g a c i o n s en aquest t e r r e n y es basen en un d i c c i o n a r i que i n c l o u una a una t o t e s l e s v a r i a n t s f l e M Í v e s d ' u n mot. Això e x p l i c a l a «anca d ' i n t e r è s per un problema que en d ' a l t r e s l l e n g ü e s és b à s i c .
La M o r f o l o g i a Còmputacíona1 s ' h a desenvolupat fonamental«a>nt quan s'han i n i c i a t i n v e s t i g a c i o n s »obre l l e n g ü e s cum ara l ' a l e m a n y , el f r a n c é s , el c a t a l à , el c a s t e l l à , l ' i t a l i à , l ' à r a b , el f i n l a n d é s , e l r u s e t c . amb una f o r t a c a p a c i t a t f l e x i va i en l e s q u a l s e l reconeixement de l e s formes no es pot r e s o l d r e M i t j a n ç a n t el siniple r e c u r s a un d i c c i o n a r i .
.AJCJ-BJL» H l · l i J B t ] i a f l l a \ IHK J—JBjJU—»p*yÉJUdj&. aaJLJLW' w a t ¥*
L ' o e j o e i i y d'aquesta t « s i és l a c o n s t r u c c i ó d ' u n a n a l i t z a d o r mor+ològic de l a l l e n g u a c a t a l a n a qu«
rvcorHeflUi qua I»evoï v a r i a n t f i ex i v a o d e r i v a t i v a d ' u n « e t , m i t j a n ç a n t l a c o m b i n a t ò r i a de segments de f o r m e * • Ä grana t r e t a , • * t r a c t a de c o n s t r u i r un a n a l i t z a d o r Daiiat en un autòmat l e * r e g l e s del qual han de permetro l e s combinacions p o s s i b l e s d ' a r r e l s i sufiMO*t t a n t f l e x i u s coa d e r i v a t i u s , de l a l l e n g u a . Co« j a he« i n d i c a t en e l c a p í t o l a n t e r i o r » e l s a l t r e s components de l ' a n a l i t z a d o r sén e l s modela, e l s d i c c i o n a r i s d ' a r r e l s i s u f i x o s i e l s a t r i b u t «
• o r f o l è g i c s . L ' o f a j e c t i u de 1 ' a n a l i t z a d o r és d i s p o s a r del mànim de v o c a b u l a r i v i r t u a l en un espai de memoria
• i n i m •
E l s avantatges d'aquest a n a l i t z a d o r r e s p e c t e a l s a l t r e s sistemes que cíe« v i s t a 1 I . 3 s ó n :
- que ocupa un espai de memòria r e l a t i v a m e n t p e t i t respecte al volum de v o c a b u l a r i que permet r e c o n è i x e r §
- que el manteniment del d i c c i o n a r i és ktnm t a s c a s e n j i l l a : donar d ' a l t a o de baixa t o t a una f a m í l i a de paraules es r e s o l en pocs segons;
133
- que pot donar t e t a eetia d ' i n f o r m a c i ó , l è x i c a i m o r f o l ò g i c a , a l a * u n i t a t s d« 1 ' a n à l i s i ;
- que disposa d'uns programes d» manteniment que s i m p l i f i q u e n »1 t r e b a l l del l i n g ü i s t a .
- que disposa d ' u n mecanisme generador que f a c i l i t a
•1 c o n t r o l d»! v o c a b u l a r i que s ' a n a l i t z a .
L ' a n a l i t z a d o r , coa a instrument d ' a n à l i s i l i n g ü í s t i c a , es v# d i s s e n y a r de» del s u p ò s i t que l ' a n à l i s i d e l s mots, o s i es vol e l reconeixement de l e s f o r m e s , es produeix en ei samt i t d ' e s q u w r r a - d r e t a . i s por a i x ò que va« c o n s i d e r a r a d i e n t l a c o n s t r u c c i ó d* un a n a l i t z a d o r basat en un automat sarfeovià, que permeti»
#1 r e c o n e i x e m e n t / a n a l i s i de l e s f o r e e s en aquest
•MBrft i» * t »
fcl seoon s u p ò s i t en què es basa és l a p o s s i b i l i t a t d ' e s t a b l i r r e l a c i o n s de d i s t r i b u c i é e n t r e a l s e l e e e n t s i n t e g r a n t s del eot , que en 1 i n n ü í s t i c a s'anoeene«
morfemes, i que a q u í , per e v i t a r c o n f u s i o r s , anomenem ' s e g m e n t s ' í i í .
Cl» Per al t e e « de l a t e r e i n e l o f i « , vegeu I V . 2 . 2 . 1 .
Ür.a d « l a s l i m i t a c i o n s «As f o r t as amb què es t r o b a a q u e s t m o d e l , a l t r a m e n t com l a m a j o r i a d» s i s t e m e s d ' a n à l i s i m o r f o l ò g i c a a u t o m a t i t z a d a , és que 1 e n t r a d a de t e x t o s és t r a f i c a , l a qual cosa emmascara en c e r t a
• m i r « l a r e a l i t a t f é n i c a i*m\ l l « n g u a t g e .
Aquest ha e s t a t «1 m o t i u f o n a m e n t a l p e l q u a l hem c r e a t una n o m e n c l a t u r a p r ò p i a que permet d e s i g n a r l e s u n i t a t s d e f i n i d e s p « r a l a c o n s t r u c c i ó d#»
l ' a n a l i t z a d o r , a t é » q»*e no c o i n c i d e i x e n amb l e s u n i t a t s amb qt.è e s t r e b a l l a en l i n g ü í s t i c a en un s e n t i t » s t r i c t e .
Una a l t r a d» l e s c a r à c t e r i s t i t j u e s r e m a r c a b l e * de l ' A n a l i t z a d o r é s que perm«?t d i v e r s e s e s t r a t e g i w i t pUr» Ä
l ' a n à l i s i de l e s f o r m e s * t o t s « I s n i v e l I s i
- en 1 ' a s s i g n a c i ó d ' a t r i b u t s , - en l a s e g m e n t a c í t d» l e s f o r m e s , - en l a d e f i n i c i o »Jel s m o d e l s i ¡ - en e l d i s i ^ n y d « l ' a u t ò m a t .
L e l e c c i ó d ' u n a d e t e r m i n a d a ¿ a l u c i ó d ' w i t r e *••*
d i v e r s e s possibf.« . 1 *hem f e t a - ^ ' i t . s v t f i d f t en f u n c i ó d e l s a v a n t a t g e » q u « hem a n a t d e s c o b r i n t «n • • c o n s t r u c c i ó de 1 ' » n a l i t z a d o r .
135
La CPMCié d» l ' a n a l i t z a d o r li« suposat I c s -fas«» d«
t r e b a l l sequent«i
a > - D e f i n i r e l s c r i t e r i « d« segmentació d« l e s iormmm f i en i v e » i d o n a r - l c « «na nomenclatura.
b > - ft»r*upar e l s M t a m t i en models.
c > - D e f i n i r » I s c r i t e r i s de c l a s s i f i c a c i ó d e l s Models.
d > - Assignar a t r i b u t » a l e s formes r e s u l t a n t » de l a segmentació i a l s models.
e i - Determinar q u i n t i p u s d ' i n f o r m a c i ó s ' h a d«
donar í e l n i v e l l d ' a s s i g n a c i ó de l a i n f o r m a c i ó s a l s segments ( n i v e l l e s p e c í f i c ) o a l s models ( n i v e l l g e n è r i c ) .
f ) ~ C o n s t r u i r 1'autòmats
- d e f i n i r l e s e s t r a t è g i e s de c o m b i n a t ò r i a d e l s modals,
- d e f i n i r e l s e s t a t s de 1'«utòmat - d e f i n i r l e s r e g l e s .
L ' a n a l i t z a d o r duu a s s o c i a t un mecanisme, e l generador, que permet de g e n e r a r , a p a r t i r de caca a r r e l e n t r a d a al d i c c i o n a r i , t o t e s l e s f o r e e s que es poc an a n a l i t 2 * r a p a r t i r d ' a q u e s t a a r r e l • La c a p a c i t a t de generació v e , doncs, predeterminada per l ' à m b i t de v o c a b u l a r i que 1 ' a n a l i t z a d o r r e s o l .
Aqu»«t «morador té una doblo funció i
al- roroot controlar 1"abast do 1'«n*1itxadort
b>- pot utilitxar-oe on docoroinades aplicacions do la Linguistic* Computación*!, com ara 1« tradúcelo automática«
Atès que hem concebut el generador només com ur, mecanisme assocint a 1 'anal itiador morfològic, presentarem el tema des de la perspectiva tie 1'anàlisi, i nu de la generació.
A continuació exposem de «añera detallada )a metodologia que hem emprat en la segmentació ele les formes, la dofinic i i dels models i la construcció de 1 'autòmat,
Ateses l e s c a r n e t e r i s t ique» del sistema i n f o r m à t i c que u t i l i t z o « , 1 ' e s t r a t e r i a que htm soouit per a 1»
s e g r t n t a c i ó ele l e « formes de l a l l e n g u a és 1 a següent:
a ) - Segmentació, com ho« d i t , d ' e s q u e r r a a d r e t a , seguint c r i t e r i s o b j e c t i u s f o r m u l a t s e x p l í c i t a m e n t .
b>- Selecció dels segments rellevant* por a
l ' a n a l i t z a d o r d ' e n t r e t o t s a q u e l l s qu#» os p o d r i e n d e f i n i r .
137
Elm á t f a r e t t t s t i p u s d ' u n i t a t s r e s u l t a n t s d ' a q u e s t a s e a e Ä l i a C i E f i o c o i n c i d e i x e n acb t e s u n i t a t s d e f i n i d e s
« i l m « ü á s t i c a i
I I - En p r i r e r l l o c p o r q u é t r a c t o « o i l l e n g u a t g e d o s d ' u n p u n t do v i s t a g r à f i c , « e n t r e nuo do» d« l a p e r s p e c t i v « l i n g u i s t i c * os t r « i ) a . H a a p a r t i r do l e s r e p r o s ó n t a c i o n * f u n o i o ç p u t s , e s s e n t l a so va o r t o g r a f í a una q ü e s i i i a c c i d e n t a l . A i x í , aab e l t r a c t a m e n t que r o o t i t z e e , ' a v a n ç - * i ' a v a n e - ' sen duos e n t r a d e s do d i c c i o n a r i n e c e s s à r i e s p e r a 1 ' a r . à l i s i de
l e s f o r n i e s d e l v e r b ' a v a n ç - a r ' i on c a n v i l i n g ü í s t i c a m e n t r e p r ^ ç e n t e n una s o l a u n i t a t , art» una s o l a r e p r e s e n t a d € . El a a t e i x p a s s a amb ' a e n j - Z a e n g - ' .
* r o j - / r o i - ' , e t c .
2 ) - En segon 11 oc» p o r q u e p e l * , o b j e c t i u s d e f i n i t s i a t e » que e» t r e b a l l a aab una r e p r e s e n t e e i é g r à f i c a de l e s f a r i n ó s » no en» ha s e a o t a t a d e q u a t r e f l e c t í * e i t j e n ç a n t d i v e r s o s p a s s o s d e l ' a n a l i t z a d o r e l s a o r f e e e s do que os eoepon un a o t | p r i e e r a a e n t H o c p e r q u è una r e p r e s e n t e e i é o r t o g r à f i c a no s e a p r * ho permel i , s e g o n a m e n t , p o r q u é c o m p l i c a r i a exageradament 1 * o u t ò a a t .
La f o r a a ' e s t i m a v e n ' p o r » e t e x e m p l i f i c a r ambdós t r a c t a m e n t * , tes d ' u n e p e r s p e c t i v a 1 i n e u i s t i c e e s t à
c o n s t i t u ï d a p e l « »eçüents element« C i ) t
• » t i a r * ( « m t l >
- a - (vocal tawatica.*
* v - l e a r a e t e r l s t i e a temporal>
- n f f I »Mié d» m É m i persona»
I « c a n v i , aquest a n a l i t z a d o r l a pot r e s o l d r e segiier»tant-la en ' • • t i e r - ' i ' - i v t n ' , de »añera que 1 ' a n à l i s i r e q u e r e i x t a n « o l a dmes r e g l e n , » n f r o n t de l a «cluc i ó a n t e r i o r que n * e * í g í r i a q a a t r « .
Amb t o t » a v a n « t r e t » es »íoden e s t a b l i r p a r a l l e l i s m s e n t r e e l s segments que d e f i n i m i e l s MorfffMS de l a 1 l i n g u a , p e - u , per t o t el que «cabe«
d'eMpofc . rf c o n s i d e r e « necessari d e f i n i r l e s u n i t a t s a«b què t r e b a l l « « • • f o n s uns c r i t e r i s que imposa e l medi en què ens nóveme i el • done« una nomenclatura p r o p i a per t a l de no produí»- c o n f u s i ó .
IV.2.1*.i.- Terminologia
L& L.C. sol u t i l i t z a r sense cap mena de r e t i c e n c i a l a t e r m i n o l o g i a prop i i de l a l i n g ü i s t i c a per r e f e r i r ~ » e a l e s seves p r è p i e s u n i t a t s d ' a n à l i s i . Les u n i t a t s de l a L . C , p e r ò , no c o i n c i d e i x e n necessàriament amb l e s de l a l i n r u i s t i c a . V i s t q»ie aquesta u t i l i t z a c i ó equivoca
( l ) J . Mascare M o r f o l o g i a . 1986
139
p o d r i a provocar una c a r t * c o n f u s i ó ít també, l a d i s c o n f o r m i t a t par p a r t d e l s l i n g ü i s t e s en veure
•«prada impròpiament l a seva t e r m i n o l o g i a per d ' a l t r e s d i s c i p l i n e s , ens ha semblat ú t i l d'emprar una t e r m i n o l o g i a e s p e c í f i c a , l a qual d e f i n i m a c o n t i n u a c i ó »
- Segment i n i c i a l CSIÏt Part i n v a r i a b l e de l a p a r a u l a , dotada de c a t e g o r i a m o r f o l ò g i c a . Aquesta c a t e g o r i a s ' e x p r e s s a amb l ' a t r i b u t CAT i e l s v a l o r s NOM, VERB, ADJ, e t c . :
• e n j - CAT* VERÍ
«•noli-
CAT*mm
b o n i c - CAT* ADJ e t c .
E l s models a l s q u a l s p e r t a n y e n són e l s ú n i c s que s u r t e n de l ' e s t a t i n i c i a l de l ' a u t ò m a t .
La c a t e g o r i a M o r f o l ò g i c a d e l s S I p o t c a n v i a r s i
• s combinen amb un segment i n t e r m e d i <SM)i
CAT»VERB CAT-MOn CAT«NOH m e n j - - a d o r - -O «• m e n j a d o r
( S I ) (SM» <SF>
Quí.n un S I e s combina amb un segment f i n a l <8F) , l a f o r m a r e s u l t a n t e s u n mot de l a l l e n g u a i
• e n j — —o bonic— - a CSIÍ (8F) C8X) CSFI
i ü — w t lli te i al Ufas,! Forma bàsica d'un 81,
Seamant Incial Germà: Cada una da las variants que pot adoptar un SI Bàsic i
SI
pàUMMla- (SI bàsicI CAT-NOH passaJ- (SI 9«r«à) CAT »VERB passo*- (81 ««r«à> CAT»VEP,B
Els SI formaos os podan vincular inttrnaMnt al SI definit C O M a bàsic i així, de la mateixa manera que a partir de 'salt-' a* podan tanarar totas las formas dal varb 'saltar', a partir de *caç~* , d» 'pro«-* o da
'monj-* as tanararan totas las formas fi ax ivas dais varb» 'caçar', 'probar* i 'manjar*.
A més d« la flax ió« la dofinició da SI tarmans paritat també »antonir la cohasió antra als difarants SI
integrants de familias d* paraules Cl).
5o9mont Inicial de Basa a sisólo—nt Bases <8IB) i Són SI qua no podan combinar-se directament amb SFs fil- ('filòleg', 'filòloaa', 'filologia') o bé
'abs-* ('absent*, 'absència'). Cal tractar-los com a SI perquè as combinan amb SM i també amb §f-ups de SM:
(!) V»i«u-na 1'oxplicació a IV.2.5.4.
141
mm DE SM PASES >6ftUP DE SM - 6 1 « 9 c l M - - a n t
- o l o t - « p r a a - - è n c i - a - e l o a - i a daar-
• t e .
La c t a r f i n i c i é i » S i l p a r a e t l a r e s o l u c i ó c o a t p u t a c i o n a l de « o t a m a n l l e v a t « el«! c r e c i d e l 11 a t i , f o r m a t s per e o a p c s i e i ö , i de p s e u d o - d e r i v a t s «1 S I d e l s q u a l s no c o r r e s p o n a un S I en c a t a l à a c t u a l .
E l » a o d e l s a l « q u a l » p e r t a n y e n s u r t e n d « l ' e s t a t i n i c i a l de l ' a u t ò m a t com l a r e s t a d e l s S I .
~ Segment I n t e r m e d i ( S I ) s Er^ntent que e s combina amb un S I a l s e u d a v a n t i u n s e a a a n t f i n a l <SF) o un a l t r e SM a l s e u d a r r e r a . S e r v e i K p e r f o r « i r u n a nova p a r a u l a . S o l p r o v o c a r s o v i n t un c i i v i de c a t e g o r i a d e l S I , r a ó p e r l a q u a l acostuma a s e r c a r a c t e r i t i a t p9r l ' a t r i b u t CAT amb e l v a l o r e a t e t o r i a l d e l c & n v i q u e p r o d u e i M I
• e n j - aiiorCSM)-© b l a n c - o r CSU)-O r a c i o n a l - i t i ( S H ) - a r i n f o r e ) - a c i a ( S M ) - 0
C o r r e s p o n e n f a trans t r e t s , als elements que en l i n g ü i s t i c a s'anomena ' s u f i x o s ' .
- Segment Ouasi-Fitials <80F) s Seeaant que s'unaix dit ectament a un SI amb el qual forma un conjunt qua
espele- 6 P f l B *
C i 1 WUffï
• t e .
IM aa«uit d'un SF o d'un altra SOF. Aquest* segments no provoquen cap canvi da categoria i només es donen a
ta conjugació verbali
resol-gy(SOF)-i estudi-er(SQF)-é apare-ix (SOF)-er(SOF)-é
na-M|U<SQF>-i corr-egu(SOF>-és pon-dr(SOF)-A
- Segment Infix (SIN)i Sagnant situat darrera d'un
SI que no es pot unir a un SF si no és a través d'un SMi
got-allCSIN)~in<SM)~ar cafe-t(SIN)-er(SW)-a tGAD-asa(SIN)-ej(SM)~mr
Aquests segments» incorporats als SI» constitueixen noves entrades «1 diccionari de Sil
gotel1 in- , tonbass- , cafet-
- Segment Final (BF)i Sagnant que pot combinar-me al seu davant amb qualsevol altre dels segments definits excepte els SIN, i amb el qual es tanca 1'anal ist del not.
143
Da v»gar;»s as c o m p o r t « n c o * a SM p a r q u é p r o d u e i x e n c a n v i » de c a t e g o r i a . En a q u e s t c a s » han de p o r t a r l ' a t r i b u t OAT amb e l v a l o r c o r r e s p o n e n t , és el c a s
¿ a l s v e r b s p o s t - n o n i r t a í s i p e r e t c . , ' t o m b - ' é s ur. S I q u a l i f i c a t com a n o m i n a l , p e r è que en c o m b i n a r - s e amb e l « SF de l a f l e x i ó v e r b a l c a n v i a d« c a t e g o r i a a o r f t - l o g i c a í m% c o n v e r t e i x en / e r t , p » r t a n t e l s SF de l a l l v x i ö p o r t e n l ' a t r i b u t CAT«VERii
<VIWF> Clí <IWPF> (1)
CAT-VERÍ CAT-VERB F N P - I N F ( l ) TEMP-lWf'F (1)
MODE»IND (1) - a r
- a v a P E R S - i / 3 ( i ) NBRE-S8 ( l )
CAT-NOM BEN-WASC
A n à l i s i de l e s f o r a » » !
tombar CAT-VERi t o c a v a CAT-VERB
FNP*PART TEHP«IWPF NODE«IND
PERS»1/3 N8RE-S8
( i ) E l a modal« <VINF> i <IHPF> c o r r e s p o n e n a l s m o d e l s d e l » SF d a l ' i n f i n i t i u i da l ' i m p e r - f e t . L ' a t r i b u t FNP c o r r e s p o n a 1 as f o r m e s no p e r s o n a l • d a l v a r o i a l v a l o r I N F , a l ' i n f i n i t i u . E l s a t r i b u t s TEMP i MODE c a r r a s p e ñ a « a ' t e e p J * i 'moda* i a l s v a l o r s IMPF i IND a ' i m p e r f e t ' i ' i n d i c a t i u ' r e s p e c t i v a m a n t . PERS i WIRE c o r r e s p o n e n a ' p e r s o n a * i ' n o i ü b r a ' . El v a l o r i / 3
i n d i c a qua a s t r a c t a d ' u n a p r i m a r a o t a r e e r a p a r s o n » « i S6 i n d i c a ' s i n g u l a r ' .
S ' a s s u m e i x l ' a x i a t è n c i « d e l SF ' - O ' , «1 c a r à c t e r d e l b l a n c . Aque»t SF p o t p o r t a r , com e l s a l t r e s , a t r i b u t s
• a r f ó l e « t e s «
E l s SF n o poden ana.- s e g u i t s d e cap a l t r e t i p u s de segment i no s é n a c u m u l a t i u s .
I V . 2 . 2 . 2 . - C r i t e r i s p e r a l a s e g m e n t a c i ó de l e s l o r i e s •
P r o p o s e « e l s e g u i M i n t d ' u n exemple i de l e s s e v e s p o s s i b l e s s o l u c i o n s p e r t a l d « j u s t i f i c a r e l s c r i t e r i s que hem s e g u i t en l a s e g m e n t a c i ó de l e s f o r m e s .
Hem t r i a t a l g u n e s formes v e r b a l s de l a segona c o n j u g a c i ó p e r q u è , a causa de l a seva c o m p l e x i t a t , p e r m e t e n m o s t r a r l e s d i f e r e n t s p o s s i b i l i t a t s que p l a n t e j a l a s e v a s e g m e n t a c i ó . P r e n d r e « en c o n s i d e r a c i ó el f u t u r , l ' i m p e r f e t de 1 ' i n d i c a t i u i e l p r e s e n t de s u b j u n t i u d e l s v e r t s ' p e r d r e ' i ' a b s o l d r e * .
A ) - Una p r i m e r a s e g m e n t a c i ó p o s s i b l e s e r i a l a s e g ü e n t i
PERDRE ABSOLDRE FUTUf? p e r d - r - é a b s o l - d r ~ e
PRES.SUI. p e r d - i a b s o l - g u - i F i « . I 1WHERF p e r d - i a a b s o l - l a
145
que •! primer segment dal i«itat •« manté igual al llar« da tota la flexió (SI). Observem també
*_» * i4 , ' - i a ' (SF> es que e l * ú l t i m s segments ' - * '
•antarnen i n v a r i a b l e « en t o t e « l e s formes i que, a
són e l s mateixos par a g a i r e b é t o t s e l s v e r b s . El que c a n v i a és t a p r e s è n c i a / a b s è n c i a de segments q u a s i -
#»na1s CSGF» i ' - r - ' , ' - d r - ' , ' - g u - ' , » t e .
Hi ha d ' a l t r e s verbs que tenen e l s mateiMOS O d ' a l t r e s SOF però que mantenen i d è n t i c s e l « SFj
Moure Cérrer Aparèixer Prendre etc.
FUTUR
•ou—r—é corr—er-é apare-ix-er- pren~dr~é
V
PRE8.3UBJ.
mo-gu-i corr-i apare-gu-i pren—gu-i
IHPERF.
•ov-ia corr-ia apare-ix-i pren-ia
F i g . 2
S o b r e l a base d ' a q u e s t a s e g m e n t a c i ó , s ' a g r u p e n e l s S I en mod#1« segons # 1 • SCF i SF que a c c e p t e n . Per a
l ' e x e m p l e de l i F i g . t s e r i e m
<PEftDRE>
7V-PERD p e r d -
<ABSOLDRE>
TV-ABSOL
Es c r e e n model ft p e r a cada un d e l s SQF:
<*> <m> <m>
i e s d e f i n e i x e n « I s model« d « SF q u e , en e l c a s d« 1«
c o n j u e a c i é , s ' a r e e n i t z e n en f u n c i ó d e l » temps verba1 * i
<FUT> <PftSU§> <IHPF>
TEHP-FUT TEMP-PRES TEWP-INPF WODE-IND MODE-SUB WOIJE-IND
~«s - i s - í e s
A c o n t i n u a c i ó • » c r e a una e s t r u c t u r a d ' a u t ò m a t en què t o t s e l s models d e S I vmn a p a r a r a un m a t e i x e s t a t , f»AR2. D ' a q u e s t e s t a t en s u r t e n l e s r e c l e s d e l s m o d e l s de SQF , v a l i d a d e s segons e l code) de S I , a i x í com e l s Models de SF que no e s combinen amb SQF. T o t e s
l e s r e b l e s de SGF v¿¡n a p a r a r a un e s t a t , RFUT o R S U l , d ' o n s u r t e n e l s e o d e l s de S F . D ' a q u e s t » manera l e s r e g l e s d e l s SF sén v à l i d e s p e r a t o t s e l s S I , s i ^ u i q u i n s i t u i e l s e u SQFi
Regles
Rl R2 R3
m
R3 R6
START <PERPRE>
START <ABSOLDRE>
RAR2 <R>
condiciót TV-PERD RAR2 <DR>
condició i TV»A1S0L RAR2 <BU>
condiciót TV-A180L RAR2 <IWPF>
condiciót TV-PERD, RAR2
RFUT RFUT RSUB
RV
Seqwents reconegu
TV*A§8QL
'perd-*
* »bso!-'
* perdr-*
* absoldr-*
* absol«u-#
'perdia*, 'abso*ia*...
14?
m mm <mmmm> m ' p e r d i ' . . .
c o r n f i e l d i TV«RERB
R8 RFUT <FUT> RV ' p e r d r é ' , ' a b s o l d r é ' • . .
U f RftüS <RRI8U§> RV ' a b s o l g u i ' . . .
B ) ~ Una segona p o s s i b i l i t a t de segmentar l e s f o r c e s v e r b a l s p r e s e n t a d e s é s l a de c o n s i d e r a r cada v a r i a n t com a un S I e s p e c í f i c :
PERDRE ABSOLDRE perd— a b s o l -
p e r d r- a b s o l d r - ab s o l 9 u -
A q u e s t a s o l u c i ó t é l ' i n c o n v e n i e n t d ' i n c r e m e n t a r d e
«tañera c o n s i d e r a b l e e l nombre d ' e n t r a d e s d e l d i c c i o n a r i de S I , p e r ò t é l ' a v a n t a t g e de s i m p l i f i c a r 1 ' e s t r u c t u r a de 1 ' a n a l i t z a d o r , j a que no«és són n e c e s s à r i e s dues r e g l e s p e r a l ' a n à l i s i de cada f o r m a .
Per a v a l u a r l e « dues s o l u c i o n s p r o p o s a d e s s ' h a d«
t e n i r en compte q u e i
a ) - La p a r t més c o s t o s a en despesa de temps é s l ' a c c é s al d i c c i o n a r i !
b > - Les r e g l e s que r e s o l e n c a s o s smablants «1 que he« p r e s e n t a t a l ' e x e m p l e de l a F i g . I n o t u p í i q u e n una c o m p l i c a c i ó e n c e s s i v a de 1 ' a n a l i t z m d o r i t e n e n u n
r»ncim»nt força, toe (1).
D'aquMtee, considerasions se*n desprèn que seria
»íllor la primera solució. Així, seguint aquesta filosofia, he« resolt tots els canvis dels 81 que censisteinen en 1 'afegiaent de nous caràcters, definint aquests nous caràcters com a SOF , assignant- los un model i donant les refies de 1'autòmat que els permeten combinar-se amb els SI que els accepten.
L'iïnica exigència que s'ha de tenir present és que aquests SOF han àe tenir un mínim rendiment distribución*! .
El rendiment distribucional d'un segment és determinat per dos factors i
D - La combinatòria efectiva amb d'altres segments. En aquest cas cal decidir arbitràriament el nombre que es considera acceptable.
21- La possibilitat de coabintr-se amb segments ja existents per formar noves paraules, és a dir, la seva vitalitat actual.
Els supòsits que he« aplicat a la flexió, són els mateixos que hem aplicat als derivats: només hem
(1) El rendiment d**»na regla v« determinat pel nombre
0@ €.olSCMi CjtJlir i ( W O 1 *
149
d»*init aquells SM qu» tenen un cert rendiment distribucion«l, i ets SM que presenten variants trafiques, que normalment nemas serveixen per resoldre i nombre reduït de formes, no els hem considerat com a SM i s'ha definit un nou SI que inclou el SM.
IV.2.3.- UM Models
Un cop d e f i n i d e s t e * e s t r a t è g i e s de segmentació de l e s f o r m e s , cal a g r u p a r - l e s en models per t a l que puguin ser reconegudes m i t j a n ç a n t l e s r e g l e s d» l ' a u t ò m a t .
En general , hem o r g a n i t z a t e l s models de SI segons e l s model % de SF que a c c e p t e n , i hem agrupat e l s SF en f u n c i ó d e l s paradigmes de gènere i nombre, en el cas d e l s noms i a d j e c t i u s , i en f u n c i ó de l a c o n j u g a c i ó , en el cas d e l s v e r b s .
Ha e s t a t n e c e s s a r i subagrupar e l s models d e l s SF segons l e s e x i g è n c i e s d e l s S I . Fer a l a c r e a c i ó d e l s models de SF s'hari de t e n i r en compte e l s c a n v i s / a l t e r n a n c e s que s o v i n t presenten e l s SI i , i U vegada, e l s paradigmes de genere i nombre o de
l a c o n j u g a c i ó .
Vegem un exemple, que pot a c l a r i r e l p r o c é s , de com es pot r e s o l d r e l ' a n à l i s i de l e s formes v e r b a l s de 1«
primrm c o n j u g a c i ó qu» prwuuntwn c a n v i a a l s S I segons
• f a c a r a r t a r o d a t s SF qua a l s s e g u e i x e n »
S ' h a n i i a d a f i f i i r dos modals da S I p a r a l s v e r b s da l a p r i a a r a c o n j u g a c i ó aatb a q u e s t t i p u s da c a n v i :
TV«AR6
c a ç - n à u f r a g -
<VARGU>
T V - A M U
nau#ragw-
F i « . 3
Co« qua al SI ' i t e n j - * nonas accepta un» dat a r a i nat a SF i a l SI ' a a n a - ' un« a l t r a » , cal s e p a r a r - l o s en models d i f a r e v t t s da «añera qua a« pugui donar #1 «©del
1 ' a t r i b u t par v a l i d a r l a f l e x i é . L ' a t r i b u t qua s e r v i r á par v a l i d a r l a s r»g1es da l a l l a m é és TV i t é d i f a r a n t s v a l o r » segons al modal da SI qua) a» t r a c t a .
En l u n c i é da l a « a l t e r n a n ç a « en a i s SI cal d a l i n i r a i s models d a i s SF, an «quest cas dal present da 1 ' i n d i c a t i u , da l a «artera següent:
* % P *
<irt> <iro>
MODE-IND MObE-IhlD
PERS«2 PERS« I MSRE«PL
PfRS»2
NSRE-PL
Fif.4
Sén necessaris do« »odel m de present perqué el SI
' • e n g - ' «"»©més e s combina amb e l s SF de <1P2> i «1 S I ' • e n j - *t a*e e l s SF de < I P 1 > . E l s S I c o t ' s a l t - * , que a c c e p t e n l e s f o r e « s de <IP1> i de < I P 2 > , e s t a r a n v a l i d a t s p e r a l e » d y e s r e g l e * d « S F . S i <VAR> és e l
• « d e l de ' s a l t - * i TV»AR 1 ' a t r i b u t que eMpresua l e s v a l i d a c i o n s de l a c o n j u g a c i ó , 1 exemple que h e « p r e s e n t a t es r e s o l amb l e s r e g l e s t
M simi <stm> ñmi
R2 simi <VARS> RARI
R3 START <VAR8U> RAR1 M RAR1 <IPl> RV
c o n d í c i a i TV-AR, TV*AR8 R3 RAR1 <IP2> RV
c o n d i c i ó i TV-AR» TV-ARSü
A i x i , e l s v e r b s ces ' » * l t - # r ' es combinaran amb t o t s dos models d» SF i » I s v»rbs com 'menjar* t i n d r a n un
• 1 i'mmr>j-') que només es combinarà amo < IP1 i un s l t r » SI i'mmvt-') que només • • combinarà amb <IP2>.
Aquesta e s t r a t è g i a d agrupament de SI i de SF qu« hem u t i l i t z a t per a l ' a n à l i s i d e l s v e r b s , també ens ha s e r v i t per a l ' a n à l i s i de noms i a d j e c t i u « . Ve«em~-ne un cast
<NFA£S> <FAES>
CAT-NOM BEN-FEM TS-FAES
- a N1RE-S6 p r e m s -
l a i x - - e s NSRE «Pi-
que i n t e r v e n e n « l e s r e g l e s t
f t l START <NFAES> RNA R2 RNA <FAES> R W
e o n d i e i é i Ï8»FAES
NFAES És un model de SI .»omináis que es combina amb e l model de SF <FAES> s e t o n s l e s r e t i e s R i i R 2 . H i ha S I que també e s combinen amb <FAES>, p e r ò que p r e s e n t e n a l t e r n a n c e s a l S I » com a r a ' c o m a r e - * /
c o r n a r q u - , l a q u a l c o s a e x i g e i x l a c r e a c i ó de dos nou» a w * l « de S I i de 8F t
1 SNwl
Modal» da S I Modal» da SF
<mñ> <NFBS> <FÄ> <FES>
CUT-NOW
mt»mm
ÍEW-FEM BEN-FEMT§-FÄ T8-FES HBRE-88 NBRE«PL
A i x í , as p o d r i a p r e s c i n d i r d a l model da segments f i n a l « <FAES>, j a que l ' a n à l i s i da l e s f o r m e s de
<NFAES> a « r e s o l d r i a v a l i d a n t amb T6*FAES l e s r e a l e s d e l s models da SF <FA> i <FES>.
I V . 2 . 3 . 1 . - E l s a o d e l s "BASES".
T o t s e l s S I que no es combinen d i r e c t a m e n t mmb un SF es t r o c a r - a g r u p a t s en y n s model» que a n o « t n t a 8ASES1 i 1A5ES2. La i n f o r m a c i ó r e f e r e n t a l a c a t e g o r i a M o r f o l ó g i c a i a l s a t r i b u t s p e r v a l i d a r l e s r e g i e » d e l » SM c o r r e s p o n a cada S I en p a r t i c u l a r .
I V . 2 . 4 . - L j | i n f o r m a d 6 m o r f o l ò q i c a
A mesura que m^mnçm l ' a n à l i s i d ' u n a t o r m a , l ' a n a l i t z a d o r va r e c o l l i n t t o t a l a i n f o r m a c i ó q u e t r o b a . A q u e s t a i n f o r m a c i ó » ' e x p r e s s a m i t j a n ç a n t a t r i b u t s que poden t e n i r d i f e r e n t s v a l o r » f i n s a un màxim de t r e s - c e n t s .
Quan, a l l l a r « d ' a q u a s t p r o c é s , un m a t a i x a t r i b u t a p a r a i x d i v e r s a s v a g a d a s , s o n o r s prmn e l v a l « " da 1 ' ú l t i m a o c u r r è n c i a q u a l i a t r o b a t .
E l s a t r i b u t s m o r f o l ò g i c * t e n e n l a f o r n i a AT ñ I PUT «VALOR»
p . e . s CAT«NO«, CAT-VERB, C A T - N / V , NBRE-86, NBRE-PL, P E R S - I , f*ERS«3» a t e .
L A i n f o r m a c i ó a s s o c i a d a p o t ser dm d i f e r e n t s t i p u s i
a ) - E s t r i c t a m e n t m o r f o l ò g i c a ( c a t e g o r i a , g è n a r a , n o m b r e , p e r s o n a , e t c . ) .
b>~ N e c e s s à r i a p e r a l f u n c i o n a m e n t da l ' a u t ò m a t s a t r i b u t « q u a , a s s i g n a t s a l s m o d e l s o a l s s e g m e n t s , s a r v a i M a n p a r v a l i d a r l a s r a g l a s da 1 ' a u t ò m a t t
<VAR> <SNABOR>
CAT-VERB CAT-N/A TS-WFBA
s a l t - SN-ADOR
- a d o r
Rt START <VAR> RARi
R2 RARi
<SNAOOR>mm condícies
S N - A D O RA partir d« 1 'estat RARI» par passar par* la ragi a R2 cal complir la condició SKIADOR.
c>- Altras tipus d*informació.
155
I V . 2 • # • ! • - Mlv»11tf d ' « « s i « n « c i ó d ' i n f o r m a c i ó
E l s a t r i b u t s » o r t o l 6 9 i c s p o r t a d o r s da l a i n f o r m a c i ó s o b r a l a c a t a g c ^ i a , a l g è n a r a , «1 n o m b r e , l a p e r s o n a , a t e . podan « s t a i g n a r - M a d o s n i v a l i s d i f e r e n t s : a l s models o « I s s a g t ^ a n t s .
Quan « a s s i g n a un a t r i b u t a un model , a q u e s t a t r i b u t a f a c t a t o t s a l « segment? qua p e r t a n y e n a l model . Duan 1 ' a t r i b u t s ' a s s i g n a a un segment només a f e c t a e l s e g m e n t .
Co« qua a l a s e g m e i t s i n i c i * ! * ( S I ) e s t a n a g r u p a t s w g o n s un d e t e r m i n a t c r i t a n m o r f o l ò g i c , qua n o r m a l « a n t é s • ! s«u c o a p o r t a m a n t f l a x i u ( p a r a d i g m a d»
c o n j u g a c i ó p a r i l s v e r b * 1 p a r a d i g m a da g è n e r e 1 nombre p a r a l s noms i a d j e c t i u s ) , l ' a t r i b u t qu«
servi"-A p a r v a l . d a r l e s r e g l a s da f l e x i ó s ' a s s o c i a a l modal , perqu«? 1>% g e n e r a l i t z a b l e a t o t s a l s s e g m e n t s :
<VAR>
(Nodal d« varbs ragul ars da la la. conj.) CAT» VE'«
TV * AR
(Atribut da validació da fi a* i ó varbal) cant—
salt-, etc.
<NHBS>
(Notiert da n o a t m a s c u l i n s t ' f r u i t - O , - » ' » CAT-NON
T i " f © S
( A t r i b u t par- v a l i d a r gén«ra> i nombrmi s o l d a t ™
c o m b a t -
C o n t r a r i a—n t a t a f l a t t i e , e t s d e r i v a t * r e s p o n e n a una s e l e c c i ó p r è v i a que I M dóna a p a r t i r de1 -31; a i x í , s i s a t r i b u t » que »»rv«ix«>n p e r v a l i d a r l a s r e g l e s d e l s SM, f o r j a d o r » d« a t o t * d e r i v a t » , » ' h a n d » d o n a r p a r t i c u l a r m e n t a cada S I , p e r q u è t o t i s e r mots de l a m a t e i x a c l a s s e m o r f o l ò g i c a poden t e n i r un comportament d e r i v a t i u c o m p l e t a m e n t d i f e r e n t .
Vegeu, e l que '.cabo d ' e x p o s a r ¿mb un e x e m p l e :
<VAf*>
CAT« VERÍ TV • AR
acato- SN-AMENT a b u n d - SN-ANCÏA
SN-ALLES SA-ANT SN-ANÇA SN-OR 5A-A1LE SA-C-3
E l i . a t r i b u t * SN i SA c o r r e s p o n e n a "tegment i n t e r j i e d i n o m i n a l i t z a d o r ' i ' s e g e e n t i n t e r m e d i a d j e c t í v a d o r ' , r e s p e c t i v a m e n t . E l * v a l o r » c o r r e s p e n e n al SM que e s v o l v a l i d a r .
De* de 1 * p e r s p e c t i v a de l * - u i à l i s i , a q u e s t a a o l u c i é r e p r e s e n t a un c o n t r o l e s t r i c t e d e l » d e r i v a t * , de manera qu.- només s r g u i p o s s i b l e l ' a n à l i s i de l e s f o r m e s considerad«»» com a c o r r e c t e * . De* de p e r s p e c t i v a de l a t e n e r * c í 4t s ' e v i t a l a h ï p e n e n e r i ó de f o r m e s • p a r t i r d ' u n S I .
157
I V . 2 . ^ . 2 . - Assignació d * l a c a t a r o n a m o r f o l ò g i c a
H M p r a f a r i t u t i l i t z a r al t e r a a ' c a t e g o r i a M o r f o l ò g i c a ' »n H o c d>l aés h a b i t u a l d« c a t e g o r i a s i n t á c t i c a ' parqué l ' a n a l i t z a d o r és e s t r i c t a m e n t
independent del c o n t e x t , de manera que l ' a s s i g n a c i ó de l a c a t e g o r i a a un mot esta d a t e r a i n a d a exclusivament par l a seva f o r m i . Quan as produeixen casos d a m b i g u i t a t l ' a n a l i t z a d o r en dóna t o t e « l e s
i n t e r p r e t ac i or.»» poss i b 1 a s .
La c a t e g o r i a m o r f o l ó g i c a d a i s mots es pot a s s i g n a r a l s 3 1 , al 5 SM o be a l * s*#aents f i n a l s . La m a j o r i a de SI no tenen 1 * c a t e g o r i a d e f i n i d a f i n s que no s'han combinat amb un SM o un SF i , conseqüentment, s ' h a u r i a d ' a s s i g n a r l ' a t n n u t da l a c a t e g o r i a al model d ' a q u e s t « segment». Això no o b s t a n t , c o n s i d e r a « qu« h i ha dues bones raons p»*r assignar c a t e g o r i a M o r f o l ó g i c a a l s SI i
a ) - parqué és ur. f a t que cada SI no accepta combinar-se amb q c a í s a v o l SFf
b>- seo-jnament, parqué l ' o r g a n i t z a c i ó an «octal s que presentem descansa sobra l a ba a que h i ha SI n o m i n a l s , a d j e c t i u s i v e r b a l s .
E l s modals da SI e s t a n o r g a n i t z a t s an f u n c i ó da l a c a t e g o r i a mor'-ológica i dal exxJal ela f l a x i ó corresponent i
<Wm> <NMBS> <ADVLL> <AMFBS>
cm*mm
C A T « « « CAT«ADV CAT-ADJ pint- fruit- TAD-LLOC legal-aqul-
Des d» 1« perspectiva del procés d'anal i sif la categoria d'una forma sera la que té assignada el seu 81, si no <e* que en un dels passos de 1'autòmat es combina amb un SM o amto un SF que tingui I'atribut CAT amb un valor* diferent i
<VÄR>
<mmm>
CAT-VERB CAT.WJM
cant- -an. * cantant» CAT*MOM
«oat»- • • tombant, CAT-NOM
E l s S I poden c a n v i a r de c a t e g o r i a sense n e c e s s i t a t de c o m b i n c r - s e amb un SMi e s t r a c t a d e l s S I que a c c e p t e n SF c o r r e s p o n e n t s a «é? d ' u n model de f l e x i ó . Par»
e x e a i p l e , a p a r t i r d e l S I *tomb~* s ' o b t e n e n l e s f o r m e s n o m i n a l » ' t o m b , tombs* i l e s f o r m e s v e r b a l s de
' t o m b a r ' . En a q u e s t s c a s o » , e l » models de SF han de d u r l ' a t r i b u t de l a c a t e g o r i a , a l t r a m e n t l a i n f o r m a c i ó m o r f o l ò g i c a de l a f o r m a a n a l i t z a d a s e r i a i n c o r r e c t a i
<NMSS> <SF l a . CONJ>
CAT-NOM CAT-VBtB
t o m b - - a r , - a v a , - « r « , « t e .
159
Ha i g r a t qua «1 t i t i l ' a t r i b u t CAT aab a l valer* NO«, an c o a b i n a r - s a aab al a SF da 1 * primara c o n j u g a c i ó prava1 l ' ú l t i a v a l o r da ! ' a t r i b u t , an aquest cas VERB.
Me« a»tab 1 a r t l e » «aguant» c a t e g o r i e s m o r f o l ò g i q u e s :
CAT*N0t1 i nom», común» i p r o p i s CAT-VERB i verbs
CAT*$DJ i a d j e c t i u s CAT»N/A t nom o a d j e c t i u CAT-AOV i a d v e r b i »
CAT^PRO I prmstm*
CAT*E€? i d a t e r a i n a n t s
CAT«ü/PR i dat a r a m a n t o prono«
Les c a t e g o r i a » CAï«*N/A <noa/adjectiu> i CAT-D/PR ( d a t e r a m e n t / p r o n o a i corresponen a a q u e l l a » #ori»e«
que, per t r a c t a r - * * « d'un an#* 'tatador a o r f o l ó g i c independent dal c o n t e x t , »6n c a t e f o r i a i a j e n t a«oigüami
" c o r r e d o r ' CftT-N/A, 8EN-MASC, NBftE*S8 ' c o r r e d o r a ' CAT-N/A, BEM-FEM, »RE«SS ' a q u e s t ' CAT-D/P* 6EN«MA8Ct M§RE«S§
E» pot e s t a b l i r u m s u b c l a s s i f i c a c i ó da l a « c a t e g o r i e s par t a l da donar • # « i n f o r m a c i ó en 1 ' a n i l isa ele cada una l a s f oreara. A c o n t i n u a c i ó präsente« una h i p o t è t i c a » u b c i a a a i l i c a c i ó par t a l ém a o s t r a r una
«Niar*« p O M l b l « d» j e r a r q u i t z a r 1« i n f o r m a c i ó l é x i c a :
TNOM« PERS, par a l s nom» p r o p i « de persona (Salvador E * p n u , J o r d i P u j o l , F e l i p » González , e t c . . . )
TNOM*LLOC, per a l s noms p i s p i s d» l l o c (Mont*eny, B a r c e l o n a , . . - )
TNOn=ENT, par i n d i c a r e n t i t a t s « p a r t i t s p o l í t i c s , o r f l i n i t M t , e t c . CCM ara ONU, CEE, PSOE, . . . TN£K»r*AIS, pmr a l s no«» p r o p i « de països (França,
Anglaterra, Estats Units, etc.»
CAT-ADV
TAUV-LLOC, adverbi» de 11 oc ( aqui, allá,..»)
TADNM1ANE, adverbi* de «añera ( tots els adverbis en ' -•••n". *)
TADV·TEI**, adverbis de temps Cara, demà, adés i
TADV«fi€St adveráis de ne«acié (no, pas, etc.)
CÄT-D/PW, (1'atribut T indica el tipus»
T=POSS, possessius (Meu, meva, teu, teva, seu, ...) T=DEM, demostratius (aquest, aquell, ...)
T«QI, quant i # i cadors indefinits (tot, massa, poc,
T«OD, quant i•icadors definits Cdos, tres,...)
161
La c * t » i o r i a CAT-DET queda Mi e n d us I v a per a 1 ' a r t i c l a » a«b 1a s u b c a t » 9 o r i a T»ART.
CAT"P«il
TPRO» PEAS pro«©«« personal J (jof tu, eil ,
«©•altre», el , la, se, tn, Ho, hi , etc.) TPRO* REL pronom* relatiu* (que, qui, qué, qual,
i i C » I
Cr« j a he« d i t , l a « f i n a l i t a t de 1'aiv 1 i t z a d o r és r e s o l d r e 1 *an#.I ami de l e « forste» f i CM i ves i dfcrivades c«t l a l l e n g u a m i t j a n ç a n t l a c o m b i n a t o r i a de segments.
Aquesta v i a de s o l u c i ó >o pot « u n i f i c a r una despesa excessiva d ' a t r i b u t » , r e g l e s i « o d e l s . He« p r o e u r # t s e g u i r un c r i t e r i que considere« fonamental i r e n d i b i l i t z a r el màxi» cada una de l e s r e g l e s ; oer a i x ò he« t r a c t a t amb l ' a u t ò m a t e l s aspect
r e g u l a r s de l e s f o r « e s i he« donat coa a noves entrades de d i c c i o n a r i a q u e l l e s formes 1 ' a n à l i s i de
l e s quals e x i g i r i a r e g l e s e s p e c i f i q u e s ( 1 ) .
Respecte a l s d e r i v a t s , podíem haver o p t a t per* e n t r a r - l o s co« a SI o bé r e s o l d r e ' l s a i t j a n ç a n t r e g l e s a p a r t i r del SI p r i m i t i u . Aab l a p r i a e r a s o l u c i ó l ' a u t ò a a t s ' h a u r i a s i m p l i f i c a t a o l t i a s i a , paro h a u r i a
( i ) E l s sistemes d ' a n à l i s i m o r f o l ò g i c a compatacional seçueiMen sempre aquest criteri.
augmentat de mmrmr* i a p a r t a n t »1 ncMbr» d ' e n t r a d e s «1 diccion«»~í| en c a n v i , s i tractàvem e l s dar i v a t « m i t j a n ç a n t nove» segmentacions i noves r e g l e * de l ' a u t ò m a t , e l d i c c i o n a r i es r e d u ï a s e n s i b l e m e n t , però
•1 disseny de 1 'autòmat es c o m p l i c a v a .
Sempre que no ha r e p r e s e n t a t complícar exageradament l'autòmat hem r e s o l t el màxim d« formes m i t j a n ç a n t r e g l e s i hem o p t a t per donar e n t r a d e s al d i c e l o n a r i quan el tractament de l e s formes augmentava molt l e s r e g l e » i a «és r e m o l í « pocs c a s o s . Un cop c o n s t r u ï t l ' a n a l i t z a d o r es pot observar que e l » aspectes més r e g u l a r s de l a l l e n g u a • » r e s o l e n amb un mimm de r e g l e » i models qye permeten 1 ' a n à l i s i de l a m a j o r i a de l a s f o r m e s , « e n t r e que e l s aspectes «és i r r e g u l a r s e x i g e i x « " un a p a r e l * t è c n i c molt més gran i en canvi r e s o l e n m o l t s menys c a s o s .
I V . 2 . 9 . i . - Aoast tím l ' a n a l i t z a d o r
L'abast de 1 ' a n a l i t i a d o r e s t à d e t e r m i n a t p e r l a seva p o t è n c i a , és a d i r , pmr l a q u a n t i t a t de formes que pot a n a l i t z a r . La s o l u c i ó òptima és l a que amb un nínim d ' e n t r a d e s ( a t r i b u t s , models , r e g l e s , 8 1 , SM, SF i Sty» permet a n a l i t z a r e l màxi» de formes c o r r e c t e s de *a l l e n g u a .
81 »s d i asan ya 1 ' ¿ f u i i t s a t f o r amb 1 ' o b j e c t i u que a n a l i t z i només l a s forma* acceptades pmr l a no. mati v a ,
• I s a t r i b y t s pmr v a l i d a r « I s SM s'han da donar a cada 8* ari p a r t i c u l a r i » a i al model , j a que en aquest d a r r e r cas es g e n e r a l i t z a «i SM per a t o t s e l s S I . E l s costos de c o n s t r u c c i ó de l ' a n a l i t z a d o r seran més
• l e v a t S f pare l ' a b a s t dal corpus e s t a r à t o t a l m e n t cent r o l at i c o i n c i d i r * #«#rt*«ni»nt mmh el n> I M fnr*»es considerades C M a c o r r e c t e s per l a n o r m a t i v a .
La s o l u c i ó oposada c o n s í i t i r i a a donar e l » a t r i b u t « p r r a l a v a l i d a c i ó d e l s d e r i v a t » a l s models i a i x í general i t z a r - l e s per a t o t s e l s S I . Amb aquesta g e n e r a l i t z a c i ó s e r i a p o s s i b l e l ' a n à l i s i de moltes
•formes i n c o r r e c t e s , encara que se s i m p l i f i c a r i a l ' e n t r a d a de segments al d i c c i o n a r i .
Una d a r r e r a s o l u c i ó pot c o n s i s t i r en 1'admissió d'algunes general i t r a c iens en l a c o m b i n a t ò r i a de SI amb SM. E l s avantatges d ' a q u e s t a d a r r e r a s o l u c i ó són d i yer »os i
a ) - S'aconsegueix un c e r t a s i m p l i f i c a c i ó en l ' e n t r a d a de dades de l ' a n a l i t z a d o r : l a g e n e r a l i t z a c i ó de determinats SM mitjançant 1'assignació de 1'atribut al model evita haver de donar 1'atribut a cada SI.
b>- Es pr«v»u»n forme» possiblesf amb la qual cosa disminueixen ais <o»to« en temps d« manteniment dal i! i ce i snarl.
c l - Nome» as g e n e r a l i t z e n a q u e l l » SM que poden donar forme» p o s s i b l e s . No • « permet l ' a n à l i s i de f o r a » « i n c o r r e c t a * . A I M I , as rebutgen forme» com >
a ' c o a p t - a a a j n t - a c i e ' , «'«oí i d - i f i e - o r# f a t e , qua
• * acceptar i an an e1 C M da general i t z a r indiscriminadament a l a SM; paró en c a n v i s ' a c c e p t e n forme« p o s s i b l e « , encara qua p o t » a r no t a i r e probable«
com aónt 'espa««ab1e' i ' t r a p i t j a b l e * .
IV.2.5.2." Estrategia« general» d'análí»»
A m*s de !•• questions da tipys general qua acaba«
d'»«posar per al disseny da l * a u t * m a cf en c o n c r e t ens hem gen at p e l » següents o b j e c t t u s t
D - Reduir ¿I «ax i « e l d i c c i o n a r i de SI sempre que tío en r e s a l t é » una e s t r u c t u r a da 1 ' a u t ò M t excessivament c o m p l i c a d a .
Hem r«rso!t com a entradas de d i c c i o n a r i i
a i - a q u e l l e s formes ziue r e p r e s e n t a n wna v a r i a n t g r à f i c a d ' u n sagmanti
* v í u - / v i v - a * , ' l l o p / ï l o t t ~ a % * - a c t é / - i c i é ' »
* - a d o r / - a d o r / - i d o r * , . . .
165
è l - « I s SI d w i v a t * que m m u l M m t r e s u l t e n da 1 * unió d'un SI sate I M S I N , o %e d ' u n p r e f i x
«Mb un S i t
• l l i i r - e * / ' l U b r » t - a r ' . . .
* t r i f a c * / * a t r a # e « - a r * . . .
c i - I n fot-aes u n i q u e s , com ara " v u l l " del v r ^ ' v o l e r * , *d««* del veré *d«r* I » « f o r * « «
' s e e ' * n e l t e s d ' a l t r e * del verb ' s s r ' « t c .
H m t r t que l a s f o r m d t (*) i ( t i no es poden s o l u c i o n a r a i t j a n ç a n t r e a l e » da 1'autòaat t s'han da t r a c t a r ce» a novas antradas al d i c c i o n a r i , im* fornies da <b> p o d r í a n r e s o l d r e ' « n i t j a n ç a n t r e g l e s . En aquí ¿t c a s , paré» 1« r a l acte añera u n * »"»gla i al nombre da casos aue r a s o l d r i a s a r t a a c l t b a i . * , f e t qua ha determinat a l r e b u i g d ' a q u e s t a s o l u c i ó .
2)*- Far un o i »seny da i autòmat a l a#s s a n z i l l p o s s i b l e par t a l da f a c i l i t a r l a comprensió da l a sava aast i d , l ' a a p l i a e i é i / o l a r a s t r i c c i é dal v o c a b u l a r i .
Aquest <JiTT«r punt s ' h a c o n c r e t a t mm l a » a c c i o n s següents:
a>- Hem donat un v a l o r mnemotècnic a l s e s t a t s » a l s a t r i b u t s i a l « model* p a r t a l d« f a c i l i t a r a l seu raconaiMajaant.
b>- Mea »vitat mi»t»maticanient la creació de buc!»« at !•» r»9l»« de l'autòmat perquè, encara quv permeten reduir «1 nombre de regí esi creen prob 1 « a m de control en el reconeiMement de leí»
forme«. Tot model que intervé en un bucle ha de dur negats tots els atributs que 1'autòmat hi hat i pofut recofiÜMer anteriorment, Vegem-ne un casi
Teni« el SI nominal 'fruit* amb els atribut» TV»=AR per a l'anàlisi de les formes del verb 'fruit-ar' i amb el« atribut» SNHER ('fruiter*, 'fruitera'), SN»ERIA «'fruiteria', 'fruiteries'l, etc. El ^odel de 'fruit-' té l'atribut T6*HBS per validar els SF de gènere i nrabrt. Definim la següent estructura a 1'autòmat:
Segments Reconeguts M START <£l MOM.> RNA 'fruit-'
R2 RNA < ^ eEN/NONBR> RSN 'fruit*, 'fruits*
condicióiT6«MSS
R3 RNA <SF C0NJU6> RV 'fruita*, 'fruit»**
condicióïTV«AR
R4 RNA <SM NOWIN.*ER'> RNA 'frt'íter* , 'fruiters*
condició t S N - O
RS RNA <m NOM.#ERIA*> RNA 'fruiteria*,...
Good i c i é i S*t»€R IA
1*7
Aquesta s o l u c i ó permet u t i l i t t a r « I s SF de gènere i nombre t a n t pmr a l « SI < * f r u i t - * « M I per a l * SM
< * f r t i i t - e r ~ * i * f m i t « - e r t - - ' > Ja que t o t » « aquestes r e g l e « tenen RNA com a e » t a t f i n a l i d'aquest e s t a t s u r t e n • ' » model» li« 8F de gènere i nombre.
E l s M ü w n t t reconeguts a l ' e s t a t RNA són ' f r u i t - * » ' f r u i t - e r - ' i ' f r u i t - e r i - * . El SI ' f r u i t - ' t é l a v a l i d a c i í TV*ARt de manera que t o t » e l s segments reconeguts f i n « a RNA accepten combinat—se amb e l s SF de l a f l e x i ó v e r b a l , amb l a qual cosa
• ' a n a l i t z e n « N I a c e r r e c t e s forme« C M a r a i e ' f r u i t - e r - e * i a p e r s . s i n g . p r e s . i n d . f » ' f r u i t - e r - e s ' 2 . p e r s . s g . p r e s i n d . | e t c . i també « ' f r u i t - e r i - o ' l a . p e r s . s i n g . p r e s . i n d i e t c .
Per t a l d ' e v i t a r aquestes a n a l i s i s i n c o r r e c t e s h i ha dues s o l u c i o n s p o s s í b l e s i
D - I n v a l i d a r al SM t o t » e l s a t r i b u t s que 1'autòmat hagi pogut t r o b a r a n t e r i o r m e n t .
Aquesta, encara que sembla una s o l u c i ó s e n z i l l a , no ho es t a n t s i t e n i m en compte que s ' h a n de preveure t o t s e l s p o s s i b l e s a t r i b u t s que poden t e n i r e l s SI que accepten un d e t e r m i n a t SM. A c t u a r per negació sempre
i m p l i c a el r i s c d ' o b l i d a r un a t r i b u t , i a i x ò , quan es t r e b a l l a amb un nombre e l e v a t de r e g l e s , models i a t r i b u t « d i f i c u l t a e l govern de l ' a n a l i t z a d o r .
2>- La aagona soquete consist«!« a crear un estat :lfic con a »«tat final d* la* regles del 3 SM, per example RNA1, d'on surten l?» regle» de SF d« gènere í
m START <si mm.> mm
Reconeguts
' f r u i t - ' m mm <SF 8EN/NQHBR> RON
condicióiT8»M§S ' f r u i t ' , ' f r u i t s ' m mm <SF CONJUB> RV
condicióiTV«AR ' f r u i t a 'f' f r u i t e n * M mm <m MOH.'ERO RNAI
co«diciót8W"€R * f r u i t e r * , ' f r u i t e r s1
f ^ M M <áM MOW.'ERIA*> RNAI
condicióiSN«ERIA ' f r u i t e r i a ' , . . .
Rà
RNAI <SF SEN/mmR>
RBNcondicié1TÖ«FAES
Aquest« solució incrementa el nombre de regles, però es guanya en claredat de disseny i control.
c)- He« creat »uocor, junta da regle« a le» qual»
s'arr.ba des de diferents punt» de l'autòmat. La segona conjugació v*rbal pot servir per il.lustrar aquest aspecte.
RAR2 es T'estat final de les regle» de «»dels de 81 de 1« segona conjugació. Aquesta conjugació presenta els
•ateixo* SF per al futur i per al condicional «n gairebé tots els paradigmes de verbs, que tan tols es diferencien pel» diferent» M F que hi ha entre (els 81
iéf
t e l s SF • * - é r ~# (modal < » » > ! per a verb» corn
• r e s o l d r e * < 8 I « ' « M » 1 - ' > , ' - e r - * («otfel <SQFER>» par a v e r i s co« 'eért*wr* CSI-corr—>» - r - (modal <SQFR>) par
• verb» COA ' p e r d r e ' «SI« ' p e r d - ' J . La» r e g l a » d ' a n à l i s i s e r i a n t
Rl
PM£
R3
ff*
fCSp
Ro
START <si 2A. CONJ>
RAR2 <SGFR>
eondiciét SOF-R RAR2 <SQFDR>
condiciét SQF«DR RAR2 <SGFER>
condici6i SQF-ER RFC <FUTUR>
RFC <CONÜIC>
ñmi RFC RFC
WC
p F
A í n » , l e « r e g i e s 5 i 6 »dn « e n e r a 1 i t z a b l e s per a t o t * e l s verbs de l a segona c o n j u g a c i ó s i g u i q u i n s i g u i e l SOF del f u t u r i c o n d i c i o n a l .
I V . 2 . 5 . 3 . - Esquema de l ' a n a l i t z a d o r
A c o n t i n u a c i ó p r e s e n t a r e « de «añera « o l t e s q y e e à t i c a
•1 disseny general de l ' a u t ò m a t que és a l a base de l ' a n a l i t z a d o r pwr t a l d ' o f e r i r yn «arc de l e c t y r a pmr a l c c a p í t o l s s e g ü e n t s .
He« agrypat e l s S I de l a c o n j u g a e i é verbal en t r e s
« r a r s grups de eodels c o r r e s p o n e n t s a l e s t r e s c o n j u g a c i o n s . Tots aquests model* tenen STMT com a e s t a t i n i c i a l i RAR1, RAR2 i RAR3 (Reconeix ARrels de
la pr i n e r t , »»son i t i r t w i conjugació) r»»p»ctiva«»nt COA m »mtat» f i n a l » de les regles»
itt mmt <si Í A . CONJ.> RARI
§12 START < S I 2 A . CfWJ.> RAR2 R3 START < 8 I 3 A . CONJ.> RAR3
E l s Models d a i s SF v e r b a l » t e n e n RAR1 , RAR2, RAR3 con»
a e s t a t s i n i c i a l » i RV (Reconeix e l V e r b ) c o a a e s t a t f i n a l i
R4 RARI <SF FLEXIÓ 1A.C0NJ> RV R3 RAR2 <SF FLEXIÓ 2A.CÜNJ> «V Ré RAR3 <SF FLEXIÓ 3A.C0NJ> RV
E l s models d e S I d e noms i a d j e c t i u s t e n e n START c o t a e s t a t i n i c " a l i RNA (Reconeix Noms i A d j e c t i u s ) c o n a e s t a t f i n a l . E l s M o d e l s de SF de flenere i noMbre d e noat* i a d j e c t i u » t e n e n RNA COM a e s t a t i n i c i a l % R6N
(Reconeix Sènere i Nombre» COM a e s t a t f i n a l t
f START < S I NOMS> RNA m START < S I ADJECTIUS> RNA
«9 RNA <SF NOMS> R6N RIO RNA <SF ADJ£CTIUS> Rod R i l RNA <SF N/A> F
Quan a l SF e s r e c o n e Í M e l c a r à c t e r d e l ' b l a n c * f p.e.
el SF dels no«» Masculins COM ' f r u i t#, el Model de SF té F (estat d e f i n i t com a Final) COM a estat f i n a l .
171
El* SM verbaUtzadcrs de noes i adjectius tenen RNA C M • »«tat inicial i RARl C I M a estat final , Ja que fióme« tract«» »I verbal itiadors que donen lloc a verbs d» la primmrm conjuaaciii
f i l l mm <m VERBAL RARI
Els SM normalitzadors d« no«« i adjectius tenen RNA coa a estat inicial i RNA1 C C M a estat final. La funció de 1'estat RNA1, C C M Ja s'ha dit, #s la d'evitar 1*. foraació d'un bucle.
L'estat RNA1 es 1 'estat que reconeix SI nomináis i adjectius 'derivats* mitjançant un SM. Així, els SM nominalitzadors de verbs tenen RARl, RAR2, i RAR3 con a estats inicials i RNA1 ce»« a estat fínali
R12 RARl iSM NOMIN/ADJ> RNA1 R13 RAR2 <SW NOMIN/ADJ> RNA1 R14 RAR3 <SM NOMIN/ADJ> RNA1 R13 RNA <8N NOMIN/ADJ> RNA1
Oe RNA1 surten ela model s de SF corresponents als segments intermedis.
Rlà RNA! <8F NOM/ADJ> R6N
Aquestes metze reties representen de asnera «olt general l'estructura de l'autòaat. En els capítols següents tractaré« amb detall cada un d'aquests grups.
IV.2.5.4.- Familias da paraula*
t r i c a r a qua • ! tema d a i s d e r i v a t s al t r a c t a « més extensament al c a p í t o l V I . En »quesv a p a r t a t d e d i c a t a l a metodologia presante« e l s r e c u r s o s dr> què disposa l ' a n a l i t z a d o r per» r e c o n è i x e r e l r d e r i v a t s i com e l » he« ú t i l i t z a t s .
El concepte de d e r i v a t p o r t a , conseqüentment, al de f a n a l i a de p a r a u l e s , conjunt de t o t e s a q u e l l e s f o r c e s que d e r i v e n d ' u n SI comú i que mantenen e n t r e s i una r e l a c i ó de s i g n i f i c a t més o menys p r o p e r a .
Encara que s i g u i d« vegades a r r i s c a t , creiem que és necessari u t i l i t z a r el c r i t e r i del s i g n i f i c a t en l a d e f i n i c i ó de l e s f a m í l i e s de p a r a u l e s perquè en cas c o n t r a r i %'acceptarien com m c o r r e c t e s l e s der i vac i o n s i
i n t e r - l o r s o l - a r
í edat ament
i s t a
que permeten l ' a n à l i s i de formes t o t a l m e n t a l l u n y a d e s pel s i g n i f i c a t a p a r t i r d ' u n mateíK 8 1 . Si es p r o c e d í s en aquest s e n t i t , l a g e s t i o del d i c c i o n a r i , i per t a n t de l ' a n a l i t z a d o r , s e r i a i m p o s s i b l e .
El r e c u r s al s i g n i f i c a t ha e s t a t una e x i g è n c i a del p r o p i sistema per t a l de d e l i m i t a r 1'abast de l e s
173
f a m í l i e s A<9 p r r a u l a s i , an aquest tema, no és p o s * i b i s s e g u i r uns c r i t e r i s d ' a b s o l u t a o b j e c t i v i t a t . Vegen-h© amb un exemples de 'mar' es c l a r que poden d e r i v a r - n e ' « a r i n a d a ' ( " v e n t de l a banda d« Mar que b u f a a Hores determinades") ,
' « a r l n a t f e * ( " a r t de n a v e g a r " ) , ' « t a r i n e j a r s e ' ( " r e b r e l a Marinada"»» ' » a r i n e n c ' C'de mmr, « a r í " ) , e t c . , però
•1 cas de 1 * f o r « « ' m a r i n a r * Cadobar t e l p e i x ] per conservar-lo**) p l a n t e j a problewe» j a que el seu s e n t i t es t r o b a a l l u n y a t del terme i n i c i a l ' m a r - ' .
En aquests casos cal adoptar s o l u c i o n s d ' a c o r d amb e l s r e s u l t a t s que s'esperen o b t e n i a de l ' a n à l i s i
« o r f o i àgiea•
Sempre que ha e s t a t p o s s i b l e , he« r e s o l t l e s for»
derivades a p a r t i r d ' u n SI m i t j a n ç a n t r e g l e « de 1 ' a n a l i t x a d o r . fab t o t , de vegades mino no ha e s t a t p o s s i b l e , i he« hagut de d e f i n i r SI d e r i v a t s t
« ) - quan e l s SI presenten a l t e r a c i o n s f o r m a l s . En aquests c a s o s , per mantenir l a cohesió de l a f a m i l i a de paraules he« c r e a t un SI g e r « àt és a d i r , un SI v i n c u l a t internament a un a l t r e que c o n s i d e r e « b à s i c i
SI b à s i c s 81
l l o p - ( O ) l l o b ~ ( ~ at. . . » v i u - ( - r e ) v i v - < ~ i af - o rf. . . ) p a s - t ö ) p a s s - < - a r , - a d o r , . . . )