Faultadde Matemátia Astronomía y Físia
Trabajo Espeial
Algoritmos Genétios para Análisis Sintátio
Sergio Penkale
Las ténias tradiionales de análisis sintátio denen modelos
proba-bilístiosque permiten reorrer exhaustivamente elespaio de busqueda en
tiemposrazonables. En lugar de expliitamente denir un modelo y busar
el analisis sintatio óptimo dentro de los permitidos por el modelo, en el
presentetrabajo implementaremos un meanismo que nos permitirá
exten-dereste espaio de busqueda a uno muho mas amplio ypratiamente sin
restriiones. Este método realizará una búsqueda no-exhaustiva mediante
heurístias. Se proponen diferentes riterios paraguiar la busqueda y ada
uno de estos riterios es evaluado en la tarea espeia de parsing de la
seióndelWallStreet Journal delPenn Treebank.
Palabras Clave
parsing, algoritmogenetio, análisissintátio
Clasiaión
1. Introduión 1
2. Maro Teório 5
2.1. Gramátias Libresde ContextoProbabilístias . . . 5
2.2. El modelode Collins . . . 7
2.3. AlgoritmosGenétios . . . 9
2.4. Evaluaión. . . 12
3. Algoritmos Genétios para Analisis Sintátio 15 3.1. Representaión . . . 15
3.2. Poblaión Iniial . . . 16
3.3. Mutaión . . . 17
3.4. Crossover . . . 22
3.5. Fitness. . . 24
3.5.1. CheaterFitness . . . 25
3.5.2. ChunkFitness . . . 26
3.5.3. PCFGFitness . . . 26
3.5.4. Reglas Gramatiales . . . 28
4. Experimentos 31 4.1. Proedimiento . . . 31
4.2. Resultados. . . 32
1.1. Distintos árbolessintátios parauna mismaoraión . . . 2
2.1. Unaderivaión ysu árbolorrespondiente . . . 6
2.2. Unárbolsintátiolexializado . . . 8
2.3. Algoritmogenétioprototípio . . . 10
2.4. Operaión de rossover . . . 11
2.5. Unárbolsintátioon losespaiosentresushojasenumerados 13 3.1. Dosfragmentosde árboles sintátios . . . 17
3.2. Dosposiblesárboles sintátiosparauna oraión . . . 18
3.3. Forma inorretade realizar un reattahment . . . 19
3.4. Cadena unaria . . . 19
3.5. Formas posibles de realizar mutaión . . . 21
Introduión
Enlaatualidad, lasomputadorassonunaherramientafundamentalen
las tareas que las personas realizan día a día. Sin embargo no existen aún
meanismos eaes y eientes que permitanque los humanos interatúen
onlasomputadorasomosilohiieranonotrohumano. El
Proesamien-to de Lenguaje Natural (PLN) es una subrama de laInteligenia Artiial
y de la Lingüístia Computaional uyo objetivo es rear representaiones
formales del lenguaje natural hablado por los humanos,para de esta forma
lograr quelas omputadoras seanapaes degenerar yentenderel lenguaje
natural.
UnodelosprinipalesproblemasqueelProesamientodeLenguaje
Natu-ralintentaresolvereseldelanálisissintátiodeoraiones:dadaunaoraión
(y generalmente laategoría sintátia de ada una de sus palabras) se
in-tenta obtener toda la estrutura gramatial de la misma. Para representar
estaestrutura, los lingüistasutilizan una representaión en formade árbol
queindia, entre otros,sujetos,objetos yprediados delaoraión, esdeir,
básiamente quien hizoqueaquien en laoraión.El proesodeobtenión
deestaestruturagramatialesonoidoomoparsing,yelárbolresultante
sedenomina árbol sintátio.
Parsing Model
Laprinipal diultadonlaqueelparsing debelidiareslaambigüedad
dellenguaje ydelas estruturasgenerativasde lagramátia delmismo.
Veamos unejemplo. Consideremoslasiguiente oraión:
Our ompany is training workers
NP Ourompany VP Aux is VP V training NP workers (a) NP Ourompany VP V is NP VP V training NP workers (b) S NP Ourompany VP V is NP AdjP training N workers ()
Figura1.1: Distintosárboles sintátios parauna misma oraión
El análisis (a) es el que ualquier humano peribiría. En este análisis
training es el verbo, por lo que se india que la ompañía es la que esta
entrenando trabajadores. Sin embargo, ualquier gramátia medianamente
omplejatambiénaeptalosotrosdosárbolessintátios,endondeelverbo
es is, indiando que la ompañía es training workers (podría tratarse del
nombre de laompañía).
Laformaderesolverestasambigüedadesesintroduiendoprobabilidades.
Paraesto sedene un modelo de parsing que, suponiendo una gramátia
G
para el lenguaje, dada una oraión s evalúa la probabilidad de todos susposibles árboles sintátios.Esto es,sedene:
P
(t|s, G)
dondeX
t
P(t|s, G) = 1
Deestamanera,elobjetivodelparseresenontrarelárbolsintátioque
maximieesta probabilidad:
ˆ
t
= arg max
t
P(t|s, G)
La idea esque unbuen modelo asignaráuna probabilidad mas alta al
árbolsintátio (a) de la gura 1.1, por lo queel parser devolverá el árbol
El tipode parsingquerealizaremos enestetrabajo eselllamadoparsing
supervisado.Para haer parsing supervisado, se neesita una gran oleión
deoraionesquehayansidoanalizadassintátiamenteporhumanos.Deesta
manera,elmeanismodeparsingtieneasudisposiiónunagranantidadde
ejemplosdeárbolessintátiosdeoraionesque,alhabersidorealizadospor
humanos,sononsideradosomoorretos,ypuedeutilizarestainformaión
paraaprenderarealizarárbolessintátiosorretos,esdeirparaentrenar
yajustarlosparametrosdelmodelosubyaentealparser.Elárbolsintátio
de unaoraión quefue realizado por unhumanosedenomina gold standard
de laoraión,yuna oleiónde gold standards sellamatreebank.
Altrabajar onparsing supervisado,elmétodo estándar onsisteen
uti-lizaruna granporión deltreebank paraentrenar elparser, reservando otra
porión maspequeñaqueseutiliza paraevaluar elomportamiento del
par-ser. Estaevaluaiónonsisteen ompararelárbolsintátio devueltopor el
parseronelgoldstandard,uantiando dealgunamanerauansimilarson
losarboles.Esimportante queelmaterialdeentrenamiento delparser sealo
masgrandeposible,paradeestamaneraobservarlamayor antidadposible
de fenómenosdellenguaje [Attererand Shütze, 2006 ℄.
El treebank que mas amplio uso tiene es el llamado Penn Treebank. A
n de que los resultados obtenidos en una investigaión sean omparables
on los realizados en otras, se han estableido estándares que indian que
poriones del PennTreebank utilizar para ada etapa delparsing, así omo
los metodos de evaluaióna utilizar. Estos temasse veránon detalle en el
Capítulo 2.
Algoritmos Genétios
Supongamos quetenemos una gramátia
G
para el lenguaje on el que estamostrabajando.Dadoqueelárbolsintátioparaunaoraióndebeobe-deer las reglas impuestas por
G
, el onjunto de todos los posibles arboles sintátios dellenguajequedadeterminado por estagramátia.Losmodelosde parsing utilizadospor lamayoría de losparsersintentan apturar las
a-raterístiasfundamentalesdellenguaje,asignandodiferentesprobabilidades
adiferentesestruturassintátias,einlusoasignandoprobabilidadesnulas
a iertas estruturas sintátias. Deesta manera,el problema de enontrar
elárbol
t
ˆ
quemaximie lafunión de probabilidadP
parauna oraións
se reduea enontrarel árboluyashojasestándeterminadas pors
quetenga mayor probabilidaddentrode losarbolesvalidos(onprobabilidad nonula)para el modelo. Este heho, sumado a que habitualmente los modelos de
parsing introduen hipotesis de independenia entre los sub-arboles de un
árbolsintátio, permite quelosparsershabitualmentesean implementados
En el presente trabajo nosproponemos enarar elproblema del parsing
medianteunasoluiónpoohabitual.Envezdeexpliitamentedenirun
mo-deloybusarelárbolóptimodentrodelosarbolespermitidosporelmodelo,
implementaremos un meanismoquenospermitirá extenderesteespaiode
busqueda auno muho mas amplioypratiamente sinrestriiones.
Paraesto,utilizaremosalgoritmosgenétios (GA).Unalgoritmogenétio
esunmétodo de busqueda análogoal proesode evoluión que seda en los
organismos biológios. Los GA's son algoritmos iterativos que omienzan
onunapoblaióniniial deindividuos.Ciertosindividuosdeestapoblaión
iniial serán seleionados para formar parte de la siguiente poblaión. La
probabilidad de que un individuo sea seleionado depende de una funión
llamada
f itness
,que mideuan bien seadaptael individuo asu entorno. Luego se permite que estos individuos muten y se reproduzan entre ellos,dandopasoaunanuevapoblaión.Elalgoritmo seaplianuevamenteaesta
poblaión, y se repite este proeso hasta quealgún riterio de detenión se
satisfaga.Cuandoelalgoritmosedetiene,sedevuelveelindividuoonmayor
tness delaultima poblaión evoluionada.
Elmétododeparsingqueutilizaremosenestetrabajoeselsiguiente.
Pri-mero utilizaremosun parser tradiionalde entre los quemejores resultados
obtienen, pero en vez de pedirle quenos devuelva elmejor árbol sintátio
parauna oraión, lo pondremos en modo k-best, es deir, le pediremos que
una vez que termine nos devuelva los
k
mejores árboles sintátios según su modelo para esa oraión. Esto nos proveerá de un onjunto de posiblesárboles sintátios de alta alidad, ya que sontodos árboles sintátios on
una gran probabilidad bajo un modelo que ha demostrado serexitoso.
Uti-lizaremos este onjunto de árboles sintátios omo poblaión iniial de un
algoritmogenétio,eintentaremosdenirdistintasfunionesde
f itness
que permitan queesta poblaiónevoluione auna on mejoresresultados.Este doumento seenuentra organizado en 4 apítulos.En elCapítulo
2(Maro teório) sedetallaran todoslos oneptosteórios neesariospara
omprenderafondoelproblemaqueseestaráintentandoresolverylaténia
propuesta para soluionarlo. En el Capítulo 3 (Algoritmos Genétios para
Analisis Sintátio) se utilizarán los oneptos introduidos en el Capítulo
2 para detallar la soluión propuesta. En el Capítulo 4 (Experimentos) se
llevarana abo diversosexperimentosuyoobjetivoesevaluarlaeaiade
lasoluión propuesta. En elCapítulo 5 seenuniarán onlusiones sobre el
Maro Teório
2.1. Gramátias Libres de Contexto Probabilístias
La forma en que los humanos hablamos y esribimos no es una simple
onatenaión de palabras al azar, si no que tiene ierta estrutura y
regu-laridad. La ramade lalingüístia que estudialaestrutura de las oraiones
es la sintaxis. Dentro de la sintaxis, una oraión es vista omo una
estru-tura en forma de árbol donde las hojas sonlas palabras de la oraión. Los
nodosinternos representanunaestrutura jerárquiadonde laspalabrasson
agrupadas en unidades estruturales suesivamente mas grandes. Las
pala-bras que han sido agrupadas juntas en una de estas unidades estruturales
sonunidades sintátias llamadasonstituyentes. Estasunidades sintátias
satisfaenpropiedadesomoladesustituibilidad:unonstituyentepuedeser
sustituidoporotro queseenuentre enlamisma ategoría y,aunqueel
sig-niado de la oraión puede variar, la oraión sigue siendo sintátiamente
valida.
Inmediatamente arriba de las palabras en esta estrutura jerárquia
es-tán las ategorías sintátias o POS (del ingles Parts OfSpeeh). LasPOS
sonuna manera deagrupar las palabrasen onjuntosde palabrasque
om-partenomportamientossintátiossimilares.Ejemplostípiosdeategorías
sintátias son verbos, sustantivos y adjetivos. En la estrutura jerárquia
de una oraión, un POS solo puede enontrarse inmediatamente arriba de
una(y solo una) palabra.
La sintaxisno soloseenargadedesribir laestrutura delasoraiones,
sinoqueengeneral seproponeenuniarrestriionesqueestablesanuales
series de palabras son validas y uales no. La forma tradiional de
enun-iar estas restriiones es mediante reglas de reesritura. Supongamos que
tenemosun onjunto
V
on todas las ategorías de onstituyentesposibles. AlgunosmiembrostípiosdeV
sonNP (unafrasesustantiva),VP (unafrase verbal),S
(una oraión), et. SeaA
∈
V
yα
∈
V
∗
,lasreglas de reesritura
laregla
S
→
NP VP india queuna oraión puede seruna frase sustantiva seguida de una frase verbal. A ontinuaión podemos tomar una regla queen su lado izquierdo tengaNP y sustituirdiho símbolo en el lado dereho
de la regla anterior. De esta manera, si omenzamos on una regla que en
su ladoizquierdo tengael símbolo S yapliamos suesivamente reglasa los
símbolos enelladodereho,eventualmentepodemosllegara unaadenade
texto que ontenga solo POSs. Reemplazando ada POS por una palabra
obtenemos una oraión. La lista de reglas de reesritura utilizadas para a
partirdelsímbolo
S
obtener unaoraións
se denomina derivaión des
. La manera mas habitual de representar estas derivaiones es medianteun árbol, donde los nodos internos y sus hijos representan la apliaión de
unaregla.EnlaFigura2.1(a) podemosverladerivaióndelaoraiónAnna
hatesJohn,yen laFigura2.1(b) elárbolorrespondientea estaderivaión.
S
→
N P V P
N P
→
N
N
→
Anna
V P
→
V N P
V
→
hates
N P
→
N
N
→
J ohn
(a)Reglasdereesritura
S
NP
N
Anna
VP
V
hates NP
N
John
(b) Árbolsintátio
pa-ralaoraiónAnnahates
John
Figura2.1: Una derivaión ysu árbolorrespondiente
PCFGs
Elmodeloprobabilístiomassimplequeontemplaestaestrutura
jerár-quia en lasoraiones es elprovisto por las Gramátias Libres deContexto
Probabilístias.
Deniión 1. Una Gramátia Libre de Contexto Probabilístia o
PCFGes una 5-upla
G
= (V,
Σ, R, S, P
)
donde:1.
V
es un onjunto nito. Los elementos deV
son llamados no termi-nales.2.
Σ
esunonjunto nitodisjuntoonV
.Loselementos deΣ
son llama-dos terminales.4.
R
es un onjunto de produiones dela formaA
→
α
dondeA
∈
V
yα
∈
(V
∪
Σ)
∗
5.
P
∈
R
→
[0,
1]
es una funióntal que∀A
∈
V
X
A→α
∈
R
P
(A
→
α) = 1
Sitenemosuntreebank anuestra disposiión,esfáil induirunmodelo
deparsingbasadoenPCFGquemaximielaprobabilidad delosarboles
ob-servadoseneltreebank. Paraesto,poradaárbolperteneientealtreebank,
obtenemos la lista de produiones involuradas en el mismo, y utilizamos
estas produiones en el modelo. Las probabilidades provienen de ontar
uantasveesourreadaproduión,ydividirlaporlaantidadde
produ-ionesonelmismosímbolodelladoizquierdo.Si
|
r
|
representalaantidad de veesque lareglar
seobservo enelorpus, entones:P(A
→
α) =
P
|
A
→
α
|
A→γ
|
A
→
γ
|
(2.1)
Dadounárbol
t
,sisuponemosqueladerivaiónquedioorigenat
esuna seuenia de eventos probabilístiamente independientes entre si, entoneslaprobabilidadde
t
sealulaomoelprodutodelasprobabilidadesde las reglasqueinvolura.Estoes:P
(t) =
Y
P
(
A→α
)
∈t
P(A
→
α)
Por ultimo, la probabilidad de una oraión es lasuma de las
probabili-dadesde todossusposiblesárboles sintátios:
P(s) =
X
{t
:
yield(
t
)=
s}
P
(t)
donde yield
(t)
denotala adenade textoformadapor lashojasdet
.2.2. El modelo de Collins
Un modelodeparsing queresultarade vitalimportaniaen estetrabajo
eselmodelo deCollins ([Collins,1999℄).
Este modeloes unaextensión de las llamadas PCFGLexializadas.Una
PCFG puede lexializarse al asoiar a ada no-terminal una palabra y su
orrespondiente POS.La palabraque seasoiaa ada no-terminalproviene
de iertas reglas esritasa mano que permiten identiar el núleo de ada
onstituyente.En laFigura2.2vemos un árbolsintátio lexializado:ada
NP(She,PRP)
PRP
She
VP(had,VBD)
VBD
had
NP(idea,NN)
DT
an NN
idea
Figura2.2:Un árbolsintátiolexializado
Formalmente, no existen diferenias entre una PCFG que se enuentra
lexializadayuna queno,elproesode lexializaiónsimplementeaumenta
en una gran medida la antidad de no-terminales. Sin embargo, desde el
puntodevistapratio,esteaumento resultadrástio.Lostreebankson los
quehabitualmentesetrabajanoontienensuienteinformaiónomopara
poderestimar, simplemente on laEuaión 2.1, la probabilidad de lagran
antidad de reglasde lagramátia
El modelo model-2 denido en [Collins, 1999 ℄ soluiona este problema
desomponiendo la probabilidad de una regla en una seuenia de eventos
maspequeños, reduiendoasí laantidad de parametros a estimar. Eneste
modelo, unaregla de laPCFGesvistade lasiguiente forma:
A(h)
→
L
n
(l
n
)
. . . L
1
(l
1
)H(h)R
1
(r
1
)
. . . R
m
(r
m
)
(2.2)donde
L
1
, . . . , L
n
, R
1
, . . . R
m
, A, H
sonnoterminalesyl
1
, . . . , l
n
, r
1
, . . . , r
n
, h
sonparesompuestos por unapalabra on su orrespondientePOS.La probabilidad de una regla es el produto de la probabilidad de los
diferentes eventos que dan lugar a la misma. El primero de estos eventos
es,dados
A
yh
,elegir elnúleoH
.Este núleo tiene asoiado unmaro de subategorizaión, que esun multionjunto1
que espeia que
onstituyen-tes neesita el núleo omo omplemento. Los maros de subategorizaión
orrespondientes a ada núleo son determinados duranteel entrenamiento
mediante reglas ad ho. Una vez jado el núleo de la regla, los
restan-teseventosonsistenenlageneraióndelosdemás modiadoresdelnúleo
L
n
(l
n
), . . . , L
1
(l
1
), R
1
(r
1
), . . . , R
m
(r
m
)
,ondiionandoestageneraiónonel maro de subategorizaión del núleo, junto on una funión de distaniaquetomaenuentalosmodiadoresquefuerongeneradosdesdeeste
modi-adorhastaelnúleo.Porultimo,paragarantizarlaonsisteniadelmodelo,
implíitamente se generan los no terminales
L
n
+1
=
R
m
+1
=
ST OP
en el extremoizquierdo ydereho deada regla.1
Por ejemplo, laprobabilidad de laregla
S(had)
→
NP-C(She)VP(had) sealulaomo:P
h
(
VP|
S, had)
×
P
lc
({
NP-C} |
S,
VP, had)
×
P
rc
({} |
S,
VP, had)
×
P
l
(
NP-C(She)
|
S,
VP, had,
{
NP-C})×P
l
(
STOP|
S,
VP, had)×P
r
(
STOP|
S,
VP, had)
Paramasdetalles ver[Collins, 1999℄
Enelpresentetrabajodeidimosutilizarelmodelo2deCollinsyaquees
unmodelo ampliamenteusadoyitado, queen elmomento de su
introdu-iónmarónuevospuntosderefereniaenuantoalapreisióndelosárboles
sintátios obtenidos. En partiular utilizaremos la implementaión de este
modelo desripta en [Bikel,2004 ℄. Elegimos esta implementaión
prinipal-mente porsu inmediata disponibilidad,yporquesetrata deuna
implemen-taiónaltamenteexpandibleymodiable,loualeventualmentepermitiría
realizar modiaiones almodeloutilizado de forma rápidayelegante.
2.3. Algoritmos Genétios
En ramas de la omputaión omo la Inteligenia Artiial o Mahine
Learning, estípioque sepresentenproblemas uya soluión yaeen
domi-niosonoidosybiendenidos,peroparalosquenoexistenonoseonoen
algoritmos eientes quegarantien queuna soluiónpueda serenontrada.
Por lo tanto, estosproblemas se reduen a la busqueda de un elemento en
partiular perteneiente a un dominio que, en aso de ser nito, suele ser
demasiado extensoomo paraen tiempos razonablesrealizar unabusqueda
exhaustiva de la soluión en forma direta. Por esta razón, se han
desa-rrollado metodosque permiten haer una busqueda sobre un gran dominio
utilizando heurístias quepermitan guiar la busqueda haia setores en los
queon mas probabilidadpueda ser enontradala soluión.
UnodeestosmetodosdebusquedasonlosllamadosAlgoritmosGenétios
(oGAs,por susiglaeningles).Losalgoritmosgenétiosfunionanmediante
un proeso quepretende seranálogo alfenómeno de la evoluión que se da
naturalmenteenlosorganismosvivos.Losalgoritmosgenétiospartendeuna
poblaión iniial de posibles soluiones generadas al azar, y suesivamente
onstruyen nuevas versiones de la poblaión. Los individuos que forman
las nuevas poblaiones se obtienen de la reombinaión y alteraión de los
elementosenlapoblaiónanterior, simulandolosefetosdelapareamientoy
lamutaión enlosorganismosvivos.Además,notodoslosindividuostienen
las mismas hanes de formar parte de la nueva poblaión, si no que la
probabilidad de que unindividuo sea seleionado depende de uan biense
adaptaasuentorno.Estoesemuladomedianteunafuniónllamadatness,
queemula elefetode laseleión natural.
En laFigura 2.3podemos observar elpseudo ódigode un prototipo de
GA(
F itness
,F itness
_threshold
,p
,r
,m
)Iniializar la poblaión: iniializar
P
generandop
individuos al azarEvaluar: Por ada
h
enP
, alularF itness(h)
Mientras(m´
ax
h
F itness(h))
<
F itness
_
threshold
haer lo siguienteCrear una nueva generaión
P
S
:1. Seleión: Probabilistiamente seleionar
(1
−
r)
·
p
miembros deP
para agregar aP
S
. La probabilidadP r(h
i
)
de seleionar el individuoh
i
deP
esta dada porP r(h
i
) =
F itness(h
i
)
Pp
j
=1
F itness(h
j
)
2. Crossover: Probabilistiamente seleionar
r
·
p
2
pares de individuos deP
, de auerdo onP r(h
i
)
. Por ada par<
h
1
, h
2
>
, produir dos hijos apliando el operador de rossover. Agregar todos los hijos aP
S
3. Mutar: Elegirm
poriento de los miembros deP
S
onprobabilidad uniforme. Apliar el operador de mutaión
a ada uno de ellos.
4. Atualizar:
P
←
P
S
5. Evaluar: Por ada
h
enP
, alularF itness(h)
Devolver el individuo deP
on mayor fitness00001010101
00001001000 11101010101
Figura2.4:Operaión derossover
Como se puede observar, el omportamiento del algoritmo depende de
iertosparametros quesedebenprejarantesdeutilizarelalgoritmo.Entre
estosparametros se enuentran
p
,la antidad de individuos en ada pobla-ión,m
la razón de mutaión, que india el porentaje de individuos a ser afetados por laoperaión de mutaión, yr
,el fator de rossover, que in-diala antidad de individuos queseverán involurados enla operaión derossover.
Paraada algoritmo genétioque resuelva unproblema en partiular se
deberádenireltipoderepresentaión quetendrán losindividuos. Esta
re-presentaiónestainueniadaporeltipodeproblemaqueseestaintentando
resolver,ya quealjar laformaquetendránlos individuosaevoluionarse
estará deniendoeldominio sobreelqueserealizara labusqueda.La forma
mas usual de representar los individuos onsiste en utilizar seuenias de
bits, que generalmente representan la presenia o ausenia de iertos
atri-butos. Sinembargo, diversasimplementaiones de algoritmos genétios han
utilizado diferentes tiposde representaión para los individuos. En
partiu-lar,enelpresentetrabajoadaindividuofuerepresentadoutilizando arboles
sintátios.
Una vez elegida larepresentaión para losindividuos, sedeben denir e
implementar los operadores genétios que operaran sobre estos individuos:
mutaión yrossover.Estos operadores, alreombinar ymodiar los
indi-viduosperteneientesaunapoblaión,sonlosenargadosdegenerarlosque
poblaran las suesivasgeneraiones de la poblaión. El operador de
rosso-ver toma dosindividuospadresy,alinterambiar segmentosdeinformaión
entre ellos, produe dos individuos hijos.Si larepresentaión de individuos
utilizada onsiste en una seuenia debits, entones laforma en que
usual-mente se implementa este operador esla de seleionar subadenas de bits
en los padrese interambiarlas, produiendo así doshijos.En la Figura2.4
sepuede observar un ejemplode la apliaión de esta operaión. La
suba-denaqueesutilizadapararealizarlaoperaión esdeterminadaeligiendodos
puntos dequiebre alazarsobre laadenade bits delos padres.
La operaión demutaiónintrodue variaionesen lapoblaiónal
modi-ardealgunamaneraalgúnfragmentodeunindividuo.Laimplementaión
típia de esta operaión onsiste en invertir algún bit elegido al azar en la
representaión de unindividuo.
Finalmente,unodelosaspetosmasimportantesdeunalgoritmo
genéti-oeslafuniónde tness.Estafunióntomaomoargumento unindividuo
indi-propiedades uantiadas por esta funión serán las que el algoritmo
gené-tio intentara maximizar. Como se ve en el algoritmo de la Figura 2.3, un
individuo on alta tness tendrá mayor probabilidad de ser elegido omo
andidato aser apliadoa lafuniónde rossover, generando así nuevos
in-dividuosqueposiblementeseveanbeneiadosporontaronsubseuenias
deodiaiónque llevana unaalta tness.
Existen diferentes variaiones de diferente grado al algoritmo
propues-toenlaFigura2.3. Unavariaiónpequeña peroampliamenteutilizadaesla
llamadaseleiónonelitismo.Cuandoseutilizaelitismo,seagregaun
para-metromasalalgoritmogenétio,queindiaunaantidadja
e
deindividuos. Luego,alahoraderearunanuevapoblaión,seeligenlose
individuoson mejor tness de la poblaión anterior y se agregan intatos a la nuevapo-blaión.Luegoseontinuanormalmenteonlosproedimientosdeseleión,
rossoverymutaión.Estosproedimientos(inluidoeldeseleión)atúan
sobretodoslosindividuosdelapoblaiónanterior,inluidoslos
e
quefueron opiados mediante elitismo.La utilizaiónde elitismo permitequesereduzalaprobabilidad de que
losindividuosonaltatness seansuesivamentemodiados resultandoen
individuosdemenor tness,yqueporlotanto laalidad delapoblaión se
deteriore.Alutilizarelitismo,elmejorindividuoobservadohastaelmomento
siempreestarápresente enlapoblaión atual,por loquetendrá hanesde
verseinvolurado en losproedimientosderossoverymutaión, aportando
asífragmentosde buena alidad a susdesendientes.
2.4. Evaluaión
El problema del parsing es un problema realmente difíil. Cuando un
sistema de parsing es onstruido, el objetivo real no es poder resolver por
ompleto el problema del análisis sintátio de oraiones, sino que lo que
se trata es de aproximar la soluión, proveyendo árboles sintátios que si
biennosonperfetos,paraalgunasapliaionessonsuientes.Dadoquelos
parsers dan soluiones aproximadas, surge el problema de poder omparar
uantitativamente el resultado de ada parser, para poder deidir ual es
mejorque elotro.
Sehandenidoproedimientosparaevaluarlaperformanedelosparsers
teniendo en uenta que estos devuelven soluiones aproximadas. Por lejos,
lasmedidasde evaluaiónmas utilizadassonlasllamadas medidas
PARSE-VAL,denidasen[Blak etal.,1991 ℄.Dadoqueoriginalmenteestasmedidas
fueron ideadas para poder omparar el resultado de parsers on diferentes
teorías sintátias, en estas se reomienda realizar varias modiaiones a
los arboles antes de realizar las evaluaiones, y no se tienen en uenta las
NP
DT
0
The1
NN
at
2
VP
VBD
ate
3
NP
DT
the
4
NN
sh
5
Figura2.5:Un árbolsintátioon losespaios entresushojas enumerados
Sin embargo, en los últimos años el onjunto de oraiones sobre el que
los parsers sondesarrollados y testeados seha onvertido pratiamente en
unstandard.Esteonjunto deoraionesesonoidoomoelPennTreebank
([Marusetal.,1993 ℄),queonsisteen49208oraionesextraidasdeartíulos
delWallStreetJournal quefueronanalizadassintátiamenteporhumanos.
Este treebank se enuentra dividido en 25 seiones, y se han designado
seiones espeiasparaentrenar,desarrollar ytestearel parser.
Dadoqueestaremosutilizando elPennTreebank, sirealizaramos las
mo-diaiones propuestasen las medidasoriginalesyno tuviéramos enuenta
lasetiquetasdelosonstituyentes, estariamoseliminando informaión
valio-saalahoradeevaluarelresultadodelparser,eimpediríaquelosresultados
seanomparadosonotrostrabajos.Porlotanto,utilizaremoslasvariaiones
de lasmedidasoriginales quehan sidoutilizadas por lostrabajosrealizados
enlos últimosaños, onoidasomo Labelled Presiion (osimplemente Pr
e-siion),Labelled Reall (o Reall) yCrossing Brakets.
Silaseueniadehojasdeunárbolestaompuestaporlashojas
a
0
, ..., a
n
, deimosque unárbol(o subárbol)domina estashojas.Supongamos que numeramos los espaios entre las hojas de un árbol
sintátio omo en la Figura 2.5. Entones podemos denir el onjunto de
brakets de un árbol omo el multionjunto formado por el label de ada
uno de sus onstituyentes junto on el numero a laizquierda de la primera
hoja que domina y el numero a la dereha de la ultima hoja que domina.
Por ejemplo, parael árbolde laFigura 2.5, elonjunto de brakets es: <S,
0,5>, <NP,0,2>, <VP, 2,5>,<NP,3,5>.
P resicion
=
#(gold
∩
parse)
#parse
Recall
=
#(gold
∩
parse)
#gold
donde
#A
representa la antidad total de elementos del multionjuntoA
,ydonde la operaión∩
representa lainterseión de multionjuntos, de-nida omo la operaión que dados dos multionjuntosA
yB
devuelve el multionjunto uyos elementos están tanto enA
omo enB
y ourren el mínimode las veesque ourren enA
yenB
.Sea
p
=< X, n, m >
un elemento deparse
yg
=< Y, i, j >
un elemento degold
.Entones diremos quep
ruza ag
sii(i < n
≤
j < m)
∨
(n < i
≤
m < j)
.Lamedida derossing brakets sealulaomolaantidaddeelementos
de
parse
queruzan aalguno degold
.También sedene unamedida queonvenientementerelaiona las
medi-dasde presiion yreall,devolviendo lamedia armónia entreambas. Esta
medida,llamada F-measure (o F
1
) sedene de lasiguientemanera:F
1
=
2
·
P resicion
·
Recall
P resicion
+
Recall
Ademásdelainformaiónsintátiatradiional,elPenn Treebank
uen-ta también on anotaiones queproveen informaión semántia. Estas
ano-taiones se enuentran en forma de sujos omo -BNF, -LOC en
algu-nosno-terminales(por ejemploNP-SBJ). Estetipode sujofueeliminado
de los arboles. Además, al igual que en trabajos previos ([Collins, 1996 ℄,
[Magerman, 1995 ℄), a la hora de realizar la evaluaión todos los signos de
puntuaión fueroneliminados, aligualquelosnodosonetiqueta
-NONE-ytodoslosonstituyentesquedominabansolopalabrasnopronuniables.Por
ultimo, seonsideraron omoequivalentes las etiquetasADVP yPRT.
A la hora de reportar los resultados, las medidas utilizadas fueron la
mediaaritmétiaentrelosvaloresdelasmedidasPresiion, Reall,Crossing
Algoritmos Genétios para
Analisis Sintátio
Enelpresentetrabajonosproponemosintentarunaaproximaiónal
pro-blema del parsing mediante un método, al menos para nosotros, novedoso.
Enlugardedenir expliitamenteunmodeloquereduzaelespaiode
bus-queda asignándole probabilidad a los diferentes árboles sintátios de una
oraión, utilizaremos un espaio de busqueda pratiamente irrestrito que
serareorrido medianteun algoritmogenétio.
Dadaunaoraión,seobtendráunonjuntoarbitrariodeposiblesárboles
sintátios para la misma. Este onjunto se utilizara omo poblaión
ini-ial del algoritmo genétio, y se evoluionara diha poblaión mediante las
operaionesdemutaión yrossoverhastaquealgúnriterio dedeteniónse
satisfaga,devolviendoelárbolsintátioonmayortnesshastaelmomento.
Consideramos que latarea de asignara ada palabra de una oraión su
orrespondientePOSesunatareaquepuedeserrealizada
independientemen-te de manera eiente. Por lotanto, nuestro algoritmo toma omo entrada
una oraión uyas palabras tienen un POS asoiado, y devuelve un árbol
sintátioparadiha oraión,aunquelaseueniade POSen elanálisis
sin-tátio devuelto no neesariamente sera lamisma que seproporiono omo
entrada.
A ontinuaión sedetallan los diferentes omponentes delalgoritmo
ge-nétio.
3.1. Representaión
El objetivodelalgoritmogenétioseraenontrarelmejoranálisis
sintá-tioposibleparaunaoraión.Porlotantolarepresentaiónqueutilizaremos
paralos individuosde ada poblaión seránarboles. Cadaárbolde una
tátio.
Laformageneralquetomaraelalgoritmoqueutilizaremosesbásiamente
laquedetallamosenlaFigura2.3,ondosexepiones.Laprimeraexepión
es que utilizaremos elitismo, por lo que los mejores
e
individuos de una poblaiónsiempre estarán presentes en lasiguiente(a menos que algunodeestosindividuossevea afetado por una operaión de mutaión).
La segunda exepión es que el riterio para nalizar la ejeuión del
algoritmo no sera solo que la mejor tness observada alane un valor en
partiular, sino que además independientemente de el valor de las tness
presentes enlapoblaión, elalgoritmo sedetendrá luegode haber realizado
unnumeroprejado deiteraiones.
3.2. Poblaión Iniial
La poblaión iniial del algoritmo genétio debe onsistir en un gran
onjunto de arboles quepuedan seronsiderados árboles sintátios de una
oraión y que además dispongan de una gran diversidad de
subestrutu-rasque permitan serreombinadas exitosamente por el algoritmo genétio.
Construirun onjunto deestasaraterístias espor simismo un problema
sumamenteinteresante,aunquelaramentesetratadeunatareaompliada.
Dadoque eneste momento elproblema delparsing seenuentra enuna
etapa avanzada, se enuentran disponibles motores de parsing que muhas
vees obtienen resultados aeptables. Es posible utilizar estos motores de
formatalquenodevuelvan elmejorárbolsegúnelmodelosinounonjunto
on los
k
mejores arboles. Uno de estos motores es la implementaión del modelode Collins[Collins, 1999℄realizada por Bikelen [Bikel, 2004 ℄.Nuestrapropuesta esutilizar omopoblaión iniial delalgoritmo
gené-tiolos
k
mejoresarbolesdevueltosporelparserdeBikeluandoesutilizado en modo k-best. De esta manera, al tratarse de arboles on una granpro-babilidad, no obtendremos una poblaión uyos individuos fueron elegidos
ompletamente al azar, sino que ontaremos on una poblaión iniial de
granalidad.
En el modelo de Collins, al generar los hijos de un nodo de un posible
árbolsintátio, setiene en uenta elmaro de subategorizaión delnúleo
generado(verSeión2.2).Dadoqueaunquedosoraionesseandelamisma
longitud, no neesariamente permitirán que los mismos núleos ourran en
sus árboles sintátios, y dado que la antidad de posibles maros de
sub-ategorizaión varia entre núleo y núleo, la antidad de posibles árboles
sintátiosquepermiteelmodelovariaentreoraiónyoraión.Además,las
implementaiones onretasdeestetipodemodelos,aunenmodok-best, no
mantienentodo eltiempotodaslasposiblesreglasquepueden formar parte
infe-B C
D
...
... E
...
(a)
B C
D
... ...
E
...
(b)
Figura3.1: Dosfragmentos deárboles sintátios
rior de probabilidad de formar parte del árbolsintátioóptimo, esta regla
eseliminada (esto esonoidoomo pruning).
Por estas razones, la antidad de arboles on la que el parser de Bikel
proveeráaadapoblaióniniialseradistinta.Sibienelpromediodearboles
en las poblaiones iniiales resulto ser 377.25, la variabilidad es muy alta,
yaquehaydesdepoblaiones iniialesonsolo 1árbol(paraunaoraión de
longitud 2), hasta poblaiones iniiales on 9768 arboles (para una oraión
de longitud35).
El riterio utilizado fue el de utilizar todos los arboles provistos por el
parser de Bikel, on la exepión de que, por razones de disponibilidad de
tiempoyespaio,uandounapoblaióniniialexedíalos500individuos,se
eligieron 500individuos ylos restantesfuerondesartados.Estos individuos
fueronelegidos de formaprobabilístia, de forma talquela probabilidad de
inluiradaindividuoenlapoblaióniniialdependedelatness delmismo,
segúnseexplio en laSeión 2.3.
3.3. Mutaión
La operaión de mutaión debe modiar un árbol sintátio de forma
tal que el resultado sea un nuevo posible análisis sintátio de la oraión
asoiada.
Cuandounparserintentadeterminarelmejoranálisissintátioparauna
oraión, debe tomar pequeñas deisiones que tienen inuenia en la forma
que tomará el árbol sintátio. Una de las deisiones laves que el parser
debe tomar, es elegir a que nodo debe estar asoiado ada onstituyente.
Puede que exista mas de un nodo al que un onstituyente en partiular
pueda ser asoiado y que ada una de estas asoiaiones lleven a un árbol
sintátiamente orreto. Por ejemplo. onsideremos el fragmento de árbol
delaFigura3.1(a).Enesteejemplo,elsubárbolE seenuentramodiando
aD yalosdemáshijosdelnodoC.Podríatratarsedequeelárbolsintátio
orretonofueraelanteriorsinoeldelaFigura3.1(b),dondeE seenuentra
modiandoaB yaC.Estetipodeerroresometidoonfreueniaporlos
NP PRP I VP VBN opened NP DT the NN door PP IN with NP DT the NN key (a) NP PRP I VP VBN opened NP NP DT the NN door PP IN with NP DT the NN key (b)
Figura3.2: Dosposiblesárboles sintátios parauna oraión
El efeto que laoperaión de mutaión tendrá sobre los arboles eselde
modiar deisiones de attahment, esto es, a que nodo debe estar
asoia-do ada onstituyente. Para obtener árbol en la Figura 3.1(b), se aplio la
funiónde mutaiónalnodoE delárbolenlaFigura3.1(a).Estaoperaión
hizoqueelnodoE deje deserhijodeC,para onvertirseenhijodeA.Dela
mismamanera,elárboldelaFigura3.1(a)sepuedeobtenerdeldelaFigura
3.1(b)mediante unamutaión en elnodoE.
Sinembargo, siqueremos quelaoperaión demutaión modeleelefeto
de un reattahment, no basta on la operaión ilustrada en la Figura 3.1.
Haysituaionesenlasquepara paraambiarlaposiióndeunonstituyente
dentrodelárbolsintátionobastaonmover elnodohaiaarriba ohaia
abajo, sino que es neesario rear o eliminar nodos. Veamos un ejemplo
en onreto: en la Figura 3.2(a) vemos un posible árbol sintátio para la
oraión I opened the door with the key. En este árbol sintátio se india
que una llave fue utilizada paraabrir una puerta, y esto seve reejado en
elheho de queelsubárbolon raíz PP eshijodelnodo VP ypor lotanto
seenuentra modiando al verbo opened. Sinembargo, este no esel únio
árbol sintátio posible para esta oraión, ya que esta podría querer deir
que se abrió la puerta que tenia una llave, y no la puerta uya erradura
estaba vaía. Para expresar este signiado, es neesario que la frase with
the key modique a lafrase the door en vez de alverbo opened, por lo que
nosveríamos tentados a realizar lamisma operaión de mutaión que en la
Figura 3.1. Pero al haer esto obtendríamos algo de la forma de la Figura
3.3, que no es aeptable. La forma orreta de representar este signiado
requiere que se agregue un nodo NP extra que sea padre de las frases the
door ywiththe key, omoseobserva enlaFigura 3.2(b)
Laoperaión inversa,esdeir,pasarde unárbolsintátioomoeldela
DT
the
NN
door
PP
withthekey
Figura 3.3:Formainorreta de realizar unreattahment
NP
NP
DT
the NN
door
Figura 3.4:Cadena unaria
también presenta problemas.Siapliaramos laoperaión utilizadaen la
Fi-gura3.1, terminariamos on unnodo internoon un solo hijo,on laforma
delárbolen laFigura3.4.
Llamamos a lasituaión en laque hay unaseuenia de nodos que
on-tienen solo un hijo una adena unaria. En general, no deseamos que las
operaiones de mutaión introduzan adenas unarias. Una adena unaria
delongitudmayor queuno esun fenómenomuyraramenteobservadoen un
treebank. Además, esposibleque algunas funionesde tness utilien para
realizarsusaluloslas palabrasqueunonstituyentedomina(por ejemplo,
que utilien el onjunto de brakets denido en la Seión 2.4). Dado que
dosnodosinvoluradosen unaadenaunariadominan lasmismaspalabras,
si uno de los nodos es orreto y por lo tanto proporiona en general un
alto valor de tness, entones los otros nodos en la adena unaria también
aportaranvaloresaltos alatness. Deesta manera,esposiblequeunárbol
tengamayor tnessqueotroyqueenloúnioquedieranesenelaumento
delongituddeunaadenaunaria,porloqueelalgoritmogenétiotenderaa
preferirarbolesonlargasadenasunarias.Porlotanto,supondremosquesi
esorretointroduir algunaadena unaria, estasfueronintroduidas en la
poblaióniniial, ylimitaremoslas operaiones demutaión validasa
aque-llasquenoproduzanmasadenasunariasquelasqueyaseenontrabanen
elárboloriginal.
Sinembargo,aunqueremospodermodiarunárbolomoeldelaFigura
3.2(b) para ambiar el nivel de attah de la frase dominada por el nodo
PP. Paraello denimos unanueva operaión de mutaión quepermite esta
modiaión, yelimina el nodo extra que se ve involurado en una adena
unaria.ElárbolenlaFigura3.2(a)puedeserobtenidodelárbolenlaFigura
unárbolon mas nodosqueel original,solo quea difereniade lautilizada
parapasardelárbolen laFigura3.2(a) alde laFigura3.2(b), enlaque un
nodo pasa a estar en un nivel de profundidad mas abajo que alguno de sus
hermanos, en esta operaión unnodo pasa a estar un nivel de profundidad
masarriba queuno de sushermanos.
Aontinuaión sedauna desripiónmaspreisade adatipode
muta-ión. Dadoun árbolyun nodointerno en partiular, seenunian
preondi-iones que el nodo debe satisfaer para poderllevar a abo la operaión, y
luegosedesribenlasmodiaionesarealizaralárboloriginalparaefetuar
lamutaión. Todas las operaiones pueden realizarse tanto para la
izquier-da omo para la dereha, dependiendo de la posiión del nodo en elárbol.
Enlasdesripiones de lasmutaionesseexpliaomo realizaruno deestos
movimientos, yseagregaentreparentesislainformaiónneesaria para
rea-lizarelotromovimiento.EnlaFigura3.5sepueden observar ejemplospara
ada tipo de mutaión. En laFigura 3.5(a) se observa elárbol original.En
lassiguientes subguras semuestra el árbolresultantede realizar ada tipo
de mutaión sobre el nodo que sirve de raíz al subárbol que se enuentra
resaltadoen negrita.
Sea
n
un nodo interno de un árbol. Cada vez que se menione algún anestro den
, la existenia de ese anestro implíitamente es parte de la preondiion.Mutaión 1 (reattah simplehaia arriba)
Preondiion:
n
eselprimer(o ultimo)hijodesu padre, yelpadreden
tienemas de doshijos.Resultado:
n
dejade serhijodesu padreyesasoiadoasuabuelo, enla posiión anterior (oposterior)a ladesu padre.En la Figura 3.5(b) se puede observar una mutaión en la que el nodo
originalerael ultimohijode su padre.
Mutaión 2 (reattah simplehaia abajo)
Preondiion:
n
no es elprimer (o el ultimo) hijode su padre, yel her-manoalaizquierda(oaladereha)den
noesunPOS(i.e.unpreterminal). Resultado:n
dejadeestarasoiadoasupadreyesasoiadoasuhermano delaizquierda (o dereha),en laultima (o primera) posiión.EnlaFigura3.5()sepuedeobservarunamutaiónenlaquelaoperaión
serealizohaia ladereha.
Mutaión 3 (reattah haia arriba eliminandoadena unaria)
Preondiion:
n
eselprimer(o elultimo)hijodesu padre,yelpadreden
tiene exatamente 2hijos.NP PRP I VP VBN opened NP DT the NN door PP IN with NP DT the NN key
(a)Árboloriginal
S NP PRP I VP VBN opened NP DT the NN door PP IN with NP DT the NN key
(b)Reattahsimplehaiaarriba
S NP PRP I VP NP VBN opened DT the NN door PP IN with NP DT the NN key
()Reattahsimplehaiaabajo
S NP PRP I VP VBN opened NP DT the NN door IN with NP DT the NN key
(d)Reattahhaia arribaeliminandoadena
unaria S NP PRP I VP VBN opened NP NP DT the NN door PP IN with NP DT the NN key
(e)Reattahhaiaabajoreandonodo
S NP PRP I VP VP VBN opened NP DT the NN door PP IN with NP DT the NN key
(f) Reattahhaiaarribareandonodo
izquierda).
En laFigura 3.5(d) se puede observar una mutaión en laque laque el
nodo original eraelprimerhijode su padre.
Mutaión 4 (reattah haia abajoreando nodo)
Preondiion:
n
noeselprimer(oelultimo)hijodesupadre,elhermano alaizquierda (o aladereha) den
no esunPOS(i.e.un preterminal)yel padreden
tienemas de doshijos.Resultado: Sereaunnuevonodoonetiquetaidéntiaaladelhermano
a la izquierda (o dereha) de
n
.n
y su hermano son desasoiados de su padreyasoiados alnuevo nodo,en elmismo ordenen que seenontrabanasoiados asu padre.El nuevo nodo esasoiadoalpadreen laposiión que
oupaba elhermano (o
n
).EnlaFigura3.5(e)sepuedeobservarunamutaiónenlaquelaoperaión
serealizohaia laizquierda.
Mutaión 5 (reattah haia arriba reando nodo)
Preondiion:
n
eselprimer(o ultimo)hijodesu padre, yelpadreden
tienemas de doshijos.Resultado: Se rea un nuevo nodo on etiqueta idéntia a la del padre
de
n
. El nodo es desasoiado de su padre y el padre de su abuelo. Sin
era el primer hijo de su padre, se asoia omo primer hijo del nuevo nodoa
n
y omo segundo hijo al padre. Sin
era el ultimo hijo de su padre, se asoia omo primerhijo del nuevo nodo alpadre y omo segundo hijoan
. Sereemplaza en elabuelo elpadrepor elnuevo nodo.EnlaFigura3.5(f)sepuedeobservarunamutaiónenlaqueelnodoera
elultimohijode su padre.
El proedimiento utilizado durante elalgoritmo genétiopararealizar la
mutaiónonsiste enreorrer adanododelárbolyveriarsisesatisfaen
las preondiiones paraada tipo de mutaión. Una vez que se obtuvo una
lista on todas las mutaiones que son posibles de realizar, se elige una de
ellasalazarysedevuelve elárbolresultante deefetuar diha mutaión.
3.4. Crossover
La operaión de rossover tomará dos árboles sintátios de la misma
oraión yreombinara subfragmentos de los mismosparaobtener otros dos
arboles.Para entender quefragmentos delos arboles setomaran enuenta,
espreisodenir unanoiónde subárbol.
análisissintátiode laoraiónoriginal,no podemosinterambiarualquier
subárbol. La ondiión para que los arboles resultantes sean validoses que
los subárboles involurados en laoperaión dominen lamisma seuenia de
palabras.
ReorriendolosarbolesmediantealgúnalgoritmodebusquedaomoDFS
es posible obtener todos los posibles subárboles de un árbol. También es
posibledeterminarelamino quehayqueseguirparallegaraadasubárbol.
Estos aminos son seuenias de números enteros que indian, partiendo
desde la raíz del árbol, que numero de hijo ontando desde la izquierda se
debe elegir para llegar hasta ada subárbol. Por ejemplo, dado el siguiente
árbol
A
B
b
C
D
d1 d2
ysiguiendo elamino [2,1℄, llegamos alsubárbol
D
d1 d2
Sea
caminos(τ
)
el onjunto ompuesto por los aminos neesarios pa-ra llegar a ada subárbol deτ
. Dados dos arbolesρ
yµ
on el mismo span, onstruiremos el onjunto de andidatos a estar involurados en laoperaión de rossover ompuesto por todos los posibles pares
(α, β)
∈
caminos(ρ)
×
caminos(µ)
tales que los subárboles determinados porα
yβ
tienen el mismo span. Una vez heho esto,el proedimiento a realizar paraefetuar la operaión de rossover onsiste en elegir uno de estos pares al
azarydevolverlos arbolesresultantesde interambiar lossubárboles
deter-minadospor estosaminosen losarboles originales.
Sinembargo,porlasrazonesexpuestasenlaSeión3.3,noqueremosque
laoperaión derossoverintroduzaadenas unarias de longitudesmayores
alas ya presentes enlos arboles originales.
Supongamos quetenemoslos arboles
A
... B
C
D E
A
... F
G
D E
y
el subárbol uya raíz es el nodo
F
, y realizamos la operaión de rossover, unode los arboles resultantes eselsiguiente:A
... B
F
G
D E
Esteárbolontiene unaadenaunariade longitudmayor alaspresentes
en los arboles originales. Lo que suedió fue que fragmentamos la adena
unariaqueomenzaba en elnodo
B
yreemplazamosuno desus fragmentos (una adena unaria de longitud ero) por otra adena unaria pero onlon-gitudmayor (una adenaunaria delongitud uno).Paraasegurarnos de que
laoperaión de rossover no inrementa lalongitud de lasadenas unarias,
uando reemos el onjunto de pares de aminos andidatos a estar
invo-lurados en el rossover debemos onsiderar el onjunto de todos los pares
(α, β)
∈
caminos(ρ)
×
caminos(µ)
tales que los subárboles determinadospor
α
yβ
tienen el mismospany:Si elpadrede
α
tieneun solo hijo,entonesCU
(α) =
CU(β)
Si elpadredeβ
tiene unsolo hijo, entonesCU
(α) =
CU
(β)
donde
CU
esunafunióntal queCU
(γ)
esiguala laantidad denodos involurados en una adena unaria omenzando desde la raíz del árbolγ
. (CU
(γ) = 0
siγ
noomienza onuna adenaunaria).A modo de ejemplo, en la Figura 3.6 se puede observar un ejemplo de
rossover.Losarboles(a)y(b)sonlosoriginales,yseeligieronlossubárboles
resaltadosen negrita. Losarboles () y(d) sonlos resultantes de apliar el
proesode rossover.
3.5. Fitness
La lave para un buen desempeño del algoritmo genétio se enuentra
en laeleión de la funiónde tness.Ya que enontrar una funión de
t-ness que se omporte eazmente es una tarea sumamente ompliada, en
estetrabajonodenimosunaúniafunióndetnesssinoquedenimos
va-riasfuniones,yluegoproederemosaevaluarelomportamientodelparser
utilizando ada unade ellas.
Algunasdeestasfunionesdetnessrequierenserentrenadas,estoes,su
funionamiento estadeterminadoporunmodelouyosparametrosneesitan
NP ADJP JJ Old JJ fashioned NN hefs VP VBN ook NN pizza PP IN with NN heese (a) NP JJ Old ADJP JJ fashioned NN hefs VP VBN ook NP NN pizza PP IN with NN heese (b) S NP ADJP JJ Old JJ fashioned NN hefs VP VBN ook NP NN pizza PP IN with NN heese () S NP JJ Old ADJP JJ fashioned NN hefs VP VBN ook NN pizza PP IN with NN heese (d)
Figura3.6: La operaión derossover enaión
Laúniaaraterístiaquerequerimosqueompartantodaslasfuniones
detnessseraqueseanunafuniónquetomeunanálisissintátioydevuelva
unnumeroentre0y1.Por razones pratias,estenumero deberáteneralo
sumo4 ifrasdeimales.
3.5.1. CheaterFitness
En nuestro primer intento por denir una funión de tness,
omenza-mos haiendo trampa. Deniremos una funión que tendrá aeso al gold
standarddelaoraiónqueseestaparseando,yquepor lotantopodráguiar
elalgoritmogenétiode forma óptima.
Dado el gold standard de la oraión en uestión, la funión toma un
árbol sintátio de la misma ysimplemente alula la f-measure entre este
árbol sintátio y el gold standar. Por lo tanto, la medida que se estará
maximizando durante la ejeuión del algoritmo genétio es la f-measure,
que es justamente la medida que se utilizara para medir el desempeño del
algoritmo. Llamaremosa estafunión CheaterFitness
Larazónporlaualestafuniónresultainteresanteesporquerepresenta
la mejor funión de tness que podría llegar a denirse. Por lo tanto, si
jamos los demás parametros del algoritmo, la preisión alanzada por el
algoritmoutilizandoestatnessmarauntehoenlasposibilidadesdeéxito
del parsing mediante el algoritmo genétio. Si las operaiones de mutaión
arboles de la manera requerida para llegar hasta el árbol orreto, es de
esperar que en todos, o al menos en la mayoría de los asos, el algoritmo
efetivamente devuelva un árbol idéntio o muy similar al orreto uando
seutilieesta funión detness.
3.5.2. ChunkFitness
Dadounárbol
τ
,seaST
(τ
)
elonjunto detodoslossubárboles deτ
(en el sentido de la Deniión 2, ver Seión 3.4). Denimos la funión len(τ
)
que devuelve la antidad de hojas en un árbol. Seachunks
un onjunto de arbolesjo ypreestableido.Entones denimos la funión de tness ChunkFitness de la siguiente
manera:
ChunkFtiness(τ
) =
P
{ρ
∈
ST
(
τ
):
ρ
∈
chunks
}
len(ρ)
P
{ρ
∈
ST
(
τ
)
}
len(ρ)
La ideasubyaente a estafunión de tness eslade quelos arboles que
estén formados por sub-estruturas típias o normales tengan una
ma-yor tness que aquellos uya estrutura interna sea novedosa. Para ello, es
neesario denir que quiere deir que una sub-estrutura sea típia. Es por
estoqueantesde utilizar estatness esneesario entrenarla sobreuna gran
oleión de arboles, para así inferir las estruturas que serán onsideradas
omo validas durante la evaluaión de la tness. Durante el
entrenamien-to, se obtienen todos los subárboles de los árboles sintátios observados y
mediante esteproeso seonstruye elonjunto de subárboles hunks.
Nodeseamosqueestatnesstengaenuentaontenidoléxio,porloque
deniremosuna palabra
A
ualquierayantesde utilizar ualquier árbol,ya seaenlaetapade entrenamiento ode evaluaión,este serapreproesadodeformatalque todassushojasseanreemplazadas por esta palabra.
Unavez estableidoelonjunto hunks,elproesodeevaluaiónonsiste
en sumar la antidad de hojas en ada subárbol del árbol a evaluar que
haya sido observado duranteel entrenamiento ydividirlo por lasuma de la
antidaddehojasentodoslossubárbolesdelárbolaevaluar.Deestamanera,
mientras mas grandeesun subárbolorreto, mas aportaa latness.
3.5.3. PCFGFitness
La funión de tness que deniremos a ontinuaión esta basada en un
modelo PCFG. Por lo tanto sera neesario entrenar esta tness, e induir
una PCFG desde un treebank omo se explio en la Seión 2.1. Sea
G
=
(V,
Σ, R, S, P
)
unagramátia induida de estamanera.entrenamiento tendrá probabilidad 0, y por lo tanto todo el árbol tendrá
probabilidad 0. Es posible que durante la ejeuión del algoritmo genétio
las mutaiones introduzan fragmentos de arboles que den lugar a reglas
que no hayan sido observadas durante el entrenamiento de la PCFG. Sin
embargo, tambiénes posible quelos demás fragmentosdel árbolque hayan
sido afetados por la mutaión sean orretos, y que algún otro árbol sea
beneiado mediante la inlusión de estos fragmentos omo resultado de
una operaión de rossover. Por lo tanto, no deseamos que un árbol tenga
tness igual a 0 solo porque alguna de sus reglas no fue observada durante
elentrenamiento. Parasoluionar esteproblema introduimoslafunión
Θ
, que asigna a las produiones que no fueron observadas un valor igual a lamínima probabilidad entre las produioneson elmismo no terminal en el
ladoizquierdo:
Sea
unseen
una funióntalquepara ada noterminalA
unseen(A) = m´ın
{p
:
∃
β
:
A
→
β
∈
R
∧
P
(A
→
β) =
p}
Sea
Θ(A
→
α) =
P
(A
→
α)
siA
→
α
∈
R
unseen(A)
asoontrarioAdemás del problema de las produiones no observadas durante el
en-trenamiento, también nos enontramos on la diultad pratia de que la
probabilidaddeunárbolseratípiamenteunvalormuybajo.Queremosque
el valor de la tness sea un numero entre 0 y 1, pero a nes prátios los
valoresquedieran en menosde
10
−
5
serán indistinguibles.Por lotanto, el
proedimiento adoptadoonsiste en,además de alularlaprobabilidad del
árbolutilizandolafunión
Θ
,alulartambiénlaprobabilidaddelárbolpero asignándole a ada produiónA
→
α
en el árbol elvalorunseen(A)
. Esta ultimaprobabilidadrepresentalamasbajaprobabilidadquepodríatenerelárbol,yaqueorrespondealasoenqueningunadelasproduiones
involu-radasfueronobservadasduranteelentrenamiento.Unavezaluladosestos
valoreslos ombinamosobteniendo unnuevovalor, quepodríainterpretarse
omo uanto mejor eslaprobabilidad del árbolbajo laPCFG atual,
om-paradoon laprobabilidad del árbolbajo una PCFG en laque ninguna de
susproduiones tieneprobabilidad mayor a ero.
Dado un árbol
τ
searules
una funión tal querules(τ
)
es igual al mul-tionjunto de reglas gramatiales involuradas enτ
. Entones denimos la funiónP CF GF itness
de lasiguiente manera:P CF GF itness(τ
) = 1
−
log
10
(
Q
{r
∈
rules(
τ
)
}
Θ(r))
log
10
(
Q
Alahorade determinaruan buenoesunárbolsintátioparauna
ora-ión, las funiones de tness que hemos denido hasta ahora no tienen en
uenta propiedades lingüístias de los arboles evaluados, mas allá de
onsi-deraruan freuentemente seobservaron durante elentrenamiento los
frag-mentosqueomponenalárbolsintátio. Existenpropiedadesgeneralesque
todobuen árbolsintátiodebe satisfaery queno son tenidasen uenta
para favoreer un árbol antes que otro por las funiones de tness. Por lo
tanto, hemos denido un pequeño numero de propiedades sintátias que
deseamosquelosarboles satisfagan.Lasfunionesqueevalúanestas
propie-dades sintátias no serán funiones de tness por ellas mismas, si no que
se enargaran de modiar el valor devuelto por alguna tness, restándole
importaniaa losarboles que nosatisfagan algunade lasreglas.
Enuniar reglasgramatialeslosuientementegeneralesomoparaque
abarquen todos los asos posibles y que al mismo tiempo sean de utilidad
a la hora de determinar si un árbol es orreto, es una tarea muy difíil.
Por lo tanto hemos enuniado unas poas reglas senillas, y permitiremos
exepiones razonables a lasmismas.
Las propiedades que estas reglas deben umplir se enunian en base a
seuenias partiulares de preterminales (i.e. de POSs) y de etiquetas de
onstituyentes de el árbol en uestión, por lo que no utilizan informaión
léxia, on la exepión de alguna palabra perteneiente a una ategoría
sintátiaerrada,omoeldeterminantethat.Cuandoesribamosseuenias
de preterminales, utilizaremos parentesis para indiar que un elemento es
opional, utilizaremos orhetes para agrupar elementos, y utilizaremos el
símbolo |paradenotar que sepuede optar entreel elemento que lopreede
yelquelosuede.
Regla 1:Seuenias denombres
Para seuenias de preterminalesdel tipo NN(S) NN(S) VB( [ D |Z℄ ),
se preere un solo subárbol que englobe a ambos NN(S) (y no al VB) a
ualquier otraestrutura.
Estoevita asosomo NP
NP
JJ
major
NN
brokerage
NNS
JJ
major
NN
brokerage
NNS
rms
Regla 2:Determinantes aompañan sustantivos
Para seuenias de preterminales de la forma DT (CD | JJ) NN, todos
debenperteneeralmismosubárbol,nodebesuederqueDT(CD|JJ)este
en unsubárbolyNNen otro.
Esto evitaasos omo NP
PP
IN
after
NP
DT
the CD
1987 NN
rash
que debería ser PP
IN
after
NP
DT
the
CD
1987 NN
rash
Haydosexepionesaestaregla.SielDTestaenunsubárboly[CD|JJ℄ NN
esta agrupadoen otro subárbol uyo label esADJP, esta biensi luego
ou-rre otroNN quese enuentre agrupado bajo el mismo subárbol que elDT.
Además,silapalabradominada porelDTesthat,estabiensielhermano a
ladereha delDT esun subárbolon etiqueta S.
Regla 3:Conjuniones oordinantes
Las onjuniones oordinantes se utilizan para relaionar dos frases de
la misma ategoría. Por lo tanto, los subárboles hermanos de un CC a la
dereha y a la izquierda deben tener la misma ategoría. Sin embargo, es
usual que aparezan símbolos de puntuaión tanto antes omo despues del
CC,einlusoqueseenuentreotrafraseantesdelafraseoordinadadespues
delCC. Por lotanto laregla queonsideraremos es:
laadenaX (PUNT)CC (PUNT) (Y)Xdebeenontrarseagrupada
ba-jo el mismo subárbol. donde PUNT representa ualquiera de las etiquetas
delsubárbolhermano alaizquierda del CCdebe serigual aladelhermano
aladereha.Existennumerososasosenlosqueestareglanoseumple por
que estos dos subárboles tienen diferente etiqueta, y enumerar todos estos
asosseriademasiado tedioso. Por lotanto,para poderapliarestaregla es
neesariorealizarentrenamiento. Duranteelentrenamiento, seanotantodos
losparesdeetiquetasquehaenqueestareglano seumpla.Luego durante
laevaluaiónsehequealaregla,ysifalla laevaluaión por enontrarseque
los subárboles tienen etiquetas diferentes, se onsidera omo valida si este
par deetiquetashabía sidoobservado duranteelentrenamiento.
Regla 4:Punto nal
Silaoraiónterminaonunsímbolodepuntuaión,estedebeserunhijo
diretode laraízdelárbol.
En otraspalabras, elattah delpunto naldebeser elmasalto posible.
Entodoslosasos,elproedimiento utilizadoparaevaluar adaregla es
elsiguiente:
se reorre la seuenia de preterminales en busa del patrón de
preter-minalesquelaregla intenta evaluar.Siseenuentraeste patrón, sehequea
sila regla se satisfae o no. Luego se sigue reorriendo laseuenia de
pre-terminalesenbusade unanuevaourreniadelpatrón. Cuandosetermina
de reorrerlaoraión, seuentan uantas vees ourrió elpatrón yuantas
vees se umplió la regla. Si el patrón no ourrió ninguna vez, se devuelve
1. Si ourrió al menos una vez, se devuelve el oiente entre las vees que
se valido la regla y las vees que ourrió el patrón. De esta manera, si en
laoraión hubo dosourrenias de un patrón y solo una vez se umplieron
lasondiionesenuniadasporlaregla,sedevuelve 0.5.Sien ningúnasose
valido laregla,sedevuelve 0.
Experimentos
Hemos realizado varios experimentos sobre el mismo onjunto de datos
parapoderevaluarelomportamiento delparserbajoelefetodelas
distin-tasfunionesde tness.
4.1. Proedimiento
El treebankutilizado fueelPennTreebank. Paratodatareaquerequería
algún tipo de entrenamiento, se utilizaron las seiones 02 a 21 del Penn
Treebank (Aproximadamente 40000oraiones). Paralaevaluaiónseutilizo
laseión22 (1700oraiones).
Entodoslosasosseutilizaronlos mismosparametros paraelalgoritmo
genétio. Estos parametrosfueron lossiguientes:
Parametro Valor
Fatorde Crossover 0.6
Razón deMutaión 0.1
Máximotamaño depoblaión 500
Máximaantidadde iteraiones 600
Elitismo 1
Poder determinar si estos parametros son los óptimos para el tipo de
problemaque intentamos resolver, esuna tareasumamenteompliada que
exedeelalanedeestetrabajo.Losvaloresóptimosparalosparametrosde
unalgoritmogenétiovaríanentreunproblemayotro,porloqueengeneral,
uando serealizan trabajos onalgoritmos genétios, elinvestigador realiza
eleiones intuitivas pero arbitrarias para estos valores. Sin embargo, hay
iertosvaloresqueseonsiderantípios,omoeselasodelaeleiónde0.6
para el fator de rossover ([Mithell, 1997 ℄, [Ohoa etal.,1999 ℄). Existen
estudios ([Ohoa etal.,1999℄, [Gao, 1998℄) que sugieren utilizar valores de
Longitud
≤
35 LP LR F1
Exatas CB 0 CBCheaterFitness 99.51 99.02 99.19 89.43 0.00 99.80
PCFGFitness /RG 74.73 83.77 78.63 7.91 1.60 45.50
PCFGFitness 74.36 83.82 78.43 7.03 1.57 45.50
ChunkFitness /RG 70.97 67.03 68.43 5.66 1.91 34.49
ChunkFitness 71.03 66.74 68.29 5.32 1.86 34.76
Cuadro 4.1:Resultados paraoraiones delongitud menoro igual a35
Longitud
≤
10 LP LR F1
Exatas CB 0 CBCheaterFitness 96.16 98.16 96.70 87.73 0.01 99.39
PCFGFitness /RG 74.52 85.47 78.72 30.67 0.18 88.34
PCFGFitness 72.41 85.39 77.26 26.38 0.20 88.34
ChunkFitness /RG 77.81 85.44 80.54 29.45 0.15 89.57
ChunkFitness 76.9 84.97 79.68 26.99 0.20 87.12
Cuadro 4.2:Resultados paraoraiones delongitud menoro igual a10
suponenquelarepresentaióndelosindividuosserealizoenformadeadena
binariayquelaoperaióndemutaiónserealizamediantelainversióndeun
bit,porloquelosvaloresderazóndemutaiónseexpresanenporentajede
bitsinvertidos.Estetipodemedidanoseapliaanuestrarepresentaión,por
loque elegimosun valor de 0.1 parala razón de mutaión, que nospareió
masrazonable.
Porrazonesdeeienia,limitamoslasoraionessobrelasualesseorrió
elparser aaquellasuyalongitud no éxodo las 35palabras.
4.2. Resultados
LosresultadosdelosexperimentospuedenverseenlosCuadros4.1,4.2y
4.3.Losresultadosseenuentrandivididossegúnlalongituddelasoraiones.
En el Cuadro 4.1 se enuentran los valores de las medidas evaluadas para
las oraiones de longitud entre 1 y 35. en el Cuadro 4.2 se enuentran los
resultadosparalasoraiones deentre1y10palabrasyenelCuadro 4.3los
11
≤
Longitud≤
35 LP LR F1
Exatas CB 0 CBCheaterFitness 99.93 99.13 99.5 89.65 0.00 99.85
PCFGFitness /RG 74.76 83.56 78.62 5.06 1.78 40.14
PCFGFitness 74.6 83.62 78.57 4.6 1.74 40.14
ChunkFitness /RG 70.11 64.72 66.92 2.68 2.13 27.61
ChunkFitness 70.3 64.46 66.86 2.61 2.07 28.22
En estos uadros puede observarse que el algoritmo tiene un exelente
desempeño uando se utiliza lafunión CheaterFitness. Sibien esto era de
esperar, este resultado onrma que las posibilidades de éxito utilizando el
algoritmo genétio para parsing son altas, y que los valores elegidos para
losparametros delalgoritmo, sibienpodrían noser losóptimos, nolimitan
elorretofunionamiento delalgoritmo,queteóriamentepodría utilizarse
pararealizar parsing degran presiion.
Los resultados obtenidos utilizando las demás funiones de tness no
resultan tan prometedores, si tenemos en uenta que la presiion obtenida
porelmodelodeCollinssobreelmismoonjuntodeoraionesalanzauna
F
1
de90.68.DeestasfunionesdetnesslaquemejorseomportaeslafuniónP CF GF itness
utilizando reglasgramatiales. Sin embargo, para oraiones ortas, on 10 o menos palabras, se observa que la funiónChunkF itness
on reglasgramatiales eslaque mejorseomporta.Resulta interesante notar la similaridad entre la
F
1
obtenida utilizan-do la funiónP CF GF itness
on reglas gramatiales y la reportada en [Charniak, 1996 ℄, donde al induir una PCFG de las seiones 02 a 21 delPennTreebank yparaada oraión determinar elárbolon mayor
probabi-lidad bajoelmodelodenidopor laPCFG,se obtiene una
F
1
de79,59
.Sin embargo,estosresultados nosonomparables, yaquelosvaloresreportadosen [Charniak, 1996 ℄ provienen de orrer el parser en la seión23 del Penn
Treebank yutilizar oraiones on longitudesde entre2 y40 palabras.
También abe destaarque la utilizaión de unas poas reglas
gramati-ales que simplemente prohíban fenómenos no aeptables mejora la
perfor-mane del parser. Sin embargo, la inlusión de las reglas paree tener un