Algoritmos genéticos para análisis sintáctico

(1)

Faultadde Matemátia Astronomía y Físia

Trabajo Espeial

Algoritmos Genétios para Análisis Sintátio

Sergio Penkale

(2)

(3)

Las ténias tradiionales de análisis sintátio denen modelos

proba-bilístiosque permiten reorrer exhaustivamente elespaio de busqueda en

tiemposrazonables. En lugar de expliitamente denir un modelo y busar

el analisis sintatio óptimo dentro de los permitidos por el modelo, en el

presentetrabajo implementaremos un meanismo que nos permitirá

exten-dereste espaio de busqueda a uno muho mas amplio ypratiamente sin

restriiones. Este método realizará una búsqueda no-exhaustiva mediante

heurístias. Se proponen diferentes riterios paraguiar la busqueda y ada

uno de estos riterios es evaluado en la tarea espeia de parsing de la

seióndelWallStreet Journal delPenn Treebank.

Palabras Clave

parsing, algoritmogenetio, análisissintátio

Clasiaión

(4)

(5)

1. Introduión 1

2. Maro Teório 5

2.1. Gramátias Libresde ContextoProbabilístias . . . 5

2.2. El modelode Collins . . . 7

2.3. AlgoritmosGenétios . . . 9

2.4. Evaluaión. . . 12

3. Algoritmos Genétios para Analisis Sintátio 15 3.1. Representaión . . . 15

3.2. Poblaión Iniial . . . 16

3.3. Mutaión . . . 17

3.4. Crossover . . . 22

3.5. Fitness. . . 24

3.5.1. CheaterFitness . . . 25

3.5.2. ChunkFitness . . . 26

3.5.3. PCFGFitness . . . 26

3.5.4. Reglas Gramatiales . . . 28

4. Experimentos 31 4.1. Proedimiento . . . 31

4.2. Resultados. . . 32

(6)

(7)

1.1. Distintos árbolessintátios parauna mismaoraión . . . 2

2.1. Unaderivaión ysu árbolorrespondiente . . . 6

2.2. Unárbolsintátiolexializado . . . 8

2.3. Algoritmogenétioprototípio . . . 10

2.4. Operaión de rossover . . . 11

2.5. Unárbolsintátioon losespaiosentresushojasenumerados 13 3.1. Dosfragmentosde árboles sintátios . . . 17

3.2. Dosposiblesárboles sintátiosparauna oraión . . . 18

3.3. Forma inorretade realizar un reattahment . . . 19

3.4. Cadena unaria . . . 19

3.5. Formas posibles de realizar mutaión . . . 21

(8)

(9)

Introduión

Enlaatualidad, lasomputadorassonunaherramientafundamentalen

las tareas que las personas realizan día a día. Sin embargo no existen aún

meanismos eaes y eientes que permitanque los humanos interatúen

onlasomputadorasomosilohiieranonotrohumano. El

Proesamien-to de Lenguaje Natural (PLN) es una subrama de laInteligenia Artiial

y de la Lingüístia Computaional uyo objetivo es rear representaiones

formales del lenguaje natural hablado por los humanos,para de esta forma

lograr quelas omputadoras seanapaes degenerar yentenderel lenguaje

natural.

UnodelosprinipalesproblemasqueelProesamientodeLenguaje

Natu-ralintentaresolvereseldelanálisissintátiodeoraiones:dadaunaoraión

(y generalmente laategoría sintátia de ada una de sus palabras) se

in-tenta obtener toda la estrutura gramatial de la misma. Para representar

estaestrutura, los lingüistasutilizan una representaión en formade árbol

queindia, entre otros,sujetos,objetos yprediados delaoraión, esdeir,

básiamente quien hizoqueaquien en laoraión.El proesodeobtenión

deestaestruturagramatialesonoidoomoparsing,yelárbolresultante

sedenomina árbol sintátio.

Parsing Model

Laprinipal diultadonlaqueelparsing debelidiareslaambigüedad

dellenguaje ydelas estruturasgenerativasde lagramátia delmismo.

Veamos unejemplo. Consideremoslasiguiente oraión:

Our ompany is training workers

(10)

NP Ourompany VP Aux is VP V training NP workers (a) NP Ourompany VP V is NP VP V training NP workers (b) S NP Ourompany VP V is NP AdjP training N workers ()

Figura1.1: Distintosárboles sintátios parauna misma oraión

El análisis (a) es el que ualquier humano peribiría. En este análisis

training es el verbo, por lo que se india que la ompañía es la que esta

entrenando trabajadores. Sin embargo, ualquier gramátia medianamente

omplejatambiénaeptalosotrosdosárbolessintátios,endondeelverbo

es is, indiando que la ompañía es training workers (podría tratarse del

nombre de laompañía).

Laformaderesolverestasambigüedadesesintroduiendoprobabilidades.

Paraesto sedene un modelo de parsing que, suponiendo una gramátia

G

para el lenguaje, dada una oraión s evalúa la probabilidad de todos sus

posibles árboles sintátios.Esto es,sedene:

P

(t|s, G)

donde

X

t

P(t|s, G) = 1

Deestamanera,elobjetivodelparseresenontrarelárbolsintátioque

maximieesta probabilidad:

ˆ

t

= arg max

t

P(t|s, G)

La idea esque unbuen modelo asignaráuna probabilidad mas alta al

árbolsintátio (a) de la gura 1.1, por lo queel parser devolverá el árbol

(11)

El tipode parsingquerealizaremos enestetrabajo eselllamadoparsing

supervisado.Para haer parsing supervisado, se neesita una gran oleión

deoraionesquehayansidoanalizadassintátiamenteporhumanos.Deesta

manera,elmeanismodeparsingtieneasudisposiiónunagranantidadde

ejemplosdeárbolessintátiosdeoraionesque,alhabersidorealizadospor

humanos,sononsideradosomoorretos,ypuedeutilizarestainformaión

paraaprenderarealizarárbolessintátiosorretos,esdeirparaentrenar

yajustarlosparametrosdelmodelosubyaentealparser.Elárbolsintátio

de unaoraión quefue realizado por unhumanosedenomina gold standard

de laoraión,yuna oleiónde gold standards sellamatreebank.

Altrabajar onparsing supervisado,elmétodo estándar onsisteen

uti-lizaruna granporión deltreebank paraentrenar elparser, reservando otra

porión maspequeñaqueseutiliza paraevaluar elomportamiento del

par-ser. Estaevaluaiónonsisteen ompararelárbolsintátio devueltopor el

parseronelgoldstandard,uantiando dealgunamanerauansimilarson

losarboles.Esimportante queelmaterialdeentrenamiento delparser sealo

masgrandeposible,paradeestamaneraobservarlamayor antidadposible

de fenómenosdellenguaje [Attererand Shütze, 2006 ℄.

El treebank que mas amplio uso tiene es el llamado Penn Treebank. A

n de que los resultados obtenidos en una investigaión sean omparables

on los realizados en otras, se han estableido estándares que indian que

poriones del PennTreebank utilizar para ada etapa delparsing, así omo

los metodos de evaluaióna utilizar. Estos temasse veránon detalle en el

Capítulo 2.

Algoritmos Genétios

Supongamos quetenemos una gramátia

G

para el lenguaje on el que estamostrabajando.Dadoqueelárbolsintátioparaunaoraióndebe

obe-deer las reglas impuestas por

G

, el onjunto de todos los posibles arboles sintátios dellenguajequedadeterminado por estagramátia.Losmodelos

de parsing utilizadospor lamayoría de losparsersintentan apturar las

a-raterístiasfundamentalesdellenguaje,asignandodiferentesprobabilidades

adiferentesestruturassintátias,einlusoasignandoprobabilidadesnulas

a iertas estruturas sintátias. Deesta manera,el problema de enontrar

elárbol

t

ˆ

quemaximie lafunión de probabilidad

P

parauna oraión

s

se reduea enontrarel árboluyashojasestándeterminadas por

s

quetenga mayor probabilidaddentrode losarbolesvalidos(onprobabilidad nonula)

para el modelo. Este heho, sumado a que habitualmente los modelos de

parsing introduen hipotesis de independenia entre los sub-arboles de un

árbolsintátio, permite quelosparsershabitualmentesean implementados

(12)

En el presente trabajo nosproponemos enarar elproblema del parsing

medianteunasoluiónpoohabitual.Envezdeexpliitamentedenirun

mo-deloybusarelárbolóptimodentrodelosarbolespermitidosporelmodelo,

implementaremos un meanismoquenospermitirá extenderesteespaiode

busqueda auno muho mas amplioypratiamente sinrestriiones.

Paraesto,utilizaremosalgoritmosgenétios (GA).Unalgoritmogenétio

esunmétodo de busqueda análogoal proesode evoluión que seda en los

organismos biológios. Los GA's son algoritmos iterativos que omienzan

onunapoblaióniniial deindividuos.Ciertosindividuosdeestapoblaión

iniial serán seleionados para formar parte de la siguiente poblaión. La

probabilidad de que un individuo sea seleionado depende de una funión

llamada

f itness

,que mideuan bien seadaptael individuo asu entorno. Luego se permite que estos individuos muten y se reproduzan entre ellos,

dandopasoaunanuevapoblaión.Elalgoritmo seaplianuevamenteaesta

poblaión, y se repite este proeso hasta quealgún riterio de detenión se

satisfaga.Cuandoelalgoritmosedetiene,sedevuelveelindividuoonmayor

tness delaultima poblaión evoluionada.

Elmétododeparsingqueutilizaremosenestetrabajoeselsiguiente.

Pri-mero utilizaremosun parser tradiionalde entre los quemejores resultados

obtienen, pero en vez de pedirle quenos devuelva elmejor árbol sintátio

parauna oraión, lo pondremos en modo k-best, es deir, le pediremos que

una vez que termine nos devuelva los

k

mejores árboles sintátios según su modelo para esa oraión. Esto nos proveerá de un onjunto de posibles

árboles sintátios de alta alidad, ya que sontodos árboles sintátios on

una gran probabilidad bajo un modelo que ha demostrado serexitoso.

Uti-lizaremos este onjunto de árboles sintátios omo poblaión iniial de un

algoritmogenétio,eintentaremosdenirdistintasfunionesde

f itness

que permitan queesta poblaiónevoluione auna on mejoresresultados.

Este doumento seenuentra organizado en 4 apítulos.En elCapítulo

2(Maro teório) sedetallaran todoslos oneptosteórios neesariospara

omprenderafondoelproblemaqueseestaráintentandoresolverylaténia

propuesta para soluionarlo. En el Capítulo 3 (Algoritmos Genétios para

Analisis Sintátio) se utilizarán los oneptos introduidos en el Capítulo

2 para detallar la soluión propuesta. En el Capítulo 4 (Experimentos) se

llevarana abo diversosexperimentosuyoobjetivoesevaluarlaeaiade

lasoluión propuesta. En elCapítulo 5 seenuniarán onlusiones sobre el

(13)

Maro Teório

2.1. Gramátias Libres de Contexto Probabilístias

La forma en que los humanos hablamos y esribimos no es una simple

onatenaión de palabras al azar, si no que tiene ierta estrutura y

regu-laridad. La ramade lalingüístia que estudialaestrutura de las oraiones

es la sintaxis. Dentro de la sintaxis, una oraión es vista omo una

estru-tura en forma de árbol donde las hojas sonlas palabras de la oraión. Los

nodosinternos representanunaestrutura jerárquiadonde laspalabrasson

agrupadas en unidades estruturales suesivamente mas grandes. Las

pala-bras que han sido agrupadas juntas en una de estas unidades estruturales

sonunidades sintátias llamadasonstituyentes. Estasunidades sintátias

satisfaenpropiedadesomoladesustituibilidad:unonstituyentepuedeser

sustituidoporotro queseenuentre enlamisma ategoría y,aunqueel

sig-niado de la oraión puede variar, la oraión sigue siendo sintátiamente

valida.

Inmediatamente arriba de las palabras en esta estrutura jerárquia

es-tán las ategorías sintátias o POS (del ingles Parts OfSpeeh). LasPOS

sonuna manera deagrupar las palabrasen onjuntosde palabrasque

om-partenomportamientossintátiossimilares.Ejemplostípiosdeategorías

sintátias son verbos, sustantivos y adjetivos. En la estrutura jerárquia

de una oraión, un POS solo puede enontrarse inmediatamente arriba de

una(y solo una) palabra.

La sintaxisno soloseenargadedesribir laestrutura delasoraiones,

sinoqueengeneral seproponeenuniarrestriionesqueestablesanuales

series de palabras son validas y uales no. La forma tradiional de

enun-iar estas restriiones es mediante reglas de reesritura. Supongamos que

tenemosun onjunto

V

on todas las ategorías de onstituyentesposibles. Algunosmiembrostípiosde

V

sonNP (unafrasesustantiva),VP (unafrase verbal),

S

(una oraión), et. Sea

A

∈

V

y

α

∈

V

∗

,lasreglas de reesritura

(14)

laregla

S

→

NP VP india queuna oraión puede seruna frase sustantiva seguida de una frase verbal. A ontinuaión podemos tomar una regla que

en su lado izquierdo tengaNP y sustituirdiho símbolo en el lado dereho

de la regla anterior. De esta manera, si omenzamos on una regla que en

su ladoizquierdo tengael símbolo S yapliamos suesivamente reglasa los

símbolos enelladodereho,eventualmentepodemosllegara unaadenade

texto que ontenga solo POSs. Reemplazando ada POS por una palabra

obtenemos una oraión. La lista de reglas de reesritura utilizadas para a

partirdelsímbolo

S

obtener unaoraión

s

se denomina derivaión de

s

. La manera mas habitual de representar estas derivaiones es mediante

un árbol, donde los nodos internos y sus hijos representan la apliaión de

unaregla.EnlaFigura2.1(a) podemosverladerivaióndelaoraiónAnna

hatesJohn,yen laFigura2.1(b) elárbolorrespondientea estaderivaión.

S

→

N P V P

N P

→

N

→

Anna

V P

→

V N P

V

→

hates

N P

→

N

→

J ohn

(a)Reglasdereesritura

S

NP

N

Anna

VP

V

hates NP

N

John

(b) Árbolsintátio

pa-ralaoraiónAnnahates

John

Figura2.1: Una derivaión ysu árbolorrespondiente

PCFGs

Elmodeloprobabilístiomassimplequeontemplaestaestrutura

jerár-quia en lasoraiones es elprovisto por las Gramátias Libres deContexto

Probabilístias.

Deniión 1. Una Gramátia Libre de Contexto Probabilístia o

PCFGes una 5-upla

G

= (V,

Σ, R, S, P

)

donde:

1.

V

es un onjunto nito. Los elementos de

V

son llamados no termi-nales.

2.

Σ

esunonjunto nitodisjuntoon

V

.Loselementos de

Σ

son llama-dos terminales.

(15)

4.

R

es un onjunto de produiones dela forma

A

→

α

donde

A

∈

V

y

α

∈

(V

∪

Σ)

∗

5.

P

∈

R

→

[0,

1]

es una funióntal que

∀A

∈

V

X

A→α

∈

R

P

(A

→

α) = 1

Sitenemosuntreebank anuestra disposiión,esfáil induirunmodelo

deparsingbasadoenPCFGquemaximielaprobabilidad delosarboles

ob-servadoseneltreebank. Paraesto,poradaárbolperteneientealtreebank,

obtenemos la lista de produiones involuradas en el mismo, y utilizamos

estas produiones en el modelo. Las probabilidades provienen de ontar

uantasveesourreadaproduión,ydividirlaporlaantidadde

produ-ionesonelmismosímbolodelladoizquierdo.Si

|

r

|

representalaantidad de veesque laregla

r

seobservo enelorpus, entones:

P(A

→

α) =

P

|

A

→

α

|

A→γ

|

A

→

γ

|

(2.1)

Dadounárbol

t

,sisuponemosqueladerivaiónquedioorigena

t

esuna seuenia de eventos probabilístiamente independientes entre si, entones

laprobabilidadde

t

sealulaomoelprodutodelasprobabilidadesde las reglasqueinvolura.Estoes:

P

(t) =

Y

P

(

A→α

)

∈t

P(A

→

α)

Por ultimo, la probabilidad de una oraión es lasuma de las

probabili-dadesde todossusposiblesárboles sintátios:

P(s) =

X

{t

:

yield

(

t

)=

s}

P

(t)

donde yield

(t)

denotala adenade textoformadapor lashojasde

t

.

2.2. El modelo de Collins

Un modelodeparsing queresultarade vitalimportaniaen estetrabajo

eselmodelo deCollins ([Collins,1999℄).

Este modeloes unaextensión de las llamadas PCFGLexializadas.Una

PCFG puede lexializarse al asoiar a ada no-terminal una palabra y su

orrespondiente POS.La palabraque seasoiaa ada no-terminalproviene

de iertas reglas esritasa mano que permiten identiar el núleo de ada

onstituyente.En laFigura2.2vemos un árbolsintátio lexializado:ada

(16)

NP(She,PRP)

PRP

She

VP(had,VBD)

VBD

had

NP(idea,NN)

DT

an NN

idea

Figura2.2:Un árbolsintátiolexializado

Formalmente, no existen diferenias entre una PCFG que se enuentra

lexializadayuna queno,elproesode lexializaiónsimplementeaumenta

en una gran medida la antidad de no-terminales. Sin embargo, desde el

puntodevistapratio,esteaumento resultadrástio.Lostreebankson los

quehabitualmentesetrabajanoontienensuienteinformaiónomopara

poderestimar, simplemente on laEuaión 2.1, la probabilidad de lagran

antidad de reglasde lagramátia

El modelo model-2 denido en [Collins, 1999 ℄ soluiona este problema

desomponiendo la probabilidad de una regla en una seuenia de eventos

maspequeños, reduiendoasí laantidad de parametros a estimar. Eneste

modelo, unaregla de laPCFGesvistade lasiguiente forma:

A(h)

→

L

n

(l

n

)

. . . L

1

(l

1

)H(h)R

1

(r

1

)

. . . R

m

(r

m

)

(2.2)

donde

L

1

, . . . , L

n

, R

1

, . . . R

m

, A, H

sonnoterminalesy

l

1

, . . . , l

n

, r

1

, . . . , r

n

, h

sonparesompuestos por unapalabra on su orrespondientePOS.

La probabilidad de una regla es el produto de la probabilidad de los

diferentes eventos que dan lugar a la misma. El primero de estos eventos

es,dados

A

y

h

,elegir elnúleo

H

.Este núleo tiene asoiado unmaro de subategorizaión, que esun multionjunto

1

que espeia que

onstituyen-tes neesita el núleo omo omplemento. Los maros de subategorizaión

orrespondientes a ada núleo son determinados duranteel entrenamiento

mediante reglas ad ho. Una vez jado el núleo de la regla, los

restan-teseventosonsistenenlageneraióndelosdemás modiadoresdelnúleo

L

n

(l

n

), . . . , L

1

(l

1

), R

1

(r

1

), . . . , R

m

(r

m

)

,ondiionandoestageneraiónonel maro de subategorizaión del núleo, junto on una funión de distania

quetomaenuentalosmodiadoresquefuerongeneradosdesdeeste

modi-adorhastaelnúleo.Porultimo,paragarantizarlaonsisteniadelmodelo,

implíitamente se generan los no terminales

L

n

+1

=

R

m

+1

=

ST OP

en el extremoizquierdo ydereho deada regla.

1

(17)

Por ejemplo, laprobabilidad de laregla

S(had)

→

NP-C(She)VP(had) sealulaomo:

P

h

(

VP

|

S, had)

×

P

lc

({

NP-C

} |

S,

VP

, had)

×

P

rc

({} |

S,

VP

, had)

×

P

l

(

NP-C

(She)

|

S,

VP

, had,

{

NP-C

})×P

l

(

STOP

|

S,

VP

, had)×P

r

(

STOP

|

S,

VP

, had)

Paramasdetalles ver[Collins, 1999℄

Enelpresentetrabajodeidimosutilizarelmodelo2deCollinsyaquees

unmodelo ampliamenteusadoyitado, queen elmomento de su

introdu-iónmarónuevospuntosderefereniaenuantoalapreisióndelosárboles

sintátios obtenidos. En partiular utilizaremos la implementaión de este

modelo desripta en [Bikel,2004 ℄. Elegimos esta implementaión

prinipal-mente porsu inmediata disponibilidad,yporquesetrata deuna

implemen-taiónaltamenteexpandibleymodiable,loualeventualmentepermitiría

realizar modiaiones almodeloutilizado de forma rápidayelegante.

2.3. Algoritmos Genétios

En ramas de la omputaión omo la Inteligenia Artiial o Mahine

Learning, estípioque sepresentenproblemas uya soluión yaeen

domi-niosonoidosybiendenidos,peroparalosquenoexistenonoseonoen

algoritmos eientes quegarantien queuna soluiónpueda serenontrada.

Por lo tanto, estosproblemas se reduen a la busqueda de un elemento en

partiular perteneiente a un dominio que, en aso de ser nito, suele ser

demasiado extensoomo paraen tiempos razonablesrealizar unabusqueda

exhaustiva de la soluión en forma direta. Por esta razón, se han

desa-rrollado metodosque permiten haer una busqueda sobre un gran dominio

utilizando heurístias quepermitan guiar la busqueda haia setores en los

queon mas probabilidadpueda ser enontradala soluión.

UnodeestosmetodosdebusquedasonlosllamadosAlgoritmosGenétios

(oGAs,por susiglaeningles).Losalgoritmosgenétiosfunionanmediante

un proeso quepretende seranálogo alfenómeno de la evoluión que se da

naturalmenteenlosorganismosvivos.Losalgoritmosgenétiospartendeuna

poblaión iniial de posibles soluiones generadas al azar, y suesivamente

onstruyen nuevas versiones de la poblaión. Los individuos que forman

las nuevas poblaiones se obtienen de la reombinaión y alteraión de los

elementosenlapoblaiónanterior, simulandolosefetosdelapareamientoy

lamutaión enlosorganismosvivos.Además,notodoslosindividuostienen

las mismas hanes de formar parte de la nueva poblaión, si no que la

probabilidad de que unindividuo sea seleionado depende de uan biense

adaptaasuentorno.Estoesemuladomedianteunafuniónllamadatness,

queemula elefetode laseleión natural.

En laFigura 2.3podemos observar elpseudo ódigode un prototipo de

(18)

GA(

F itness

,

F itness

_

threshold

,

p

,

r

,

m

)

Iniializar la poblaión: iniializar

P

generando

p

individuos al azar

Evaluar: Por ada

h

en

P

, alular

F itness(h)

Mientras

(m´

ax

h

F itness(h))

<

F itness

_

threshold

haer lo siguiente

Crear una nueva generaión

P

S

:

1. Seleión: Probabilistiamente seleionar

(1

−

r)

· p

miembros de

P

para agregar a

P

S

. La probabilidad

P r(h

i

)

de seleionar el individuo

h

i

de

P

esta dada por

P r(h

i

) =

F itness(h

i

)

Pp

j

=1

F itness(h

j

)

2. Crossover: Probabilistiamente seleionar

r

· p

2

pares de individuos de

P

, de auerdo on

P r(h

i

)

. Por ada par

<

h

1

, h

2

>

, produir dos hijos apliando el operador de rossover. Agregar todos los hijos a

P

S

3. Mutar: Elegir

m

poriento de los miembros de

P

S

on

probabilidad uniforme. Apliar el operador de mutaión

a ada uno de ellos.

4. Atualizar:

P

←

P

S

5. Evaluar: Por ada

h

en

P

, alular

F itness(h)

Devolver el individuo de

P

on mayor fitness

(19)

00001010101

00001001000 11101010101

Figura2.4:Operaión derossover

Como se puede observar, el omportamiento del algoritmo depende de

iertosparametros quesedebenprejarantesdeutilizarelalgoritmo.Entre

estosparametros se enuentran

p

,la antidad de individuos en ada pobla-ión,

m

la razón de mutaión, que india el porentaje de individuos a ser afetados por laoperaión de mutaión, y

r

,el fator de rossover, que in-diala antidad de individuos queseverán involurados enla operaión de

rossover.

Paraada algoritmo genétioque resuelva unproblema en partiular se

deberádenireltipoderepresentaión quetendrán losindividuos. Esta

re-presentaiónestainueniadaporeltipodeproblemaqueseestaintentando

resolver,ya quealjar laformaquetendránlos individuosaevoluionarse

estará deniendoeldominio sobreelqueserealizara labusqueda.La forma

mas usual de representar los individuos onsiste en utilizar seuenias de

bits, que generalmente representan la presenia o ausenia de iertos

atri-butos. Sinembargo, diversasimplementaiones de algoritmos genétios han

utilizado diferentes tiposde representaión para los individuos. En

partiu-lar,enelpresentetrabajoadaindividuofuerepresentadoutilizando arboles

sintátios.

Una vez elegida larepresentaión para losindividuos, sedeben denir e

implementar los operadores genétios que operaran sobre estos individuos:

mutaión yrossover.Estos operadores, alreombinar ymodiar los

indi-viduosperteneientesaunapoblaión,sonlosenargadosdegenerarlosque

poblaran las suesivasgeneraiones de la poblaión. El operador de

rosso-ver toma dosindividuospadresy,alinterambiar segmentosdeinformaión

entre ellos, produe dos individuos hijos.Si larepresentaión de individuos

utilizada onsiste en una seuenia debits, entones laforma en que

usual-mente se implementa este operador esla de seleionar subadenas de bits

en los padrese interambiarlas, produiendo así doshijos.En la Figura2.4

sepuede observar un ejemplode la apliaión de esta operaión. La

suba-denaqueesutilizadapararealizarlaoperaión esdeterminadaeligiendodos

puntos dequiebre alazarsobre laadenade bits delos padres.

La operaión demutaiónintrodue variaionesen lapoblaiónal

modi-ardealgunamaneraalgúnfragmentodeunindividuo.Laimplementaión

típia de esta operaión onsiste en invertir algún bit elegido al azar en la

representaión de unindividuo.

Finalmente,unodelosaspetosmasimportantesdeunalgoritmo

genéti-oeslafuniónde tness.Estafunióntomaomoargumento unindividuo

(20)

indi-propiedades uantiadas por esta funión serán las que el algoritmo

gené-tio intentara maximizar. Como se ve en el algoritmo de la Figura 2.3, un

individuo on alta tness tendrá mayor probabilidad de ser elegido omo

andidato aser apliadoa lafuniónde rossover, generando así nuevos

in-dividuosqueposiblementeseveanbeneiadosporontaronsubseuenias

deodiaiónque llevana unaalta tness.

Existen diferentes variaiones de diferente grado al algoritmo

propues-toenlaFigura2.3. Unavariaiónpequeña peroampliamenteutilizadaesla

llamadaseleiónonelitismo.Cuandoseutilizaelitismo,seagregaun

para-metromasalalgoritmogenétio,queindiaunaantidadja

e

deindividuos. Luego,alahoraderearunanuevapoblaión,seeligenlos

e

individuoson mejor tness de la poblaión anterior y se agregan intatos a la nueva

po-blaión.Luegoseontinuanormalmenteonlosproedimientosdeseleión,

rossoverymutaión.Estosproedimientos(inluidoeldeseleión)atúan

sobretodoslosindividuosdelapoblaiónanterior,inluidoslos

e

quefueron opiados mediante elitismo.

La utilizaiónde elitismo permitequesereduzalaprobabilidad de que

losindividuosonaltatness seansuesivamentemodiados resultandoen

individuosdemenor tness,yqueporlotanto laalidad delapoblaión se

deteriore.Alutilizarelitismo,elmejorindividuoobservadohastaelmomento

siempreestarápresente enlapoblaión atual,por loquetendrá hanesde

verseinvolurado en losproedimientosderossoverymutaión, aportando

asífragmentosde buena alidad a susdesendientes.

2.4. Evaluaión

El problema del parsing es un problema realmente difíil. Cuando un

sistema de parsing es onstruido, el objetivo real no es poder resolver por

ompleto el problema del análisis sintátio de oraiones, sino que lo que

se trata es de aproximar la soluión, proveyendo árboles sintátios que si

biennosonperfetos,paraalgunasapliaionessonsuientes.Dadoquelos

parsers dan soluiones aproximadas, surge el problema de poder omparar

uantitativamente el resultado de ada parser, para poder deidir ual es

mejorque elotro.

Sehandenidoproedimientosparaevaluarlaperformanedelosparsers

teniendo en uenta que estos devuelven soluiones aproximadas. Por lejos,

lasmedidasde evaluaiónmas utilizadassonlasllamadas medidas

PARSE-VAL,denidasen[Blak etal.,1991 ℄.Dadoqueoriginalmenteestasmedidas

fueron ideadas para poder omparar el resultado de parsers on diferentes

teorías sintátias, en estas se reomienda realizar varias modiaiones a

los arboles antes de realizar las evaluaiones, y no se tienen en uenta las

(21)

NP

DT

0

The

1

NN

at

2

VP

VBD

ate

3

NP

DT

the

4

NN

sh

5

Figura2.5:Un árbolsintátioon losespaios entresushojas enumerados

Sin embargo, en los últimos años el onjunto de oraiones sobre el que

los parsers sondesarrollados y testeados seha onvertido pratiamente en

unstandard.Esteonjunto deoraionesesonoidoomoelPennTreebank

([Marusetal.,1993 ℄),queonsisteen49208oraionesextraidasdeartíulos

delWallStreetJournal quefueronanalizadassintátiamenteporhumanos.

Este treebank se enuentra dividido en 25 seiones, y se han designado

seiones espeiasparaentrenar,desarrollar ytestearel parser.

Dadoqueestaremosutilizando elPennTreebank, sirealizaramos las

mo-diaiones propuestasen las medidasoriginalesyno tuviéramos enuenta

lasetiquetasdelosonstituyentes, estariamoseliminando informaión

valio-saalahoradeevaluarelresultadodelparser,eimpediríaquelosresultados

seanomparadosonotrostrabajos.Porlotanto,utilizaremoslasvariaiones

de lasmedidasoriginales quehan sidoutilizadas por lostrabajosrealizados

enlos últimosaños, onoidasomo Labelled Presiion (osimplemente Pr

e-siion),Labelled Reall (o Reall) yCrossing Brakets.

Silaseueniadehojasdeunárbolestaompuestaporlashojas

a

0

, ..., a

n

, deimosque unárbol(o subárbol)domina estashojas.

Supongamos que numeramos los espaios entre las hojas de un árbol

sintátio omo en la Figura 2.5. Entones podemos denir el onjunto de

brakets de un árbol omo el multionjunto formado por el label de ada

uno de sus onstituyentes junto on el numero a laizquierda de la primera

hoja que domina y el numero a la dereha de la ultima hoja que domina.

Por ejemplo, parael árbolde laFigura 2.5, elonjunto de brakets es: <S,

0,5>, <NP,0,2>, <VP, 2,5>,<NP,3,5>.

(22)

P resicion

=

#(gold

∩

parse)

#parse

Recall

=

#(gold

∩

parse)

#gold

donde

#A

representa la antidad total de elementos del multionjunto

A

,ydonde la operaión

∩

representa lainterseión de multionjuntos, de-nida omo la operaión que dados dos multionjuntos

A

y

B

devuelve el multionjunto uyos elementos están tanto en

A

omo en

B

y ourren el mínimode las veesque ourren en

A

yen

B

.

Sea

p

=< X, n, m >

un elemento de

parse

y

g

=< Y, i, j >

un elemento de

gold

.Entones diremos que

p

ruza a

g

sii

(i < n

≤

j < m)

∨

(n < i

≤

m < j)

.

Lamedida derossing brakets sealulaomolaantidaddeelementos

de

parse

queruzan aalguno de

gold

.

También sedene unamedida queonvenientementerelaiona las

medi-dasde presiion yreall,devolviendo lamedia armónia entreambas. Esta

medida,llamada F-measure (o F

1

) sedene de lasiguientemanera:

F

1

=

2

· P resicion

· Recall

P resicion

+

Recall

Ademásdelainformaiónsintátiatradiional,elPenn Treebank

uen-ta también on anotaiones queproveen informaión semántia. Estas

ano-taiones se enuentran en forma de sujos omo -BNF, -LOC en

algu-nosno-terminales(por ejemploNP-SBJ). Estetipode sujofueeliminado

de los arboles. Además, al igual que en trabajos previos ([Collins, 1996 ℄,

[Magerman, 1995 ℄), a la hora de realizar la evaluaión todos los signos de

puntuaión fueroneliminados, aligualquelosnodosonetiqueta

-NONE-ytodoslosonstituyentesquedominabansolopalabrasnopronuniables.Por

ultimo, seonsideraron omoequivalentes las etiquetasADVP yPRT.

A la hora de reportar los resultados, las medidas utilizadas fueron la

mediaaritmétiaentrelosvaloresdelasmedidasPresiion, Reall,Crossing

(23)

Algoritmos Genétios para

Analisis Sintátio

Enelpresentetrabajonosproponemosintentarunaaproximaiónal

pro-blema del parsing mediante un método, al menos para nosotros, novedoso.

Enlugardedenir expliitamenteunmodeloquereduzaelespaiode

bus-queda asignándole probabilidad a los diferentes árboles sintátios de una

oraión, utilizaremos un espaio de busqueda pratiamente irrestrito que

serareorrido medianteun algoritmogenétio.

Dadaunaoraión,seobtendráunonjuntoarbitrariodeposiblesárboles

sintátios para la misma. Este onjunto se utilizara omo poblaión

ini-ial del algoritmo genétio, y se evoluionara diha poblaión mediante las

operaionesdemutaión yrossoverhastaquealgúnriterio dedeteniónse

satisfaga,devolviendoelárbolsintátioonmayortnesshastaelmomento.

Consideramos que latarea de asignara ada palabra de una oraión su

orrespondientePOSesunatareaquepuedeserrealizada

independientemen-te de manera eiente. Por lotanto, nuestro algoritmo toma omo entrada

una oraión uyas palabras tienen un POS asoiado, y devuelve un árbol

sintátioparadiha oraión,aunquelaseueniade POSen elanálisis

sin-tátio devuelto no neesariamente sera lamisma que seproporiono omo

entrada.

A ontinuaión sedetallan los diferentes omponentes delalgoritmo

ge-nétio.

3.1. Representaión

El objetivodelalgoritmogenétioseraenontrarelmejoranálisis

sintá-tioposibleparaunaoraión.Porlotantolarepresentaiónqueutilizaremos

paralos individuosde ada poblaión seránarboles. Cadaárbolde una

(24)

tátio.

Laformageneralquetomaraelalgoritmoqueutilizaremosesbásiamente

laquedetallamosenlaFigura2.3,ondosexepiones.Laprimeraexepión

es que utilizaremos elitismo, por lo que los mejores

e

individuos de una poblaiónsiempre estarán presentes en lasiguiente(a menos que algunode

estosindividuossevea afetado por una operaión de mutaión).

La segunda exepión es que el riterio para nalizar la ejeuión del

algoritmo no sera solo que la mejor tness observada alane un valor en

partiular, sino que además independientemente de el valor de las tness

presentes enlapoblaión, elalgoritmo sedetendrá luegode haber realizado

unnumeroprejado deiteraiones.

3.2. Poblaión Iniial

La poblaión iniial del algoritmo genétio debe onsistir en un gran

onjunto de arboles quepuedan seronsiderados árboles sintátios de una

oraión y que además dispongan de una gran diversidad de

subestrutu-rasque permitan serreombinadas exitosamente por el algoritmo genétio.

Construirun onjunto deestasaraterístias espor simismo un problema

sumamenteinteresante,aunquelaramentesetratadeunatareaompliada.

Dadoque eneste momento elproblema delparsing seenuentra enuna

etapa avanzada, se enuentran disponibles motores de parsing que muhas

vees obtienen resultados aeptables. Es posible utilizar estos motores de

formatalquenodevuelvan elmejorárbolsegúnelmodelosinounonjunto

on los

k

mejores arboles. Uno de estos motores es la implementaión del modelode Collins[Collins, 1999℄realizada por Bikelen [Bikel, 2004 ℄.

Nuestrapropuesta esutilizar omopoblaión iniial delalgoritmo

gené-tiolos

k

mejoresarbolesdevueltosporelparserdeBikeluandoesutilizado en modo k-best. De esta manera, al tratarse de arboles on una gran

pro-babilidad, no obtendremos una poblaión uyos individuos fueron elegidos

ompletamente al azar, sino que ontaremos on una poblaión iniial de

granalidad.

En el modelo de Collins, al generar los hijos de un nodo de un posible

árbolsintátio, setiene en uenta elmaro de subategorizaión delnúleo

generado(verSeión2.2).Dadoqueaunquedosoraionesseandelamisma

longitud, no neesariamente permitirán que los mismos núleos ourran en

sus árboles sintátios, y dado que la antidad de posibles maros de

sub-ategorizaión varia entre núleo y núleo, la antidad de posibles árboles

sintátiosquepermiteelmodelovariaentreoraiónyoraión.Además,las

implementaiones onretasdeestetipodemodelos,aunenmodok-best, no

mantienentodo eltiempotodaslasposiblesreglasquepueden formar parte

(25)

infe-B C

D

...

... E

...

(a)

B C

D

... ...

E

...

(b)

Figura3.1: Dosfragmentos deárboles sintátios

rior de probabilidad de formar parte del árbolsintátioóptimo, esta regla

eseliminada (esto esonoidoomo pruning).

Por estas razones, la antidad de arboles on la que el parser de Bikel

proveeráaadapoblaióniniialseradistinta.Sibienelpromediodearboles

en las poblaiones iniiales resulto ser 377.25, la variabilidad es muy alta,

yaquehaydesdepoblaiones iniialesonsolo 1árbol(paraunaoraión de

longitud 2), hasta poblaiones iniiales on 9768 arboles (para una oraión

de longitud35).

El riterio utilizado fue el de utilizar todos los arboles provistos por el

parser de Bikel, on la exepión de que, por razones de disponibilidad de

tiempoyespaio,uandounapoblaióniniialexedíalos500individuos,se

eligieron 500individuos ylos restantesfuerondesartados.Estos individuos

fueronelegidos de formaprobabilístia, de forma talquela probabilidad de

inluiradaindividuoenlapoblaióniniialdependedelatness delmismo,

segúnseexplio en laSeión 2.3.

3.3. Mutaión

La operaión de mutaión debe modiar un árbol sintátio de forma

tal que el resultado sea un nuevo posible análisis sintátio de la oraión

asoiada.

Cuandounparserintentadeterminarelmejoranálisissintátioparauna

oraión, debe tomar pequeñas deisiones que tienen inuenia en la forma

que tomará el árbol sintátio. Una de las deisiones laves que el parser

debe tomar, es elegir a que nodo debe estar asoiado ada onstituyente.

Puede que exista mas de un nodo al que un onstituyente en partiular

pueda ser asoiado y que ada una de estas asoiaiones lleven a un árbol

sintátiamente orreto. Por ejemplo. onsideremos el fragmento de árbol

delaFigura3.1(a).Enesteejemplo,elsubárbolE seenuentramodiando

aD yalosdemáshijosdelnodoC.Podríatratarsedequeelárbolsintátio

orretonofueraelanteriorsinoeldelaFigura3.1(b),dondeE seenuentra

modiandoaB yaC.Estetipodeerroresometidoonfreueniaporlos

(26)

NP PRP I VP VBN opened NP DT the NN door PP IN with NP DT the NN key (a) NP PRP I VP VBN opened NP NP DT the NN door PP IN with NP DT the NN key (b)

Figura3.2: Dosposiblesárboles sintátios parauna oraión

El efeto que laoperaión de mutaión tendrá sobre los arboles eselde

modiar deisiones de attahment, esto es, a que nodo debe estar

asoia-do ada onstituyente. Para obtener árbol en la Figura 3.1(b), se aplio la

funiónde mutaiónalnodoE delárbolenlaFigura3.1(a).Estaoperaión

hizoqueelnodoE deje deserhijodeC,para onvertirseenhijodeA.Dela

mismamanera,elárboldelaFigura3.1(a)sepuedeobtenerdeldelaFigura

3.1(b)mediante unamutaión en elnodoE.

Sinembargo, siqueremos quelaoperaión demutaión modeleelefeto

de un reattahment, no basta on la operaión ilustrada en la Figura 3.1.

Haysituaionesenlasquepara paraambiarlaposiióndeunonstituyente

dentrodelárbolsintátionobastaonmover elnodohaiaarriba ohaia

abajo, sino que es neesario rear o eliminar nodos. Veamos un ejemplo

en onreto: en la Figura 3.2(a) vemos un posible árbol sintátio para la

oraión I opened the door with the key. En este árbol sintátio se india

que una llave fue utilizada paraabrir una puerta, y esto seve reejado en

elheho de queelsubárbolon raíz PP eshijodelnodo VP ypor lotanto

seenuentra modiando al verbo opened. Sinembargo, este no esel únio

árbol sintátio posible para esta oraión, ya que esta podría querer deir

que se abrió la puerta que tenia una llave, y no la puerta uya erradura

estaba vaía. Para expresar este signiado, es neesario que la frase with

the key modique a lafrase the door en vez de alverbo opened, por lo que

nosveríamos tentados a realizar lamisma operaión de mutaión que en la

Figura 3.1. Pero al haer esto obtendríamos algo de la forma de la Figura

3.3, que no es aeptable. La forma orreta de representar este signiado

requiere que se agregue un nodo NP extra que sea padre de las frases the

door ywiththe key, omoseobserva enlaFigura 3.2(b)

Laoperaión inversa,esdeir,pasarde unárbolsintátioomoeldela

(27)

DT

the

NN

door

PP

withthekey

Figura 3.3:Formainorreta de realizar unreattahment

NP

DT

the NN

door

Figura 3.4:Cadena unaria

también presenta problemas.Siapliaramos laoperaión utilizadaen la

Fi-gura3.1, terminariamos on unnodo internoon un solo hijo,on laforma

delárbolen laFigura3.4.

Llamamos a lasituaión en laque hay unaseuenia de nodos que

on-tienen solo un hijo una adena unaria. En general, no deseamos que las

operaiones de mutaión introduzan adenas unarias. Una adena unaria

delongitudmayor queuno esun fenómenomuyraramenteobservadoen un

treebank. Además, esposibleque algunas funionesde tness utilien para

realizarsusaluloslas palabrasqueunonstituyentedomina(por ejemplo,

que utilien el onjunto de brakets denido en la Seión 2.4). Dado que

dosnodosinvoluradosen unaadenaunariadominan lasmismaspalabras,

si uno de los nodos es orreto y por lo tanto proporiona en general un

alto valor de tness, entones los otros nodos en la adena unaria también

aportaranvaloresaltos alatness. Deesta manera,esposiblequeunárbol

tengamayor tnessqueotroyqueenloúnioquedieranesenelaumento

delongituddeunaadenaunaria,porloqueelalgoritmogenétiotenderaa

preferirarbolesonlargasadenasunarias.Porlotanto,supondremosquesi

esorretointroduir algunaadena unaria, estasfueronintroduidas en la

poblaióniniial, ylimitaremoslas operaiones demutaión validasa

aque-llasquenoproduzanmasadenasunariasquelasqueyaseenontrabanen

elárboloriginal.

Sinembargo,aunqueremospodermodiarunárbolomoeldelaFigura

3.2(b) para ambiar el nivel de attah de la frase dominada por el nodo

PP. Paraello denimos unanueva operaión de mutaión quepermite esta

modiaión, yelimina el nodo extra que se ve involurado en una adena

unaria.ElárbolenlaFigura3.2(a)puedeserobtenidodelárbolenlaFigura

(28)

unárbolon mas nodosqueel original,solo quea difereniade lautilizada

parapasardelárbolen laFigura3.2(a) alde laFigura3.2(b), enlaque un

nodo pasa a estar en un nivel de profundidad mas abajo que alguno de sus

hermanos, en esta operaión unnodo pasa a estar un nivel de profundidad

masarriba queuno de sushermanos.

Aontinuaión sedauna desripiónmaspreisade adatipode

muta-ión. Dadoun árbolyun nodointerno en partiular, seenunian

preondi-iones que el nodo debe satisfaer para poderllevar a abo la operaión, y

luegosedesribenlasmodiaionesarealizaralárboloriginalparaefetuar

lamutaión. Todas las operaiones pueden realizarse tanto para la

izquier-da omo para la dereha, dependiendo de la posiión del nodo en elárbol.

Enlasdesripiones de lasmutaionesseexpliaomo realizaruno deestos

movimientos, yseagregaentreparentesislainformaiónneesaria para

rea-lizarelotromovimiento.EnlaFigura3.5sepueden observar ejemplospara

ada tipo de mutaión. En laFigura 3.5(a) se observa elárbol original.En

lassiguientes subguras semuestra el árbolresultantede realizar ada tipo

de mutaión sobre el nodo que sirve de raíz al subárbol que se enuentra

resaltadoen negrita.

Sea

n

un nodo interno de un árbol. Cada vez que se menione algún anestro de

n

, la existenia de ese anestro implíitamente es parte de la preondiion.

Mutaión 1 (reattah simplehaia arriba)

Preondiion:

n

eselprimer(o ultimo)hijodesu padre, yelpadrede

n

tienemas de doshijos.

Resultado:

n

dejade serhijodesu padreyesasoiadoasuabuelo, enla posiión anterior (oposterior)a ladesu padre.

En la Figura 3.5(b) se puede observar una mutaión en la que el nodo

originalerael ultimohijode su padre.

Mutaión 2 (reattah simplehaia abajo)

Preondiion:

n

no es elprimer (o el ultimo) hijode su padre, yel her-manoalaizquierda(oaladereha)de

n

noesunPOS(i.e.unpreterminal). Resultado:

n

dejadeestarasoiadoasupadreyesasoiadoasuhermano delaizquierda (o dereha),en laultima (o primera) posiión.

EnlaFigura3.5()sepuedeobservarunamutaiónenlaquelaoperaión

serealizohaia ladereha.

Mutaión 3 (reattah haia arriba eliminandoadena unaria)

Preondiion:

n

eselprimer(o elultimo)hijodesu padre,yelpadrede

n

tiene exatamente 2hijos.

(29)

NP PRP I VP VBN opened NP DT the NN door PP IN with NP DT the NN key

(a)Árboloriginal

S NP PRP I VP VBN opened NP DT the NN door PP IN with NP DT the NN key

(b)Reattahsimplehaiaarriba

S NP PRP I VP NP VBN opened DT the NN door PP IN with NP DT the NN key

()Reattahsimplehaiaabajo

S NP PRP I VP VBN opened NP DT the NN door IN with NP DT the NN key

(d)Reattahhaia arribaeliminandoadena

unaria S NP PRP I VP VBN opened NP NP DT the NN door PP IN with NP DT the NN key

(e)Reattahhaiaabajoreandonodo

S NP PRP I VP VP VBN opened NP DT the NN door PP IN with NP DT the NN key

(f) Reattahhaiaarribareandonodo

(30)

izquierda).

En laFigura 3.5(d) se puede observar una mutaión en laque laque el

nodo original eraelprimerhijode su padre.

Mutaión 4 (reattah haia abajoreando nodo)

Preondiion:

n

noeselprimer(oelultimo)hijodesupadre,elhermano alaizquierda (o aladereha) de

n

no esunPOS(i.e.un preterminal)yel padrede

n

Resultado: Sereaunnuevonodoonetiquetaidéntiaaladelhermano

a la izquierda (o dereha) de

n

.

n

y su hermano son desasoiados de su padreyasoiados alnuevo nodo,en elmismo ordenen que seenontraban

asoiados asu padre.El nuevo nodo esasoiadoalpadreen laposiión que

oupaba elhermano (o

n

).

EnlaFigura3.5(e)sepuedeobservarunamutaiónenlaquelaoperaión

serealizohaia laizquierda.

Mutaión 5 (reattah haia arriba reando nodo)

Preondiion:

n

eselprimer(o ultimo)hijodesu padre, yelpadrede

n

Resultado: Se rea un nuevo nodo on etiqueta idéntia a la del padre

de

n

. El nodo es desasoiado de su padre y el padre de su abuelo. Si

n

era el primer hijo de su padre, se asoia omo primer hijo del nuevo nodo

a

n

y omo segundo hijo al padre. Si

n

era el ultimo hijo de su padre, se asoia omo primerhijo del nuevo nodo alpadre y omo segundo hijoa

n

. Sereemplaza en elabuelo elpadrepor elnuevo nodo.

EnlaFigura3.5(f)sepuedeobservarunamutaiónenlaqueelnodoera

elultimohijode su padre.

El proedimiento utilizado durante elalgoritmo genétiopararealizar la

mutaiónonsiste enreorrer adanododelárbolyveriarsisesatisfaen

las preondiiones paraada tipo de mutaión. Una vez que se obtuvo una

lista on todas las mutaiones que son posibles de realizar, se elige una de

ellasalazarysedevuelve elárbolresultante deefetuar diha mutaión.

3.4. Crossover

La operaión de rossover tomará dos árboles sintátios de la misma

oraión yreombinara subfragmentos de los mismosparaobtener otros dos

arboles.Para entender quefragmentos delos arboles setomaran enuenta,

espreisodenir unanoiónde subárbol.

(31)

análisissintátiode laoraiónoriginal,no podemosinterambiarualquier

subárbol. La ondiión para que los arboles resultantes sean validoses que

los subárboles involurados en laoperaión dominen lamisma seuenia de

palabras.

ReorriendolosarbolesmediantealgúnalgoritmodebusquedaomoDFS

es posible obtener todos los posibles subárboles de un árbol. También es

posibledeterminarelamino quehayqueseguirparallegaraadasubárbol.

Estos aminos son seuenias de números enteros que indian, partiendo

desde la raíz del árbol, que numero de hijo ontando desde la izquierda se

debe elegir para llegar hasta ada subárbol. Por ejemplo, dado el siguiente

árbol

A

B

b

C

D

d1 d2

ysiguiendo elamino [2,1℄, llegamos alsubárbol

D

d1 d2

Sea

caminos(τ

)

el onjunto ompuesto por los aminos neesarios pa-ra llegar a ada subárbol de

τ

. Dados dos arboles

ρ

y

µ

on el mismo span, onstruiremos el onjunto de andidatos a estar involurados en la

operaión de rossover ompuesto por todos los posibles pares

(α, β)

∈

caminos(ρ)

×

caminos(µ)

tales que los subárboles determinados por

α

y

β

tienen el mismo span. Una vez heho esto,el proedimiento a realizar para

efetuar la operaión de rossover onsiste en elegir uno de estos pares al

azarydevolverlos arbolesresultantesde interambiar lossubárboles

deter-minadospor estosaminosen losarboles originales.

Sinembargo,porlasrazonesexpuestasenlaSeión3.3,noqueremosque

laoperaión derossoverintroduzaadenas unarias de longitudesmayores

alas ya presentes enlos arboles originales.

Supongamos quetenemoslos arboles

A

... B

C

D E

A

... F

G

D E

y

(32)

el subárbol uya raíz es el nodo

F

, y realizamos la operaión de rossover, unode los arboles resultantes eselsiguiente:

A

... B

F

G

D E

Esteárbolontiene unaadenaunariade longitudmayor alaspresentes

en los arboles originales. Lo que suedió fue que fragmentamos la adena

unariaqueomenzaba en elnodo

B

yreemplazamosuno desus fragmentos (una adena unaria de longitud ero) por otra adena unaria pero on

lon-gitudmayor (una adenaunaria delongitud uno).Paraasegurarnos de que

laoperaión de rossover no inrementa lalongitud de lasadenas unarias,

uando reemos el onjunto de pares de aminos andidatos a estar

invo-lurados en el rossover debemos onsiderar el onjunto de todos los pares

(α, β)

∈

caminos(ρ)

×

caminos(µ)

tales que los subárboles determinados

por

α

y

β

tienen el mismospany:

Si elpadrede

α

tieneun solo hijo,entones

CU

(α) =

CU(β)

Si elpadrede

β

tiene unsolo hijo, entones

CU

(α) =

CU

(β)

donde

CU

esunafunióntal que

CU

(γ)

esiguala laantidad denodos involurados en una adena unaria omenzando desde la raíz del árbol

γ

. (

CU

(γ) = 0

si

γ

noomienza onuna adenaunaria).

A modo de ejemplo, en la Figura 3.6 se puede observar un ejemplo de

rossover.Losarboles(a)y(b)sonlosoriginales,yseeligieronlossubárboles

resaltadosen negrita. Losarboles () y(d) sonlos resultantes de apliar el

proesode rossover.

3.5. Fitness

La lave para un buen desempeño del algoritmo genétio se enuentra

en laeleión de la funiónde tness.Ya que enontrar una funión de

t-ness que se omporte eazmente es una tarea sumamente ompliada, en

estetrabajonodenimosunaúniafunióndetnesssinoquedenimos

va-riasfuniones,yluegoproederemosaevaluarelomportamientodelparser

utilizando ada unade ellas.

Algunasdeestasfunionesdetnessrequierenserentrenadas,estoes,su

funionamiento estadeterminadoporunmodelouyosparametrosneesitan

(33)

NP ADJP JJ Old JJ fashioned NN hefs VP VBN ook NN pizza PP IN with NN heese (a) NP JJ Old ADJP JJ fashioned NN hefs VP VBN ook NP NN pizza PP IN with NN heese (b) S NP ADJP JJ Old JJ fashioned NN hefs VP VBN ook NP NN pizza PP IN with NN heese () S NP JJ Old ADJP JJ fashioned NN hefs VP VBN ook NN pizza PP IN with NN heese (d)

Figura3.6: La operaión derossover enaión

Laúniaaraterístiaquerequerimosqueompartantodaslasfuniones

detnessseraqueseanunafuniónquetomeunanálisissintátioydevuelva

unnumeroentre0y1.Por razones pratias,estenumero deberáteneralo

sumo4 ifrasdeimales.

3.5.1. CheaterFitness

En nuestro primer intento por denir una funión de tness,

omenza-mos haiendo trampa. Deniremos una funión que tendrá aeso al gold

standarddelaoraiónqueseestaparseando,yquepor lotantopodráguiar

elalgoritmogenétiode forma óptima.

Dado el gold standard de la oraión en uestión, la funión toma un

árbol sintátio de la misma ysimplemente alula la f-measure entre este

árbol sintátio y el gold standar. Por lo tanto, la medida que se estará

maximizando durante la ejeuión del algoritmo genétio es la f-measure,

que es justamente la medida que se utilizara para medir el desempeño del

algoritmo. Llamaremosa estafunión CheaterFitness

Larazónporlaualestafuniónresultainteresanteesporquerepresenta

la mejor funión de tness que podría llegar a denirse. Por lo tanto, si

jamos los demás parametros del algoritmo, la preisión alanzada por el

algoritmoutilizandoestatnessmarauntehoenlasposibilidadesdeéxito

del parsing mediante el algoritmo genétio. Si las operaiones de mutaión

(34)

arboles de la manera requerida para llegar hasta el árbol orreto, es de

esperar que en todos, o al menos en la mayoría de los asos, el algoritmo

efetivamente devuelva un árbol idéntio o muy similar al orreto uando

seutilieesta funión detness.

3.5.2. ChunkFitness

Dadounárbol

τ

,sea

ST

(τ

)

elonjunto detodoslossubárboles de

τ

(en el sentido de la Deniión 2, ver Seión 3.4). Denimos la funión len

(τ

)

que devuelve la antidad de hojas en un árbol. Sea

chunks

un onjunto de arbolesjo ypreestableido.

Entones denimos la funión de tness ChunkFitness de la siguiente

manera:

ChunkFtiness(τ

) =

P

{ρ

∈

ST

(

τ

):

ρ

∈

chunks

}

len(ρ)

P

{ρ

∈

ST

(

τ

)

}

len(ρ)

La ideasubyaente a estafunión de tness eslade quelos arboles que

estén formados por sub-estruturas típias o normales tengan una

ma-yor tness que aquellos uya estrutura interna sea novedosa. Para ello, es

neesario denir que quiere deir que una sub-estrutura sea típia. Es por

estoqueantesde utilizar estatness esneesario entrenarla sobreuna gran

oleión de arboles, para así inferir las estruturas que serán onsideradas

omo validas durante la evaluaión de la tness. Durante el

entrenamien-to, se obtienen todos los subárboles de los árboles sintátios observados y

mediante esteproeso seonstruye elonjunto de subárboles hunks.

Nodeseamosqueestatnesstengaenuentaontenidoléxio,porloque

deniremosuna palabra

A

ualquierayantesde utilizar ualquier árbol,ya seaenlaetapade entrenamiento ode evaluaión,este serapreproesadode

formatalque todassushojasseanreemplazadas por esta palabra.

Unavez estableidoelonjunto hunks,elproesodeevaluaiónonsiste

en sumar la antidad de hojas en ada subárbol del árbol a evaluar que

haya sido observado duranteel entrenamiento ydividirlo por lasuma de la

antidaddehojasentodoslossubárbolesdelárbolaevaluar.Deestamanera,

mientras mas grandeesun subárbolorreto, mas aportaa latness.

3.5.3. PCFGFitness

La funión de tness que deniremos a ontinuaión esta basada en un

modelo PCFG. Por lo tanto sera neesario entrenar esta tness, e induir

una PCFG desde un treebank omo se explio en la Seión 2.1. Sea

G

=

(V,

Σ, R, S, P

)

unagramátia induida de estamanera.

(35)

entrenamiento tendrá probabilidad 0, y por lo tanto todo el árbol tendrá

probabilidad 0. Es posible que durante la ejeuión del algoritmo genétio

las mutaiones introduzan fragmentos de arboles que den lugar a reglas

que no hayan sido observadas durante el entrenamiento de la PCFG. Sin

embargo, tambiénes posible quelos demás fragmentosdel árbolque hayan

sido afetados por la mutaión sean orretos, y que algún otro árbol sea

beneiado mediante la inlusión de estos fragmentos omo resultado de

una operaión de rossover. Por lo tanto, no deseamos que un árbol tenga

tness igual a 0 solo porque alguna de sus reglas no fue observada durante

elentrenamiento. Parasoluionar esteproblema introduimoslafunión

Θ

, que asigna a las produiones que no fueron observadas un valor igual a la

mínima probabilidad entre las produioneson elmismo no terminal en el

ladoizquierdo:

Sea

unseen

una funióntalquepara ada noterminal

A

unseen(A) = m´ın

{p

:

∃

β

:

A

→

β

∈

R

∧

P

(A

→

β) =

p}

Sea

Θ(A

→

α) =

P

(A

→

α)

si

A

→

α

∈

R

unseen(A)

asoontrario

Además del problema de las produiones no observadas durante el

en-trenamiento, también nos enontramos on la diultad pratia de que la

probabilidaddeunárbolseratípiamenteunvalormuybajo.Queremosque

el valor de la tness sea un numero entre 0 y 1, pero a nes prátios los

valoresquedieran en menosde

10

−

5

serán indistinguibles.Por lotanto, el

proedimiento adoptadoonsiste en,además de alularlaprobabilidad del

árbolutilizandolafunión

Θ

,alulartambiénlaprobabilidaddelárbolpero asignándole a ada produión

A

→

α

en el árbol elvalor

unseen(A)

. Esta ultimaprobabilidadrepresentalamasbajaprobabilidadquepodríatenerel

árbol,yaqueorrespondealasoenqueningunadelasproduiones

involu-radasfueronobservadasduranteelentrenamiento.Unavezaluladosestos

valoreslos ombinamosobteniendo unnuevovalor, quepodríainterpretarse

omo uanto mejor eslaprobabilidad del árbolbajo laPCFG atual,

om-paradoon laprobabilidad del árbolbajo una PCFG en laque ninguna de

susproduiones tieneprobabilidad mayor a ero.

Dado un árbol

τ

sea

rules

una funión tal que

rules(τ

)

es igual al mul-tionjunto de reglas gramatiales involuradas en

τ

. Entones denimos la funión

P CF GF itness

de lasiguiente manera:

P CF GF itness(τ

) = 1

−

log

10

(

Q

{r

∈

rules(

τ

)

}

Θ(r))

log

₁₀

(

Q

(36)

Alahorade determinaruan buenoesunárbolsintátioparauna

ora-ión, las funiones de tness que hemos denido hasta ahora no tienen en

uenta propiedades lingüístias de los arboles evaluados, mas allá de

onsi-deraruan freuentemente seobservaron durante elentrenamiento los

frag-mentosqueomponenalárbolsintátio. Existenpropiedadesgeneralesque

todobuen árbolsintátiodebe satisfaery queno son tenidasen uenta

para favoreer un árbol antes que otro por las funiones de tness. Por lo

tanto, hemos denido un pequeño numero de propiedades sintátias que

deseamosquelosarboles satisfagan.Lasfunionesqueevalúanestas

propie-dades sintátias no serán funiones de tness por ellas mismas, si no que

se enargaran de modiar el valor devuelto por alguna tness, restándole

importaniaa losarboles que nosatisfagan algunade lasreglas.

Enuniar reglasgramatialeslosuientementegeneralesomoparaque

abarquen todos los asos posibles y que al mismo tiempo sean de utilidad

a la hora de determinar si un árbol es orreto, es una tarea muy difíil.

Por lo tanto hemos enuniado unas poas reglas senillas, y permitiremos

exepiones razonables a lasmismas.

Las propiedades que estas reglas deben umplir se enunian en base a

seuenias partiulares de preterminales (i.e. de POSs) y de etiquetas de

onstituyentes de el árbol en uestión, por lo que no utilizan informaión

léxia, on la exepión de alguna palabra perteneiente a una ategoría

sintátiaerrada,omoeldeterminantethat.Cuandoesribamosseuenias

de preterminales, utilizaremos parentesis para indiar que un elemento es

opional, utilizaremos orhetes para agrupar elementos, y utilizaremos el

símbolo |paradenotar que sepuede optar entreel elemento que lopreede

yelquelosuede.

Regla 1:Seuenias denombres

Para seuenias de preterminalesdel tipo NN(S) NN(S) VB( [ D |Z℄ ),

se preere un solo subárbol que englobe a ambos NN(S) (y no al VB) a

ualquier otraestrutura.

Estoevita asosomo NP

NP

JJ

major

NN

brokerage

NNS

(37)

JJ

major

NN

brokerage

NNS

rms

Regla 2:Determinantes aompañan sustantivos

Para seuenias de preterminales de la forma DT (CD | JJ) NN, todos

debenperteneeralmismosubárbol,nodebesuederqueDT(CD|JJ)este

en unsubárbolyNNen otro.

Esto evitaasos omo NP

PP

IN

after

NP

DT

the CD

1987 NN

rash

que debería ser PP

IN

after

NP

DT

the

CD

1987 NN

rash

Haydosexepionesaestaregla.SielDTestaenunsubárboly[CD|JJ℄ NN

esta agrupadoen otro subárbol uyo label esADJP, esta biensi luego

ou-rre otroNN quese enuentre agrupado bajo el mismo subárbol que elDT.

Además,silapalabradominada porelDTesthat,estabiensielhermano a

ladereha delDT esun subárbolon etiqueta S.

Regla 3:Conjuniones oordinantes

Las onjuniones oordinantes se utilizan para relaionar dos frases de

la misma ategoría. Por lo tanto, los subárboles hermanos de un CC a la

dereha y a la izquierda deben tener la misma ategoría. Sin embargo, es

usual que aparezan símbolos de puntuaión tanto antes omo despues del

CC,einlusoqueseenuentreotrafraseantesdelafraseoordinadadespues

delCC. Por lotanto laregla queonsideraremos es:

laadenaX (PUNT)CC (PUNT) (Y)Xdebeenontrarseagrupada

ba-jo el mismo subárbol. donde PUNT representa ualquiera de las etiquetas

(38)

delsubárbolhermano alaizquierda del CCdebe serigual aladelhermano

aladereha.Existennumerososasosenlosqueestareglanoseumple por

que estos dos subárboles tienen diferente etiqueta, y enumerar todos estos

asosseriademasiado tedioso. Por lotanto,para poderapliarestaregla es

neesariorealizarentrenamiento. Duranteelentrenamiento, seanotantodos

losparesdeetiquetasquehaenqueestareglano seumpla.Luego durante

laevaluaiónsehequealaregla,ysifalla laevaluaión por enontrarseque

los subárboles tienen etiquetas diferentes, se onsidera omo valida si este

par deetiquetashabía sidoobservado duranteelentrenamiento.

Regla 4:Punto nal

Silaoraiónterminaonunsímbolodepuntuaión,estedebeserunhijo

diretode laraízdelárbol.

En otraspalabras, elattah delpunto naldebeser elmasalto posible.

Entodoslosasos,elproedimiento utilizadoparaevaluar adaregla es

elsiguiente:

se reorre la seuenia de preterminales en busa del patrón de

preter-minalesquelaregla intenta evaluar.Siseenuentraeste patrón, sehequea

sila regla se satisfae o no. Luego se sigue reorriendo laseuenia de

pre-terminalesenbusade unanuevaourreniadelpatrón. Cuandosetermina

de reorrerlaoraión, seuentan uantas vees ourrió elpatrón yuantas

vees se umplió la regla. Si el patrón no ourrió ninguna vez, se devuelve

1. Si ourrió al menos una vez, se devuelve el oiente entre las vees que

se valido la regla y las vees que ourrió el patrón. De esta manera, si en

laoraión hubo dosourrenias de un patrón y solo una vez se umplieron

lasondiionesenuniadasporlaregla,sedevuelve 0.5.Sien ningúnasose

valido laregla,sedevuelve 0.

(39)

Experimentos

Hemos realizado varios experimentos sobre el mismo onjunto de datos

parapoderevaluarelomportamiento delparserbajoelefetodelas

distin-tasfunionesde tness.

4.1. Proedimiento

El treebankutilizado fueelPennTreebank. Paratodatareaquerequería

algún tipo de entrenamiento, se utilizaron las seiones 02 a 21 del Penn

Treebank (Aproximadamente 40000oraiones). Paralaevaluaiónseutilizo

laseión22 (1700oraiones).

Entodoslosasosseutilizaronlos mismosparametros paraelalgoritmo

genétio. Estos parametrosfueron lossiguientes:

Parametro Valor

Fatorde Crossover 0.6

Razón deMutaión 0.1

Máximotamaño depoblaión 500

Máximaantidadde iteraiones 600

Elitismo 1

Poder determinar si estos parametros son los óptimos para el tipo de

problemaque intentamos resolver, esuna tareasumamenteompliada que

exedeelalanedeestetrabajo.Losvaloresóptimosparalosparametrosde

unalgoritmogenétiovaríanentreunproblemayotro,porloqueengeneral,

uando serealizan trabajos onalgoritmos genétios, elinvestigador realiza

eleiones intuitivas pero arbitrarias para estos valores. Sin embargo, hay

iertosvaloresqueseonsiderantípios,omoeselasodelaeleiónde0.6

para el fator de rossover ([Mithell, 1997 ℄, [Ohoa etal.,1999 ℄). Existen

estudios ([Ohoa etal.,1999℄, [Gao, 1998℄) que sugieren utilizar valores de

(40)

Longitud

≤

35 LP LR F

1

Exatas CB 0 CB

CheaterFitness 99.51 99.02 99.19 89.43 0.00 99.80

PCFGFitness /RG 74.73 83.77 78.63 7.91 1.60 45.50

PCFGFitness 74.36 83.82 78.43 7.03 1.57 45.50

ChunkFitness /RG 70.97 67.03 68.43 5.66 1.91 34.49

ChunkFitness 71.03 66.74 68.29 5.32 1.86 34.76

Cuadro 4.1:Resultados paraoraiones delongitud menoro igual a35

Longitud

≤

10 LP LR F

1

Exatas CB 0 CB

CheaterFitness 96.16 98.16 96.70 87.73 0.01 99.39

PCFGFitness /RG 74.52 85.47 78.72 30.67 0.18 88.34

PCFGFitness 72.41 85.39 77.26 26.38 0.20 88.34

ChunkFitness /RG 77.81 85.44 80.54 29.45 0.15 89.57

ChunkFitness 76.9 84.97 79.68 26.99 0.20 87.12

Cuadro 4.2:Resultados paraoraiones delongitud menoro igual a10

suponenquelarepresentaióndelosindividuosserealizoenformadeadena

binariayquelaoperaióndemutaiónserealizamediantelainversióndeun

bit,porloquelosvaloresderazóndemutaiónseexpresanenporentajede

bitsinvertidos.Estetipodemedidanoseapliaanuestrarepresentaión,por

loque elegimosun valor de 0.1 parala razón de mutaión, que nospareió

masrazonable.

Porrazonesdeeienia,limitamoslasoraionessobrelasualesseorrió

elparser aaquellasuyalongitud no éxodo las 35palabras.

4.2. Resultados

LosresultadosdelosexperimentospuedenverseenlosCuadros4.1,4.2y

4.3.Losresultadosseenuentrandivididossegúnlalongituddelasoraiones.

En el Cuadro 4.1 se enuentran los valores de las medidas evaluadas para

las oraiones de longitud entre 1 y 35. en el Cuadro 4.2 se enuentran los

resultadosparalasoraiones deentre1y10palabrasyenelCuadro 4.3los

11

≤

Longitud

≤

35 LP LR F

1

Exatas CB 0 CB

CheaterFitness 99.93 99.13 99.5 89.65 0.00 99.85

PCFGFitness /RG 74.76 83.56 78.62 5.06 1.78 40.14

PCFGFitness 74.6 83.62 78.57 4.6 1.74 40.14

ChunkFitness /RG 70.11 64.72 66.92 2.68 2.13 27.61

ChunkFitness 70.3 64.46 66.86 2.61 2.07 28.22

(41)

En estos uadros puede observarse que el algoritmo tiene un exelente

desempeño uando se utiliza lafunión CheaterFitness. Sibien esto era de

esperar, este resultado onrma que las posibilidades de éxito utilizando el

algoritmo genétio para parsing son altas, y que los valores elegidos para

losparametros delalgoritmo, sibienpodrían noser losóptimos, nolimitan

elorretofunionamiento delalgoritmo,queteóriamentepodría utilizarse

pararealizar parsing degran presiion.

Los resultados obtenidos utilizando las demás funiones de tness no

resultan tan prometedores, si tenemos en uenta que la presiion obtenida

porelmodelodeCollinssobreelmismoonjuntodeoraionesalanzauna

F

1

de90.68.Deestasfunionesdetnesslaquemejorseomportaeslafunión

P CF GF itness

utilizando reglasgramatiales. Sin embargo, para oraiones ortas, on 10 o menos palabras, se observa que la funión

ChunkF itness

on reglasgramatiales eslaque mejorseomporta.

Resulta interesante notar la similaridad entre la

F

1

obtenida utilizan-do la funión

P CF GF itness

on reglas gramatiales y la reportada en [Charniak, 1996 ℄, donde al induir una PCFG de las seiones 02 a 21 del

PennTreebank yparaada oraión determinar elárbolon mayor

probabi-lidad bajoelmodelodenidopor laPCFG,se obtiene una

F

1

de

79,59

.Sin embargo,estosresultados nosonomparables, yaquelosvaloresreportados

en [Charniak, 1996 ℄ provienen de orrer el parser en la seión23 del Penn

Treebank yutilizar oraiones on longitudesde entre2 y40 palabras.

También abe destaarque la utilizaión de unas poas reglas

gramati-ales que simplemente prohíban fenómenos no aeptables mejora la

perfor-mane del parser. Sin embargo, la inlusión de las reglas paree tener un

(42)