5. Conclusi´ on y trabajo futuro
5.2. Trabajo futuro
5.2.2. Descubrimiento de patrones
En este trabajo se exploro la factibilidad del descubrimiento de patrones basandose exclusivamente en dos atributos de las gram´aticas: sus consti- tuyentes y su ´arbol de parseo. Un trabajo futuro interesante es explorar en mayor detalle otros posibles patrones contenidos en las gram´aticas peque˜nas. Podr´ıan existir otros atributos que no fueron considerados(o distintas formas de analizar los mismos) que puedan reportar informaci´on relevante para el descubrimiento de patrones.
Por ejemplo, una forma distinta de analizar la similitud entre conjun- tos de constituyentes ser´ıa considerar medidas m´as finas de similitud, como comparar las subsecuencias asociadas a cada constituyente con la distancia de Levenshtein (o alg´un otra distancia de edici´on) en vez de una compara- ci´on iguales/distintas a la hora de decidir si los conjuntos de constituyentes se parecen.
Como se menciono en la Secci´on 4.5, algunos resultados muestran que a medida que se encuentran sucesivas gram´aticas decrecientes en tama˜no podr´ıa existir una convergencia a una estructura esperada, en el sentido estad´ıstico de la esperanza, en vez de una convergencia a una estructura fija. Una profundizaci´on del concepto de estructura esperada podr´ıa revelar una forma m´as flexible de definir los patrones estructurales y es un trabajo futuro interesante.
Adem´as, durante los experimentos se encontr´o que existe un subcon- junto muy reducido de constituyentes que comparten todas las gram´aticas peque˜nas encontradas, este subconjunto no es lo suficientemente grande co- mo para reflejar un impacto en el ´ındice de Jaccard o la F-measure, sin embargo todas las gram´aticas peque˜nas los incluyen. Esta car´acteristica ha- ce a estos constituyentes muy llamativos como posibles patrones, aunque antes de iniciar un trabajo sobre esto valdr´ıa la pena asegurarse sobre la calidad de los mismos con expertos de dominio. En el caso de ser relevantes ser´ıa muy interesante considerar m´etodos alternativos para obtener este pe- que˜nisimo n´ucleo compartido por las gram´aticas que no requieran un c´alculo tan intensivo. La principal dificultad de identificar este subconjunto es que
5.2. TRABAJO FUTURO 51
es demasiado peque˜no en proporcion a la cantidad de constituyentes de las gram´aticas, por ejemplo para mtpacga solo el 0.4 % de los constituyentes usados en las gram´aticas est´an en todas las gram´aticas muestreadas, y para asyoulik.txt el 5.3 %. Existe una posibilidad de que utilizando datos como la frecuencia de ocurrencia, la longitud del constituyente, la superposici´on con otros constituyentes y algunas t´ecnicas b´asicas de machine learning se podr´ıa inferir un buen clasificador para determinar este subconjunto sin grandes necesidades computacionales.
Por otro lado, dado que se encuentra que las gram´aticas compactas no responden como se esperaba al principio de descripci´on m´ınima ser´ıa intere- sante explorar otras formas representaci´on de estructura y regularidad en secuencias, tal vez formas m´as expresivas que las gram´aticas compactas y que tengan mejor comportamiento cuando se las usa junto con el principio de descripci´on m´ınima.
Pensamos que en lo que respecta al descubrimiento de patrones, la mejor forma de continuar este trabajo es buscar otras formas de estructurar una secuencia que sean distintas a las gram´aticas libres de contexto, no s´olo en expresividad, sino tambi´en en la forma en la que se las puede describir sinteticamente, ya que esto afecta directamente a la forma en la que el principio de descripci´on m´ınima opera sobre ellas.
Ap´endice A
A.1.
Gram´aticas compactas
Aqu´ı se prueba que una gram´atica libre de contexto que minimiza la funci´on de tama˜no dada en la Secci´on 2.2 es una gram´atica compacta.
SeaG=< V, T, P, S >una gram´atica libre de contexto, por la definici´on del problema podemos asumir:
L(G) ={w} (A.1)
Adem´as asumiremos:
siw∈L(G) entonces |w|>1 (A.2) Puesto que se consideraran a los casosw=ow=aluego. Ahora definire- mos una forma m´as general de medir el tama˜no de una gram´atica:
Definicion 2. Una funci´on f : CF G → Z sera llamada una funci´on de tama˜no si:
f =k1|V|+ (
X
A→α∈P
k2|α|) +k3
para algunos k1, k2, k3 ∈Z con k1>0 y k2 >0.
El caso k1 = 0 fue deliveradamente dejado afuera de esta definici´on.
Finalmente supondremos que G es una gram´atica m´ınima que genera a
wfijada una funci´on de tama˜no f.
∀G0∈CF G|L(G0) =L(G)⇒f(G)≤f(G0) (A.3) Ahora probaremos queG cumple con las propiedades dadas en la definic´on de gram´atica compacta una por una.
Teorema A.1. G No tiene s´ımbolos inutiles.
Proof: Por absurdo. Supongamos queGtiene s´ımbolos inutiles. Es posible construir unaG0 sin s´ımbolos inutiles tal queL(G0) =L(G) y por construc- ci´on V0 ⊂V yP0 ⊆P. Entonces |V0|<|V| ∧ |P0| ≤ |P| ⇒ k1|V0|< k1|V| ∧ X A→α∈P0 k2|α| ≤ X A→α∈P k2|α| ⇒ k1|V0|+ X A→α∈P0 k2|α| < k1|V|+ X A→α∈P k2|α| ⇒ f(G0) < f(G)
Lo cual contradice a (A.3). Por lo tantoGno tiene s´ımbolos inutiles. SiA∈P, SeaE(A) ={α∈T∗|A⇒∗ α}. Entonces probaremos
Teorema A.2. ∀A∈V |E(A)|= 1(Cada no-terminal deriva exactamen- te una secuencia de T∗)
Proof: Si|E(A)|= 0 entoncesA es inutil y por teorema A.1 un absurdo. SI|E(A)|>1 entonces ∃α, β∈E(A) con α6=β.
ComoA es util∃γ1, γ2 tal que
S⇒∗ γ1Aγ2
∗
⇒w=L(G) Sean γ10, γ20 tal que γ1
∗
⇒ γ10 y γ2
∗
⇒ γ20 y w = γ10αγ20 (α sin perdida de generalidad). Entonces tambi´en se puede derivarS ⇒∗ γ1Aγ2
∗
⇒γ10βγ02 6=w
lo cual es una contradicci´on por (A.1)
Teorema A.3. ∀A→α∈P |α|>1 (|α|>1 para cada A→α∈P)
Proof: Por contradicci´on. Supongamos ∃A → α con |α| ≤ 1. Si A = S
y α = entonces ∈ L(G) lo cual es absurdo por (A.2). Si A = S y
α 6= entonces no puede ser que α = B con B ∈ V puesto que se podr´ıa construir una gram´atica equivalente sin B la cual ser´ıa de menor tama˜no. Asi que debe ser queα=acona∈T, pero esto tambi´en es un absurdo por (A.2). Entonces A 6=S. Ahora construiremos una nueva gram´aticaG0 =< V0, T, P0, S >con
V0 =V − {A}
P0 ={B →β0|B →β∈P∧β0=“β reemplazando A porα”}
Por que S ∈ V0 y por construcci´on se puede ver queL(G0) =L(G). Notar que la longitud de unaβ0 es menor o igual que la de suβ, y tambi´enV0 ⊂V, por lo tanto se puede ver quef(G0)< f(G), lo cual es absurdo.
A.1. GRAM ´ATICAS COMPACTAS 55
Teorema A.4. ∀A ∈ V |{A → α ∈ P}| = 1 (Para cada elemento de V hay una ´unica regla en P)
Proof: Si |{A→α ∈P}|= 0 entonces es absurdo porque constradice A.2. Si |{A → α ∈ P}| > 1 entonces ∃α, β con α 6= β tal que A → α ∈ P y
A → β ∈ P. Ahora definiremos una nueva gram´atica G0 =< V, T, P0, S >
con
P0=P− {A→β}
Cada derivaci´on enG que usaA→β puede ser imitada en G0 por una que usa A → α porque (usando el teorema A.2) A ⇒ α ⇒∗ w y A ⇒ β ⇒∗ w. Entonces L(G0) =L(G) y porque el cuerpo de todas las reglas es mayor a uno (usando teorema A.3)
X C→γ∈P0 k2|γ|< X C→γ∈P k2|γ|
Y entonces f(G0)< f(G) lo cual es un absurdo.
Teorema A.5. Seaw∈T∗,A, B ∈V. SiA⇒∗ w yB ⇒∗ wentonces A=B
(Cada no-terminal deriva una secuencia distinta de T∗)
Proof: Por absurdo. SupongamosA6=B. SeaG0=< V0, T, P0, S >con
V0 =V − {B}
P0={C→γ0|C →γ ∈P ∧C6=B∧γ0=“γ reemplazando B porA”}
Claramente, cada derivaci´on en G puede ser imitada por una derivaci´on similar enG0 usando solo A, entonces L(G0) = L(G). Adem´as V0 ⊂V y el largo de el cuerpo de todas las reglas son lo mismo en G0 que en G, salvo porque hay almenos una menos, entonces
X A→α∈P0 k2|α|< X A→α∈P k2|α|
y por lo tantof(G0)< f(G) lo cual es absurdo.
De esta forma se ha visto queGcumple las condiciones de una gram´atica compacta. Es facil ver que para los casos w = y w =a (que habian sido dejados de lado) las gram´aticas que minimizan la funci´on de tama˜no tambien son gram´aticas compactas. Solo queda enunciar el teorema.
Teorema A.6. Toda gram´atica libre de contextoG que tiene una sola pa- labra en su lenguaje y que minimiza una funci´on de tama˜no (como se la definio aqui) es una gram´atica compacta.