Descubrimiento de patrones

5. Conclusi´ on y trabajo futuro

5.2. Trabajo futuro

5.2.2. Descubrimiento de patrones

En este trabajo se exploro la factibilidad del descubrimiento de patrones basandose exclusivamente en dos atributos de las gramáticas: sus constituyentes y su árbol de parseo. Un trabajo futuro interesante es explorar en mayor detalle otros posibles patrones contenidos en las gramáticas pequeñas. Podr´ıan existir otros atributos que no fueron considerados(o distintas formas de analizar los mismos) que puedan reportar información relevante para el descubrimiento de patrones.

Por ejemplo, una forma distinta de analizar la similitud entre conjuntos de constituyentes ser´ıa considerar medidas más finas de similitud, como comparar las subsecuencias asociadas a cada constituyente con la distancia de Levenshtein (o algún otra distancia de edición) en vez de una compara- ción iguales/distintas a la hora de decidir si los conjuntos de constituyentes se parecen.

Como se menciono en la Sección 4.5, algunos resultados muestran que a medida que se encuentran sucesivas gramáticas decrecientes en tamaño podr´ıa existir una convergencia a una estructura esperada, en el sentido estad´ıstico de la esperanza, en vez de una convergencia a una estructura fija. Una profundización del concepto de estructura esperada podr´ıa revelar una forma más flexible de definir los patrones estructurales y es un trabajo futuro interesante.

Además, durante los experimentos se encontró que existe un subconjunto muy reducido de constituyentes que comparten todas las gramáticas pequeñas encontradas, este subconjunto no es lo suficientemente grande como para reflejar un impacto en el ´ındice de Jaccard o la F-measure, sin embargo todas las gramáticas pequeñas los incluyen. Esta carácteristica ha- ce a estos constituyentes muy llamativos como posibles patrones, aunque antes de iniciar un trabajo sobre esto valdr´ıa la pena asegurarse sobre la calidad de los mismos con expertos de dominio. En el caso de ser relevantes ser´ıa muy interesante considerar métodos alternativos para obtener este pe- queñisimo núcleo compartido por las gramáticas que no requieran un cálculo tan intensivo. La principal dificultad de identificar este subconjunto es que

5.2. TRABAJO FUTURO 51

es demasiado pequeño en proporcion a la cantidad de constituyentes de las gramáticas, por ejemplo para mtpacga solo el 0.4 % de los constituyentes usados en las gramáticas están en todas las gramáticas muestreadas, y para asyoulik.txt el 5.3 %. Existe una posibilidad de que utilizando datos como la frecuencia de ocurrencia, la longitud del constituyente, la superposición con otros constituyentes y algunas técnicas básicas de machine learning se podr´ıa inferir un buen clasificador para determinar este subconjunto sin grandes necesidades computacionales.

Por otro lado, dado que se encuentra que las gramáticas compactas no responden como se esperaba al principio de descripción m´ınima ser´ıa interesante explorar otras formas representación de estructura y regularidad en secuencias, tal vez formas más expresivas que las gramáticas compactas y que tengan mejor comportamiento cuando se las usa junto con el principio de descripción m´ınima.

Pensamos que en lo que respecta al descubrimiento de patrones, la mejor forma de continuar este trabajo es buscar otras formas de estructurar una secuencia que sean distintas a las gramáticas libres de contexto, no sólo en expresividad, sino también en la forma en la que se las puede describir sinteticamente, ya que esto afecta directamente a la forma en la que el principio de descripción m´ınima opera sobre ellas.

Ap´endice A

A.1.

Gram´aticas compactas

Aqu´ı se prueba que una gramática libre de contexto que minimiza la función de tamaño dada en la Sección 2.2 es una gramática compacta.

SeaG=< V, T, P, S >una gram´atica libre de contexto, por la definici´on del problema podemos asumir:

L(G) ={w} (A.1)

Adem´as asumiremos:

siw∈L(G) entonces |w|>1 (A.2) Puesto que se consideraran a los casosw=ow=aluego. Ahora definiremos una forma más general de medir el tamaño de una gramática:

Definicion 2. Una función f : CF G → _Z sera llamada una función de tamaño si:

f =k1|V|+ (

A→α∈P

k2|α|) +k3

para algunos k1, k2, k3 ∈Z con k1>0 y k2 >0.

El caso k1 = 0 fue deliveradamente dejado afuera de esta definici´on.

Finalmente supondremos que G es una gram´atica m´ınima que genera a

wfijada una funci´on de tama˜no f.

∀G0∈CF G|L(G0) =L(G)⇒f(G)≤f(G0) (A.3) Ahora probaremos queG cumple con las propiedades dadas en la definic´on de gram´atica compacta una por una.

Teorema A.1. G No tiene s´ımbolos inutiles.

Proof: Por absurdo. Supongamos queGtiene s´ımbolos inutiles. Es posible construir unaG0 sin s´ımbolos inutiles tal queL(G0) =L(G) y por construcci´on V0 ⊂V yP0 ⊆P. Entonces |V0|<|V| ∧ |P0| ≤ |P| ⇒ k1|V0|< k1|V| ∧ X A→α∈P0 k2|α| ≤ X A→α∈P k2|α| ⇒ k1|V0|+ X A→α∈P0 k2|α| < k1|V|+ X A→α∈P k2|α| ⇒ f(G0) < f(G)

Lo cual contradice a (A.3). Por lo tantoGno tiene s´ımbolos inutiles. SiA∈P, SeaE(A) ={α∈T∗|A⇒∗ α}. Entonces probaremos

Teorema A.2. ∀A∈V |E(A)|= 1(Cada no-terminal deriva exactamen- te una secuencia de T∗)

Proof: Si|E(A)|= 0 entoncesA es inutil y por teorema A.1 un absurdo. SI|E(A)|>1 entonces ∃α, β∈E(A) con α6=β.

ComoA es util∃γ1, γ2 tal que

S⇒∗ γ1Aγ2

∗

⇒w=L(G) Sean γ₁0, γ₂0 tal que γ1

∗

⇒ γ₁0 y γ2

∗

⇒ γ₂0 y w = γ₁0αγ₂0 (α sin perdida de generalidad). Entonces tambi´en se puede derivarS ⇒∗ γ1Aγ2

∗

⇒γ₁0βγ0₂ 6=w

lo cual es una contradicci´on por (A.1)

Teorema A.3. ∀A→α∈P |α|>1 (|α|>1 para cada A→α∈P)

Proof: Por contradicci´on. Supongamos ∃A → α con |α| ≤ 1. Si A = S

y α = entonces ∈ L(G) lo cual es absurdo por (A.2). Si A = S y

α 6= entonces no puede ser que α = B con B ∈ V puesto que se podr´ıa construir una gramática equivalente sin B la cual ser´ıa de menor tamaño. Asi que debe ser queα=acona∈T, pero esto también es un absurdo por (A.2). Entonces A 6=S. Ahora construiremos una nueva gramáticaG0 =< V0, T, P0, S >con

V0 =V − {A}

P0 ={B →β0|B →β∈P∧β0=“β reemplazando A porα”}

Por que S ∈ V0 y por construcci´on se puede ver queL(G0) =L(G). Notar que la longitud de unaβ0 es menor o igual que la de suβ, y tambi´enV0 ⊂V, por lo tanto se puede ver quef(G0)< f(G), lo cual es absurdo.

A.1. GRAM ´ATICAS COMPACTAS 55

Teorema A.4. ∀A ∈ V |{A → α ∈ P}| = 1 (Para cada elemento de V hay una ´unica regla en P)

Proof: Si |{A→α ∈P}|= 0 entonces es absurdo porque constradice A.2. Si |{A → α ∈ P}| > 1 entonces ∃α, β con α 6= β tal que A → α ∈ P y

A → β ∈ P. Ahora definiremos una nueva gram´atica G0 =< V, T, P0, S >

con

P0=P− {A→β}

Cada derivaci´on enG que usaA→β puede ser imitada en G0 por una que usa A → α porque (usando el teorema A.2) A ⇒ α ⇒∗ w y A ⇒ β ⇒∗ w. Entonces L(G0) =L(G) y porque el cuerpo de todas las reglas es mayor a uno (usando teorema A.3)

X C→γ∈P0 k2|γ|< X C→γ∈P k2|γ|

Y entonces f(G0)< f(G) lo cual es un absurdo.

Teorema A.5. Seaw∈T∗,A, B ∈V. SiA⇒∗ w yB ⇒∗ wentonces A=B

(Cada no-terminal deriva una secuencia distinta de T∗)

Proof: Por absurdo. SupongamosA6=B. SeaG0=< V0, T, P0, S >con

V0 =V − {B}

P0={C→γ0|C →γ ∈P ∧C6=B∧γ0=“γ reemplazando B porA”}

Claramente, cada derivación en G puede ser imitada por una derivación similar enG0 usando solo A, entonces L(G0) = L(G). Además V0 ⊂V y el largo de el cuerpo de todas las reglas son lo mismo en G0 que en G, salvo porque hay almenos una menos, entonces

X A→α∈P0 k2|α|< X A→α∈P k2|α|

y por lo tantof(G0)< f(G) lo cual es absurdo.

De esta forma se ha visto queGcumple las condiciones de una gramática compacta. Es facil ver que para los casos w = y w =a (que habian sido dejados de lado) las gramáticas que minimizan la función de tamaño tambien son gramáticas compactas. Solo queda enunciar el teorema.

Teorema A.6. Toda gramática libre de contextoG que tiene una sola pa- labra en su lenguaje y que minimiza una función de tamaño (como se la definio aqui) es una gramática compacta.

In document Gramáticas mínimas y descubrimiento de patrones (página 56-62)