Arboles de an´ alisis sint´ actico - TítuloReconocimiento de patrones en bosques compartidos

2.2. Arboles

2.2.2. Arboles de an´ alisis sint´ actico

Hasta el momento se han representado las derivaciones de las cadenas generadas por las gramáticas, tal y como han sido definidas, como una secuencia de derivaciones canónicas directas. En la práctica, se suele optar por compactar estas secuencias en forma deárboles de derivación.

20 CAP´ITULO 2. CONCEPTOS PREVIOS Notaci´on Significado

T, T1, T2, ...,P, D Arboles etiquetados y ordenados

|T| N´umero de nodos en un ´arbolT

ra´ız(T) Nodo ra´ız del ´arbolT

prof(T) Profundidad de un ´arbolT

u, v,· · · ∈T Nodos de un ´arbolT

etiqueta(u) Etiqueta asociada al nodou

padre(u) Nodo padre del nodou

hijo(i, u) Hijoi-´esimo del nodou

hijos(u) Conjunto de nodos hijos del nodou

desc(u) Conjunto de nodos descendientes del nodou

anc(u) Conjunto de nodos ancestros del nodou

pre(u), post(u) Indices del nodouen preorden y postorden, respectivamente

t[i], con 1≤i≤ |T| Nodoi-ésimo del árbolT según un orden dado T[i], con 1≤i≤ |T| Subárbol con ra´ız en el nodoi-ésimo del árbolT

T[i..j], con 1≤i≤j≤ |T| Bosque formado por los nodos comprendidos entre los nodost[i] yt[j] Cuadro 2.2: Notaciones y convenciones sobre ´arboles

S S + S S S + a a a S S + _S S + S a a a

Figura 2.3: Ejemplos de ´arboles de derivaci´on.

Definición 2.24 (árbol de derivación).

Unárbol de derivaciónpara una GIC G= (N,Σ, P, S)es un árbol ordenado y etiquetado Dverificando: SiX es una etiqueta de un nodo, entonces X ∈Σ∪N ∪ {ε}.

Si u es un nodo etiquetado con un s´ımbolo no terminal A, y sus hijos, ordenados de izquierda a derecha, tienen como etiquetas a X1, . . . , Xn, entonces A → X1· · ·Xn es una producci´on de la

gram´atica.

Tal y como indica la definición, los nodos de los árboles de derivación están etiquetados con los s´ımbolos de la gramática. Cada nodo interno estará etiquetado con un s´ımbolo no terminal que aparezca en el lado izquierdo de una regla. Además, sus hijos estarán etiquetados con los s´ımbolos terminales y no terminales presentes en la parte derecha de esa misma producción y ordenados, de izquierda a derecha, tal y como aparecen en la parte derecha de dicha regla. De esta forma, es posible representar de forma compacta y manejable un conjunto de derivaciones. Sin embargo, no es posible indicar expl´ıcitamente en un árbol de derivación el orden el que se tienen que aplicar las reglas utilizadas. El hecho de no indicar el orden de las derivaciones hace posible que un mismo árbol puede representar a más de una derivación indirecta que de lugar a una misma forma sentencial.

La figura 2.3 muestra los árboles correspondientes a las derivaciones mostradas en el ejemplo 2.2. Como se puede apreciar en esta figura, cada uno de los árboles se corresponde con una de las dos posibles derivaciones de la cadena “a+a+a” mostradas en el ejemplo y que se diferencian únicamente en el

2.2. ARBOLES 21 S a S a S a + + S S S

Figura 2.4: Representaci´on de bosques de an´alisis como grafosy-o.

orden de aplicación de las reglas. Como también se puede observar en esta figura, la reconstrucción de la forma sentencial representada por un árbol de derivación es directa. Simplemente basta con concatenar, en orden, los s´ımbolos asociados a las hojas del árbol. Esa idea de concatenación de hojas se recoge en el concepto defrontera

Definici´on 2.25 (frontera de un ´arbol).

Sea una GICG = (N,Σ, P, S)y sea T un árbol de derivación para esa gramática. La fronteradel árbol de derivaciónT es la cadena,α∈ {Σ∪N}∗_{, resultante de concatenar, ordenadas de izquierda a derecha,}

todas las etiquetas asociadas a las hojas deT.

En la práctica, serán especialmente interesantes los árboles de derivación que representen la generación de las cadenas del lenguaje, esto es, aquellos cuya frontera esté formada exclusivamente por s´ımbolos terminales. Este tipo particular de árboles de derivación se denominanárboles de análisis.

Definición 2.26 (árbol de análisis).

Dada una GICG= (N,Σ, P, S), un árbol de análisis es un árbol de derivación donde: La etiqueta de la ra´ız esS.

La frontera del ´arbol esw∈ L(G).

Como se desprende de la definición, los árboles de análisis no son más que árboles de derivación con la restricción de que su ra´ız debe ser el axioma de la gramática y todas sus hojas deben ser s´ımbolos terminales. De este modo, un árbol de análisis representará como se puede generar un cadena del lenguaje asociado a una GIC, indicando que producciones se deben aplicar, aunque no el orden en el que deben realizarse las derivaciones correspondientes. Los dos árboles de la figura 2.3 son posibles árboles de análisis para la cadena “a+a+a” del ejemplo 2.2 empleando la gramáticaGN.

Para terminar esta sección introducimos una alternativa comúnmente empleada para representar de forma conjunta varios árboles de derivación en una única estructura de representación. En estos casos nos referiremos al conjunto as´ı formado comobosque de derivación. Esta situación ocurrirá t´ıpicamente en el análisis de sentencias ambiguas. En esos casos existirá más de una derivación canónica y se deseará representarlas todas de forma adecuada. Frecuentemente, los árboles implicados en esos bosques de derivación tendrán subárboles comunes, por lo que resultará conveniente compartir dichas partes representando el bosque como un grafo y-o al que se denomina bosque compartido. En estos bosques, que estudiaremos con detalle en el cap´ıtulo 7, no se cumple la exigencia de que los árboles que los componen tengan nodos diferentes. As´ı, es posible que un mismo conjunto de nodos pertenezca a más de

22 CAPÍTULO 2. CONCEPTOS PREVIOS un árbol de análisis. Si bien esta situación puede complicar ligeramente el procesamiento de esos árboles, permitirá ahorrar espacio en la representación de los múltiples análisis de la cadena. La figura 2.4 muestra una representación del grafoy-o que representa a los dos análisis posibles de la cadena “a+a+a” del ejemplo 2.2. En esta figura las lineas punteadas representan las diferentes alternativas de los nodos-o. Los nodos-yse corresponden con los nodos usuales de los árboles de análisis. Y los nodos con más de un padre, representan la compartición de estructuras comunes entre dos o más posibles análisis de la cadena.

Parte II

Reconocimiento de Patrones en

Arboles

Cap´ıtulo 3

Reconocimiento de patrones en

cadenas

En este cap´ıtulo se realiza una introducción al problema del reconocimiento de patrones en cadenas. Como veremos en cap´ıtulos posteriores, es un problema ´ıntimamente relacionado con el reconocimiento de patrones en árboles. De hecho, la comparación de cadenas de caracteres resulta ser un caso particular de la comparación de árboles. Esto es as´ı, puesto que toda cadena de caracteres puede representarse mediante un árbol, en el cual cada carácter de la cadena se corresponde con una hoja. Ambos problemas se pueden formular como problemas de cálculo de distancias y, en ambos casos, se sigue la aproximación de medir esa distancia como el coste de una transformación. En un caso, se trata de la transformación de un árbol en otro distinto, y en el otro, es la transformación de una cadena en otra.

El reconocimiento de cadenas es un problema ampliamente estudiado [32], por lo que nos limitaremos a presentar una breve introducción del mismo y al estudio de un algoritmo clásico, el propuesto por Wagner y Fischer [34]. Si bien este algoritmo no es especialmente eficiente, si es de interés para nuestro trabajo porque las estrategias de reconocimiento de patrones sobre árboles que estudiaremos lo toman como punto de partida. Estos algoritmos pretenden extender la aproximación seguida en el de Wagner y Fischer al caso de los árboles.

Comenzaremos este cap´ıtulo introduciendo el reconocimiento de patrones en cadenas, que será formulado como un problema de cálculo de distancias de edición. Veremos a continuación la solución propuesta por Wagner y Fischer, y estudiaremos su funcionamiento. Terminaremos el cap´ıtulo presentando el problema del reconocimiento aproximado de patrones en cadenas. Estudiaremos distintas alternativas a la hora de definirlo y cómo se puede resolver dentro del marco del algoritmo de Wagner y Fischer.

3.1. Definici´on del problema

La aproximación al reconocimiento de patrones en cadenas que vamos a describir se basa en la noción de distancia de edición. Se definirá un conjunto deoperaciones de edición que se podrán aplicar sobre las cadenas para transformarlas. Generalmente se consideran las operaciones de cambio, inserción y borrado de caracteres. Para determinar la proximidad entre dos cadenas se determinará la mejor forma de transformar una de ellas en la otra, empleando las operaciones definidas. Asociando un coste numérico a cada operación de edición empleada se podrá obtener un valor numérico que cuantifique la distancia de edición entre las dos cadenas.

Para formalizar el problema, comenzaremos deﬁniendo lasoperaciones de edici´on sobre cadenas que utilizaremos en adelante.

Definici´on 3.1 (operaciones de edici´on sobre cadenas).

Sea x=a1, a2, . . . , an una cadena de longitud n sobre un alfabeto Σ. Se definen los siguientes tipos de

operaciones de edici´on sobre la cadena x:

26 CAPÍTULO 3. RECONOCIMIENTO DE PATRONES EN CADENAS Cambio.Siendo x=uav, la operación de cambiodel carácter a por el carácter b, denotada a→b, dará lugar a la cadena x’=ubv.

Inserción.Siendo x=uv, la operación de insercióndel carácter a , denotadaε→a, dará lugar a la cadena x’=uav.

Borrado.Siendo x=uav, la operación de borrado del carácter a , denotada a→ε, dará lugar a la cadena x’=uv.

Siendoε6∈Σun carácter especial que denotará al carácter nulo.

Intuitivamente, una operación de cambio simplemente sustituye un carácter de una cadena por otro. La operación de inserción añade un nuevo carácter y la de borrado elimina uno de los presentes en la cadena inicial. Por ejemplo, la operacióna→e sobre la cadenax=”casa”da lugar a la cadena x′_{=”cesa”. La} operación de borrado a → ε sobre la misma cadena da lugar a x′_=”cas 2 _{la inserci´}_on _ε _→ _r _produce

x′_{=”casar”. Si bien pueden definirse otras posibles operaciones de edici´}_{on sobre cadenas, como por} ejemplo el intercambio de caracteres en dos posiciones adyacentes, todas ellas podrán llevarse a cabo mediante la combinación de dos o más de las operaciones anteriores. Por ejemplo, intercambiando la ”c 2 la ”a”de la cadena x=”casa”, obtenemos x′_{=”acsa”, que es equivalente a realizar la eliminaci´}_{on del} carácter ”c”,c→ε, y su posterior inserción,ε→c, a continuación del carácter ”a”.

Para transformar las operaciones de edición en un valor numérico se define unafunción de coste, γ, que asocia a cada operación un número real no negativo.

Definici´on 3.2(funci´on de coste).

Se define la función de coste γ que asocia a cada operación de edición a → b, con a, b ∈ Σ∪ {ε}, un número real no negativo,γ(a→b), que verifica las siguientes propiedades:

1. γ(a→b)≥0, ∀a, b∈Σ∪ {ε}

2. γ(a→a) = 0, ∀a∈Σ

3. γ(a→b) =γ(b→a), ∀a, b∈Σ∪ {ε}

4. γ(a→c)≤γ(a→b) +γ(b→c), ∀a, b, c∈Σ∪ {ε}

SiS=op1, op2, . . . opn es una secuencia de operaciones de edici´on , su coste,γ(S), se calcula como:

γ(S) = n X i=1

γ(opi)

Como se aprecia en la definición, la función γ es una métrica, puesto que debe cumplir las cuatro condiciones anteriores. Una vez definida la función de coste correspondiente se podrá transformar en un valor numérico el conjunto de operaciones de edición necesarias para transformar una cadena en otra, como se muestra en el ejemplo 3.1.

Ejemplo 3.1.

Suponiendo que el coste de cada operación de edición sea 1, la distancia entre la cadena x=”casa” e y=”cesar”ser´ıa 2. Dicha distancia se corresponde con el coste de cambiar el carácter ”a”por ”e”,

γ(a→e) = 1, m´as el coste de insertar el car´acter ”r”,γ(ε→r) = 1.

Normalmente, dada dos cadenas, existirán múltiples conjuntos de operaciones de edición que permitan transformar una en otra. Cada una de ellas empleará distintas operaciones y, por lo tanto, podrán tener diferentes costes. Para calcular la distancia de edición entre dos cadenas nos interesa hallar el conjunto de operaciones que den lugar al menor coste de transformación posible. Teniendo esta última idea en cuenta se define ladistancia de edición entre dos cadenas del siguiente modo:

In document TítuloReconocimiento de patrones en bosques compartidos (página 34-42)