Teoría de autómatas para investigadores en XML

(1)

Glushkov Aut´omatas probabil´ısticos Aut´omatas de ´ arboles

Rafael C. Carrasco Jim´enez

Departamento de Lenguajes y Sistemas Inform´aticos

Universidad de Alicante Febrero 2006

(2)

Teor´ıa de autómatas para investigadores en XML RCC Autómatas de Glushkov Autómatas probabil´ısticos Autómatas de ´ arboles

Aut´

omatas finitos de cadenas

Un DFA (deterministic finite-state automaton) es una

representaci´on (grafo) de un procedimiento computable que

(3)

investigadores en XML RCC Autómatas de Glushkov Autómatas probabil´ısticos Autómatas de ´ arboles

Un DFA (deterministic finite-state automaton) es una

representaci´on (grafo) de un procedimiento computable que

requiere memoria finita.

Ejemplo: determinar la paridad de una cadena binaria. Contraejemplo: determinar si la entrada es pal´ındroma.

(4)

Las expresiones regulares definen lenguajes usando s´ımbolos, paréntesis y operadores de concatenación, elección y repetición. Comentarios de C:

A [*]

B [/]

C [^*/]

(5)

(6)

Para cada expresi´on regular r, se construye el marcado Er

sustituyendo los s´ımbolos por posiciones. Por ejemplo

r=BAB∗(A∗CB∗)A∗AB ⇒Er = 123∗(4∗56∗)∗7∗89.

Cada posición será un estado del autómata de Glushkov. Para construir las transiciones se usan 4 funciones: empty, first, last, follow.

(7)

empty(E) es cierto si la subexpresi´on contiene la cadena vac´ıa:

empty(n) = FALSE

empty(F|G) = empty(F)∨empty(G)

empty(F,G) = empty(F)∧empty(G)

empty(F∗) = TRUE

empty(F+) = empty(F)

(8)

first(E) es el conjunto de s´ımbolos por los que puede empezar

una cadena deE:

first(n) = {n}

first(F|G) = first(F)∪first(G)

first(F,G) =

(

first(F)∪first(G) if empty(F)

first(F) otherwise

first(F∗) = first(F) first(F+) = first(F) first(F?) = first(F)

(9)

last(E) es el conjunto de s´ımbolos por los que puede terminar

una cadena deE:

last(n) = {n}

last(F|G) = last(F)∪last(G)

last(F,G) =

(

last(F)∪last(G) if empty(G)

last(G) otherwise

last(F∗) = last(F)

last(F+) = last(F)

(10)

follow(E) es el conjunto de pares de s´ımbolos que pueden aparecer consecutivos enE:

follow(n) = ∅

follow(F|G) = follow(F)∪follow(G)

follow(F,G) = follow(F)∪follow(G)∪last(F)×first(G) follow(F∗) = follow(F)∪last(F)×first(F)

follow(F+) = follow(F)∪last(F)×first(F) follow(F?) = follow(F)

(11)

El aut´omata de Glushkov es (N,Σ, δ,0,F), con: Q ={0,1, ...,N} δ(0,a) ={n ∈first(Er) : Φr(n) =a} δ(n,a) ={m∈Q : (n,m)∈follow(Er)∧Φr(m) =a} F = ( {0} ∪last(Er) if empty(Er) last(Er) otherwise

siendoN el n´umero de s´ımbolos der y Φ el homomorfismo que

(12)

(13)

Si el autómata de Glushkov es determinista,r es 1-inambigua y, por tanto, válida en el estándar SGML.

Aunque todo autómata finito tienen un equivalente determinista, no todas las lenguajes regulares admi-ten una expresión regular con autómata de Glushkov determinista.

(14)

En un autómata probabil´ıstico, cada transición (y cada estado de aceptación) tiene una probabilidad asociada.

Algunas distancias Cuadr´atica: P

x(pAx)−pB(x))2.

Kullback-Leibler: P

xpA(x)∗log_pp_BA(₍x_x)₎.

La distancia cuadrática es más suave, pero menos sensible a los valores pequeños.

(15)

investigadores en XML RCC Autómatas de Glushkov Autómatas probabil´ısticos Autómatas de ´ arboles La probabilidad de coemisiónC(A,B) =P xpA(x)pB(x)

permite calcular la distancia cuadr´atica:

(16)

investigadores en XML RCC Autómatas de Glushkov Autómatas probabil´ısticos Autómatas de ´ arboles C(A,A0) =X a X i∈Q X j∈Q0 cij p(i,a)p(j,a)

Los coeficientescij son el n´umero esperado de “pasos” por i y j. cij = (i == 0)(j == 0) + X a X k:δ(k,a)=i X l:δ(l,a)=j cklp(k,a)p(l,a)

(17)

investigadores en XML RCC Autómatas de Glushkov Autómatas probabil´ısticos Autómatas de ´ arboles Dado unalfabeto Σ ={σ1, . . . , σ|Σ|}:

Todos los s´ımbolos de Σ son ´arboles deTΣ.

Dado σ∈Σ ym>0 ´arbolest1, . . . ,tm,σ(t1· · ·tm) es un

´

(18)

A cualquier subconjunto de ´arboles se le llamalenguaje. En particular, el lenguaje sub(t) desub´arboles det es

sub(t) =

(

{σ} if t=σ∈Σ

{t} ∪Sm

k=1sub(tk) if t=σ(t1. . .tm)∈TΣ−Σ

XHTML es un lenguaje de ´arboles sobre el alfabeto:

(19)

Unaut´omata finito de ´arboles esA= (Q,Σ,∆,F),

Q ={q1, . . . ,q|Q|} es un conjuntoestados;

Σ ={σ1, . . . , σ|Σ|} es elalfabeto;

F ⊆Q es un subconjunto de estados de aceptaci´on, ∆⊂ ∪∞_m₌₀Σ×Qm+1 _{es un conjunto finito de}_transiciones_.

(20)

Los aut´omatas de ´arboles pueden ser

indeterministas :-|

deterministas ascendentes :-)

deterministas descendente :-(

(21)

Evaluador de expresiones l´ogicas:

∆ = {(F,0),(T,1),(∧,1+,1),(∧,(0|1)∗0(0|1)∗,0) (∨,0+,0),(∨,(0|1)∗1(0|1)∗,1)} ∨ ∨ T F ∧ T F F ∨ F T F 1 1 1 0 0 1 0 0 1 0 1 0

(22)

∆ ={ (a,Q∗,/a), (b,Q∗,/b), (a, Q∗,//a),

(b,Q∗//aQ∗,/b//a),

(a,Q∗/aQ∗/b//aQ∗,/a[a]/b//a),... }

a a b a b /a[a]/b//a /a /b//a //a /b

(23)

Cada transici´on (σ,i1, ...,im,q) de ∆ tieneargumento

(σ,i1, ...,im) y salida q. El aut´omata es determinista si no hay

m´as de una salida por cada argumento:

δm(σ,i1, ...,im) =

(

q ifq ∈Q such that (σ,i1, ...,im,q)∈∆

⊥ if no suchq exists

(24)

investigadores en XML RCC Autómatas de Glushkov Autómatas probabil´ısticos Autómatas de ´ arboles El resultado deA ent esA(t): A(t) = ( δ0(σ) ift =σ∈Σ δm(σ,A(t1), . . . ,A(tm)) ift =σ(t1· · ·tm)∈TΣ−Σ

(25)

investigadores en XML RCC Autómatas de Glushkov Autómatas probabil´ısticos Autómatas de ´ arboles Siδ0(a) =q1,δ0(b) =q2,δ2(a,q1,q2) =q2 yδ1(a,q2) =q1, a a a a b b q2 q1 q2 q1 q2 q2

(26)

El lenguajeLA(q) aceptado por q∈Q es

LA(q) ={t ∈TΣ :A(t) =q}

y el lenguajeL(A) aceptado porAes

L(A) = [

q∈F LA(q).

(27)

Eliminaci´on de estados inaccesibles:LA(q) =∅. I ←Q

Mientras existenq ∈I,m≥0, σ∈Σ y

(i1, ...,im)∈(Q−I)m tales que δm(σ,i1, ...,im) =q,

(28)

Dos estadosi yj son equivalentes si

1 _i ∈_F _y_j 6∈_F _{o viceversa.}

2 Existen m>0,k ≤m y (σ,r₁, ...,r_m)∈Σ×Qm tales que

(29)

SeaPτ la partici´on deQ en la iteraci´onτ yEτ[i] la clase dePτ

que contiene ai.

i 6≡τ j si existem>0,k ≤my (σ,r1, ...,rm)∈Σ×Qm tales

que

(30)

Output: a minimal DTA Am´ın _{= (}_Qm´ın_,_Σ_,_∆m´ın_,_Fm´ın₎_. Method:

1 _{Create the initial partition P}₀_{= (}_F_,_Q−_F₎_{and make}

τ←0.

2 _{While there exist i}_,_j∈_{Q such that E}_τ_[_i_{] =}_E_τ_[_j_]_and

i6≡τj

Build the subsetN ={k∈Eτ[i] :k ≡τ i}.

Create Pτ+1 from Pτ by splitting class Eτ[i]into N and Eτ[i]− N. Makeτ ←τ+ 1. 3 _Output₍_Qm´ın_,_Σ_,_∆m´ın_,_Fm´ın₎_with Qm´ın={Eτ[i] :i∈Q}; Fm´ın={Eτ[i] :i∈F}; δmm´ın(σ,Eτ[i1], ...,Eτ[im]) =Eτ[δm(σ,i1, ...,im)]

(31)

Son equivalentes a los aut´omatas de ´arboles.G = (N,T,S,P): Σ es un alfabeto de s´ımbolos terminales;

N es un conjunto finito de variables;

S es el s´ımbolo inicial;

P es un conjunto de reglas del tipoX →ar, conX ∈N ,