Distancia de edici´ on - Emparejamiento inexacto

3.3 Emparejamiento inexacto

3.3.4 Distancia de edici´ on

La distancia de edición es una de las medidas para determinar la “similitud” entre dos grafos. Existen otras distancias basadas en el máximo común subgrafo [BS98], en la combinación del máximo común subgrafo y el m´ınimo común supergrafo [FV01] o en la unión de grafos [WSKR01] entre otras muchas. La distancia de edición es con mucho la más utilizada y será por ello por lo que se la dedicará este apartado.

La distancia de edición se inspira en los métodos usados para la comparación de cadenas de s´ımbolos, un estudio sobre esta temática puede ser encontrado en [Nav01]. La distancia de edición se adapta sin restricciones a cualquier grafo (dirigido o no) con etiquetas62 tanto en los nodos como en los arcos, pero también puede ser aplicado a grafos sin etiquetas. Una ventaja respecto a otros métodos es que no es necesario que los grafos tengan el mismo grado a efectos de calcular esta distancia. Como es de esperar la distancia de edición es exponencial en el caso peor, aún as´ı, es ampliamente utilizada en problemas prácticos dando lugar a diversos algoritmos que la computan; sin embargo, su uso práctico está limitado a grafo con pocos nodos.63

62_{Por etiquetas se ha de entender s´ımbolos de un alfabeto, pero tambien pueden ser valores enteros o valores reales}

(v´ease [DES09]). Con esta aclaraci´on resulta que los grafos ponderados quedar´ıan incluidos en los grafos etiquetados.

3.3. Emparejamiento inexacto

En esencia la distancia de edición consiste en transformar un grafo en otro mediante la inserción, sustitución y eliminación64 de aristas o nodos. A cada operación de edición se le asocia un coste,65 por lo tanto la distancia de edición entre dos grafos ser´ıa el coste m´ınimo de la suma de la secuencia de operaciones de edición que convierten un grafo en otro. Es evidente, que la clave del problema se traslada a la selección de dichos costes para cada operación de edición y a la estrateg´ıa de minimización del coste total, es decir, a la selección de la secuencia de operaciones de edición que minimiza el coste total. La idea de la distancia de edición nace con los trabajos de Sanfeliu y Fu [SF83] y de Bunke y Allermann [BA83]. En [SF83] se evalúan la asociación de cada nodo de un grafo con todos los nodos del otro grafo y se cálcula una función de coste, después se realiza una asignación considerando los que han dado el m´ınimo coste; una vez obtenido el emparejamiento se eliminan del grafo, que no es de referencia, todos los nodos y ramas que no hayan sido asignados y se insertan aquellos nodos y ramas que faltaban; todo lo anterior permite obtener la m´ınima distancia de edición entre dos grafos. Messmer y Bunke, [MB95, MB98], extienden la distancia de edición al problema del máximo común subgrafo. En los trabajos relativamente recientes de [GXTL10] y [SRSS12] pueden ser encontrados sendos estudios sobre la distancia de edición, el segundo de ellos más centrado en la temática de las funciones de coste. Es muy recomendable la lectura del cap´ıtulo sexto del libro [DES09] cuyo t´ıtulo es “Graph Edit Distance–Optimal and Suboptimal Algorithms with Applications” [BR09]. Según [GXTL10] cuando los grafos no tienen etiquetas (sólo tienen información estructural) es habitual convertirlos en cadenas y la distancia de edición se convierte en la comparación entre cadenas. Debido a ello y en lo que sigue, se supondrá que los grafos tienen algún tipo de información en los vértices y/o arcos.

Sean g1 y g2 dos grafos cualesquiera no necesariamente del mismo grado. Sea e1, e2, . . . , ek una

secuencia dekoperaciones de edici´on que tramsforman el grafog1 eng2, con estas condiciones a la

secuencia anterior se la denomina camino de edición. El conjunto de todos los caminos de edición se denotrará porY(g1, g2). Todos los textos hacen la misma definición de distancia de edición pero

la presentada en [BR09] es extra´ordinariamente breve en la forma si es comparada con los otros textos, esta definici´on es

Definici´on 3.1. La distancia de edici´on entre el grafog1 y el grafo g2 viene dada por

d(g1, g2) = m´ın (e1,...,ek)∈Y(g1,g2) k X i=1 c(ei) (3.8)

en donde c(ei) denota el coste de la operaci´on de edici´on ci.

Como ya se ha dicho la clave del problema está en encontrar la secuencia y los costes que minimi- zan la expresión (3.8). Si se pretende un emparejamiento inexacto pero óptimo necesariamente se necesitará trabajar con un árbol de búsqueda (espacio de soluciones) en donde se van construyendo los caminos de edición y contabilizando los costes parciales lo que permitirá realizar podas. Es bastante habitual utilizar el algoritmo A∗ junto a algún tipo de heur´ıstica [HNR68]. En todo caso los requerimientos de tiempo y espacio pueden llegar a ser insostenibles incluso para grafos con pocos nodos.

Los requerimientos de tiempo y espacio se relajan si el enfoque es el de un emparejamiento inexac- to subóptimo. Con este enfoque existen varias estrategias para minimizar la expresión (3.8). En general, hay que aclarar que la detección automática de la función de coste m´ınima no es ausunto del todo cerrado [GXTL10]. Básicamente existe cuatro familias de algoritmos para el cálculo de la función de coste que por brevedad son listados a continuación de forma sucinta.

1. Algoritmos basados en entrenamiento automatico. Estos son los conocidos por algoritmos basados en SOM (“Self-OrganizingMap”) que no son m´as que redes neuronales. Un trabajo que utiliza esta t´ecnica es el aportado por [SK99].

64_{Pueden ser definidas m´}_{as operaciones de edici´}_{on que las enunciadas como pueden ser, por ejemplo, el mezclado}

y la divisi´on presentadas en [AFB03]. En lo que sigue no ser´an tenidas en cuenta.

2. Algoritmos probabil´ısticos. Esta técnica se ha utilizado en la comparación entre cadenas de s´ımbolos [RY98]. De forma similar se aplica en distancia de edición entre grafos para la obtención de la función de coste. Los detalles pueden ser encontrados en [NB04], aqu´ı sólo se destacará que es necesario seleccionar un conjunto de grafos para el entrenamiento, que el método es iterativo y que se han de seleccionar unas condiciones iniciales.

3. Algoritmos basados en kernels. En [NB06a] introduce una novedosa función de kernel para el cálculo de la función de coste. En [NB05] se usa la técnica de los kernels junto a la técnica de las Máquinas de Vectores Soporte66 para el cálculo de la función de coste.

4. Algoritmos basados en programación lineal binaria. Esta técnica [JH06] sólo se puede aplicar en grafos con atributos exclusivamente en los nodos.

In document El modelo eléctrico de conductancias aplicado al isomorfismo de grafos : el método de la estrella (página 67-69)