Técnicas principales de VS basadas en (di)similitud

1. MARCO TEÓRICO

1.2. Métodos computacionales en Quimio(Bio)informática

1.2.3. Técnicas principales de VS basadas en (di)similitud

A continuación se comentan algunas técnicas de cribado virtual basadas en similitud, en particular,

los algoritmos de agrupamiento, la tendencia al mismo y la búsqueda de similitud.

1.2.3.1. Algoritmos de agrupamiento.

El análisis de clústeres es la organización de una colección de patrones (patrones químicos en este

caso) en clústeres basada en (di)similitud. Intuitivamente, los patrones dentro de un clúster válido

son más similares unos a otros que los patrones que pertenecen a diferentes clústeres. El proceso

de agrupamiento puede ser dividido en las etapas siguientes: colección de datos, limpieza de datos,

representación, tendencia al agrupamiento, algoritmo de agrupamiento, validación e interpretación

(107). Los algoritmos de agrupamiento (AA) jerárquicos producen series anidadas de particiones

basadas en un criterio para unir o separar los clústeres basados en (di)similitud. Los AA

adicionales para las operaciones de agrupamiento comprenden los AA probabilísticos y basados

en grafos. Por otra parte, como resultado de un AA se pueden obtener clústeres duros, esto es, los

datos son particionados en grupos compactos y bien separados, o clústeres difusos donde cada

patrón tiene un grado de membrecía variable a cada uno de los clústeres formados (108-109).

Una atención especial lo merecen los algoritmos de agrupamiento jerárquicos, aglomerativos,

secuenciales y no superpuestos (SAHN, de sus siglas en inglés, Sequential, Agglomerative,

Hierarchical and Nonoverlapping), ya que los algoritmos más efectivos para problemas

quimioinformáticos han sido los de unión completa y de Ward, que pertenecen a esta categoría.

Estos algoritmos solamente requieren guardar una matriz de proximidad o (di)similitud simétrica P

en memoria durante los cálculos (enfoque de la matriz almacenada) (110). Los datos originales no

se necesitan porque existe una solución combinatoria para recalcular las medidas de proximidad

entre clústeres usando la información contenida en P y en un arreglo que contiene los tamaños de

los clústeres.

El primer modelo que describe tal comportamiento fue presentado por Lance y Williams (111),

ellos sugirieron la fórmula de recurrencia:

, = + + + − (1.12) Para actualizar los valores de P, o sea, que si los clústeres y se unen en un ciclo de

agrupamiento, entonces _, brinda el valor del criterio de actualización usado en el próximo ciclo

para unir el clúster ∪ con el clúster . Fijando cada combinación de los parámetros

, , , a ciertas constantes que dependen de los tamaños de los clústeres, y substituyendo en (1.12) los pij por el criterio de unión característico, esta fórmula fue capaz de reproducir el

comportamiento de siete AA conocidos por aquel entonces (unión simple, unión completa,

promedio de grupos, centroide, mediana, promedio simple y suma de cuadrados incremental o de

_______________________________________________________________________________ algoritmos que no se ajustaban a (1.12) condujo a Jambu y Lebeaux (112-113) a proponer la

fórmula:

, = + + + − + + + (1.13)

La cual fue capaz de explicar también el comportamiento de otras siete estrategias de

agrupamiento que aparecieron luego en la literatura (incremento mínimo de la varianza del error,

suma de cuadrados mínima del error, varianza mínima del error de los nuevos clústeres formados,

unión no ponderada y ponderada dentro del nuevo clúster e incremento mínimo de la unión

promedia no ponderada y ponderada). La interpretación de los parámetros permaneció igual, o sea,

cada combinación del tipo , , , , , , define un algoritmo en particular, pero ahora el

valor de actualización de , se determina de acuerdo a seis valores de P:

. . (1.14)

donde, , = ⋃ ⋃ ; = ⋃ ; = = ( )

Otros investigadores generalizaron (1.12) y (1.13) en otras dos formas. La primera estrategia

consistió en dejar que los conjuntos de parámetros , , , , y luego , , , , , , ,

variaran continuamente solo manteniendo una dependencia funcional y ciertas restricciones entre

estos. Ello permitió disponer de dos grupos de métodos flexibles que generalizan los métodos

“rígidos” ya conocidos. El primer grupo (β-flexible y β,γ-flexible) sirvió para describir la

transición entre algoritmos extremadamente dilatadores del espacio y contractores del espacio

(111,114), mientras que el segundo método (λ-flexible) permitió adicionalmente conservar el

comportamiento monótono de esta familia (115).

La segunda estrategia de generalización se enfocó en el criterio de unión del tipo = ⋃ , donde p depende del conjunto de distancias por pares entre miembros del cluster

⋃ . En esta dirección, Batagelj (116) demostró que para AA tipo “de Ward”, esto es, para los cuales el criterio de unión depende de la disimilitud Gower-Bock:

= , = ̅ , ̅ (1.15)

donde, , = ̅ , ̅ es la disimilitud Gower-Bock o distancia euclídea d entre los

centroides ̅ y ̅, el alcance de este grupo de técnicas podía ser extendida, considerando en (1.15) que d puede ser cualquier medida de disimilitud en vez de solo la distancia euclídea cuadrática.

Con la introducción de la noción de centros de clústeres generalizados y pesos generalizados,

Batagelj (116) formalizó esta práctica mientras que mantuvo la noción de centro del clúster el cual

está basado en la intuición que descansa en la distancia euclídea, por tanto (1.15) puede ser

reescrita como:

= , = , (1.16)

donde, , = , es la disimilitud Gower-Bock o disimilitud d entre los centroides

de clústeres generalizados y . Esto significa que, por ejemplo, en el caso del método de Ward

generalizado:

= , = ( )∗

⋃ ∗ , (1.17) el factor , -donde ( ) es el peso generalizado del cluster y así sucesivamente- no necesariamente tiene que ser la distancia euclídea cuadrática (o distancia de Hamming para

vectores binarios como se emplea tradicionalmente en Quimioinformática), sino que también

puede ser otra medida de disimilitud como la distancia de Soergel (complemento del coeficiente de

Tanimoto para el caso binario) (117).

Con el objetivo de sistematizar la experiencia acumulada en esta rama del saber, Podani (115)

_______________________________________________________________________________ de Lance y Williams, dependiendo de la naturaleza de la medida de disimilitud que cada método

usa como criterio de fusión:

1. d-CSAHN: el criterio de fusión está dado por una medida de disimilitud interclúster, esto es,

la entrada de P está dada por = ( , ) o = ( , ).

2. nh-CSAHN: el criterio de fusión está dado por una medida de homogeneidad intraclúster,

esto es, las entradas de P están dadas por = ℎ , .

3. ch-CSAHN: El criterio de fusión está dado por una variación en la medida de

homogeneidad, esto es, las entradas de P están dadas por = ℎ , − ℎ( ) − ℎ .

A medida que el agrupamiento avanza, los criterios del tipo 1 y 3 son minimizados mientras que el

criterio tipo 2 es maximizado.

1.2.3.1.1. Eficiencia de los algoritmos de agrupamiento.

Existen dos técnicas algorítmicas básicas para actualizar la matriz P, el par más cercano y los

vecinos más cercanos recíprocos (118). A pesar de que la segunda técnica mejora la primera en

cuanto a los recursos requeridos [O(N3) y O(N2) vs. O(N2) y O(N) para el tiempo y espacio

esperados, respectivamente], también afecta las propiedades ultramétricas de algunos métodos, lo

cual ha sido notado como reversos no deseados en los dendrogramas respectivos (115)

1.2.3.2. Tendencia al agrupamiento.

El problema de detectar si hay clústeres presentes como una etapa en la antesala de la misma

técnica de agrupamiento se denomina evaluación de la tendencia al agrupamiento (107). Para este

propósito, las técnicas de tendencia (o clusterabilidad) brindan una medida cuantitativa a priori

para comprobar la presencia de agrupaciones no aleatorias de moléculas (119). Esta tendencia de

las moléculas-punto de agruparse sobre la base de propiedades químicas puede brindar nuevas

estructura alguna a organizarse en clústeres no solo malgastaría recursos de tiempo y esfuerzo,

sino que pudiera conllevar a conclusiones erróneas acerca de la organización de los datos (120).

En la literatura se han propuesto varias técnicas formales, la mayoría estadísticas, así como otras

más empíricas (107,120-124). Sin embargo, estudios subsecuentes han mostrado que estas tienen

limitaciones (125-127). Alternativamente, en los últimos 25 años se han estudiado técnicas

visuales para varios problemas de análisis de datos (128-129). En esta dirección, en la literatura ha

emergido un grupo de técnicas prometedoras denominadas VAT (del inglés, Visual Assessment of

Tendency), debido a su efectividad y fácil interpretabilidad.

Básicamente, el enfoque VAT está basado en relaciones de disimilitud por pares entre k objetos o

k(k-1)/2 datos relacionales. VAT presenta la información de disimilitud por pares como una

imagen digital cuadrada con k2 pixeles de tonalidades grises, denominada la imagen de intensidad,

de modo que el color negro le corresponde la disimilitud mínima y el color blanco la disimilitud

máxima. Luego los objetos son debidamente ordenados de modo que la imagen es capaz de

resaltar claramente la estructura de clústeres a través de la observación directa de una estructura

bien definida de bloques negros a lo largo de la diagonal principal (ver Fig. 1.2 y 1.3) (130).

Figura 1.2. Imagen de disimilitud para un conjunto de datos relacionales hipotéticos donde la estructura de clústeres está latente. A) conjunto de datos presentados con el ordenamiento aleatorio original y B) conjunto de datos presentados luego de aplicar la técnica de reordenamiento VAT, indicando la presencia de cuatro clústeres bien definidos.

_______________________________________________________________________________ Figura 1.3. Imagen de disimilitud para un conjunto de datos relacionales hipotéticos donde la estructura de clústeres está ausente. A) conjunto de datos presentados con el ordenamiento aleatorio original y B) conjunto de datos presentados luego de aplicar la técnica de reordenamiento VAT, indicando el caso típico donde los datos no tienen clústeres bien definidos.

1.2.3.3. Búsqueda de similitud.

La búsqueda de similitud es una de las técnicas de VS más simples, en la cual una estructura

bioactiva conocida se usa como consulta frente a una base de datos para identificar las moléculas

vecinas más cercanas, que al mismo tiempo son las más probables que exhiban la bioactividad de

interés (131).

1.2.3.3.1. Algoritmos de emparejamiento o “matching”.

El concepto de emparejamiento “matching” exacto o parcial, y los algoritmos de búsqueda de

emparejamiento, son ampliamente utilizados en sistemas de información química asistidos por

ordenadores con el propósito de buscar una subestructura idéntica. Una facilidad menos común es

la provisión para la búsqueda del mejor par, o vecino más cercano, en la cual se recuperan las

estructuras más similares a una estructura de consulta, donde la similitud se define sobre la base de

algún coeficiente de similitud o de distancia, que refleja el número de fragmentos comunes de la

consulta y de una molécula de la base de datos (132). El problema general de encontrar los

mejores pares se define por Friedman y coautores (133) como: “... dado un conjunto de m

instancias (cada uno de los cuales es descrito por n atributos con valores reales) y una medida de

(di)similitud, encontrar las k instancias más cercanas a la instancia de consulta con los atributos

Un algoritmo eficiente del vecino más cercano será uno que evite el cálculo de la mayoría de las

distancias, calculando solamente aquellas que rodean la instancia o estructura de consulta (134-

138). Para problemas quimioinformáticos, Baldi y coautores (139) plantean un algoritmo diferente

a los tradicionales, que consiste en almacenar para cada molécula A de la base de datos no

solamente su vector correspondiente ⃗, sino también almacenar información adicional contenida en un pequeño vector ⃗, de tamaño n (esto es, si ⃗ tiene tamaño = 2 entonces el tamaño de

⃗ = ). El vector ⃗ se obtiene aplicando el operador lógico de disyunción exclusiva XOR al vector ⃗. Esta información adicional permite explorar menos del 50% de la base de datos y acelera la búsqueda significativamente. Más recientemente, Cao y coautores (140) han reportado un

algoritmo de búsqueda y agrupamiento acelerado basado en técnicas de imbibición e indexado

multidimensional que mejora en 20-400 veces a los métodos secuenciales en cuanto al tiempo de

búsqueda de los 100 primeros vecinos más cercanos (el algoritmo de Baldi y coautores (139) los

mejora en 5.5 veces) en conjuntos de datos de 260 000-19 millones de compuestos, mientras que

mantiene exactitudes comparables. Además, este algoritmo es aplicable a un amplio espectro de

medidas de similitud y puede ser escalable a conjuntos de datos de hasta cientos de millones de

objetos químicos.

1.2.3.3.2. Fusión de datos

Como Sheridan y Kearsley (90) han señalado, es muy poco probable que un solo mecanismo de

búsqueda pueda comportarse consistentemente superior a los demás en todos los problemas

(nuevamente se “recuerda” el teorema “No free lunch”). Por esta razón, tiene sentido aplicar

técnicas de búsqueda complementarias y combinar los resultados individuales en un resultado

consenso para extender el dominio de problemas con resultados satisfactorios, este enfoque se ha

dado a conocer en los últimos años como fusión de datos (141).

Básicamente, existen tres técnicas de fusión de datos y una de estas es la fusión de similitud, que

_______________________________________________________________________________ es la fusión de grupo, que consiste en buscar múltiples estructuras de referencia con una sola

medida de similitud y se ha mostrado que es más eficaz que la fusión de similitud. El tercer

enfoque es la turbo similitud, en analogía a los motores turbos que reutilizan los gases de escape y

le imprimen una potencia mayor al vehículo. Esta técnica utiliza una estructura de referencia y una

medida de similitud, sin embargo, es más efectiva que la búsqueda simple porque utiliza los

primeros vecinos más cercanos recuperados como estructuras de referencias, ya que estos es

probable que también sean bioactivos y al mismo tiempo introducen otros rasgos estructurales que

aumentan el éxito de la búsqueda al encontrar otros quimiotipos en el espacio químico (141).

Adicionalmente a las técnicas de fusión de datos anteriores, algunos investigadores han trabajado

la ponderación de rasgos binarios orientados por clases de actividad sobre la base de compuestos

de referencia múltiples y aplicados para enfatizar algunas posiciones de bits específicas durante la

búsqueda de similitud. En esencia, estas técnicas también pudieran considerarse como una cuarta

estrategia de fusión de datos, más específicamente fusión de representación, y, actualmente

constituyen un área de investigación activa en Quimioinformática (28).

In document Medidas de similitud novedosas en quimioinformática (página 47-55)