1. MARCO TEÓRICO
1.2. Métodos computacionales en Quimio(Bio)informática
1.2.3. Técnicas principales de VS basadas en (di)similitud
A continuación se comentan algunas técnicas de cribado virtual basadas en similitud, en particular,
los algoritmos de agrupamiento, la tendencia al mismo y la búsqueda de similitud.
1.2.3.1. Algoritmos de agrupamiento.
El análisis de clústeres es la organización de una colección de patrones (patrones químicos en este
caso) en clústeres basada en (di)similitud. Intuitivamente, los patrones dentro de un clúster válido
son más similares unos a otros que los patrones que pertenecen a diferentes clústeres. El proceso
de agrupamiento puede ser dividido en las etapas siguientes: colección de datos, limpieza de datos,
representación, tendencia al agrupamiento, algoritmo de agrupamiento, validación e interpretación
(107). Los algoritmos de agrupamiento (AA) jerárquicos producen series anidadas de particiones
basadas en un criterio para unir o separar los clústeres basados en (di)similitud. Los AA
adicionales para las operaciones de agrupamiento comprenden los AA probabilísticos y basados
en grafos. Por otra parte, como resultado de un AA se pueden obtener clústeres duros, esto es, los
datos son particionados en grupos compactos y bien separados, o clústeres difusos donde cada
patrón tiene un grado de membrecía variable a cada uno de los clústeres formados (108-109).
Una atención especial lo merecen los algoritmos de agrupamiento jerárquicos, aglomerativos,
secuenciales y no superpuestos (SAHN, de sus siglas en inglés, Sequential, Agglomerative,
Hierarchical and Nonoverlapping), ya que los algoritmos más efectivos para problemas
quimioinformáticos han sido los de unión completa y de Ward, que pertenecen a esta categoría.
Estos algoritmos solamente requieren guardar una matriz de proximidad o (di)similitud simétrica P
en memoria durante los cálculos (enfoque de la matriz almacenada) (110). Los datos originales no
se necesitan porque existe una solución combinatoria para recalcular las medidas de proximidad
entre clústeres usando la información contenida en P y en un arreglo que contiene los tamaños de
los clústeres.
El primer modelo que describe tal comportamiento fue presentado por Lance y Williams (111),
ellos sugirieron la fórmula de recurrencia:
, = + + + − (1.12) Para actualizar los valores de P, o sea, que si los clústeres y se unen en un ciclo de
agrupamiento, entonces , brinda el valor del criterio de actualización usado en el próximo ciclo
para unir el clúster ∪ con el clúster . Fijando cada combinación de los parámetros
, , , a ciertas constantes que dependen de los tamaños de los clústeres, y substituyendo en (1.12) los pij por el criterio de unión característico, esta fórmula fue capaz de reproducir el
comportamiento de siete AA conocidos por aquel entonces (unión simple, unión completa,
promedio de grupos, centroide, mediana, promedio simple y suma de cuadrados incremental o de
_______________________________________________________________________________ algoritmos que no se ajustaban a (1.12) condujo a Jambu y Lebeaux (112-113) a proponer la
fórmula:
, = + + + − + + + (1.13)
La cual fue capaz de explicar también el comportamiento de otras siete estrategias de
agrupamiento que aparecieron luego en la literatura (incremento mínimo de la varianza del error,
suma de cuadrados mínima del error, varianza mínima del error de los nuevos clústeres formados,
unión no ponderada y ponderada dentro del nuevo clúster e incremento mínimo de la unión
promedia no ponderada y ponderada). La interpretación de los parámetros permaneció igual, o sea,
cada combinación del tipo , , , , , , define un algoritmo en particular, pero ahora el
valor de actualización de , se determina de acuerdo a seis valores de P:
.
. . (1.14)
donde, , = ⋃ ⋃ ; = ⋃ ; = = ( )
Otros investigadores generalizaron (1.12) y (1.13) en otras dos formas. La primera estrategia
consistió en dejar que los conjuntos de parámetros , , , , y luego , , , , , , ,
variaran continuamente solo manteniendo una dependencia funcional y ciertas restricciones entre
estos. Ello permitió disponer de dos grupos de métodos flexibles que generalizan los métodos
“rígidos” ya conocidos. El primer grupo (β-flexible y β,γ-flexible) sirvió para describir la
transición entre algoritmos extremadamente dilatadores del espacio y contractores del espacio
(111,114), mientras que el segundo método (λ-flexible) permitió adicionalmente conservar el
comportamiento monótono de esta familia (115).
La segunda estrategia de generalización se enfocó en el criterio de unión del tipo = ⋃ , donde p depende del conjunto de distancias por pares entre miembros del cluster
⋃ . En esta dirección, Batagelj (116) demostró que para AA tipo “de Ward”, esto es, para los cuales el criterio de unión depende de la disimilitud Gower-Bock:
= , = ̅ , ̅ (1.15)
donde, , = ̅ , ̅ es la disimilitud Gower-Bock o distancia euclídea d entre los
centroides ̅ y ̅, el alcance de este grupo de técnicas podía ser extendida, considerando en (1.15) que d puede ser cualquier medida de disimilitud en vez de solo la distancia euclídea cuadrática.
Con la introducción de la noción de centros de clústeres generalizados y pesos generalizados,
Batagelj (116) formalizó esta práctica mientras que mantuvo la noción de centro del clúster el cual
está basado en la intuición que descansa en la distancia euclídea, por tanto (1.15) puede ser
reescrita como:
= , = , (1.16)
donde, , = , es la disimilitud Gower-Bock o disimilitud d entre los centroides
de clústeres generalizados y . Esto significa que, por ejemplo, en el caso del método de Ward
generalizado:
= , = ( )∗
⋃ ∗ , (1.17) el factor , -donde ( ) es el peso generalizado del cluster y así sucesivamente- no necesariamente tiene que ser la distancia euclídea cuadrática (o distancia de Hamming para
vectores binarios como se emplea tradicionalmente en Quimioinformática), sino que también
puede ser otra medida de disimilitud como la distancia de Soergel (complemento del coeficiente de
Tanimoto para el caso binario) (117).
Con el objetivo de sistematizar la experiencia acumulada en esta rama del saber, Podani (115)
_______________________________________________________________________________ de Lance y Williams, dependiendo de la naturaleza de la medida de disimilitud que cada método
usa como criterio de fusión:
1. d-CSAHN: el criterio de fusión está dado por una medida de disimilitud interclúster, esto es,
la entrada de P está dada por = ( , ) o = ( , ).
2. nh-CSAHN: el criterio de fusión está dado por una medida de homogeneidad intraclúster,
esto es, las entradas de P están dadas por = ℎ , .
3. ch-CSAHN: El criterio de fusión está dado por una variación en la medida de
homogeneidad, esto es, las entradas de P están dadas por = ℎ , − ℎ( ) − ℎ .
A medida que el agrupamiento avanza, los criterios del tipo 1 y 3 son minimizados mientras que el
criterio tipo 2 es maximizado.
1.2.3.1.1. Eficiencia de los algoritmos de agrupamiento.
Existen dos técnicas algorítmicas básicas para actualizar la matriz P, el par más cercano y los
vecinos más cercanos recíprocos (118). A pesar de que la segunda técnica mejora la primera en
cuanto a los recursos requeridos [O(N3) y O(N2) vs. O(N2) y O(N) para el tiempo y espacio
esperados, respectivamente], también afecta las propiedades ultramétricas de algunos métodos, lo
cual ha sido notado como reversos no deseados en los dendrogramas respectivos (115)
1.2.3.2. Tendencia al agrupamiento.
El problema de detectar si hay clústeres presentes como una etapa en la antesala de la misma
técnica de agrupamiento se denomina evaluación de la tendencia al agrupamiento (107). Para este
propósito, las técnicas de tendencia (o clusterabilidad) brindan una medida cuantitativa a priori
para comprobar la presencia de agrupaciones no aleatorias de moléculas (119). Esta tendencia de
las moléculas-punto de agruparse sobre la base de propiedades químicas puede brindar nuevas
estructura alguna a organizarse en clústeres no solo malgastaría recursos de tiempo y esfuerzo,
sino que pudiera conllevar a conclusiones erróneas acerca de la organización de los datos (120).
En la literatura se han propuesto varias técnicas formales, la mayoría estadísticas, así como otras
más empíricas (107,120-124). Sin embargo, estudios subsecuentes han mostrado que estas tienen
limitaciones (125-127). Alternativamente, en los últimos 25 años se han estudiado técnicas
visuales para varios problemas de análisis de datos (128-129). En esta dirección, en la literatura ha
emergido un grupo de técnicas prometedoras denominadas VAT (del inglés, Visual Assessment of
Tendency), debido a su efectividad y fácil interpretabilidad.
Básicamente, el enfoque VAT está basado en relaciones de disimilitud por pares entre k objetos o
k(k-1)/2 datos relacionales. VAT presenta la información de disimilitud por pares como una
imagen digital cuadrada con k2 pixeles de tonalidades grises, denominada la imagen de intensidad,
de modo que el color negro le corresponde la disimilitud mínima y el color blanco la disimilitud
máxima. Luego los objetos son debidamente ordenados de modo que la imagen es capaz de
resaltar claramente la estructura de clústeres a través de la observación directa de una estructura
bien definida de bloques negros a lo largo de la diagonal principal (ver Fig. 1.2 y 1.3) (130).
Figura 1.2. Imagen de disimilitud para un conjunto de datos relacionales hipotéticos donde la estructura de clústeres está latente. A) conjunto de datos presentados con el ordenamiento aleatorio original y B) conjunto de datos presentados luego de aplicar la técnica de reordenamiento VAT, indicando la presencia de cuatro clústeres bien definidos.
_______________________________________________________________________________ Figura 1.3. Imagen de disimilitud para un conjunto de datos relacionales hipotéticos donde la estructura de clústeres está ausente. A) conjunto de datos presentados con el ordenamiento aleatorio original y B) conjunto de datos presentados luego de aplicar la técnica de reordenamiento VAT, indicando el caso típico donde los datos no tienen clústeres bien definidos.
1.2.3.3. Búsqueda de similitud.
La búsqueda de similitud es una de las técnicas de VS más simples, en la cual una estructura
bioactiva conocida se usa como consulta frente a una base de datos para identificar las moléculas
vecinas más cercanas, que al mismo tiempo son las más probables que exhiban la bioactividad de
interés (131).
1.2.3.3.1. Algoritmos de emparejamiento o “matching”.
El concepto de emparejamiento “matching” exacto o parcial, y los algoritmos de búsqueda de
emparejamiento, son ampliamente utilizados en sistemas de información química asistidos por
ordenadores con el propósito de buscar una subestructura idéntica. Una facilidad menos común es
la provisión para la búsqueda del mejor par, o vecino más cercano, en la cual se recuperan las
estructuras más similares a una estructura de consulta, donde la similitud se define sobre la base de
algún coeficiente de similitud o de distancia, que refleja el número de fragmentos comunes de la
consulta y de una molécula de la base de datos (132). El problema general de encontrar los
mejores pares se define por Friedman y coautores (133) como: “... dado un conjunto de m
instancias (cada uno de los cuales es descrito por n atributos con valores reales) y una medida de
(di)similitud, encontrar las k instancias más cercanas a la instancia de consulta con los atributos
Un algoritmo eficiente del vecino más cercano será uno que evite el cálculo de la mayoría de las
distancias, calculando solamente aquellas que rodean la instancia o estructura de consulta (134-
138). Para problemas quimioinformáticos, Baldi y coautores (139) plantean un algoritmo diferente
a los tradicionales, que consiste en almacenar para cada molécula A de la base de datos no
solamente su vector correspondiente ⃗, sino también almacenar información adicional contenida en un pequeño vector ⃗, de tamaño n (esto es, si ⃗ tiene tamaño = 2 entonces el tamaño de
⃗ = ). El vector ⃗ se obtiene aplicando el operador lógico de disyunción exclusiva XOR al vector ⃗. Esta información adicional permite explorar menos del 50% de la base de datos y acelera la búsqueda significativamente. Más recientemente, Cao y coautores (140) han reportado un
algoritmo de búsqueda y agrupamiento acelerado basado en técnicas de imbibición e indexado
multidimensional que mejora en 20-400 veces a los métodos secuenciales en cuanto al tiempo de
búsqueda de los 100 primeros vecinos más cercanos (el algoritmo de Baldi y coautores (139) los
mejora en 5.5 veces) en conjuntos de datos de 260 000-19 millones de compuestos, mientras que
mantiene exactitudes comparables. Además, este algoritmo es aplicable a un amplio espectro de
medidas de similitud y puede ser escalable a conjuntos de datos de hasta cientos de millones de
objetos químicos.
1.2.3.3.2. Fusión de datos
Como Sheridan y Kearsley (90) han señalado, es muy poco probable que un solo mecanismo de
búsqueda pueda comportarse consistentemente superior a los demás en todos los problemas
(nuevamente se “recuerda” el teorema “No free lunch”). Por esta razón, tiene sentido aplicar
técnicas de búsqueda complementarias y combinar los resultados individuales en un resultado
consenso para extender el dominio de problemas con resultados satisfactorios, este enfoque se ha
dado a conocer en los últimos años como fusión de datos (141).
Básicamente, existen tres técnicas de fusión de datos y una de estas es la fusión de similitud, que
_______________________________________________________________________________ es la fusión de grupo, que consiste en buscar múltiples estructuras de referencia con una sola
medida de similitud y se ha mostrado que es más eficaz que la fusión de similitud. El tercer
enfoque es la turbo similitud, en analogía a los motores turbos que reutilizan los gases de escape y
le imprimen una potencia mayor al vehículo. Esta técnica utiliza una estructura de referencia y una
medida de similitud, sin embargo, es más efectiva que la búsqueda simple porque utiliza los
primeros vecinos más cercanos recuperados como estructuras de referencias, ya que estos es
probable que también sean bioactivos y al mismo tiempo introducen otros rasgos estructurales que
aumentan el éxito de la búsqueda al encontrar otros quimiotipos en el espacio químico (141).
Adicionalmente a las técnicas de fusión de datos anteriores, algunos investigadores han trabajado
la ponderación de rasgos binarios orientados por clases de actividad sobre la base de compuestos
de referencia múltiples y aplicados para enfatizar algunas posiciones de bits específicas durante la
búsqueda de similitud. En esencia, estas técnicas también pudieran considerarse como una cuarta
estrategia de fusión de datos, más específicamente fusión de representación, y, actualmente
constituyen un área de investigación activa en Quimioinformática (28).