4. SOLUCIÓN PROPUESTA
4.2. Espectros de evidencia taxonomica
4.2.5. Espectros de similitud
Cada fila j de la matriz de similitud contiene las distancias entre el OTUj y todos
los t-1 OTU´s restantes [Perichinsky, Partenkirchen.Germany, 1998 a y b] [Perichinsky, Innsbruck. Austria, 1999, 2000] [Perichinsky, Central Michigan University at Foz do Iguazú. Brazil., 2002] [Perichinsky, Central Michigan University at Río de Janeiro. Brazil., 2003].
Estas similitudes dependen de los valores o estados de los caracteres por el aporte que hacen a la distancia entre las OTU´s.
La distribución de los OTU´s en el hiperespacio taxonómico nos permite visualizar la acumulación de los mismos, por vecindad es decir, vecinos próximos o cercanos (nearest neighbor) por el método de relaciones de similitud entre pares (pair group method) de OTU´s.
En el análisis de estructuración, clustering, las familias por aglomeración o reunión de los OTU´s, se van produciendo mediante la agregación, hasta cubrirlos integralmente, de una cantidad de subconjuntos menor que t. Este método es más congruente que el análisis por asociación o método por
división, en una cantidad de conjuntos parte, menor que t, sobre todo por la ubicación de objetos, por identificación, en una familia.
El método debe ser jerárquico, en secuencias de agrupamientos, clustering, C0,
C1, C2,...,Cw donde C0 es un conjunto de particiones disjuntas y en cada
secuencia Cj se forma un conjunto kj de particiones asociadas que en todos los
casos son no solapadas, es decir que si un OTU pertenece a una partición disjunta o asociada no puede pertenecer a otra; la secuencia de los agrupamientos debe ser recursiva es decir operaciones secuenciales, con criterio global, es decir que se considera que todos los caracteres aportan a la similitud y no locales, donde existen caracteres predominantes, aunque la solución es directa, que significa que el clustering en cualquier nivel se obtiene por soluciones óptimas, sin embargo, una vez que la estructura está establecida en un nivel de clasificación, esta no cambia en etapas posteriores, hay que hacer mención que los procedimientos para alcanzar soluciones óptimas, es difícil que permitan alcanzar una clasificación completa, exigiendo un proceso de
estabilización global, local o ambos, en los cuales se pueden modificar la cantidad de caracteres, y los OTU´s pueden cambiar de un grupo, o partición o cluster o familia, a otro. Esto implica que el clustering es no adaptativo, pues el método es fijo y los grupos se forman interactuando con todos los puntos del
espacio A; y es pesado, pues está basado en la cantidad de OTU´s y por lo tanto en la densidad de los clusters, que pueden ser visualizados como densas nubes elipsoidales, cuyos ejes mayores son las distancias, en el hiperespacio taxonómico.
El método de clustering cuyo acrónimo es SAHN resume lo expresado anteriormente: Sequential, Agglomerative, Hierarchic and Nonoverlapping.
Establezcamos a Cjk, como un coeficiente general de similitud y como un ejemplo especial a la distancia taxonómica djk. Las distancias Euclideas se usarán en la explicación de técnicas de agrupamiento, porque ellas son fáciles de visualizar geométricamente, aunque no todos los coeficientes de similitud sean necesariamente métricos.
Para discutir procedimientos de agrupamientos aglomerativos nosotros hacemos una distinción útil, entre los siguientes tres tipos de medida: las medidas-(J) son aquellas que definen una propiedad de un grupo único o cluster, tal como su centroide, su dispersión, su forma, etc.; las medidas-(J,K) son las que estiman la similitud o disimilitud entre dos grupos o entre un OTU y un grupo y; finalmente, las medidas-(JK,L) que describen los cambios en algunas medidas cuando dos grupos se fusionan. Un ejemplo sería el aumento en la información que resulta de la fusión de dos clusters separados.
En todo método de agrupamiento SAHN dos consideraciones gobiernan cada paso. Una es el nuevo cómputo del coeficiente de similitud entre clusters nuevos establecidos y candidatos potenciales para ingresos futuros y el otro es el criterio de ingreso para miembros nuevos al cluster establecido. Para todos los métodos
pair-group el criterio es el mismo y es en base a una medida-(J,K).
Para evaluar el primer criterio nosotros adoptaremos el simbolismo uniforme siguiente. Tendremos en cuenta los clusters J, K y L que contienen tj, tk y tl
OTU´s, respectivamente, donde tj, tk y tl son todos ≥≥≥≥ 1. Los OTU´s j y k
pertenecen a los clusters J y K, respectivamente, y l∈∈∈∈L. Dados estos clusters J y
K unidos, el problema está en evaluar la disimilitud entre el cluster fusionado y los candidatos adicionales L, para la fusión. El cluster fusionado se denomina (J, K), con t(j,k)=tj+tk OTU´s. Los distintos métodos de clustering difieren en el cómputo propio del coeficiente C(J, K),L de similitud. Nosotros consideramos dentro del SAHN el procedimiento combinatorio de clustering, donde el coeficiente C(J, K),L
de similitud puede computarse de las similitudes previamente evaluadas CJ,L, CK,L, CJ,K y el tamaño de la muestra tj y tk. Con las técnicas combinatorias los clusters más burdos pueden siempre computarse de los clusters más finos previos.
Otro criterio que nosotros tomamos en cuenta es la estrategia de compatibilidad
de clustering donde la métrica entre clusters más burdos es igual que entre clusters más finos o aún entre OTU´s originales. Así la dimensión del espacio original se mantiene y es simple, para representar clusters en el espacio-A
original. Denominamos a esta estrategia de clustering de conservación del espacio. En las técnicas en las cuales la estrategia es la distorsión del espacio
parece como si el espacio, en la inmediata vecindad de un cluster se ha contraído o dilatado. Si volvemos al criterio de admisión para un candidato que se une a un cluster existente, este espacio vecino es constante sobre todo en el método pair-group. Todo OTU o cluster J se unirá a todo OTU o cluster K si y sólo si
CJK<CJL y CJK<CKL, donde L es cualquier OTU o cluster en estudio (en el nivel actual de clustering) a excepción de J o K. Esto significa que J y K son el par mutuamente más cercano de OTU´s o clusters. Los enlaces (links) con clusters contenidos en otros, se hacen con el primer enlace, por convención, para procedimientos computarizados.
Las técnicas de enlaces (links) para formar clusters pueden ser simples, con el vecino más próximo (nearest neighbor), completo, con el vecino más lejano o máximo (farthest neighbor), con variantes de encadenamiento y; enlaces entre promedios pudiéndose tomar los centroides como par virtual.