Agrupamientooclusteringengenómicafuncional

(1)

Agrupamiento o clustering en genómica funcional

Introducción

En los últimos años la tecnología ha revolucionado la investigación en biología molecular, permitiendo obtener grandes volúmenes de datos en cada experimento. La posibilidad de disponer de todo un genoma en un vidrio (microarreglo de ADN) ha representado un gran impacto en el entendimiento de fenómenos biológicos a diferentes niveles tales como a nivel de líneas celulares, tejidos y/o organismos. Los microarreglos de ADN permiten monitorear la expresión de miles de genes en forma simultánea [Leung2003] por lo que en un experimento es posible evaluar varias condiciones experimentales distintas obteniendo en cada una de ellas la expresión de los genes presentes en el microarreglo.

Unos de los objetivos comunes en el análisis de datos de expresión génica es analizar o visualizar comportamientos similares entre las condiciones expuestas en el experimento o bien entre los genes presentes. Una de las premisas o hipótesis de esto radica en que genes que se comportan de manera similar suelen compartir funciones o vías metabólicas particulares [Lukashin2001] y una manera de ver este tipo de comportamientos es a través de los métodos de agrupamiento o clustering.

Agrupamiento o Clustering

En primer lugar vamos a definir el tipo de datos con el cual vamos a trabajar en este tipo

de aplicaciones. En un experimento habitual de genómica funcional y luego de haber

pasado por las distintas etapas de normalización, selección de genes diferenciales, etc,

llegamos a esta etapa del análisis con una matriz MGxP_{donde G es el número de genes}

disponibles y P la cantidad de microarreglos utilizados en el experimento. En cada celda

(2)

En la mayoría de las aplicaciones de análisis de datos interpretan a cada fila de la matriz

de datos (M en este caso) como el “Dato” u “Objeto”, los cuales se comportan como un

arreglo ordenado de P valores o atributos. En este contexto si lo que deseamos analizar es

el comportamiento de genes entonces definimos el dato de la siguiente manera:

{

}

M.

Dato_i =Gen_i = M_i₁,M_i₂,...,M_iP = _i

Si en cambio lo que se desea analizar son condiciones experimentales entre sí,

utilizaremos la matriz transpuesta de M o M’ donde Mis=M’si y de esta manera el dato queda definido según:

{

}

M .

Microarray

Dato_s = _s = M_s₁,M_s₂,...,M_sG = _s

En ambos casos podemos entonces definir a nuestra base de datos como el conjunto de

los {Mi.} o {Mj.}

El concepto fundamental del análisis de agrupamientos o clusters Se basa en intentar

responder como es que ciertos Objetos (casos/datos) pertenecen o “caen” naturalmente en

cierto número de clases o grupos, de tal manera que estos objetos comparten ciertas

características. Este concepto asume que los objetos pueden dividirse, razonablemente, en

grupos que contienen objetos similares. Si tal división existe, ésta puede estar oculta y

debe ser descubierta donde cada una de estas divisiones será interpretada como un grupo

(cluster) o clase.

Existen básicamente dos metodologías de agrupamiento, una conocida como

agrupamiento jerárquico y la otra de partición. En el agrupamiento jerárquico los

objetos/grupos se van juntando de a pares en función de una medida de similitud, el

(3)

número específico de grupos, digamos k, y luego se trata de optimizar algún criterio

matemático a través de reasignaciones sucesivas de los datos que caen en cada una de las

k particiones.

Como mencionáramos anteriormente, en los grupos encontrados utilizando cualquiera de

los algoritmos de agrupamiento, se espera que los datos pertenecientes a cada grupo

compartan características similares, es por ello que es necesario para cualquier algoritmo

definir una medida de similaridad. Existen, en general, distintas formas de definir esta

medida e incluso es posible definir medidas específicas en función del problema que

estemos abordando, son embargo para que una medida puede definirse como de

similaridad debe satisfacer las siguientes propiedades:

Definición de (dis)similaridad

Sea los datos “i”, “j” y “z” datos de la base de datos M y sea dij un valor asociado al par

de datos “i” y “j”. Entonces se dice que dij mide la (di)similaridad entre los datos “i” y

“j” si:

1. dij ≥ 0 para todo Mi. y Mj.∈ M

2. dij = 0 para todo Mi. y Mj.∈ M y Mi = Mj 3. dij = dji para todo Mi. y Mj.∈ M

4. dij≤ diz + dzj para todo Mi., Mj. y Mz. ∈ M

Entre las distancias más conocidas tenemos:

• La distancia Euclídea

∑

(

)

= − = P s js is

ij M M

d

1

2

Ec. 1

• La distancia de Manhattan

∑

=

− = P

s is js

ij M M

d

1

Ec. 2

• La distancia de Minkowsky λ

∑

λ

= − = P s js is

ij M M

d

1

(4)

La distancia de Minkowsky es una expresión generalizada de distancia que incluye a las otras dos.

Existen también formas de comparar datos que son muy útiles y si bien no satisfacen estrictamente las propiedades de las medidas de similitud pueden convertirse en tales a través de simples transformaciones, entre ellas tenemos a la correlación cuya ecuación es la siguiente: • Correlación

∑

= = = ⋅ ⋅ = P s js P s is P s js is ij M M M M corr 1 2 1 2 1 Ec. 4

En la siguiente figura puede observarse la interpretación geométrica de la distancia euclídea (dij) y de la correlación entre dos genes y sus valores M sobre dos microarreglos. En la figura el valor de corrijes igual al valor de la función coseno entre el ángulo (a) que forman ambos genes con respecto al origen del plano.

Figura 1Ejemplo de interpretación de la distancia Euclídea y de la correlación en un plano.

Como mencionáramos el valor de correlación no es una medida de distancia porque viola la propiedad 1, sin embargo es posible transformarlo en un valor de distancia a través de la siguiente transformación

• Distancia de correlación

∑

= ⋅ ⋅ − = − = P js P is P s js is ij ij M M M M corr d 2 2 1 1

(5)

En la tabla 2 se puede observar como difieren los valores de distancia entre los datos simulados de la tabla 1, según la medida de similaridad utilizada.

Matriz M Microarreglo 1 Microarreglo 2

Gen 1 0.8 1.8

Gen 2 1.1 1.6

Gen 3 0.8 1.3

Gen 4 1.0 0.9

Gen 5 1.4 0.6

Gen 6 1.5 0.1

Gen 7 1.1 0.1

Tabla 1: Matriz M7x2 con sus respectivos valores. Esta matriz simula los valores de expresión de un experimento con 7 genes y 2 microarreglos.

Código R

dist(M,method="euclidean")

Código R

dist(M,method="manhattan")

1 2 3 4 5 6 7

1 2 0.36

3 0.5 0.42

4 0.92 0.71 0.45 5 1.34 1.04 0.92 0.5

6 1.84 1.55 1.39 0.94 0.51

7 1.73 1.5 1.24 0.81 0.58 0.4

De: Matriz de distancias Euclídeas

1 2 3 4 5 6 7

1

2 0.5

3 0.5 0.6

4 1.1 0.8 0.6

5 1.8 1.3 1.3 0.7

6 2.4 1.9 1.9 1.3 0.6

7 2 1.5 1.5 0.9 0.8 0.4

Dm: Matriz de Distancias de Manhattan Código R

as.dist(1-cor(t(M)))

1 2 3 4 5 6 7

1

2 0.00

3 0.00 0.00

4 2.00 2.00 2.00

5 2.00 2.00 2.00 0.00 6 2.00 2.00 2.00 0.00 0.00 7 2.00 2.00 2.00 0.00 0.00 0.00 Dc: Matriz de distancias de correlación

Tabla 2: Aquí se muestran las distancias de a pares con tres métodos de medición de similitudes y los comandos del lenguaje “R” respectivos. Panel superior izquierdo: Euclídea, Panel superior derecho: Maniatan y Panel inferior: Distancia de correlación.

Agrupamiento jerárquico

(6)

genes/muestras pertenecen a cada uno de ellos. Uno de lo algoritmos más utilizados en el ámbito de la genómica funcional es el algoritmo de agrupamiento jerárquico [Eisen et al, 1998]. Este algoritmo calcula la distancia dij entre todos los pares de genes, i y j, u/o muestras/microarrays. De esta manera constituimos la matriz de distancia D (como en tabla 2).

En primera instancia este algoritmo asume que cada dato (gen en este caso) es en sí mismo un grupo y debe ahora decidir a cuales de ellos va a fusionar. La fusión entre dos grupos se basa en buscar la mínima distancia en la matriz D. Asumamos que la matriz D

ha sido calculada utilizando la distancia Euclídea, por lo tanto para los datos de la Tabla 1 utilizaremos la matriz De. De dicha matriz podemos observar que la menor dij es la d12

que compara los datos/genes 1 y 2. Estos dos datos formarán parte de un nuevo grupo que llamaremos G8. Ahora tenemos que calcular la distancia de este nuevo grupo G8 al resto de los grupos remanentes (en este punto son los Genes 3 al 7). Para hacer este cálculo existen varias alternativas siendo las más conocidas las siguientes:

1. Enlace simple: La distancia de los nuevos grupos es igual a la mínima distancia

existente entre los integrantes de dicho grupo y el resto. Por ejemplo en el caso del G8 formado por el Gen 1 y 2 vemos la distancia del Gen 1 al resto es d13=0.5, d14=0.92, d15=1.34, d16=1.84, d17=1.72 y para el gen 2 tenemos d23=0.42, d24=0.71, d25=1.04, d26=1.55, d27=1.5. Por lo tanto la distancia de G8 al resto será d83=min(d13,d23)=0.42, d84=min(d14,d24)=0.71, d85=min(d15,d25)=1.04, d86=min(d16,d26)=1.55, d87=min(d17,d27==1.5.

2. Enlace completo: Es similar al anterior pero en vez de tomar la distancia mínima toma la máxima. d83=max(d13,d23)=0.5, d84=max(d14,d24)=0.92,

d85=max(d15,d25)=1.34, d86=max(d16,d26)=1.84, d87=max(d17,d27==1.73.

3. Enlace promediado: En este caso se calcula la distancia promedio entre todos los

datos que pertenecen a un determinado grupo, por lo que en este caso tendríamos d83=promedio(d13,d23)=0.46, d84=promedio(d14,d24)=0.815,

(7)

Por lo tanto hay que elegir una forma de enlazar o fusionar sucesivamente a los grupos. En el caso de elegir el enlace simple la matriz De[1] (en la iteración 1) quedará como en la Tabla 3

1 2 3 4 5 6 7

1 G8 2

3 0.42

4 0.71 0.45

5 1.04 0.92 0.5

6 1.55 1.39 0.94 0.51

7 1.5 1.24 0.81 0.58 0.4

Tabla 3: Matriz de distancias en la iteración 1 (De[1]) luego de formar el grupo 8 fusionando el 1 y el 2 a través de enlace simple.

Luego, en esta nueva matriz De[1] los que presentan la mínima distancia es d67=0.4, por lo que formaremos con ellos el grupo G9, quedando la matriz De[2] como en la Tabla 4.

1 2 3 4 5 6 7

1 G8 2

3 0.42

4 0.71 0.45

5 1.04 0.92 0.5

6 _1.5 _1.24 _{0.81 0.51 G9}

7

Tabla 4: De[2].

En la siguiente iteración tenemos que la mínima distancia será d38=0.42 lo cual implica un nuevo grupo G10 formado por G8 y Gen 3, por lo que De[3] será

1 2 3 4 5 6 7

1 G8 2 3 G10 4 0.45

5 0.92 0.5

6

1.24 0.81 0.51 G9

7

Tabla 5. De[3]

Entonces según De[3] d4_10=0.45 es la mínima formando el grupo G11:

1 2 3 4 5 6 7

(8)

3 G10 4 G11 5 0.5

6 _0.81 _{0.51 G9}

7

Tabla 6. De[4]

De la De[4] tenemos que d5_11=0.5 es la mínima permitiendo fusionar en G12 a G11 y Gen 5 obteniendo

1 2 3 4 5 6 7

1 G8 (0.36) 2

3 G10 (0.42) 4 G11 (0.45) 5 G12 (0.5)

6 _0.51 G9

(0.4) 7

Tabla 7. De[5]. Los números entre paréntesis son las distancias previas a la fusión del grupo correspondiente.

Finalmente de la De[5] se observa que se fusionan G9 y G12 con una distancia d9_12=0.51. y el proceso se repite hasta que no tengamos mas grupos por fusionar.

(9)

Figura 2: Dendrogramas para distintos tipos de enlaces para los datos de la Tabla 1. El método Ward (no descripto) es similar al promediado. En el eje vertical se indican las distancias que distan entre los grupos unidos entre sí.

Como hemos visto, los grupos se van formando secuencialmente hasta que todos los genes forman un solo grupo. De la misma manera se procede para agrupar muestras/microarreglos. Si se hacen ambos agrupamiento (por fila y columnas de la matriz M) es posible graficar ambos dendrogramas en forma simultánea. Este tipo de gráfico ha sido muy útil en el análisis de datos de genómica funcional y fue principalmente introducido por Eisen y cols [Eisen1998]. por lo que se lo conoce como “Eisen plot”. Para observar el efecto del Eisen plot, también conocido como heat map, utilizaremos una base de datos de expresión génica de libre disposición desarrollada por Golub y cols. [Golub1999]. Dicha base de datos proviene de un experimento para el análisis de expresión génica entre casos de leucemia linfoblástica y mielítica agudas. De un análisis previo de las mismas se seleccionaron los 29 genes más diferenciales entre ambos tipos de cáncer de médula ósea. De esta manera tenemos la matriz de expresión

M29x23_{. Se realizó un agrupamiento jerárquico por filas (genes) y por columnas}

(10)

exactamente con las posiciones originales dentro de la matriz M, ya que están reordenadas según la similitud obtenido en la matriz de distancias D.

Figura 3: Heatmap y dendrograma de un agrupamiento jerárquico. Las columnas son diferentes

(11)

Agrupamiento de partición

Otra alternativa en el uso de algoritmos de agrupamiento es la utilización de algoritmos divisivos o de partición en vez de aglomerativos. A diferencia de los algoritmos aglomerativos, que agrupan datos comenzando con conjuntos con menos genes (o muestras) a grupos con mas genes (o muestras), los algoritmos divisivos van en la dirección inversa, partiendo al conjunto total de datos en una número determinado de grupos y tratando de buscar qué datos pertenecen a uno u otro grupo en función de alguna métrica o medida de similaridad [Hartigan 1975]. Uno de los algoritmos divisivos más simples es el algoritmo de las K-medias. Dicho algoritmo divide el conjunto de datos, ya sea genes o muestras (filas o columnas de la matriz de valores de expresión MNxP respectivamente), en K grupos. Para explicar su funcionamiento supongamos el siguiente ejemplo: imaginemos que se ha realizado un experimento que involucra 25 microarreglos y que luego de realizar todos los pasos de normalización, eliminación de ruido y selección de genes diferenciales obtenemos que solo dos genes son relevantes o diferencialmente expresados en dicho experimento. Entonces ahora se desea ver si es posible agrupar estos microarreglos (o situaciones experimentales) en función de los valores de expresión de estos dos genes utilizando el algoritmo de las K-medias. Inicialmente este algoritmo selecciona aleatoreamente K datos (por ejemplo K microarreglos - círculos en Figura 4) que denomina centroides de cada grupo (C1 y C2 en

Figura 4a con K=2). Luego calcula la distancia de todos los otros microarreglos a dichos K centroides asignando luego a cada grupo (representado por cada centroide) aquellos cuya distancia es menor con respecto a dichos centroides (microarreglos encerrados por líneas de puntos en la Figura 4b). De esta manera cada grupo asociado a cada centroide

estará formado por nj datos, tal que

∑

= = K i j N n 1

. Luego estos centroides son actualizados,

de manera que cada nuevo centroide (puntos C1’ y C2’ en la Figura 8b) del grupo “J” será

el valor medio de los nJ datos (microarreglos) de dicho grupo _

      =

∑

∈J i i J J n

(12)

donde g es (en este caso) un vector columna de la matriz M2x25_{. El proceso se repite} (Figura 4c) hasta que no hay más cambios en la asignación de datos (g) a cada grupo (Figura 4d). De esta manera, los centroides de cada grupo representan el valor medio de todos los datos en dicho grupo (puntos C1f y C2f en la Figura 4d). Como en el caso

anterior, del algoritmo jerárquico, la graficación de los centroides y/o de los datos que pertenecen a cada grupo es valiosa al momento de analizar los resultados. Si bien en la Figura 4 representamos esquemáticamente a las muestras con solo dos genes, el algoritmo de K-medias puede ser usado con tantos genes como se quiera. En este caso en particular podemos ver que la expresión de éstos dos genes permiten agrupar en dos grupos a los microarreglos, dicho agrupamiento podría estar referido, por ejemplo, a microarreglos de los pacientes control (supongamos el grupo C1) y el otro a los pacientes

con cáncer (grupo C2).

Figura 4 Ejemplo de aplicación del método de K-medias con K=2. (a) Se eligen al azar K datos para ser los centroides C1 y C2 iniciales. (b) Se le asignan a cada centroide el grupo de datos que está mas cercano a C1 y C2 (óvalos punteados), y dentro de cada uno de estos grupos se re-computan los centroides C1’ y C2’ representados por las X. (c) Se repiten los pasos asignación de datos a los centroides y computo de nuevos centroides C1” y C2”. (d) Cuando los centroides ya no cambien, los datos estarán divididos en K grupos cuya distancia a sus respectivos centroides es mínima

(13)

filas=c(“Gen1”,”Gen2”,”Gen3”,”Gen4”,”Gen5”,”Gen6“,“Gen7“) plot(M[,1],M[,2])

text(M[km$cluster==1,1],M[km$cluster==1,2],filas[km$cluster==1],col=”re d”)

text(g[km$cluster==2,1],g[km$cluster==2,2],filas[km$cluster==2],col="bl ue")

points(km$centers[1,1],km$centers[1,2],pch="*",cex=2,col="red") points(km$centers[2,1],km$centers[2,2],pch="*",cex=2,col="blue")

Figura 5: En esta figura se observa el resultado de aplicar el algoritmo de K-medias al ejemplo de la Tabla 1. En este caso k=2. Con color azul se representan los genes asociados al grupo 2 y con rojo los asociados al grupo 1. Los centroides está marcados con “*”.

(14)

En la Figura 6 se presenta un agrupamiento de K-medias (K=2) para el ejemplo de la Figura 4Figura 3. En ella se puede observar que los dos grupos encontrados se corresponden con el patrón observado en el “heat map” a través de la aplicación del algoritmo jerárquico.

Redes Neuronales Artificiales Organizables (Mapas

Auto-Organizativos- MAO).

Otra alternativa para agrupar genes, datos u objetos es la utilización de un algoritmo conocido como Mapas de Kohonen, Mapas Auto-organizativos. Estos algoritmos provienen de la teoría de inteligencia artificial donde es conocido como Redes Neuronales Artificiales (RNA).

Aquí describiremos unos de los modelos neuronales de aprendizaje no supervisado más difundidos y que desarrollaremos y utilizaremos en lo que sigue en este capítulo. El modelo de RNA que utilizaremos se denominada “Self Organizing Map” [SOM] o Mapas Auto-Organizativos (MAO), desarrollada por Teuvo Kohonen en los 80 en la Universidad Tecnológica de Helsinsky, Finlandia. Es un modelo de Red Neuronal que (usualmente) implementa una proyección no lineal, desde un espacio de entradas de gran dimensión, sobre un arreglo de una o dos dimensiones. Este mapeo suele encontrar y mostrar de manera automática, características principales u otro tipo de abstracción de los datos (Kohonen 1995, Oja 1999).

(15)

En este modelo los nodos se acomodan en arreglos uni o bidimensionales y reciben la misma información de entradas en términos de un patrón de actividad o señal sensorial externa MG_{(que en el área de la expresión génica pueden asociarse a los valores de}

expresión). Cada nodo funciona como un decodificador selectivo de diferentes patrones (patrones de expresión), mediante la comparación de un vector de pesos W (coeficientes asociados a cada nodo) con el vector de patrones de entrada MG_{. Estos pesos son}

corregidos adaptativamente y ubicados dentro del espacio de entrada como un número finito de “vectores referencia”, de manera de aproximar la distribución de probabilidad de las muestras. En particular genera un mapa topológicamente ordenado de la distribución de probabilidades de la señal de entrada en su espacio, donde a cada punto del espacio de entrada le corresponde un punto imagen en el plano de salida (Fernandez 1997).

Arquitectura o Topología del modelo MAO

La topología de la red tiene una configuración geométrica muy particular, la cual es muy apropiada para la visualización de su funcionamiento. Los nodos se colocan en un arreglo plano (como un panel) y cada nodo tiene una única salida que manifiesta el estado del mismo. La entrada esta conectada en paralelo a todos los nodos del arreglo (Figura 7).

Figura 7: Disposición de los nodos e interconexión con la entrada

(16)

Figura 8: Nodo Ganador

Figura 9: Mapa de activación. El círculo encierra la zona de activación en una red de 20x20 nodos

Dimensiones, Tamaño de la Red

Entendamos por dimensiones de la Red a la disposición espacial de sus nodos, los mismos pueden estar (típicamente) dispuestos en forma unidimensional (una cadena de nodos), en forma bidimensional (nodos expandidos sobre un plano) y en forma tridimensional (en un cubo), siendo la última la menos utilizada.

(17)

problema, la cantidad de nodos estará supeditada a esta información, otras veces se tiene intención de producir una determinada cantidad de grupos en el espacio de salida, por lo que la cantidad de nodos tendrá relación con la intención de diseño. En algunos casos se deben realizar distintas pruebas con distintos tamaños para encontrar aquel que mejor rendimiento proporcione para el problema a resolver (Fernández 1998, Fernández 1999).

Cuando se posee escasa información sobre el espacio de entrada, es aconsejable empezar con un número de nodos grande, de manera de sobredimensionar el problema, para luego ir ajustando los parámetros en función del conocimiento que se va adquiriendo sobre el problema a través del funcionamiento de la red.

Disposición de los nodos para arreglos bi y tridimensionales

En arreglos bi y tridimensionales los nodos pueden disponerse en forma rectangular (Figura 10) o hexagonal (Figura 11). Según Kohonen (Kohonen 1995) la disposición rectangular favorecería la organización en sentido horizontal y vertical en el arreglo, mientras que en la disposición hexagonal, no favorece ninguna dirección en particular.

Formación del Mapa Topológico en un Proceso Autoorganizativo: Considerando la Figura 7, la misma representa un arreglo bidimensional de nodos; sea

MG_{= {}_m

1 , m2 , . . . . , mp} ∈ Rp un vector de representación o patrón a ser procesado por el arreglo, entonces MG_{es un conjunto de señales de entrada que están conectadas en}

(18)

Figura 10: Arreglo rectangular de nodos

Figura 11: Arreglo hexagonal de nodos

Cada nodo tiene una función transferencia (activación) del tipo Sk =f(MG_,_W

k) donde Sk es la salida del nodo “k” , f(*) es alguna función de sus argumentos y Wk= {w1k ,

w2k ,. . . . , wpk } ∈ Rp el vector de pesos asociado al nodo “k”. Se asume que la función f(MG_,W

k) es proporcional al grado de semejanza entre MG y Wk , es decir una medida de

la similitud entre MG_{y W}

k.

Los nodos son adaptativos en el sentido de que su estado cambia por efecto de la entrada MG_{. Estos cambios en los pesos W}

k no ocurren sobre todos los nodos, si no que

(19)

Principio de Adaptación

Deberá haber un mecanismo mediante el cual se detecte el vector paramétrico Wk que

más se asemeje a M .Este nodo se llamará “nodo ganador” (Figura 12). También deberá haber un mecanismo que defina una vecindad topológica alrededor del “nodo ganador”.

Solo serán adaptados los pesos de aquellos nodos que pertenezcan a esa vecindad topológica. La dirección de cambio será tal que la semejanza entre MG_{y W}

k irá en

aumento y la magnitud del cambio debe seleccionarse de manera de lograr asintóticamente la estabilidad. (Kohonen 1995).

La medida de similitud usual entre MG_{y W}

k es la distancia Euclídea (Ec. 1). De esta

manera el nodo que satisface la siguiente ecuación:

{

k

}

c

ri M W

W

MG ₋ ₌_arg_min G ₋

Ec. 7

se lo considera nodo ganador, donde k=1.. número de nodos del arreglo y ri es la posición del nodo ganador dentro del arreglo

La actualización de los vectores de pesos W se realiza de la siguiente manera:

[

]

[ ] [ ]

[ ]

[

]

[ ]

si k V

[ ]

t t V k si t t t t t t k k k k k ∉ ∈ = + − ⋅ + = + W W W M W W G 1 1 α Ec. 8

α[n] es el coeficiente de aprendizaje que modula el cambio. (Fernandez 1997).

En la figura 2.4 se puede observar el nodo ganador, aquel que satisface la ecuación 2.1, y la vecindad topológica “V[t] “ alrededor del mismo (monótona decreciente).

(20)

Figura 2.4: Nodo ganador y vecindad (V)centrada en él

Función Vecindad

La vecindad topológica es una función V=V[t] (t= tiempo discreto) la cual se pueden definir de diferentes formas (cuadrada, circular, rombo, gaussiana o algún híbrido entre ellas). En realidad esta función no tiene como único argumento el tiempo discreto “t”, si no que también tiene como argumentos a la posición del nodo ganador y la posición del

nodo a actualizar, es decir V =V

[

t,k,ri

]

donde “ri” es la coordenada del nodo ganador dentro del arreglo y “k” la coordenada del nodo a adaptar. Esta función vecindad está centrada en el nodo ganador y su radio de influencia disminuye monótonamente a medida que avanza el entrenamiento (Figura 12). La forma en que disminuye es impuesta por el diseñador de la red, pudiendo ser del tipo exponencial o lineal. La forma en que disminuye no es crítica siempre y cuando no disminuya demasiado rápido de modo de que la red pierda la capacidad de ordenarse.

En general la práctica demuestra que la vecindad debe ser grande en un principio (digamos la mitad del arreglo), para luego ir disminuyendo con el tiempo “t” hasta reducirse generalmente a un solo nodo del arreglo (el nodo ganador), pero este tipo de decisión esta supeditada al problema particular que se quiera resolver

A continuación se proporcionan algunos tipos de funciones vecindad:

Existen pequeñas diferencias en el resultado final del entrenamiento dependiendo del tipo de vecindad que se utilice, ya que el comportamiento del coeficiente de aprendizaje [CA] dentro de la vecindad varía según el tipo de vecindad. Por ejemplo, si se utiliza una vecindad Gaussiana, el CA esta modulado por la exponencial dentro de la vecindad, a diferencia de otras (por ej. la circular) donde el CA se mantiene constante dentro de la misma.

(21)

1 ) Gaussiana

[

]

₂_* [ ]2

,

, Rt

ri k e ri k t V − −

= _{Ec. 9}

2 ) Circular

[

]

[ ]

   − ≤ = caso otro en t R ri k ri k t V 0 1 , , Ec. 10

dónde R[t] es el radio de la vecindad (para la Gaussiana cumple la función de modular el punto de inflexión de la curva) (Fernández 1997).

Coeficiente de Aprendizaje α[n] ( CA )

El Coeficiente de Aprendizaje (CA) es también una función monótona decreciente en función del tiempo discreto “t”. Esta función modula el grado de adaptación que sufrirá el vector de pesos durante el proceso de aprendizaje.

Como característica principal, se puede decir que es un valor comprendido en el intervalo [0,1]. La función que describe su comportamiento puede ser muy diversa, encontrándose con mayor frecuencia en la bibliografía consultada los siguientes tipos

Lineal

( )

    − ⋅ = max _ 1 0 t t n α α Ec. 11 donde t_max es el máximo número de ciclos de entrenamiento

Inverso al tiempo

( )

t B A n + = α Ec.12 donde A y B son dos constantes a determinar

(22)

Una cuestión importante en el diseño de una función para el CA, es que la misma no tenga un decaimiento muy brusco al principio del entrenamiento. Esto podría impedir que la red estabilice sus nodos para cada tamaño de vecindad durante el mismo y evite por ello, la organización topológica de la red.

El CA debe permitir generar dos faces durante el proceso de entrenamiento [Kohonen 1995]:

• Organización topológica

• Ajuste fino

Con Organización topológica referimos a que el CA debe permitir que se produzcan las relaciones de vecindad entre los nodos de la red, al menos de una manera grosera, para que en la segunda etapa se produzca el ajuste suave de los pesos. En general en la primera etapa, el valor del CA es grande (cercano a la unidad) de manera que los cambios en los pesos son bruscos en relación a la segunda etapa, permitiéndole a los nodos ganadores atraer a sus vecinos.

En la segunda etapa, normalmente mas larga que la primera y en la cual se espera que la red ya tenga una organización topológica definida, se produce el ajuste fino de aquellos nodos más representativos del espacio de entrada.

La ecuación de adaptación (Ec. 8) se puede escribir en forma resumida de la siguiente forma:

(t ) W ( )t ( ) (t V t k ri) M W ( )t

W k

G k

k +1 = +α ⋅ , , ⋅ − _{Ec. 13}

Inicialización de los vectores de pesos

(23)

ordenamiento previo pudiendo evitarse la fase de ordenamiento durante el entrenamiento de la red.

Presentación de los patrones a la Red durante el proceso de entrenamiento.

La presentación de los patrones de entrenamiento suele realizarse de manera secuencial, un patrón por ciclo de entrenamiento. Es importante aclarar que los parámetros de la red deben ajustarse en función de la cantidad de patrones (y en función de la calidad de los mismos) ya que los distintos patrones deben tener la oportunidad de acomodarse en la red bajo las mismas condiciones que lo han echo los otros, este tipo de presentación puede no ser conveniente cuando se cuenta con un conjunto de entrenamiento muy extenso dado que puede generar un entrenamiento excesivamente largo, por lo que según las circunstancias debe tenerse en cuenta el entrenamiento por subconjuntos de muestras del conjunto original de entrenamiento tomadas al azar. Estos subconjuntos pueden luego ser presentados en forma secuencial.

Si el conjunto de entrenamiento es muy ruidoso, es aconsejable entrenar con subconjuntos seleccionados al azar para impedir que la Red interprete al ruido como una característica del problema.

También existen metodologías de entrenamiento denominadas en modo "Batch", esto significa que los ajuste de los pesos se realiza una vez que se le ha presentado a la red todos los datos MG_{del conjunto utilizado para entrenar el modelo [Kohonen1995].}

Resumen del algoritmo clásico de entrenamiento

1. Inicialización de los Wk[0] ( aleatoriamente, o por dirección de los vectores

singulares o característicos de los datos de entrada)

2. Presentación de un patrón de entrada MG_{(en forma aleatoria o secuencial del}

conjunto de entrada )

3. Determinación del nodo ganador (Ec. 1 a 4) 4. Actualización de los pesos (Ec. 8 o 13)

5. Actualización de la ganancia α[t] y de la vecindad V[t]

(24)

La salida en un modelo Neuronal Auto-Organizativo y sus

posibles aplicaciones:

A diferencia de otros modelos neuronales, el modelo de Mapas Auto-Organizativos (MAO) permite elegir el tipo de salida que deseaos nos proporciones el modelo, de acuerdo a la aplicación particular que estemos desarrollando. Estas pueden ser:

Posición del nodo ganador: Como mencionáramos la configuración final de los nodos guarda una relación de vecindad, es decir que nodos vecinos tiende a compartir características similares entre ellos y que de esta manera es posible definir regiones o vecindarios dentro de la estructura a través de la posición de los nodos en el arreglo uni o bidimensional. Por lo que la posición del nodo ganador puede asociarse a alguna región particular del arreglo y así asociarlo a alguna característica, por ejemplo: el nodo ganador pertenece a la zona asociada al grupo A que presenta tal o cual característica.

El vector de pesos del nodo ganador: El vector de pesos del nodo ganador puede interpretarse como una representación estadística de cierta región del espacio de entrada. Si asumimos, por ejemplo, que el dato de entrada es un dato ruidoso del espacio de entrada, pues el vector de pesos del nodo ganador puede tomarse como la representación “limpia” de dicho dato.

(25)

industriales, donde la mayor parte del tiempo la misma funciona correctamente y la realización de pruebas tendientes a evaluar las posibles fallas podría implicar acciones en extremo peligrosas o caras, pues entonces hacemos que el sistema aprenda esta normalidad y nos alerte cuando nos estamos alejando de ella.

Referencias

• Elizabeth Vera de Prayer, Carlos D'Atellis, Ricardo Armentano y Marcelo Risk,

(2004) Procesamiento de Señales e Imágenes: Teoría y Aplicaciones Ed.: Facultad Regional Buenos Aires,Universidad Tecnológica Nacional ISBN: 950-42-0038-9

• Eisen MB, and Spellman, PT and Brown, PO and Botstein D. (1998) Cluster

analysis and display of genome-wide expression patterns. PNAS 95:14863-14868

• Golub, T R and Slonim, D K and Tamayo, P and Huard, C and Gaasenbeek, M

and Mesirovm, J P and Coller, H and Loh, M L and Downing, J R and Caligiuri, M A and Bloomfield, C D and Lander, E S (1999) Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring. Science 286:531-537

• Gordon, A (1999) Clustering, (2nd Ed), Chapman and Hall/HRC press, London

• Hartigan J. A., (1975) Cluster algorithms , John Wiley &Sons H Inc., New York,

1975

• Kohonen, T (1997) Self-Organizing Maps. 2nd, Springer, Berlin

• Leung Y.F, D Cavalieri. D, (2003) Fundamentals of cDNA microarray data

analysis, Trends in genetics 19:11 649-659

• Lukashin, A V and Fuchs, R (2001) Analysis of temporal gene expression

profiles: clustering by simulated annealing and determining the optimal number of clusters. Bioinformatics 17:5:405-414

• Tamayo, P and Slonim, D and Mesirov, J et al. (1999) Interpreting patterns of

(26)

• Toronen, P and Kolehmainen, M and Wong, G and Castren, E (1999) Analysis of

gene expression data using self-organizing maps. FEBS Letters: 451:142-146

• Wang, J and Delabie, J and Aasheim, H C and Smeland, E and Myklebost, O

(2002) Clustering of the SOM easily reveals distinct gene expression patterns: results of a reanalysis of lymphoma study. BMC Bioinformatics 3:36

• Vesanto, J (1999) SOM-based data visualization methods, IDA 3:111-125

Ejercicios:

1. Construya a mano alzada el dendrograma de los datos de la Tabla 1 a través de la

matriz de distancia presente en la Tabla 2. Utilice la matriz de distancias calculada con la distancia de “Manhattan” y enlace simple

2. Construya a mano alzada el dendrograma de los datos de la Tabla 1 a través de la

matriz de distancia presente en la Tabla 2. Utilice la matriz de distancias calculada con la distancia de “Euclídea” y enlace completo

3. Utilizando R (o algún otro paquete que desee) construya una matriz de datos de la siguiente forma:

#Expresión

tipo1=matrix(runif(20*4,min=0,max=1),ncol=4)

tipo2=matrix(runif(20*4,min=-1.5,max=-0.5),ncol=4) M=rbind(tipo1,tipo2)

K=2

km=kmeans(M,k) names(km)

A través de la función “names” R le proporciona el nombre de las variables internas del objeto “km” donde están almacenados los resultados de la función kmeans.

a. Acceda a los valores de los centroides de cada grupo b. Grafique los centroides de cada grupo.

c. Cargue el archivo otorgado por la cátedra “plot.kmeans.R” y utilice la función plot.kmeans.center y plot.kmeans.clusters. (Las ayudas de las siguientes funciones las podrá encontrar en

(27)

4. Genere una matriz de expresión donde asumiremos que los valores de expresión se distribuyen en forma normal con media cero y desvío 1. Genere 40 genes y 10 microarreglos (M=matrix(rnorm(40*10),ncol=10)) . Utilice la función

heatmap (heatmap(M,Colv=NA)) y observe. Ejecútela varias veces para el