• No se han encontrado resultados

Los microarrays han sido usados extensamente en la investigación biológica para resolver una amplia variedad de preguntas. Tal como es mencionado en Collins (1999), cuando son aplicados al análisis de expresión los microarrays permiten las mediciones de los niveles de

genotipado, estos ayudan en la posibilidad de determinar alelos de cientos de miles de locus a partir de cientos de muestras de ADN, permitiendo la contemplación de estudios de asociación de genoma completos para determinar la contribución genética en desordenes poligenéticos complejos. Es mas, la aplicación de microarrays a la detección de mutaciones de los genes relacionados con enfermedades con pronunciada heterogeneidad alélica probablemente mueva la posibilidad del testeo genético de la susceptibilidad a enfermedades de un individuo, o incluso de una población entera, al reino de la realidad práctica. En esta tesis nos enfocaremos en el análisis de datos de expresión de genes, específicamente en el análisis de genes con comportamiento similar y en la inferencia de redes regulatorias de genes.

3.6. Sumario

En este capitulo, hemos provisto con una descripción general de la generación y procesamiento de datos de expresión de genes de microarrays. Los materiales en este capitulo han sido largamente extraídos de varias publicaciones y sitios Web los cuales discuten estos tópicos (Amaratunga y Cabrera, 2003; Draghici, 2003; Stekel, 2003). Como hemos visto, la tecnología de microarrays ofrece una forma eficiente de medir los niveles de expresión de miles de genes en un solo experimento, entre diferentes condiciones experimentales y a lo largo del tiempo (DeRisi et al., 1996; Heller et al., 1997; Chen et al., 1998;Browm et al., 2000). El foco experimental puede incluir tipos de cáncer, organismos enfermos, o tejidos normales. Los arreglos son ahora comunes en la investigación biomédica para los perfiles de expresión de ARNm y son usados para explorar los patrones de expresión génica en la investigación clínica (Welford et al., 1998; Iyer et al., 1999; Brazma y Vilo, 2000). La aplicación de esta tecnología en la investigación de los niveles de respuesta de los genes en los tratamientos con drogas, tiene el potencial de proveer una visión profunda dentro de la naturaleza de muchas enfermedades y una guía hacia el desarrollo de nuevas drogas.

Capítulo 4

Biclustering de Matrices de Expresión de Genes

Las matrices de expresión de genes han sido analizadas extensamente en sus dos dimensiones: la dimensión de los genes y la dimensión de las condiciones. Estos análisis corresponden, respectivamente, a analizar los patrones de expresión de los genes comparando las filas en la matriz y, a analizar los patrones de expresión de las condiciones comparando las columnas de la matriz.

Entre los objetivos perseguidos al analizar los datos de expresión de genes se incluyen:

1. Agrupar los genes acorde a su expresión bajo múltiples condiciones

2. Clasificación de un nuevo gen, dada la expresión de otros genes con clasificación conocida.

3. Agrupar condiciones basado en la expresión de cierto numero de genes

4. Clasificación de una nueva muestra, dada la expresión de los genes bajo esa condición experimental.

Las técnicas de agrupamiento (clustering, utilizaremos el término en inglés de aquí en adelante) pueden ser usadas para agrupar tanto genes como condiciones y, entonces, persiguen directamente los objetivos 1 y 3 mencionados antes e, indirectamente, los objetivos 2 y 4. Sin embargo, aplicar los algoritmos de clustering sobre los datos de expresión de genes conlleva dificultades significativas. Muchos patrones de activación son comunes a un grupo de genes solo en condiciones experimentales específicas. De hecho, el entendimiento general de los procesos celulares lleva a esperar que subconjuntos de genes estén co-regulados y co-expresados solo bajo ciertas condiciones experimentales, pero que se comporten casi independientemente bajo otras condiciones. El descubrimiento de esos patrones locales de expresión puede ser la llave para dilucidar muchas vías génicas(pathways) que no serian aparentes de otra manera. Entonces, es altamente deseable moverse mas allá del paradigma de clustering y desarrollar enfoques capaces de descubrir patrones locales en los datos de microarrays (Ben-Dor et al., 2002).

El termino biclustering fue usado primero por (Cheng y Church, 2000) en el análisis de datos de expresión de genes. Se refiere a una clase de algoritmos de clustering que realizan agrupamiento simultáneo en las filas y columnas. Los algoritmos de biclustering también han sido propuestos y usados en otros campos de aplicación. Nombres como co-clustering,

agrupamiento bidimensional, agrupamiento subespacial, entre otros, a menudo son usados en la literatura para referir a la misma formulación del problema. Una de las primeras formulaciones de biclustering es el algoritmo de clustering directo introducido por (Hartigan, 1972), también conocido como clustering en bloque (Mirkin, 1996).

A partir de la introducción de este concepto, surgen naturalmente varias preguntas, tales como: ¿cuál es la diferencia entre clustering y biclustering? ¿por qué y cuando deberíamos usar

biclustering en vez de clustering? El clustering puede ser aplicado a filas o a columnas de la matriz de datos, en forma separada. Por otro lado, el biclustering realiza clustering en estas dos dimensiones simultáneamente. Esto significa que el clustering deriva un modelo global mientras que el biclustering produce un modelo local. Cuando se utilizan los algoritmos de clustering, cada gen en un dado cluster de genes esta definido usando todas las condiciones. En forma similar, cada condición en un cluster de condiciones esta caracterizada por la actividad de todos los genes que pertenecen a la matriz de datos. Sin embargo, cada gen en un bicluster esta caracterizado solo por un subconjunto de condiciones y cada condición en el bicluster esta caracterizada solo por un subconjunto de genes. El objetivo en las técnicas de biclustering es entonces identificar subgrupos de genes y subgrupos de condiciones, mediante un clustering

realizado simultáneamente tanto en las filas como en las columnas de la matriz de expresión de genes, en vez de hacerlo en estas dos dimensiones por separado. Se puede concluir que, a diferencia de los algoritmos de clustering, los algoritmos de biclustering identifican grupos de genes que muestran patrones de actividad similar bajo un subconjunto específico de condiciones experimentales. Entonces, las técnicas de biclustering son un enfoque clave a usar en cualquiera de las siguientes situaciones:

1. Solo un subconjunto de genes participan en un proceso celular de interés.

2. Un proceso celular de interés esta activo solo en un subconjunto de condiciones experimentales.

3. Un solo gen puede participar en múltiples procesos y mecanismos biológicos que pueden o no estar coactivos en todas las condiciones.

Adicionalmente, la robustez en los algoritmos de biclustering es especialmente relevante debido a dos características adicionales de los sistemas bajo estudio. La primera característica es la mera complejidad de los procesos de regulación de genes que requieren herramientas poderosas de análisis. La segunda característica es el nivel de ruido en los experimentos reales de expresión de genes, que hacen indispensable el uso de herramientas estadísticas inteligentes.