• No se han encontrado resultados

6.2 Minería de Datos e Inferencia de RRGs basadas en RAs

6.3.5 Otras Técnicas

En los últimos años, se han propuesto otros métodos que no entran en la clasificación anterior. Sin embargo, estos métodos también pueden utilizarse para inferir RAs de genes a partir de datos de microarray. Estas técnicas se describen brevemente en los apartados siguientes.

6.3.5.1 Clustering

Uno de los principales problemas que dificultan la investigación en la reconstrucción de redes de genes es el problema de la dimensión, es decir, hay muchos genes con muy pocas replicas. Un enfoque útil es agrupar genes con patrones de expresión similares en grupos, y luego inferir las relaciones regulatorias entre los grupos (Tiefei, 2005). Los investigadores creen que los genes con patrones similares de expresión tienen funciones similares o están involucrados en los mismos eventos biológicos (Wahde y Hertz, 2000). Actualmente, se utilizan varios métodos de clustering para este propósito. Diferentes métodos de clustering pueden generar resultados muy diferentes. Cada combinación de métrica de distancia y de algoritmo de

clustering tiende a enfatizar un tipo diferente de regularidad en los datos. No existe un criterio único para la elección del mejor método de clustering. Cómo elegir el método depende del énfasis particular deseado.

Una vez encontrados los grupos de genes, también hay varios métodos para encontrar las interacciones entre ellos. En Chen et al. (1999) redujeron 3.131 genes de levadura en 308 grupos por medio de clustering de enlace promedio. Luego, utilizaron un algoritmo de enfriamiento simulado para optimizar una red cualitativa basada en la sincronización de los picos en los datos. En Wahde y Hertz (2000) agruparon 65 genes de conjuntos de datos correspondientes a médula espinal e hipocampo de rata en cuatro "señales" utilizando el algoritmo de agrupamiento jerárquico de Fitch y Margoliash (1967). Luego, mediante un algoritmo genético, se construyó una red neuronal recurrente de tiempo continuo de cuatro nodos. En Someren et al. (2000) se redujeron 2.467 genes de levadura en t-1 grupos representando a cada grupo por medio de un gen "prototipo" calculado a partir del grupo correspondiente. A continuación, se generó un

modelo lineal de los genes prototipo mediante regresión lineal. En Toh y Horimoto (2002) se propuso promediar los valores de expresión génica de cada grupo, y luego descubrir las relaciones regulatorias por medio del Modelado Gráfico Gaussiano. Finalmente, en Guthke et al.

(2005) se propuso agrupar los genes en clases eligiendo genes representativos de cada uno. Luego, modelaron las conexiones entre los genes representativos mediante ecuaciones diferenciales.

6.3.5.2. Métodos de relaciones por pares.

Los métodos por pares tratan de descubrir las relaciones entre los genes por medio de comparaciones entre pares de genes. No tienen en cuenta las interacciones donde la expresión de un gen se logra mediante los efectos combinados de múltiples genes. En Arkin et al. (1997) se propuso la Construcción de la Métrica de Correlación (CMC). La CMC calcula la magnitud de los pares de genes por correlación cruzada. Se construye una matriz de distancia para cada par de genes mediante la comparación de sus similitudes con otros genes. A continuación, se elabora un diagrama para resumir la fuerza de interacción y predecir las conexiones mecánicas entre los genes. En Chen et al. (1999) se propuso usar redes de activación/inhibición para encontrar la regulación en función de si los picos de una señal preceden picos en otra señal, agrupando los genes con perfiles de expresión similares. A continuación, se genera un prototipo para cada grupo de genes por promedio de los valores de expresión de los genes en el grupo. Cada prototipo representa un grupo de genes con patrones de expresión similares y se representa como una serie de picos. Las correlaciones entre los pares de prototipos se calculan para determinar el tipo de relaciones regulatorias (activación, inhibición o incomparable) y medir la fuerza de la relación regulatoria entre dos prototipos. Por último, la matriz de regulación es generada siguiendo esos resultados. En Ponzoni et al. (2007) se propuso un algoritmo de aprendizaje automático llamado GRNCOP basado en optimización combinatoria que no asume ninguna discretización de valores de expresión de genes arbitraria ni uniforme. Los umbrales se calculan de forma dinámica mediante la aplicación de las mismas técnicas de discretización de atributos de valores continuos utilizados para los algoritmos de clasificación basado en árboles de decisión. Entonces, cada posible par de genes es evaluado obteniendo una RA con una precisión particular, sobre la base de una función objetivo. Finalmente, sólo se informan las relaciones que alcanzaron un valor de precisión superior a un umbral preseleccionado.

6.3.5.3 Métodos de Maquinas de soporte vectorial

Los métodos de máquinas de soporte vectorial (Support Vector Machine o SVM) han atraído un gran interés en la comunidad bioinformática en los últimos años debido a su buen

aprendizaje estadístico (Schölkopf y Smola, 2002). La idea es construir un hiperplano óptimo entre dos clases +1 y -1 tales que el margen, es decir, la distancia del hiperplano hasta el punto más cercano a él, se maximiza. Para permitir la clasificación no lineal, se emplean las llamadas funciones núcleo, que pueden ser pensadas como métricas especiales de similaridad. Estas mapean implícitamente los datos originales en algún espacio de alta dimensionalidad, en el que es posible encontrar al hiperplano óptimo. Como ejemplo, suponga que se consideran los núcleos lineales k(x,x') = x,x' así como los núcleos polinomiales de grado 2 k(x,x') = x,x'2, donde x y x' son los niveles de expresión de todos los genes, excepto del gen gi en la muestra j.

El núcleo polinomial calcula implícitamente todos los productos por pares entre los niveles de expresión de dos genes. De esta manera, pueden ser capturadas tanto dependencias lineales como también no lineales entre las expresiones de los genes. Además de una función núcleo, se debe fijar un parámetro de margen suave C. En Guyon et al. (2002) se propone un algoritmo llamado RFE capaz de determinar, para cada gen gi, los genes que se adaptan mejor para

predecir su estado. Este algoritmo elimina sucesivamente el gen que influye en menor medida en el tamaño del margen. La terminación de este procedimiento se puede determinar mediante validación cruzada (10-fold cross-validation).

6.4 Sumario

El desarrollo de métodos computacionales para la modelación de RRGs es un tema de investigación "caliente". La principal contribución de este capitulo, publicado en Gallo et al. (2013a), es la extensa revisión de una familia específica de algoritmos para extraer RAs entre genes. La ingeniería inversa de RRGs a partir de RAs tiene una ventaja metodológica importante: permite la reconstrucción de redes de modelo libre. En otras palabras, estas técnicas no requieren, en general, ninguna restricción o conocimiento previo sobre las relaciones estructurales de la red, ni hacen suposiciones relacionadas con los principios fisicoquímicos que rigen las interacciones entre genes. Estos métodos sólo necesitan información de expresión de genes como fuente de datos para el proceso de inferencia.

Todas las técnicas examinadas proceden de diversos enfoques de minería de datos, pero la mayoría de ellas comparten aspectos comunes, como algunos pasos de pre-procesamiento. En particular, la discretización de los datos de expresión génica constituye un punto central para estos métodos, con importantes implicaciones semánticas. Como se ha descrito, existen varios algoritmos para hacer frente a este problema, que van desde discretizaciones arbitrarias simplistas a métodos adaptativos elaborados. Por otra parte, también se presentaron aspectos adicionales complejos, que surgen como parte de este paso de pre-procesamiento cuando los estados de transición se modelan a partir de datos de series temporales.

En cuanto a las metodologías de inferencia, se ilustró una amplia variedad de técnicas, como métodos basados en conjuntos de elementos frecuentes, árboles de clasificación y regresión, redes bayesianas, redes booleanas, máquinas de soporte vectorial, enfoques de agrupamiento y algunos algoritmos por pares. Para la mayoría de estos enfoques de minería de datos, se revisaron varios algoritmos, haciendo hincapié en sus ventajas y limitaciones.

Otro punto relevante es la inferencia de asociaciones temporales entre los genes. Este punto fue abordado de manera transversal a lo largo del capítulo, ilustrando de que manera los diferentes métodos de minería de datos consideran este tipo de reglas diferidas en el tiempo. También se analizaron en detalle temas adicionales como el modelado de la cardinalidad de las reglas, la validación estadística y biológica de la red, y la extracción de asociaciones a partir de múltiples fuentes de datos.

Capítulo 7

Inferencia de Reglas Diferidas en el Tiempo a Partir de Datos

de Microarray Usando Clasificadores de Perfiles de

Expresión

En este capítulo, se presenta un nuevo método de aprendizaje automático para la inferencia de reglas de asociación diferidas en el tiempo, a partir de datos de expresión de genes en series de tiempo. Las relaciones descubiertas, que representan interacciones potenciales entre genes, se pueden usar para predecir los estados de expresión de un gen en términos de los valores de expresión génica de otros genes y, de esta manera, puede entonces reconstruirse una RRG putativa mediante la aplicación y la combinación de estas reglas. El enfoque ofrece varias características relevantes y distintivas en relación con la mayoría de los métodos existentes. En primer lugar, el criterio de discretización utilizado en este trabajo para los valores de expresión de los genes no es ni arbitrario ni uniforme. En segundo lugar, se pueden inferir reglas con múltiples retrasos de tiempo. Además, los resultados pueden ser interpretados fácilmente ya que las reglas se derivan de esquemas que clasifican los diferentes estados de regulación. Asimismo, el algoritmo puede inferir las relaciones entre los genes de forma automática a partir de múltiples datos de series de tiempo de microarrays. Por último, el nuevo método es capaz de procesar datos a gran escala con el fin de realizar estudios a nivel de genomas completos. El resto del capítulo se organiza como sigue: en el próximo apartado, se presenta la metodología utilizada y las principales características del nuevo algoritmo, y se describen dos fases experimentales. Seguidamente, se describe una herramienta de software llamada GeRNet que integra al algoritmo descrito en este capitulo conjuntamente con el algoritmo BiHEA, y que incluye características para la visualización y manipulación de datos y de RRG.