1. LAS REDES BAYESIANAS Y LA BIOINFORMÁTICA
1.2 Aplicaciones de las Redes Bayesianas en Bioinformática
Como se ha argumentado, las RB constituyen un formalismo muy atractivo de representación del conocimiento con incertidumbre, resultado de la sinergia entre métodos probabilísticos-estadísticos de análisis de datos y técnicas de IA. Ellas se han aplicado con éxito en muy diversos campos, para modelar la incertidumbre en sistemas expertos, para resolver problemas de clasificación, predicción, inferencia, sistemas de toma de decisiones, entre otros. La Bioinformática no se exceptúa como campo de aplicación. Siempre que surge la necesidad de extraer información desde datos, en presencia de incertidumbre, datos
ruidosos o sujetos a errores, los métodos bayesianos son ampliamente utilizados por las ventajas que ofrece sobre las técnicas estadísticas convencionales (Jeroen et al. 2008), (Silva y Muñoz 2000).
También se ha comentado que el desarrollo alcanzado por las Ciencias Biológicas ha permitido la acumulación de mucha información experimental disponible en grandes bases de datos. La secuenciación del ADN (Consortium 2004 ), (Benson et al. 2005), produjo un crecimiento exponencial de las descripciones lineales de proteínas y moléculas de ADN y ARN (Ácido ribonucleico) y planteó los problemas informáticos de interés biológico: el almacenamiento y manejo eficiente de la información y la extracción de información útil para en última instancia, comprender las relaciones entre los genes, las proteínas, la funcionabilidad, la vida y la salud. La Bioinformática constituye el campo de conocimientos multidisciplinario entre la biología, la informática y la matemática que debe abordar este problema. En ella surge en particular, la necesidad de desarrollar nuevos algoritmos para el tratamiento de problemas de análisis de secuencias.
1.2.1 Estudio de secuencias genómicas
Los algoritmos de aprendizaje automático son ideales para dominios caracterizados por la presencia de gran cantidad de datos, patrones ruidosos y la ausencia de teorías generales determinísticas. La idea fundamental de estos algoritmos es aprender automáticamente la “teoría” a partir de los datos, a través de un proceso de inferencia o inducción, modelación o aprendizaje desde ejemplos, aunque la inducción sea incompleta, y por tanto condicionada a una probabilidad, según criterios bayesianos.
En (Larrañaga et al. 2005) se describen los principales dominios biológicos donde son necesarias las técnicas de aprendizaje automático. En dicho documento se hace una división en seis dominios fundamentales: genómica, proteómica, micro-arreglos (antes citados como matrices de ADN o micro arrays), sistemas biológicos, evolución y minería de texto. El resto de las aplicaciones se agrupan en “otras”. Todos estos dominios tienen problemas en los que se hace necesario el estudio de secuencias biológicas. La genómica es considerada uno de los dominios más importantes pues como se ha descrito anteriormente, la cantidad de secuencias identificadas se incrementa notablemente en esta época. El análisis de
secuencias genómicas persigue fundamentalmente la búsqueda de genes, y de sus regiones regulatorias. De igual modo, el dominio de la proteómica resulta de interés en la actualidad. De hecho en la presente tesis se analizan dos problemas fundamentales, uno en el campo de la genómica: localización de sitios de splicing o corte de intrones, y otro en el dominio de la proteómica para la predicción de interacciones de proteínas.
En Internet se cuenta con herramientas para el análisis de secuencias, algunas de las que se describen en el anexo 4, extraído del libro: (Gibas y Per 2001). Además en el artículo de (Gilbert 2004) se hace una descripción de los principales productos de software de Bioinformática libres en Internet. Este último documento es además, de acceso libre.
1.2.2 Problemas bioinformáticos que se resuelven mediante Redes Bayesianas
Las RB son valiosas siempre que sea necesario extraer información desde datos sujetos a incertidumbre, subjetividad, cualquier tipo de error o ruidosos. Por tanto, no resulta ninguna sorpresa que las RB se apliquen ampliamente en la actualidad a los campos de la genética, la genómica, sistemas biológicos, etc. donde este tipo de datos complejos es una norma. En el trabajo se mencionan sólo algunos ejemplos, pues la literatura en este campo también crece notablemente con el número de aplicaciones que se realizan (Liu y Logvinenco 2003), (Wilkinson 2007).
En (Pe’er et al. 2001) se presenta una RB de interacciones entre genes (interacciones de causalidad, mediación, activación, e inhibición). El método se aplica a expresión de datos de mutantes de levadura (Saccharomyces Cerevisiae) y se descubren una variedad de estructuras metabólicas, señales y caminos regulatorios. En (Friedman 2004) se discute otro problema aplicado a la bioinformática usando un modelo probabilístico.
Las interacciones entre proteínas son importantes para muchos procesos biológicos, identificarlas resulta vital para comprender la maquinaria de la célula. Las RB han sido ampliamente utilizadas con este objetivo; en (Wu et al. 2006) se hace uso de esta teoría para redes de interacciones de proteínas en hongos utilizando solamente anotaciones de genes ontólogos (Gene Ontology, GO). El nivel más alto de confianza obtenido para la clasificación de verdaderas interacciones es de un 78 %. En (Jansen et al. 2003) se realizó una aplicación similar utilizando otros rasgos desde datos genómicos. Resultados en
arabidopsis se pueden ver en (Cui et al. 2007). Otras investigaciones de interacciones de proteínas se describen en los trabajos (Long et al. 2005), (Lu et al. 2005) y (Qi et al. 2006). En humanos hay resultados muy interesantes con RB en (Scott y Barton 2007). En (Asthana et al. 2007) se hace uso de redes probabilistas para predicción de interacciones de proteínas utilizando, para la propagación, algoritmos previamente usados para redes de comunicación y en (Troyanskaya et al. 2003) se usan las RB para predicción de función de genes desde distintas fuentes de datos en la levadura (Saccharomyces cerevisiae).
Otra aplicación bien interesante en este campo es la localización de genes en un genoma completo, o en una larga secuencia genómica, lo cual fue considerado durante varios años como el problema principal de la Bioinformática. Contribuye de manera importante a su solución, la identificación de sitios de splicing, que separan zonas codificantes y no codificantes. Este es un buen ejemplo de un problema abierto en Bioinformática (Saeys 2004).
El hecho de que el genoma de determinada especie esté completamente o casi completamente secuenciado significa apenas que se conoce la secuencia de bases de ADN que lo conforman, pero ello está lejos de implicar que se sabe el rol de todas sus partes, incluso la localización de subsecuencias donde aparece o puede aparecer un gen, y mucho menos su funcionalidad. En países como Estados Unidos de América, se da la situación extrema, por demás sin ningún tipo de ética, que se patenta la información apenas aproximada de una subsecuencia que probablemente “contiene un gen".
La localización in sílico de los genes se aborda desde varios puntos de vista. Se conoce en primer lugar que todas las secuencias que representan un gen comienzan con un codón de inicio y finalizan con uno de los tres codones de terminación, pero la presencia de tales codones no siempre indica el inicio y el final del gen. Si a ello se une la posible existencia de hasta seis marcos diferentes de lectura12, así como la presencia de zonas amplias no
12 En una secuencia de ADN, las tripletas codificantes (codones) pueden estar alternadas e incluso mezcladas con secuencias no codificantes. Por tanto, al leer una secuencia de codones, aparecen tres marcos de lectura. Si además, se tiene en cuenta que pueden aparecer producto de la doble hélice en sentido contrario, se habla de 6 marcos posibles de lectura.
codificantes y usualmente más largas que los genes mismos, se comprende la dificultad del problema.
Se ha intentado abordar la localización de los genes a través de otras subsecuencias que están relacionadas con la estructura primaria de los mismos o su expresión, en particular, promotors, motifs o los sitios de splicing (splice sites). Se ha abordado el problema desde diversas técnicas de clasificación de Estadística y de IA.
En general se han logrado buenos resultados, pero la supremacía de estas combinaciones en lugares que no son verdaderos splice sites hace que, aunque los por cientos de clasificación sean buenos, se comete un gran error en la predicción de falsos negativos. Otros autores han centrado sus esfuerzos precisamente en reducir los falsos negativos en la clasificación, y han logrado muy buenos resultados si se hace una buena selección de rasgos (Saeys 2004) Con esta mejora se logra superar los índices de clasificación sin dañar el rendimiento del sistema, recuérdese además que una pequeña cantidad de parámetros permite evitar problemas como el sobre ajuste u overfitting (Cai et al. 2000).