HERRAMIENTA DE GRAFICACIÓN DE MOTIVOS DE REGULACIÓN

(1)

1 Abril 22-26, 2013, Zacatepec, Morelos, México

HERRAMIENTA DE GRAFICACIÓN DE MOTIVOS DE REGULACIÓN

C. Noguerón González¹, M. Ménez Esquivel¹, F.J. Cartujano Escobar¹, L. Gama Moreno², J. Morales Barrera¹ y C.G. Bustillos Gaytán¹.

{[email protected], [email protected], [email protected], [email protected], [email protected], [email protected]}

1Instituto Tecnológico de Zacatepec,

Calzada Tecnológico No. 27, Zacatepec, Morelos, México –

2 Instituto Tecnológico de Tlajomulco,

Km.10 carretera Tlajomulco – San Miguel Cuyutlán, Tlajomulco de Zúñiga, Jalisco, México Área de participación: Ciencias de la Computación

Resumen – Los programas de búsqueda de patrones nos muestran los posibles sitios predichos que pudieran ser blancos de elementos reguladores. Sin embargo, la interpretación de los resultados y su significado biológico necesita de herramientas adicionales que nos ayuden a realizar dicha labor. Un procedimiento del cual se puede obtener con mayor facilidad los resultados de interés, es la realización de un gráfico que nos pueda ayudar a ubicar los sitios con respecto a una referencia, lo cual nos puede permitir elucidar posiblemente su papel en la regulación o funcionamiento de algunos procedimientos realizados por los motivos o patrones de regulación. Para esto, en las últimas décadas se han desarrollado herramientas computacionales que permiten predecir el lugar en donde los elementos de regulación llevan a cabo su papel. Dado que el resultado de estas predicciones es una aproximación, es necesaria la interpretación de estas predicciones utilizando criterios biológicos como aquellos relacionados con la posición y características propias del elemento predicho. El presente artículo describe la arquitectura y el diseño de una herramienta que permite construir mapas de estos elementos reguladores y relacionarlos con propiedades biológicas y estadísticas.

1. Introducción

Los métodos computacionales tanto para la identificación de patrones en secuencias biológicas como para el reconocimiento de elementos regulatorios tales como sitios de transcripción, han demostrado ser útiles para descifrar la redes regulatorias genéticas [1]. Sin embargo, a pesar de la disponibilidad de de algoritmos, sus fortalezas y debilidades aún no han sido comprendidas del todo.

Los factores que afectan la precisión en las predicciones, la escalabilidad y la confianza deben ser caracterizadas. Los algoritmos basados en análisis de secuencia son la base de los algoritmos para el descubrimiento de motivos en la actualidad, pero se hace necesario avanzar en el mejoramiento de los mismos [2, 10].

Diferentes programas están en la capacidad de descubrir o identificar patrones distintos. En el nivel más general, los patrones pueden ser divididos en patrones identificados de manera determinística o probabilística [3]. En los patrones determinísticos se define el ajuste o no para un determinado patrón, como un evento presencia/ausencia, rígidamente dictado por el ajuste gramatical. Por otro lado, en los casos de patrones probabilísticos, estos modelos están usualmente

(2)

2 Abril 22-26, 2013, Zacatepec, Morelos, México soportados por la teoría de la probabilidad que como tal, asigna a cada secuencia una probabilidad generada a partir de un modelo. Entre mayor sea la probabilidad, mayor es el ajuste entre la secuencia y el patrón dado [4, 13].

Los programas de búsqueda de patrones nos muestran los posibles sitios predichos que pudieran ser blancos de elementos reguladores. Sin embargo, la interpretación de los resultados y su significado biológico necesita de herramientas adicionales que nos ayuden a realizar dicha labor.

Un procedimiento del cual se puede obtener con mayor facilidad los resultados de interés, es la realización de un gráfico que nos pueda ayudar a ubicar los sitios con respecto a una referencia, lo cual nos puede permitir elucidar posiblemente su papel en la regulación o funcionamiento de algunos procedimientos realizados por los motivos o patrones de regulación.

Para desarrollar este análisis gráfico existen varias aplicaciones las cuales se encargan de interpretar los archivos generados por herramientas de predicción y búsqueda de motivos y mostrarlos de forma gráfica, entre ellas Feature Map (herramienta de análisis de secuencias regulatorias) [12], CDART (herramienta de recuperación para arquitectura de dominios conservados) [13], Geneious [14], TOUCAN [13, 14]. Cabe recalcar que no todas estas herramientas realizan de forma similar la misma tarea, generando una diversidad de resultados. El presente artículo describe la arquitectura y el diseño de una herramienta de graficación de motivos de regulación a partir de archivos planos de diferentes formatos, los cuales contienen la información necesaria para identificar los patrones y su ubicación sobre un panel de dibujo, y así proyectar con gran aproximación las identidades y relaciones entre ellos.

2 Antecedentes

En esta sección se establecen los antecedentes del presente proyecto de investigación. Se realiza una breve descripción del descubrimiento de motivos, y posteriormente se describen algunas herramientas.

2.1 Descubrimiento de motivos desconocidos

El descubrimiento de motivos está directamente relacionado con técnicas tanto estadísticas como combinatorias de búsqueda de patrones. La identificación de éstos, presenta dificultades en el sentido de la gran cantidad de ruido comparativamente con la identificación de patrones significativos cuando se está realizando el análisis de un alto volumen de secuencias. Por esta razón, existen varios tipos de algoritmos para disminuir el radio de ruido, tales como los de agrupamiento y búsquedas EM (expectation maximization algorithms). En búsquedas de motivos simples, se utilizan expresiones cortas contra una o un conjunto o grupo de secuencias o secuencias depositadas en bases de datos.

(3)

3 Abril 22-26, 2013, Zacatepec, Morelos, México Este tipo de búsqueda es veloz pero no provee ninguna estimación de significancia [5].

Generalmente para descubrir motivos, se parte de un conjunto de secuencias dadas a las que se les realizan alineamientos múltiples locales, buscando la identificación del mejor alineamiento múltiple local. En este sentido, los resultados del alineamiento se dan de manera diferencial en términos probabilísticos. De ahí implementa comparadores de patrones utilizando tanto el algoritmo esperanza- maximización como el muestreo de Gibbs. Entre las herramientas desarrolladas más utilizadas en la actualidad para el descubrimiento de motivos se encuentran, el MEME, que utiliza esperanza-maximización y modelos ocultos de Markov para generar motivos que luego se usan como herramientas de búsqueda por su compañero MAST [6, 7], el muestreador de “Gibbs” [1] y el “CONSENSUS” [8, 9].

Los algoritmos EM tienen en cuenta patrones de lenguaje para la obtención de perfiles estadísticos capturando preferencias de las letras y cada una de sus posiciones en la secuencia. La función objetivo tiene un grado de significancia con respecto al radio de las probabilidades, éste permite comparar motivos de diferentes medidas y el número de ocurrencias. Como tal, este algoritmo optimiza la función estadística de probabilidades (verosimilitud o likelihood en inglés) [10].

2.2 MEME: Herramienta para el descubrimiento de motivos

MEME localiza uno o más motivos sin espacios en secuencias únicas (DNA o proteínas) o en conjuntos de secuencias no alineadas. Esta herramienta busca patrones identificados como motivos de acuerdo a varios parámetros tales como la longitud mínima/máxima, la cantidad por secuencia y la cantidad por conjuntos de secuencias. MEME busca dentro de un rango de posibles longitudes de motivos, lo anterior establece que la longitud más adecuada para cada perfil se asume según la base del resultado de log-likelihood después de una iteración usando el algoritmo de máxima expectativa. Entonces, el algoritmo EM itera hasta encontrar la mejor estimación EM para la longitud [11, 1, 9]

2.3 MAST: Herramienta para búsqueda de motivos

Una vez que se han identificado los posibles motivos en las secuencias estudiadas, puede ser deseable ver si dichos motivos se encuentran presenten en otras secuencias. Para lograr este objetivo se utiliza la herramienta MAST, la cual sus secuencias pueden formar parte de otras bases de datos [7]. Los resultados obtenidos por MAST son más sencillos de interpretar en comparación con los de MEME.

3. Arquitectura del sistema

(4)

4 Abril 22-26, 2013, Zacatepec, Morelos, México La esquematización de los módulos que componen la aplicación fue parte clave para el correcto funcionamiento de la misma, ya que es bien sabido que un sistema construido de forma modular esta mejor estructurado y realiza un mejor desempeño en su ejecución. La idea de la estructuración es conceptualizada, debido a que durante el desarrollo de la aplicación se vio en la necesidad de unir partes de código pertenecientes a otros módulos en una clase distinta no correspondiente al módulo, sin embargo estos se hacen destacar, ubicando los métodos que le conciernen a cada módulo, La estructuración se visualiza en 4 módulos, separando las tareas importantes y creando las clases pertinentes para cada uno.

• Módulo de la interfaz de usuario.- Realiza la interacción entre el usuario y la aplicación.

• Módulo de lectura de archivos.- Módulo que recibe, lee y reconoce archivos de texto produciendo la entrada de datos para la aplicación.

• Módulo de creación y manipulación del objeto.- Módulo encargado de crear el objeto principal y posteriormente realizar una serie de operaciones optimizando la estructuración del objeto final, necesario para graficar.

• Módulo Gráfico.- Se encarga de realizar el objeto gráfico que representa la localización de los motivos de regulación.

Figura 1. Arquitectura del sistema.

3.1 Descripción del proceso del sistema.

(5)

5 Abril 22-26, 2013, Zacatepec, Morelos, México 1. El programa inicia mostrando una interfaz de usuario, en esta se selecciona la opción abrir o nuevo, posteriormente muestra una ventana que ayuda a seleccionar archivos que serán procesados.

2. En el módulo de Lectura de Archivos, el archivo que se introdujo es procesado, reconociendo y extrayendo los datos necesarios para poder construir los objetos que conformaran la Tabla de Elementos.

3. Los datos obtenidos del módulo de lectura, son enviados al siguiente módulo para la creación de la tabla de elementos, una vez creada se le aplican métodos de ordenamiento a esta estructura.

4. El objeto creado es enviado como parámetro al módulo gráfico que se encargará de la representación de dichos datos en forma gráfica, en este módulo pueden modificarse algunos atributos, colores y formas para generar el gráfico deseado.

En la figura 1 se plasman gráficamente los puntos descritos previamente para tener un esquema visual del flujo de datos, y con ello mostrar la arquitectura de la aplicación.

4. Diseño de la herramienta

Para el diseño de la aplicación se considera la portabilidad y el fácil uso de la misma, para que los usuarios puedan utilizarla sin mayor problema. Se creó un sistema típico con ventanas y menús haciendo muy familiar su manipulación. La idea de crear una interfaz amigable es importante, ya que le permite al usuario interactuar con la aplicación sin la necesidad de tener un amplio conocimiento en el manejo de ella.

Para cubrir con los requerimientos de los usuarios de la herramienta se consideraron los siguientes aspectos de diseño: sistema multiplataforma, interfaz agradable al usuario considerando que será utilizada por usuarios no expertos en computación, soporte de varios formatos de archivos, edición de componentes gráficos y sustentabilidad de almacenamiento como respaldo de la información.

Las opciones para crear los archivos de salida son los conocidos como el JPEG (Joint Photographic Experts Group), PNG (Portable Network Graphics) o EPS (Encapsulated PostScript).

En el desarrollo de la aplicación se diseñaron dos paquetes, el paquete Interfaz (figura 2) y el paquete Mapa (figura 3) los cuales contiene las clases necesarias para la ejecución del programa. En los diagramas de clases se muestran la correspondencia entre ellas, ejemplificando la relación de objetos.

Dentro de estos paquetes se encuentran más clases necesarias para el funcionamiento correcto del sistema, las clases que destacan del paquete Interfaz son las que se encargan de graficar los submenús de motivos, de colores,

(6)

6 Abril 22-26, 2013, Zacatepec, Morelos, México redimensionar los gráficos y marcar escalas, el diagrama de clases del paquete interfaz se puede apreciar en la figura 2.

Figura 2. Clases que componen el paquete Interfaz.

Por el lado del paquete Mapa existe la clase que permite realizar el reconocimiento de archivos al objeto principal manipulable en el sistema, la clase que muestra los datos del objeto principal y diferentes formatos de salida y la clase necesaria para convertir y crear el gráfico realizado por el programa en un formato vectorial. El diagrama de clases para el paquete Mapa se observa en la figura 3, y solo muestra las clases que impactan para el sistema.

(7)

7 Abril 22-26, 2013, Zacatepec, Morelos, México Figura 3. Clases que componen el Paquete Mapa.

Conclusiones

Gracias a la arquitectura presentada se logró que el diseño resultara muy fácil para crear la portabilidad de la herramienta, generando una aplicación multiplataforma capaz de ser soportada en diferentes sistemas operativos y al

(8)

8 Abril 22-26, 2013, Zacatepec, Morelos, México mismo tiempo ser ejecutada en diversos equipos de cómputo, esquivando la limitante de ejecución en aquellos equipos con bajos recursos.

Por otra parte, las opciones de estilo que fueron agregadas al entorno de la aplicación la hicieron una herramienta versátil, logrando crear un gráfico lo más dinámico posible, cumpliendo con uno de los requerimientos del sistema, satisfaciendo a los usuarios finales y adquiriendo un ventaja de nuestra aplicación sobre las demás existentes, ya que muchas herramientas disponibles actualmente carecen de esta característica.

En la siguiente fase del proyecto se pretende desarrollar módulos para incrementar la funcionalidad de esta aplicación como pueden ser la adición de árboles filogenéticos como método de agrupamiento, así como también agregar otras características que puedan realizar análisis de secuencias con los identificadores y nombres de secuencia que son introducidos, mostrando posibles alineamientos y contexto genómico de las secuencias analizadas.

Referencias

1. Xiaoming Wu, Bo Wang, Changxin Song, and Jingzhi Cheng. A combined model and a varied Gibbs sampling algorithm used for motif discovery. In ACM International Conference Proceeding Series; Proceedings of the second conference on Asia-Pacific bioinformatics, volume 29, pages 99–104, Dunedin, New Zealand, 2004. Australian Computer Society, Inc.

2. Chiu B, Keogh B, and Lonardi E. Probabilistic discovery of time series motifs.

In Conference on Knowledge Discovery in Data.Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining., pages 493–498, Washington, D.C., 2003. ACM Press.

3. Sandve G. A survey of motif discovery methods in an integrated framework.

Biology Direct, 1:11, 2006.

4. Brejova B., DiMarco C., Vinar T., Hidalgo S., Holguin G., and Patten C. Finding patterns in biological sequences. Technical report, 2000.

5. Restrepo-Montoya D. Aproximación al análisis de motivos en secuencias nucleotídicas y proteicas. Universidad Nacional de Colombia, Sede Bogotá.

2007.

6. Bailey TL, Elkan C. Fitting a mixture model by expectation maximization to discover motifs in biopolymers. Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, pp. 28-36, AAAI Press, Menlo Park, California. 1994.

7. Bailey TL, Gribskov M. Combining evidence using p-values: application to sequence homology searches. Bioinformatics14:48-54. 1998.

8. Parida L., Floratos A., and Rigoutsos I. An approximation algorithm for alignment of multiple sequences using motif discovery. Journal of Combinatorial Optimization, 3(2):247–275, July 1999.

9. Baloglu U.B. and Kaya M. Top-down motif discovery in biological sequence datasets by genetic algorithm. In Hybrid Information Techlology, 2006.

(9)

9 Abril 22-26, 2013, Zacatepec, Morelos, México ICHIT’06. Vol. 2. International Conference on, volume 2, pages 103–107, 2006.

10. Minnen D. Improving activity discovery with automatic neighborhood estimation. IJCAI, 2007.

11. W. Grundy, T. Bailey, and C. Elkan. Parameme: A parallel implementation and a web interface for a dna and protein motif discovery tool. Comput. Appl.

Biosci, 12:303–310, 1996.

12. Van Helden J. Regulatory sequence analysis tools. Nucleic Acids Res. (2003) 31:3593–3596http://embnet.ccg.unam.mx/rsa-tools/

13. Aerts S., Thijs G., Coessens B., Staes M., Moreau Y., De Moor B. (2003) TOUCAN: Deciphering the Cis-Regulatory Logic of Coregulated Genes''. Nucl Acids Res, vol. 31, no. 6, 2003, pp. 1753-1764.

14. Aerts S., Van Loo P., Thijs G., Mayer H, De Martin R., Moreau Y. and De Moor B. (2005) "TOUCAN 2: the all-inclusive open source workbench for regulatory sequence analysis". Nucl Acids Res, vol. 33 (Web Server issue), W393-6.

Autorización y renuncia

Los autores del presente artículo autorizan al Instituto Tecnológico de Zacatepec (ITZ) para publicar el escrito en el libro electrónico del CONGRESO INTERNACIONAL EN TECNOLOGÍA, INNOVACIÓN y DOCENCIA 2013. El ITZ o los editores no son responsables ni por el contenido ni por las implicaciones de lo que está expresado en el escrito.