chemosensory gene families Pablo Librado and Julio Rozas
4.1 Implementación de nuevos métodos analíticos 1 DnaSP
Con más de 8000 citas acumuladas entre todas sus versiones, DnaSP [116, 122-125] es uno de los programas más populares en el ámbito de la genética de poblaciones y la evolución molecular. Una de las claves de su éxito radica en la constante actualización de sus funcionalidades. En la versión DnaSP v5 [116], hemos implementado nuevos métodos orientados al estudio de datos masivos de polimorfismo y divergencia nucleotídica, entre los que destaca la capacidad de detectar regiones funcionales porphylogenetic footprintingyphy- logenetic shadowing[126].
122 Discusión 0 2000 4000 6000 8000 10000 12000 14000 2013 2011 2009 2007 2005 2003 2001 1999 1997 1995 1993 1991 1989 1987 1985 1983 1981 1979 1977 1975 1973 1971 1969 1967 1964
Figura 4.1:Número de publicaciones científicas por año que incluyen la palabra clave ’transcrip- tional regulation’.
La idea que subyace alphylogenetic footprintinges realmente simple y eficaz: si una región se conserva a lo largo del tiempo, probablementees funcional. Efectivamente, puede haber regiones conservadas no funcionales (falsos po- sitivos). Por ejemplo, si las especies comparadas divergieron recientemente, las regiones genómicas pueden estar conservadas por no haber tenido tiempo de acumular substituciones. Para discernir la constricción funcional de la me- ra conservación, se desarrollaron las técnicas dephylogenetic shadowing. Estás técnicas consideran que una región es funcionalsólosi está significativamente más conservada de lo esperado (dada la divergencia entre las especies anali- zadas).
DnaSP implementa una aproximación intermedia. En concreto, detecta aque- llas regiones del alineamiento múltiple (MSA) enriquecidas en posiciones con- servadas (test de Fisher). La sensibilidad y especificidad del método depende de si el MSA contiene un balance razonable entre regiones funcionales y re- giones selectivamente ’neutras’. Si todo el MSA presenta el mismo nivel de conservación (ej. un exón), DnaSP no anotará ningún elemento funcional. Pa- ra soslayar esta limitación, el MSA focal se puede concatenar con otro MSA de posiciones ’neutras’, lo que reportaría resultados análogos a los obtenidos por
phylogenetic shadowing.
En esta tesis, hemos utilizado las nuevas implementaciones de DnaSP v5 de forma mayoritariamente prospectiva. Por ejemplo, hemos analizado los ni- veles y patrones de variabilidad tanto en las regionesupstream de los genes
Implementación de nuevos métodos analíticos 123
quimiosensoriales, como en sus elementoscis-reguladores de la transcripción (CREs).
4.1.2 BadiRate
El análisis comparativo de ganancia y pérdida de genes es fundamental pa- ra comprender el papel de la selección natural en moldear el tamaño de las familias multigénicas. Tradicionalmente, la dinámica de las familias multigé- nicas se ha analizado en un marco de parsimonia, mediante la reconciliación del árbol de genes (AG) con el árbol de especies (AE) [31-33]. Aunque todavía es ampliamente utilizada [98], la reconciliación del AG con el AE es extrema- damente sensible a posibles errores metodológicos y violaciones del modelo biológico de nacimiento y muerte de genes (ej. conversión génica o transfe- rencia horizontal) [34, 37, 127]. Hasta la fecha, esto no representaba un proble- ma sustancial, puesto que el análisis estaba circunscrito a unas pocas familias multigénicas que se podían revisar concienzudamente. No obstante, con la creciente disponibilidad de genomas completos, la revisión manual ha dejado de ser una opción viable.
Por ello se han desarrollado nuevos modelos estadísticos que integran parte de la incertidumbre metodológica y biológica [128, 129]. Sin embargo, la para- metrización es tan extensa, que muchos no son computacionalmente factibles. Una alternativa más simple es obviar la información de las secuencias génicas y, por tanto, de los sesgos asociados al AG. Intuitivamente se podría pensar que ignorar la secuencia génica es contraproducente, porque se reduciría la relación entre la señal biológica y el ruido estocástico (signal-to-noise ratio). No obstante, la variación en el número de copias génicas es -por sí misma- alta- mente informativa de los procesos evolutivos [130], habiendo demostrado ser de gran utilidad en varios estudios genómicos [131-133].
En el programa BadiRate [134], hemos desarrollado e implementado diferen- tes modelos estocásticos para estimar la dinámica de ganancia y pérdida de elementos genéticos, ya sean regiones que codifican para proteína o CREs. Ba- diRate nos ha permitido analizar -por primera vez- la dinámica de los CREs de los genes quimiosensoriales, confiriéndonos una visión evolutiva comple- mentaria al análisis clásico de los niveles y patrones de variación nucleotídica. Actualmente, estamos trabajando en la incorporación de nuevas funcionali- dades, entre las que destacan la capacidad de contrastar un mayor número de hipótesis biológicas, el cálculo de intervalos de confianza, y una interfaz gráfica que facilite su uso por parte de usuarios inexpertos en entornos bioin- formáticos complejos.
124 Discusión
Figura 4.2:Interfaz de popDrowser, mostrando el patrón de diversidad y divergencia nucleotí- dica (πyK), el desequilibro de ligamiento (r2), y la tasa de recombinación a lo largo del brazo cromosómico 2R deD. melanogaster.
4.1.3 popDrowser
Los primeros esfuerzos de secuenciación genómica se centraron en especies modelo o con algún interés aplicado [110]. No obstante, la reducción de los costes de secuenciación [135] ha potenciado enormemente los estudios de ge- nómica de poblaciones. Por ejemplo, enD. melanogaster, existen tres proyectos diferentes: elDrosophila Population Genomics Project(DPGP; poblaciones afri- canas) [136], los 20 genomas europeos [137], y elDrosophila Genetic Reference Panel(DGRP; de una única población de Norteamérica; Raleigh, Carolina del Norte) [114].
Como miembros del proyecto DGRP, y de forma consistente con su filosofía (ser un recurso disponible para toda la comunidad científica), hemos desarro- llado popDrowser [138]. PopDrowser es una instancia del navegador genó- micoGbrowse[118] que permite visualizar y analizar el polimorfismo y diver- gencia (conD. simulansyD. yakubacomo especiesoutgroup) en los genomas deD. melanogastersecuenciados por el proyecto DGRP (Figura 4.2). Entre las principales características de popDrowser destaca la posibilidad de analizar estas secuencias genómicas de forma ’remota’ (sin necesidad de descargar la información). Además, popDrowser es fácilmente adaptable a cualquier otro proyecto de genómica de poblaciones, lo que le convierte en una herramienta bioinformática muy versátil.
El navegador popDrowser ha sido de gran provecho para el análisis de las regionesupstreamde los genes quimiosensoriales. Su utilidad radica en el al- macenamiento de información ya pre-procesada (alineamientos, diversidad
Evolución de la regulación transcripcional de los genes quimiosensoriales 125
nucleótidica, etc.), lo que nos ha posibilitado realizar una inspección visual y rápida de la variación nucleotídica en diferentes regiones cromosómicas que incluyen genes quimiosensoriales.