IV. Discusión
IV.III. Desarrollo de dos metodologías para la predicción de residuos funcionales
El estudio a gran escala discutido en la sección anterior da soporte cuantitativo a la hipótesis por la cual la divergencia en secuencia entre las subfamilias de proteínas está gobernada por una divergencia funcional. Bajo este escenario general, las relaciones filogenéticas de las proteínas de una familia (representadas por sus parecidos relativos en secuencia) se traducen en una organización interna en subfamilias ligada a determinadas posiciones con un patrón de conservación diferencial que reflejan características funcionales específicas. En consecuencia, la detección de los residuos determinantes de la especificidad funcional en una familia de proteínas debería poder realizarse en la mayoría de casos mediante métodos no supervisados (Tabla 2 y 3) basados en el análisis de la divergencia en secuencia observada a través de su alineamiento múltiple.
Como se vio en la Introducción (Sección I.10), se han desarrollado también diferentes metodologías para la predicción de SDPs de forma supervisada (Tabla 4), esto es: cuando se dispone a priori de una clasificación en subfamilias. Estos métodos han demostrado también su capacidad de detectar posiciones funcionalmente importantes (véase Capra et al. 2008 para una evaluación comparativa), si bien su rango de aplicación biológica (como sugiere esta tesis) no es esencialmente diferente del de los métodos no supervisados. De hecho, la motivación principal para el desarrollo de métodos supervisados ha sido la necesidad de soslayar las limitaciones de los no supervisados para establecer subfamilias en determinados casos (Tabla 2).
No obstante, pueden encontrarse casos específicos donde los métodos supervisados sean de utilidad por haber un desacuerdo entre la clasificación basada en secuencia y la clasificación funcional de facto (p.ej. en algunos alineamientos estructurales donde se comparan homólogos muy lejanos o en casos excepcionales de convergencia evolutiva). También trabajos recientes como los de Halabi et al. (2009) y Schwarz et al. (2009), encuentran casos en los que diferentes “sectores” del alineamiento muestran una divergencia específica correspondiente a diferentes restricciones funcionales. En esos casos, las proteínas de la familia pueden agruparse de diferentes formas según el aspecto funcional estudiado. En cambio, si la agrupación en subfamilias se realiza sobre la secuencia completa, esas agrupaciones alternativas quedarían enmascaradas por la filogenia “compuesta”.
Esta tesis se complementa con dos metodologías supervisadas (MCdet y Xdet) que se desarrollaron cuando el repertorio de métodos supervisados de referencia se
IV. Discusión
! "#"!
limitaba a los de Hannenhalli y Russell (2000) y Mirny y Gelfand (2002). La novedad de MCdet en ese momento estribaba en su capacidad para predecir posiciones con un tipo de aminoácido conservado para un determinado grupo preestablecido de proteínas pero variable en el resto. Este tipo de posiciones pueden reflejar un cambio brusco en la restricción funcional ejercida sobre esa posición (Gu 2001). Las posiciones conservadas exclusivamente en un grupo pueden en cambio no ser importantes si la divergencia entre las proteínas de ese grupo es reciente, pero la posibilidad de que reflejen una restricción evolutiva con implicaciones funcionales aumenta cuando se dan entre proteínas con homología remota que han de ser comparadas mediante alineamientos estructurales (algunos de los cuales son precisamente el terreno de juego de los métodos supervisados tal como ilustran los ejemplos estudiados en Resultados Sección III.III.3). Posteriormente se han desarrollado otros métodos capaces de predecir este tipo de posiciones (Chakrabarti
et al. 2007; Capra y Singh 2008) si bien, a diferencia de MCdet, se han evaluado en
escenarios típicos de métodos no supervisados. Así pues, la caracterización de la capacidad predictiva de residuos funcionales de MCdet sigue siendo de interés. Por su parte Xdet continua siendo desde su publicación el único método supervisado diseñado para explotar información funcional cuantitativa (p.ej. constantes enzimáticas, de afinidad de unión, etc).
La ventaja de Xdet con respecto al resto de métodos, incluido MCdet, es su capacidad de explotar información cuantitativa relativa a semejanzas o jerarquías funcionales (en contraste con el resto de métodos, los cuales requieren clases funcionales disjuntas). Se trata de una característica importante considerando la amplitud del concepto “función proteica” que requiere complejas clasificaciones jerárquicas y ontologías para ser codificado (Harris et al. 2004). Como principal limitación, Xdet es capaz únicamente de predecir posiciones con una importancia global en la determinación del conjunto de especificidades (esto es, no está diseñado para predecir posiciones responsables exclusivamente de una especificidad determinada). Como contrapartida, al buscar posiciones con una importancia global,
Xdet puede trabajar con un número relativamente pequeño de proteínas de cada
subclase.
El método MCdet es una simplicación del método S3det presentado en la primera parte de esta tesis (si bien fue desarrollado con anterioridad). A diferencia de S3det, MCdet trabaja exclusivamente en el espacio de residuos y sobre él proyecta un vector función que codifica de forma binaria la pertenencia a una función determinada de las proteínas del alineamiento. MCdet presenta las ventajas de los abordajes multivariantes, esto es: MCdet permite establecer distancias entre el vector función estudiado y los patrones de ausencia/presencia de un tipo de aminoácido en una posición de las secuencias del MSA, teniendo en cuenta la mutua dependencia entre secuencias y posiciones en el alineamiento. Como desventaja potencial, MCdet hace un tratamiento cualitativo de los tipos de aminoácidos a diferencia de otros métodos -
IV. Discusión
! "#$!
como Hannenhalli y Russell (2000), Mirny y Gelfand (2002) y el propio Xdet- que incorporan información sobre la similitud entre los aminoácidos.
Como se ha dicho, la capacidad predictiva de residuos funcionales de MCdet y Xdet se evaluó en diferentes alineamientos de proteínas para los cuales se comprobó cuidadosamente que la clasificación funcional disponible no estuviera implícita en la filogenia. Para ello se muestran cuatro ejemplos que abarcan un amplio rango de relaciones entre secuencias (desde la proximidad considerable hasta la basada puramente en alineamientos estructurales) en los que se explotan diferentes definiciones de función y con diferentes formas de cuantificar los parecidos funcionales. En estos ejemplos los métodos no supervisados no sería de aplicación, como se ilustra explícitamente en el caso de las hidrolasas glicosídicas de estructura barril TIM (Resultados Sección III.III.3.C). En esta familia las distancias en secuencia entre las proteínas son muy elevadas, haciéndolas poco fiables para la predicción de residuos funcionales mediante un método que explota sus parecidos relativos. Así, las predicciones obtenidas mediante un método no supervisado (MB, del Sol et al. 2003
Tabla 2) no tienen una relación espacial con las regiones funcionales, a diferencia de
las obtenidas mediante Xdet y MCdet que se agrupan alrededor del centro activo.