Como se comentó anteriormente, la hipótesis de trabajo generalmente aceptada es que la divergencia en secuencia entre las subfamilias de proteínas está gobernada por una divergencia funcional de la que sus posiciones características (SDPs) serían responsables. Numerosos estudios computacionales han mostrado la relación de subfamilias y SDPs con importantes aspectos de la especificidad funcional entre proteínas homólogas.
En el caso de los enzimas y las proteínas que unen pequeños ligandos, esta relación está bien establecida: trabajos a gran escala como los de Madabushi et al. (2002), Yao et al. (2003), Lichtarge et al. (2003), del Sol et al. (2003) y Pei et al. (2006) junto a otros a mediana escala como los de Landgraf et
al. (2001), Reva et al. (2007) y Kalinina et al. (2009), han mostrado de forma
robusta la asociación de SDPs con regiones estructurales correspondientes a sitios catalíticos y de unión a pequeños ligando (Tabla 3). En el caso particular de los enzimas, la correspondencia explícita de subfamilias con diferentes especificidades catalíticas ha sido también puesta de manifiesto a gran escala (Wicker et al. 2001; Brown et al. 2007 ; Lee et al. 2009), si bien de la mano de métodos especializados en la detección de subfamilias que no detectan SDPs.
I. Introducción
! ""!
(*) En Pei et al. 2006 se evalúa el mismo conjunto de familias que en Yao et al. 2003
Tabla I.3. Relación de estudios realizados a mediana/gran escala utilizando diferentes metodologías para la detección de SDPs. Se detalla el número de familias que evaluadas en cada trabajo en función de diferentes tipos de regiones funcionales.
También en casos concretos se ha encontrado una implicación de subfamilias y SDPs en la unión específica a ADN/ARN (Lichtarge et al. 1997; Mirny y Gelfand. 2002; Donald y Shakhnovich 2005b; Landgraf et al. 2001; Mihalek et al. 2004; Reva et al. 2007).
De forma importante para esta tesis, la relación entre subfamilias y SDPs con interacciones específicas proteína-proteína se ha indagado para un número considerable de familias concretas (Lichtarge et al. 1996a; Innis et al. 2000; Mihalek et al. 2004; Pupko et al. 2002; Bicket el al. 2002; Mirny y Gelfand 2002; Bezerin et al. 2004; La et al. 2005) así como en estudios a pequeña escala (Landgraf et al. 2001; Reva et al. 2007). Estos estudios han mostrado la participación ocasional de SDPs en interfaces de interacción, sugiriendo la importancia funcional de estas posiciones en la determinación de las interacciones específicas con diferentes proteínas.
La relevancia funcional de subfamilias y SPDs atañe no sólo a las interacciones entre proteínas distintas sino también a la forma de interacción de
Región estructural investigada y número de familias estudiadas Referencia Método utilizado Número total de familias estudiadas Sitios catalíticos y de unión a pequeños ligandos Interfaces Proteína – Proteína Sitios de unión a ADN / ARN
Landgraf et al. 2001 3D Cluster
Analysis 35 15 25 6 Madabushi et al 2002 ET 38 38 - - Yao et al 2003 ET 57 57 - - Lichtarge et al 2003 ET 84 84 - -
del Sol et al. 2003 S-Method MB y SS-
Mehtod
303 303 - -
Pei et al. 2006 (*) SPEL 57 57 - -
Reva et al 2007 CEO 20 10 14 5
I. Introducción
! "#!
los homo-oligómeros. Recientemente, Dayhoff et al. (2010) han estudiado la evolución de nueve familias de proteínas en las cuales el modo de homo- oligomerización varía entre sus miembros. Mediante el mapeo de sus diferentes formas de unión en los árboles filogenéticos de cada familia, estos autores han observado que los modos de simetría tienden a estar conservados dentro de las diferentes subfamilias y de forma diferencial entre ellas.
Cabe destacar que la importancia de los SDPs en la determinación de la especificidad funcional que los estudios computacionales han señalado, se ha seguido de validación experimental en una serie importante de casos, relacionados tanto con la especificidad de enzimas (p.ej. Morillas et al. 2002) como con interacciones específicas entre proteínas (p.ej. Onrust et al. 1997; Bauer et al. 1999; Sowa et al. 2001; Hernández-Falcón et al. 2004 y Juan et al. 2005). Así por ejemplo, en Morillas et al. (2002) se identificaron y validaron experimentalmente las posiciones responsables de la inhibición catalítica de las enzimas carnitín-palmitoíl-transferasa y carnitín-octanoíl-transferasa. En Bauer et
al. (1999) se identificaron los residuos responsables de las diferentes
especificidades de interacción con distintos efectores de las proteínas reguladoras Ras y Ral. Las predicciones fueron validadas experimentalmente mostrando que el reemplazo de dos posiciones específicas provoca el intercambio de sus especificidades de unión. Por su parte, Hernández-Falcón et
al. (2004) y Juan et al. (2005) identificación dos residuos críticos en la
dimerización del receptor de quimioquina CCR5 que fueron también comprobados experimentalmente.
I.12. Propuesta de un estudio integrado a gran escala de importantes aspectos de la especificidad funcional relacionados con la organización en subfamilias y sus SDPs característicos
Los trabajos que se comentan en el apartado anterior sirven de base para proponer como objetivo principal de esta tesis un estudio integrado en el que se analice a gran escala la relación de subfamilias con patrones de interacción diferencial entre proteínas homólogas así como la implicación de SDPs en interfaces proteína-proteína. Para una mejor comprensión de las señales en secuencia relacionadas con la evolución de la especificidad funcional, conviene que este estudio se haga de forma conjunta con otros importantes aspectos funcionales como los relacionados con la actividad enzimática y la unión a pequeños ligandos, los cuales se sabe que pueden estar íntimamente relacionados con la interacción específica entre proteínas.
Para este estudio es necesario un abordaje metodológico en el que, a partir de un MSA, se definan subfamilias además de SDPs (Tabla 1). De entre ellos, el de Sequence Space resulta especialmente idóneo por su capacidad de
I. Introducción
! "#!
explotar la mutua dependencia entre ambas entidades: en un abordaje multivariante las posiciones del MSA determinan la separación de las proteínas y al mismo tiempo esta separación pondera la contribución de las posiciones a esa segregación. Sin embargo la necesidad de supervisión manual en las dos implementaciones disponibles de Sequence Space (Casari et al. 1995 y del Sol
et al. 2003) impiden su uso para un estudio a gran escala como el que aquí se
propone. Así, como primer objetivo de esta tesis se propone el desarrollo de una metodología de análisis multivariante en el que, a partir de un MSA, subfamilias y SDPs puedan ser detectadas de forma simultánea y coherente.
Por último, este estudio se complementa con el abordaje de situaciones específicas en las que los parecidos relativos en secuencia de las proteínas no se corresponden con sus características funcionales observadas (p.ej. alineamientos estructurales de homólogos remotos). Para predecir residuos funcionales en estas situaciones, se presentan dos metodologías que hacen uso de información funcional conocida, tanto de tipo cuantitativo como en forma de clasificación supervisada.
!