Nexos entre la taxonomía evolutiva y la distribución de las frecuencias de los aminoácidos en genes y proteínas

146  Descargar (0)

Texto completo

(1)UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN. NEXOS ENTRE LA TAXONOMÍA EVOLUTIVA Y LA DISTRIBUCIÓN DE LAS FRECUENCIAS DE LOS AMINOÁCIDOS EN GENES Y PROTEÍNAS.. Tesis presentada en opción al título académico de Master en Matemática Aplicada.. Autor: Lic. María Milena Rodríguez Fernández. Tutor: Dr. Robersy Sánchez Rodríguez. Santa Clara 2008.

(2) Agradecimientos A mi tutor Robersy Sánchez por su apoyo en todo momento A mis padres y hermanas Al Grupo de Bioinformática Al Departamento de Matemática A todos los que me han ayudado. Agradecimiento especial A mi hija María Fernanda y a mi esposo por ser fuentes inspiradoras en cada paso por el camino de la vida.

(3) i. Resumen En este trabajo se muestran evidencias acerca de la existencia de diferencias estadísticamente significativas entre varios grupos taxonómicos a través del uso del número de codones estimados que codifican para cada aminoácido (NECk) y de las probabilidades de aparición de estos en las proteínas (pk). Estas variables fueron estimadas utilizando bases de datos construidas a partir del uso de codones en los genes y de secuencias de proteínas provenientes de diferentes organismos vivos. La aplicación de los métodos CHAID y análisis discriminate y la evaluación del desempeño de los mismos permitieron verificar que las diferencias detectadas entre los taxa están en correspondencia con la clasificación biológica. Además de esto, utilizando la distancia de Hellinger entre los vectores pk se calcularon matrices de distancia a partir de las cuales se construyeron árboles filogenéticos que, no solo confirmaron relaciones filogenéticas entre los taxa que están en concordancia con la taxonomía evolutiva sino que, además, sugieren la existencia de, al menos, una gran extinción en algún momento de la historia evolutiva..

(4) ii. Abstract Evidences about the existence of statistical significant differences between several taxonomic groups are shown by means of the number of codon used by each amino acid (NECk) and the appearance probabilities of these in proteins (pk). These variables were estimated using databases which were made-up from the codon use in genes and protein sequences taken from different living organisms. The application of CHAID and discriminant methods and their performance evaluation allowed verify that the differences detected between the taxa are in correspondence with their biological classification. Besides this, distance matrices were calculated using the Hellinger distance between pk vectors. From these matrices phylogenetic trees were built that, not only, confirmed the phylogenetic relationships between the taxa that are in agreement with the evolutionary taxonomy but rather, also, they suggest the existence of, at least, a great extinction during the evolutionary history..

(5) iii. TABLA DE CONTENIDOS. RESUMEN ........................................................................................................................... I ABSTRACT .........................................................................................................................II INTRODUCCIÓN ............................................................................................................... 6 1.. BASES BIOLÓGICAS Y MATEMÁTICAS ................................................... 10. 1.1.. Sumario Biológico Teórico ................................................................................. 10. 1.2.. El código genético y aspectos biológicos de la evolución molecular. .............. 14. 1.3.. Herramientas estadísticas y bioinformáticas .................................................... 18. 1.3.1. 1.3.2. 1.3.3.. CHAID, Chi-squared Automatic Interaction Detector ...................................................... 18 Analisis Discriminante. ..................................................................................................... 19 El desempeño de los clasificadores usados. Matrices de confusión y las curvas ROC (Curva característica de operación del receptor) ............................................................... 21 MEGA: “Molecular Evolutionary Genetics Analysis” ..................................................... 23. 1.3.4.. 2. CONSTRUCCIÓN DE LAS BASES DE DATOS Y PREPARACIÓN DE LAS MISMAS .................................................................................................................... 25 2.1.. Construcción de las bases de datos. ................................................................... 27. 2.2.. Cálculo de los vectores NECk a partir de las bases de secuencias. .................. 29. 3. LAS DIFERENCIAS EN EL NÚMERO ESTIMADO DE CODONES Y LA CLASIFICACIÓN EVOLUTIVA. ................................................................................... 33 3.1.. Comparaciones entre los vectores NECk correspondientes a cada taxa......... 34. 3.2. Construcción de árboles de clasificación mediante el método CHAID atendiendo a las frecuencias de aminoácidos en proteínas ............................................ 37 3.2.1. 3.2.2.. Aminoácidos asociados con las clasificaciones taxonómicas de organismos vivos. ........ 37 Aminoácidos asociados con la clasificación taxonómica en archaeabacterias, bacterias y eucariotes. ......................................................................................................................... 42 3.2.2.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 46 3.2.3. Aminoácidos asociados con la clasificación taxonómica en archaeabacterias y bacterias.53 3.2.3.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 57 3.2.4. Aminoácidos asociados con la clasificación taxonómica en vertebrados e invertebrados.61 3.2.4.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 65 3.2.5. Aminoácidos asociados con la clasificación taxonómica en vertebrados no mamíferos y mamíferos.......................................................................................................................... 68.

(6) iv. 3.2.5.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 72 3.2.6. Aminoácidos asociados con la clasificación taxonómica en primates y homo sapiens. ... 76 3.2.6.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 79. 3.3. Construcción de árboles de clasificación mediante el método CHAID atendiendo a las frecuencias del uso de codones de los aminoácidos en los genes. ...... 84 3.3.1.. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en organismos vivos. ......................................................................................................... 84 3.3.2. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en archaeabacterias, bacterias y eucariotes. ...................................................................... 87 3.3.2.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 90 3.3.3. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en archaeabacterias y bacterias. ........................................................................................ 96 3.3.3.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 98 3.3.4. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en vertebrados e invertebrados. ....................................................................................... 102 3.3.4.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 103 3.3.5. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en vertebrados no mamíferos y mamíferos. .................................................................... 106 3.3.5.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 108 3.3.6. Aminoácidos asociados mediante el uso de codones con las clasificaciones taxonómicas en primates y homo sapiens. ........................................................................................... 111 3.3.6.1. Análisis de Discriminante y la evaluación del desempeño de los clasificadores. 113. 4.. ANÁLISIS FILOGENÉTICOS. ...................................................................... 118. 4.1.. ANÁLISIS FILOGENÉTICOS EN LA BASE DE PROTEINAS. ............... 118. CONCLUSIONES Y RECOMENDACIONES............................................................. 124 REFERENCIAS BIBLIOGRÁFICAS ........................................................................... 125 ANEXOS ........................................................................................................................... 128 Anexos 1. Árbol Filogenético Universal. ........................................................................ 128 Anexo 2. Fragmento de base de datos de cadenas de proteínas. ................................. 129 Anexo 3. Fragmento de base de datos de uso de codones. ............................................ 130 Anexo 4. Secciones B y C del árbol de aminoácidos asociados con las clasificaciones taxonómicas de organismos vivos ................................................................................... 131.

(7) v. Anexo 5. Secciones A y B árbol y regla de clasificación de aminoácidos asociados con los resultados en la base de datos curada con validación cruzada en las clasificaciones taxonómicas de archaea, bacterias y eucariotes. ........................................................... 133 Anexo 6. Matriz de correlaciones entre los aminoácidos en los Taxa archaeas, bacterias y eucariotes....................................................................................................... 138 Anexo 7. Implementación en el Matemática de los calculos necesaris para la partición de las bases de datos en subgrupos y la obtención de los vectores NECk. .................. 139 Anexo 8. Implementación en el Matemática para la selección aleatoria de las matrices de distancia ....................................................................................................................... 141.

(8) Introducción. 6. INTRODUCCIÓN El desarrollo alcanzado por las Ciencias Biológicas ha permitido la acumulación de mucha información experimental disponible en grandes bases de datos. El análisis de los diferentes caracteres fenotípicos, como la morfología, la conducta, los cromosomas, la anatomía externa e interna, el desarrollo embrionario, el metabolismo, la variación genética y proteíca muestran que las especies presentan semejanzas homólogas en todos los niveles del fenótipo. Cuanto más próxima sean la especies, mayor será el grado de semejanza, y lo contrario también es cierto, cuanto más alejada estén menos semejanzas encontraremos. Antecedentes y actualidad del tema. La universalidad de la molécula portadora de la información genética hace que el DNA sea un carácter muy apropiado para el estudio comparativo y filogenético de las especies. Morfológicamente no es posible comparar una bacteria con un hombre, sin embargo si es posible establecer una comparación con moléculas de DNA de ambos organismos, ya que están formadas por el mismo lenguaje de bases. Con datos de secuencias podemos comparar cualesquier grupo de organismos, por distantes que sean. Los datos moleculares tienen otras propiedades adicionales que todas juntas los convierten en el carácter ideal de estudios filogenéticos. Muchos trabajos obtienen y analizan las secuencias de genes y proteínas de diferentes especies para resolver cuestiones todavía dudosas de relaciones entre organismos. Formulación del problema . ¿Constituyen los cambios en las frecuencias de aminoácidos huellas que permiten diferenciar las especies de organismos en correspondencia con su clasificación taxonómica?. . ¿Es posible mediante el análisis de distribución de probabilidades de la aparición de aminoácidos en las diferentes especies de organismos confirmar las relaciones filogenéticos entre los organismos y deducir nuevos aspectos del proceso de evolución molecular?.

(9) Introducción. 7. Hipótesis de trabajo Teniendo en cuenta los elementos teóricos antes expuestos, así como las interrogantes existentes, se plantea la siguiente hipótesis general de investigación: A pesar de que en el proceso de evolución molecular la mayoría de los genes codificantes para proteínas se originaron a partir de la combinación de regiones codificantes para dominios estructurales de las proteínas ancestros, es posible distinguir los taxa a partir de las diferencias estadísticamente detectables en el número estimado de codones que codifican para cada aminoácido. Objetivo del trabajo Este trabajo se propone como objetivo: Detectar diferencias estadísticamente significativas en el número estimado de codones que codifican para cada aminoácido que estén en correspondencia con las clasificaciones taxonómicas existentes. Tareas de investigación Para el cumplimiento del objetivo y responder a las preguntas de investigación, demostrando la hipótesis anterior, fue necesario: . Construir dos bases de datos con 9 grupos de organismos (archaea, bacterias, invertebrados, insectos, plantas, vertebrados que no son mamíferos, mamíferos que no son primates, primates y homo sapiens), ellas se componen una de cadenas de aminoácidos y otra de la frecuencia del uso de codones, ambas extraídas de Internet, la primera de Direct public access to the National Library of Medicine's Medline Biomedical literature search engine through the NCBI. www.ncbi.nlm.nih.gov/entrez/. (PubMed) y la segunda de Codon Usage. Database. . Calcular la frecuencia de aparición de cada aminoácido en la cadena representativa de los organismos.. . Determinar el número estimado de codones para subgrupos de organismos formando así vectores 20 dimensionales con los que se realizaron las pruebas estadísticas..

(10) Introducción. . 8. Calcular las distancias genéticas entre los pares de poblaciones estudiadas donde cada distancia equivale al grado de divergencia proporcional entre las dos poblaciones, en la base de datos. de aminoácidos, utilizando la distancia de. Hellinger y la Entropía Relativa. . Realizar el análisis estadístico aplicando la técnica del CHAID y Análisis de Discriminante.. . Evaluar la eficacia de los clasificadores a través de Curvas ROC y los parámetros que se obtienen de la matriz de confusión que nos permita sustentar la hipótesis de investigación.. . Construir los árboles filogenéticos referidos a la base de datos de aminoácidos, mostrando nuevos aspectos de las relaciones de evolución entre las especies.. Novedad Científica La novedad científica del presente trabajo se resume en: 1. Se encuentran evidencias estadísticamente significativas acerca de la factibilidad del empleo del número estimado de codones que codifican para cada aminoácido en la clasificación taxonómica de los organismos vivos. 2. Se muestran la factibilidad del empleo de las estimaciones de las probabilidades de aparición de los aminoácidos en proteínas en la construcción de árboles filogenéticos y en la detección de posibles ancestros extintos durante grandes extinciones masivas. Importancia teórica En este trabajo se desarrolla un tratamiento alternativo de la información presente en las secuencias de genes y proteínas para su uso en el análisis taxonómico y filogenético. En particular, el tratamiento realizado permite prescindir de los posibles errores tautológicos derivados de los procesos de multialineación de secuencias de genes o de secuencias de proteínas, el cual es una etapa necesaria cuando se realizan los análisis mencionados partiendo de las secuencias biológicas. Importancia práctica La variabilidad de secuencias de genes y de proteínas de los múltiples organismos utilizadas en esta tesis, implica que la complejidad de los procedimientos matemático-.

(11) Introducción. 9. computacionales a realizar, para minimizar los errores tautológicos derivados de los multialinemientos de las secuencias biológicas, requiere de una logística computacional e intelectualmente multidisciplinaría muy costosa y poco frecuente en los grupos de trabajo de Bioinformática. Luego, el procedimiento que se propone en este trabajo puede resultar una alternativa muy útil. Estructura del trabajo La tesis ha sido estructurada de la siguiente forma: introducción, 4 capítulos, conclusiones, recomendaciones y anexos. En el capítulo 1 desarrollamos el marco teórico que le permita al lector un conocimiento general del tema abordado y la comprensión de los capítulos siguientes. En el capítulo 2 nos proponemos dra cumplimiento a la primera tarea de nuestro trabajo, explicando con detalles la conformación de estas bases de datos. El tercer capítulo está destinado a describir las pruebas estadísticas realizadas con el SPSS y un cuarto capítulo donde se expone lo relacionado con las relaciones evolutivas encontradas a partir del procesamiento de estas bases de datos. Finalmente aparecen las conclusiones del trabajo..

(12) Bases biológicas y matemáticas. 10. 1. BASES BIOLÓGICAS Y MATEMÁTICAS En este capítulo se realiza una descripción de las bases teóricas que conducen a las aplicaciones que tiene hoy en día el estudio molecular. Primeramente, se describe un sumario biológico con aquellos términos más usados, elementos importantes del código genético y aspectos biológicos de la evolución molecular. Posteriormente, se presentan una descripción de las herramientas estadísticas y bioinformáticas usadas en el trabajo.. 1.1.. Sumario Biológico Teórico. Algunos de los términos biológicos usados en el trabajo son lo que siguen: Especie son agrupamientos de poblaciones naturales intercruzantes, con las mismas características, que ocupan una determinada área geográfica y están reproductivamente aisladas de otros grupos. Taxón: (del griego taxis = arreglo, poner orden) Término aplicado a un grupo de organismos situado en una categoría de un nivel determinado en un esquema de clasificación taxonómica. Taxonomía: (del griego taxis = arreglo, poner orden; nomos = ley): Método sistemático de clasificar plantas y animales. Clasificación de organismos basada en el grado de similitud, las agrupaciones representan relaciones evolutivas (filogenéticas). Micro Taxonomía es la taxonomía que trata los organismos a nivel de especies y poblaciones. Macro Taxonomía es la taxonomía que trata los organismos a nivel de las categorías superiores como género, familia, orden, etc. El proteoma es el conjunto completo de proteínas que se expresan en el genoma. Algunos genes codifican para múltiples proteínas, el tamaño del proteoma es mayor que el número de genes. A veces el término se usa para describir el comportamiento de proteínas expresadas por una célula en un momento.. Puede usarse para referirse al juego de. proteínas codificadas por el genoma entero o en particular para cualquier célula o tejido. El genoma es el juego completo de genes de un organismo. Se define por la sucesión de ADN completa, aunque en la práctica no puede ser posible identificar exactamente cada gen solamente en base a la sucesión que lo representa..

(13) Bases biológicas y matemáticas. 11. El transcriptoma es el juego completo de genes expresado bajo particulares condiciones. Se define como el juego de moléculas de ARN que están presentes, y puede referirse a un solo tipo de célula o a la unión más compleja de células o al organismo completo. Como algunos genes generan el mRNAs múltiple, es probable que el transcriptoma sea más grande que el número de genes definido directamente en el genoma. Las proteínas pueden funcionar independientemente o como parte del multiprotein. Si se pudieran identificar todas las interacciones entre proteínas, podríamos definir el número total de dominios independientes de proteínas. Ortólogos son las proteínas correspondientes en dos especies diferentes en sucesiones homólogas. Por lo general contamos que dos genes en organismos diferentes, proporcionan funciones correspondientes si sus secuencias son similares sobre el 80 % de la longitud, Figura 1.1.1. Según este criterio, el 20 % aproximadamente de los genes de mosca tiene ortólogos tanto en la levadura como en el gusano. Todo el reino eucariotes posiblemente requiere estos genes. La proporción. aumenta al 30 % cuando la mosca y el gusano son comparados, representando la adición de las funciones que son comunes al reino eucariotes multicelular [1].. Figura 1.1.1. Las proteínas Ortólogos.. Los genes quehaceres domésticos (gen Constitutivo) son aquéllos (teóricamente) expresados en todas las células porque ellos proporcionan funciones básicas necesarias para el sustento de todos los organismos celulares..

(14) Bases biológicas y matemáticas. 12. El estudio de las secuencias genómicas puede ayudar a la comprensión de la función de las proteínas y los genes. Los estudios de proteína y evolución del gen involucran la comparación de sucesiones homólogas que tienen los orígenes comunes pero pueden o no tener una actividad común. Sucesiones que comparten un arbitrario nivel de similitud determinado por la alineación de emparejar las bases son homólogas. Ellos se heredan de un común antepasado que tenía estructura similar, aunque la estructura del antepasado puede ser difícil de determinar porque se ha modificado a través del descenso. Homólogos son la mayoría normalmente cualquier ortólogo, parólogos, o xenólogos. Ortólogos son homólogos producidos por la especiación. Ellos representan genes derivados de un antepasado común que divergió, son asociados con la deuda de la divergencia de los organismos, tienden a tener función similar. Parólogos son homólogos producidos por la duplicación del gen. Ellos representan los genes derivados de un gen hereditario común que se reprodujo dentro de un organismo y entonces como consecuencia divergido, tienden a tener las funciones diferentes. Xenólogos son homólogos que son el resultado del traslado del gen horizontal entre dos organismos. Arqueo bacterias (del griego arkhaios = antiguo; bakterion = bastón: grupo de procariotas de unos 3.500 millones de años de antigüedad, presentan una serie de características diferenciales que hicieron que Carl Woese profesor de la Universidad de Illinois, Urbana, U.S.A., proponga su separación del reino Moneras y la creación de uno nuevo: Archaea, propuesta que hoy es aceptada. ARN ribosómico: Uno de los tres tipos de ARN, el ARNr es un componente estructural de los ribosomas. Son el "core" (parte principal) de los ribosomas y posiblemente la clave del mecanismo de traducción de las proteínas. Su estudio comparativo llevó a postulación de un Árbol Filogenético Universal. Eubacterias (del griego eu = bueno, verdadero; bakterion = bastón): subgrupo del reino Monera que incluye a las bacterias verdaderas como Escherichia coli Eucariotas (del griego eu = bueno, verdadero; karyon = núcleo, nuez): organismos caracterizados por poseer células con un núcleo verdadero rodeado por membrana. El registro arqueológico muestra su presencia en rocas de aproximadamente 1.200 a 1500 millones de años de antigüedad..

(15) Bases biológicas y matemáticas. 13. Filogenía (del griego phylon = raza, tribu): 1) el estudio de relaciones evolutivas en un grupo. 2) hipótesis evolutiva representada en un diagrama como un "árbol evolutivo". 3) estudio de la formación y la evolución de los organismos, con el objeto de establecer su parentesco. Genes (del griego genos = nacimiento, raza; del latín genus = raza, origen): segmentos específicos de ADN que controlan las estructuras y funciones celulares; la unidad funcional de la herencia. Secuencia de bases de ADN que usualmente codifican para una secuencia polipeptídica de aminoácidos. LUCA (del ingles, Last Universal Cellular Ancestor): antepasado común de las células modernas equivale a lo que es Lucy en el árbol evolutivo de Homo sapiens, es decir, no la primera célula sino una célula ya evolucionada, con todas las características de sus futuros descendientes: los actuales procariotas y eucariotas (ADN, Código genético, síntesis proteica etc.). Término propuesto en un coloquio de la Fundación Treille:. http://www-. archbac.u-psud.fr/Meetings/LesTreilles Transferencia horizontal de genes: mecanismo por el cual se transmiten genes individuales, o grupos de ellos, de una especie a otra. Secuencia conservada: Secuencia de base en una molécula de ADN (o de aminoácidos en una proteína) que ha permanecido prácticamente intacta a lo largo de la evolución. Evolución paralela o convergente es la evolución de un carácter en dos o más especies, como la aptitud para volar, puede producirse de dos formas. El carácter puede aparecer en un ancestro común a ambas especies y transmitirse por herencia; en este caso se habla de homología. Los caracteres considerados podrían asimismo evolucionar de manera independiente en cada especie. En la evolución paralela se conserva el estado ancestral de las dos especies que comparten el carácter común; en la evolución convergente se modifica el estado ancestral. Por ejemplo la capacidad de volar se ha desarrollado de manera independiente en murciélagos, aves e insectos, además de en grupos ahora extinguidos y conocidos por sus fósiles, como los reptiles llamados pterosaurios. Todos estos animales han desarrollado alas por evolución convergente. Una extinción masiva (también llamado evento a nivel de extinción o ELE por sus siglas en inglés) es un período de tiempo en el cual desaparece un número muy grande de.

(16) Bases biológicas y matemáticas. 14. especies. Por el contrario, se estima que en períodos normales las especies desaparecen a un ritmo de entre dos y cinco familias biológicas de invertebrados marinos y vertebrados cada millón de años. Desde que la vida empezó en la Tierra se han detectado seis sucesos de extinción graves en el eón Fanerozoico.. 1.2.. El código genético y aspectos biológicos de la evolución molecular.. La Biología Teórica actual centra su atención en la investigación de las estructuras básicas de la vida. Una de estas estructuras básicas es el sistema bioquímico que hace posible el flujo de la información genética en los organismos vivos, el código genético. La relación entre las secuencias de ADN y las proteínas correspondientes es llamada código genético [1].. En este sistema se establecen las reglas mediante las cuales toda secuencia de. nucleótidos del ADN, correspondiente a un gen, es transcripta en la secuencia de codones del ARNm y seguidamente es traducida en la secuencia de aminoácidos de la proteína correspondiente. Inicialmente se pensó que el código era universal abarcando a todas las especies vivas pero, posteriormente, fueron encontradas variaciones nucleares y mitocondriales [2] (para una revisión ver [3]). Sin embargo, estas variaciones son limitadas y corresponden esencialmente a reasignaciones de uno o varios codones a otros aminoácidos. Luego, el código genético puede ser considerado, con justicia, universal [4]. El código genético es la piedra angular del sistema de información genética. Consecuentemente, es de esperar que toda construcción teórica que intente explicar las relaciones cuantitativas y cualitativas existentes en el sistema de información genética tome como punto de partida el código genético. Lewin también define el código genético como la correspondencia entre los tripletes de bases en el ADN (o en el ARN) y los aminoácidos en las proteínas. En el código genético encontramos que los aminoácidos, excepto el Triptófano (W) y la Metionina (M), son codificados por más de un codón, por lo cual se dice que es un código degenerado. Las reglas mediante las cuales los aminoácidos fueron asignados a los tripletes de base que forman el código genético constituyen un enigma hasta el presente.El conjunto de tripletes de bases o codones que forman el código genético es una extensión del alfabeto de cuatro “letras” encontradas en la molécula del ADN..

(17) Bases biológicas y matemáticas. G UGU UGC UGA UGG CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG. Cys C TER Trp W. Arg R. Ser. S. Arg R. Gly G. U C A G U C A G U C A G U C A G. Tercera base del Codón. Primera base del Codón. Tabla 1.2.1. Tabla del código genético estándar a, b. Segunda base del Codón U C A UUU UCU UAU Phe F Tyr Y UUC UCC UAC U Ser S UUA UCA UAA TER UUG UCG UAG CUU CCU CAU Leu L His H CUC CCC CAC C Pro P CUA CCA CAA Gln Q CUG CCG CAG AUU ACU AAU Asn N AUC Ile I ACC AAC A Thr T AUA ACA AAA Lys K AUG Met M ACG AAG GUU GCU GAU Asp D GUC GCC GAC G Val V Ala A GUA GCA GAA Glu E GUG GCG GAG U C A. 15. G. a. Los aminoácidos codificados por cada codón se representan con el símbolo de tres letras y el símbolo de una letra. b El codón AUG es utilizado con mayor frecuencia como codón de inicio de la transcripción y codifica para el aminoácido Metionina (Met). Los codones UAA, UAG y UGA (TER) son marcadores del final de los genes.. Estas “letras” son las bases nitrogenadas del ADN: adenina, guanina, citosina y timina, las cuales son denotadas usualmente como A, G, C y T respectivamente (en la molécula del ARN la base T es cambiada por el uracilo, U). En la doble hélice formada por el ADN, la base G es complementaria de la base C y la base A es complementaria de la base T. Estas bases están apareadas en la doble hélice de acuerdo con la siguiente regla: GC, AT, donde ‘’ simboliza un puente de hidrógeno. El código genético estándar (Tabla 1.2.1) puede ser considerado, con toda justicia, universal [4], pues solo existen algunas variaciones en mitocondrias, bacterias y algunos eucariotes unicelulares (para una revisión ver [3]). Sin embargo, estas variaciones son limitadas y corresponden esencialmente a reasignaciones de uno o varios codones a otros.

(18) Bases biológicas y matemáticas. 16. aminoácidos. Los códigos genéticos conocidos han sido usualmente representados en tablas de cuatro entradas donde los codones están localizados atendiendo a la segunda base.. Estas. tablas. pueden. encontrarse. en. la. página. web. (del. NCBI):. http://130.14.29.110/Taxonomy/Utils/wprintgc.cgi?mode=c.. En la tabla del código genético estándar tres entradas corresponden a los cambios de bases en los codones, realizados de acuerdo a diferentes criterios. Como resultado, los aminoácidos hidrofóbicos e hidrofílicos quedan localizados en diferentes columnas. De la observación del código genético se destaca que la degeneración del código implica solamente a la tercera posición del codón en la mayoría de los casos (son excepciones la Arginina (R), la Leucina (L) y la Serina (S) (Tabla 1.2.1). De esta forma resulta que las dos primeras bases de cada codón son las determinantes principales de su especificidad. La posición tercera, esto es, el nucleótido situado en el extremo 3’ del codón tiene menor importancia y no encaja con tanta precisión, está suelto y tiende a “vacilar” según expresiones de F. H. C. Crick [2]. De manera que en la tabla del código estándar localizamos una partición natural en cuatro grupos de aminoácidos atendiendo a la base encontrada en la segunda posición: los aminoácidos cuyos codones poseen en la segunda posición la base U, los que poseen A, los que poseen G y los que poseen C (Tabla 1.2.1). Esta partición resalta una diferencia en las propiedades fisicoquímicas de los aminoácidos; por ejemplo, los aminoácidos que tienen U en la segunda posición de sus codones son hidrofóbicos: {I, L, M, F}1, mientras que los aminoácidos que tienen A en la segunda posición son hidrofílicos (también conocidos como aminoácidos polares): {D, E, H, N, K, Q, Y} [2]. Tales observaciones llevaron a Epstein señalar que los aminoácidos afines deben tener alguna relación extendida entre sus codones [5, 6]. Las regularidades observadas en el código genético ampliamente discutidas en [2] sugirieron desde su descubrimiento que la asignación de los aminoácidos a los codones no debió ocurrir al azar [2, 7]. La tendencia a representar aminoácidos similares por codones similares minimiza los efectos de las mutaciones. Este hecho incrementa la probabilidad de que un simple cambio de base no resulte en la sustitución de un aminoácido por otro o, al menos, involucre aminoácidos con propiedades fisicoquímicas similares [2]. 1. Aunque no es indispensable para la comprensión de texto, si el lector está interesado, el nombre del aminoácido correspondiente a cada símbolo lo puede encontrar en la sección 2.2..

(19) Bases biológicas y matemáticas. 17. Por otra parte algunos autores han planteado que el código genético está optimizado y fijado [7, 8]; aunque autores, como Woese y Gillis y colaboradores, han sugerido que el código genético pudo ser optimizado para limitar los errores en los procesos de transcripción y de traducción [4, 9]. En realidad, parece que el código genético ha evolucionado en la dirección de minimizar las consecuencias de los errores producidos durante la transcripción y la traducción [10]. Un código genético óptimo se refiere a una asignación óptima de los aminoácidos a los codones de manera tal que los efectos negativos causados por los eventos mutacionales durante el proceso de evolución molecular sean minimizados [23,24]. La importancia de la posición de las bases es sugerida por las frecuencias de errores encontradas en los codones. En otras palabras, los errores −mutaciones fijadas en la población de genes− en la tercera base del codón son más frecuentes que en la primera y estos a su vez son más frecuentes que los errores en la segunda base [9, 11-13]. Estas posiciones son, sin embargo, más conservativas con respecto a los cambios en la polaridad de los aminoácidos codificados [14]. Como consecuencia, los efectos de las mutaciones están reducidos en los genes y las mutaciones fijadas en la población decrecen desde la tercera base a la segunda. En los diferentes organismos (especies) existen diferencias en cuanto al uso que se hace de cada codón [15]. Se ha determinado que existe un uso preferencial de algunos codones sinónimos sobre otros, de manera que algunos codones son más frecuentemente usados que otros (ver por ejemplo. http://www.kazusa.or.jp/codon) y cada especie tiene sus codones “preferidos” o codones más frecuentemente usados. Esto significa que muestran un sesgo en el uso de los codones sinónimos. El uso de los codones no es al azar y puede estar asociado a varios factores tales como el nivel de expresión genética [16], la longitud del gen [17] y la estructura secundaria de las proteínas [17- 21]. Y aún más, para la mayoría de los aminoácidos en todas las especies vivas existe una asociación altamente significativa con la función del gen correspondiente, indicando que, en general, el uso de codones al nivel de aminoácidos individuales está estrechamente coordinado con la función del gen [22]. Esto nos sugiere que para los codones existen diferencias cuantitativas en valores que son expresados en las secuencias de codones de los genes. Estas diferencias cuantitativas precisamente nos posibilitan una descripción formal,.

(20) Bases biológicas y matemáticas. 18. mediante modelos matemáticos, de las relaciones existentes entre los codones y entre los genes.. 1.3. Herramientas estadísticas y bioinformáticas El cálculo de probabilidades suministra las reglas apropiadas para cuantificar la incertidumbre y constituye la base para la estadística inductiva o inferencial. Las medidas no paramétricas de divergencia entre distribuciones de probabilidad se definen como expresiones funcionales, que miden el grado de discrepancia entre dos distribuciones cualesquiera, no necesariamente pertenecientes a una misma familia paramétrica. Después de los trabajos pioneros de Pearson (prueba ji-cuadrado) y Hellinger (la famosa distancia de Hellinger, publicada en 1909), medida de distancia definida sobre el espacio de las distribuciones de probabilidad, otros autores han estudiado divergencias (Shannon, Kullbach y Leibler, Renyi, etc). La divergencia aplicada a distribuciones de probabilidad serían introducidas por Csiszar (1963, 1967, 1972, 1975), estudiadas en diferentes versiones por Matusita (1955, 1964), Havrda y Charvat (1967), Vajda (1972) y generalizadas por Burbea y Rao (1982). Las divergencias tienen aplicaciones en inferencia estadística y en procesos estocásticos. Para desarrollar nuestra investigación como herramientas estadísticas se usaron del SPSS el análisis CHAID y el Discriminante, para evaluar el desempeño de estos clasificadores se realizaron las curvas ROC y se calcularon los parámetros a partir de la matriz de confusión. Como herramienta Bioinformática se uso el MEGA4.. A continuación. describimos algunos aspectos técnicos de estas herrmientas.. 1.3.1.. CHAID, Chi-squared Automatic Interaction Detector. El método detector de interacciones basado en chi-cuadrado (CHAID) surge como una técnica de segmentación [33]. Su propósito es segmentar o dividir una población en dos o más grupos en las categorías del mejor predictor de una variable dependiente. El algoritmo se basa en la prueba chi-cuadrado para seleccionar la mejor división en cada paso, la división se realiza hasta que no haya más variables predictoras significativas o hasta que se satisfaga algún otro criterio de parada, relacionado por ejemplo con el número mínimo de casos en un nodo para analizar su divisibilidad..

(21) Bases biológicas y matemáticas. 19. En un estudio real existen frecuentemente múltiples variables (predictivas o independientes) que pueden tener asociación con una variable dependiente y además efectos de interacción entre ellas sobre dicha variable dependiente. La presentación de muchas tablas de contingencia, no siempre refleja las asociaciones esenciales, y usualmente se convierte en un listado inútil de tablas que desinforman en lugar de orientar, aun cuando se utilicen estadísticos (como la V de Cramer) para ordenar la fortaleza de las asociaciones. Un estudio multivariado trata de enfocar el efecto posible de todas las variables conjuntamente incluyendo sus posibles correlaciones; pero puede ser particularmente interesante, si considera además la posibilidad de la interacción entre las variables predictivas sobre la variable dependiente. Cuando el número de variables crece, el conjunto de las posibles interacciones crece en demasía, resulta prácticamente imposible analizarlas todas y por ello adquiere especial interés una técnica de detección automática de interacciones fundamentales. CHAID es exactamente eso, es útil en todos aquellos problemas en que se quiera subdividir una población a partir de una variable dependiente, y posibles variables predictivas que cambien los valores de la variable dependiente en cada una de las subpoblaciones o segmentos. La técnica de CHAID es capaz de segmentar la población en grupos de acuerdo con determinados valores de las variables y sus interacciones que distinguen de forma óptima, diferencias esenciales en el comportamiento de la variable dependiente (CHAID 1994). Un análisis de CHAID automático comienza dividiendo la población total en dos o más subgrupos distintos basado en las categorías del mejor predictor de la variable dependiente (en principio por el estadígrafo chi-cuadrado de Pearson) [27]. Divide cada uno de estos subgrupos en pequeños sub-subgrupos y así sucesivamente. CHAID visualiza los resultados de la segmentación en forma de un diagrama tipo árbol cuyas ramas (nodos) corresponden a los grupos (subgrupos conformados en cada nivel). Entiéndase en este caso que está seleccionando sucesivamente las variables más significativamente asociadas con la clase y las variables que deben ser fuentes de estratificaciones sucesivas.. 1.3.2.. Analisis Discriminante.. Las técnicas de comparación Multivariada que se basan en particular en la construcción de una función de clasificación –conocida como análisis discriminante – han sido.

(22) Bases biológicas y matemáticas. 20. desarrolladas recientemente comparadas con otras técnicas. Las primeras ideas surgen en la cuarta década del siglo XX, relacionadas precisamente con investigaciones biológicas y antropométricas, y desarrolladas fundamentalmente por Mahalonobis (1930) y Fischer (1936). Son las técnicas de comparación Multivariada más ricas porque permiten la distinción general de los grupos, la determinación del orden de importancia de las variables discriminantes o distintivas y la precisión de una variable aleatoria discreta (Grupo) respecto a m variables en principio continuas o al menos ordinales: Para determinar el orden de importancia de las variables. X1. X2  Xm.  X 1 , X 2 ,, X m . en la. clasificación, se puede utilizar el coeficiente de correlación de estas variables con la función discriminante y tener una medida de las posibilidades de error. La interpretación de la no presencia de una variable en la ecuación no puede ser interpretada como la independencia del proceso de clasificación respecto a esta variable pues de hecho en la ecuación puede haber otras variables que se correlacionan fuertemente con ésta. En definitiva la importancia absoluta de una variable la sigue brindando la significación del coeficiente de correlación de esa variable con la función, esté o no ella en la ecuación. Usualmente se exige que el por ciento de casos bien clasificados del total de la muestra no sea inferior a un 75% para que el criterio de clasificación sea considerado bastante bueno; pero este porcentaje “mínimo” puede variar sobre todo en el sentido de ser más exigente, en dependencia de los requisitos y características de la investigación. La lambda de Wilks es otro estadístico que permite evaluar la hipótesis de que dos o más grupos provienen de poblaciones con las mismas medias para un conjunto de variables. El valor de esta lambda siempre está entre 0 y 1. Grandes valores de lambda indican que los grupos no parecen ser diferentes (en el caso de lambda igual a 1 los grupos fueran el mismo). Valores de lambda pequeños indican diferencias entre las medias de grupos. Precisamente por esto en cada paso del análisis discriminante se introduce la variable que más contribuye a la reducción de lambda entre los grupos. El estadístico lambda a veces se refiere en la literatura como estadístico U del análisis multivariado y se considera uno de los mejores criterios de comparación Multivariada y poco sensible a hipótesis de normalidad..

(23) Bases biológicas y matemáticas. 21. Existen varios métodos de análisis discriminante que pueden conducir a diferentes funciones de clasificación. En general estos métodos parten de hipótesis de normalidad conjunta de la variable vectorial.  X. entre los grupos; pero en última instancia y sobre. todo, en la normalidad de la variable que define la función discriminante:. F   0  1 X 1   2 X 2     m X m Esto permite que podamos utilizar variables X j.  i  1, m que no tienen necesariamente. una distribución normal conjunta, de hecho podemos utilizar incluso variables ordinales siempre y cuando la función discriminante resultante cumpla las condiciones de normalidad. Si se desea utilizar una variable nominal con k valores posibles, es conveniente sustituirla por k – 1 variables con valores (-1, 0, 1) como se hace en la regresión lineal múltiple. La validez del análisis discriminante es menos sensible a la violación de la hipótesis de homogeneidad de covarianza si los volúmenes de las muestras son iguales. Se recomienda por ello utilizar diseños equilibrados.. 1.3.3. El desempeño de los clasificadores usados. Matrices de confusión y las curvas ROC (Curva característica de operación del receptor) El desempeño de un clasificador y sus diferentes alternativas de uso son validadas siguiendo los criterios clásicos de evaluación, en el trabajo se usan los parámetros de las matrices de confusión y las curvas ROC. Las matrices de confusión contienen información acerca de los valores reales y las clasificaciones predichas hechas por cualquier sistema de clasificación. El desempeño de un sistema es usualmente evaluado usando los datos en dicha matriz. Clase verdadera Pos. Neg. pos. TP. FP. neg. FN. TN. P. N. Clase Predicha Total columna. Figura1.3.3.1. Matriz de confusión..

(24) Bases biológicas y matemáticas. 22. En la Figura1.3.3.1 se muestra la matriz de confusión de un problema para dos clases, donde Pos/pos es la clase positiva y Neg/neg la clase negativa; TP y TN son los elementos bien clasificados de la clase positiva y negativa respectivamente. FP y FN son los elementos negativos y positivos mal clasificados respectivamente. Han sido definidos varios términos estándar para medir el desempeño de un clasificador [26], de uso general en cualquier rama donde se apliquen sistemas de clasificación: La Exactitud (Ac, del inglés Accuracy) es la proporción del número total de predicciones TP  TN que fueron correctas: Exactitud  PN La Razón de Verdaderos Positivos (TP, del inglés True Positive Rate), es la proporción de casos positivos que fueron correctamente identificados:. tp. rate . TP  recall  sensitivity P. La Razón de Verdaderos Negativos (TN, del inglés True Negative Rate) es la proporción de casos negativos que han sido correctamente clasificados:. tn rate . TN  specificit y N. Finalmente, la Precisión (P, en inglés, también Precisión) es la proporción de casos TP predichos positivos que fueron correctos: precisión  TP  FP La Razón de Falsos Negativos (FN, del inglés False Negative Rate es la proporción de casos positivos que fueron incorrectamente clasificados como negativos: fn. rate . FN P. La Razón de Falsos Positivos (FP, del inglés False Positive Rate) es la proporción de FP casos negativos que han sido incorrectamente clasificados como positivos: fp rate  N Cuando el problema de clasificación abarca más de 2 clases, digamos tres clases, hay una TP rate para cada clase. Otra forma de evaluar el rendimiento de un clasificador es por las curvas ROC (Receiver Operator Characteristic, Curva característica de operación del receptor) (Fawcett 2004) [25]. En esta curva se representa el valor de razón de TP vs la razón de FP, mediante la variación del umbral de decisión. Se denomina umbral de decisión a aquel que decide si una instancia x, a partir del vector de salida del clasificador, pertenece o no a cada una de las clases. Usualmente, en el caso de dos clases se toma como umbral por defecto 0.5; pero esto no es siempre lo más conveniente. Se usa el área bajo esta curva, denominada AUC (Área Under the Curve, área bajo la curva ROC) como un indicador de la calidad del clasificador. En tanto dicha área esté más cercana a 1, el comportamiento del clasificador.

(25) Bases biológicas y matemáticas. 23. está más cercano al clasificador perfecto (aquel que lograría 100% de TP con un 0% de FP). Una curva ROC es un gráfico con la Razón de Falsos Positivos (FP=1-Sp) en el eje X y la Razón de Verdaderos Positivos (TPrate) en el eje Y. Las curvas quedan en el cuadrado [0,1] x [0,1]. El vértice superior izquierdo de este cuadrado: (0,1) representa al clasificador perfecto porque clasifica todos los casos positivos y todos los casos negativos correctamente pues FPrate=0 y TPrate=1. El vértice inferior izquierdo (0,0) representa un clasificador que predice todos los casos como negativos, mientras que el vértice superior derecho (1,1) corresponde a un clasificador que predice todos los casos como positivos. El punto (1,0) es un clasificador pésimo o estúpido que resulta incorrecto en todas las clasificaciones. Una curva (o un punto) ROC es independiente de la distribución de las clases o el costo de los errores, es decir, no depende de que en la base de aprendizaje haya más casos negativos que positivos o viceversa. Una curva ROC resume toda la información contenida en la matriz de confusión ya que FNrate es el complemento de TPrate y TNrate es el complemento de FPrate. Las curvas ROC constituyen una herramienta visual para examinar el equilibrio entre la habilidad de un clasificador para identificar correctamente los casos positivos y el número de casos negativos que están incorrectamente clasificados. El área bajo la curva ROC puede ser usada como una medida de la exactitud en muchas aplicaciones. Si se comparan dos clasificadores, a través de sendas curvas ROC podemos decidir en general que la de mayor área bajo ella identifica al mejor clasificador. Cuando el problema de clasificación abarca más de 2 clases, digamos tres clases, habrá que hacer una curva ROC para cada clase y se tendrá un área bajo cada una de las curvas.. 1.3.4. MEGA: “Molecular Evolutionary Genetics Analysis” MEGA es un instrumento integrado para conducir la alineación de secuencia automática y manual, deduciendo filogenéticamente árboles, extrayendo de bases de datos de web, estimando las tarifas de evolución molecular y probando hipótesis evolutivas [32]..

(26) Bases biológicas y matemáticas. 24. Las relaciones filogenéticas de genes u organismos normalmente se presentan en árboles formados con una raíz que se llama un árbol arraigado. También es posible dibujar un árbol sin una raíz. El modelo de la bifurcación del árbol se llama una topología. Hay numerosos métodos para construir los árboles filogenéticos de datos moleculares (Nei y Kumar 2000). Ellos pueden ser clasificados en los métodos de Distancia, métodos de parsimonia y métodos de Probabilidad. UPGMA es un método que asume que la proporción de nucleotide o substitución del aminoácido es el mismo para todos los linajes evolutivos. Un aspecto interesante de este método es que él produce un árbol que imita un árbol de la especie. El MEGA4 brinda la posibildad al usuario de introducir su propia matriz de distancia para construir los árboles filogenéticos. Esta posibilidad fue aprovechada en nuestro trabajo..

(27) Construcción de las bases de datos y preparación de las mismas. 2.. 25. CONSTRUCCIÓN DE LAS BASES DE DATOS Y PREPARACIÓN DE LAS MISMAS. La comparación de la sucesión del genoma humana con sucesiones encontradas en otras especies de organismos vivos es revelador del proceso de evolución, en nuestro trabajo se construyen dos bases de datos con 9 grupos de organismos(archaea, bacterias, invertebrados, insectos, plantas, vertebrados que no son mamíferos, mamíferos que no son primates, primates y homo sapiens), ellas se componen una de cadenas de aminoácidos ver Anexo2 y otra de la frecuencia del uso de codones ver Anexo 3, ambas extraídas de Internet, la primera de Direct public access to the National Library of Medicine's Medline Biomedical literature search engine through the NCBI. www.ncbi.nlm.nih.gov/entrez (PubMed) y la segunda de Codon Usage Database. Los grandes bancos de datos existentes en el mundo, dentro de los que se encuentran los usados por nosotros, se caracterizan por reunir las proteínas con gran variedad, dentro de las que se encuentran aquellas que podrían falsear nuestra información por su carácter de proteína conservadas dentro del proceso evolutivo de las especies, por lo que se realizó un minucioso trabajo de selección de las proteínas representativas en cada especie en cuestión. Además de contar con una representatividad de organismos y de proteínas en cada grupo, consideramos necesario explicar que los resultados obtenidos en la investigación muestran en determinados momentos aquellos datos presentes en la literatura, [1] como ejemplo en la Figura 2.1, donde se analizan los genes según su distribución en la naturaleza. Empezando con los más representativos, 21% de genes son comunes a eucariotas y procariotas. Éstos tienden a codificar para proteínas que son esenciales para todos los organismos vivientes - el metabolismo típicamente básico, repetición, trascripción, y traducción. Moviéndonos. en el sentido de las agujas del reloj, el 33% de genes se presentan. generalmente en los organismos eucariotes. Éstos tienden a codificar para las proteínas involucradas en funciones que son generales a las células eucariotas pero no a las bacterias - por ejemplo, ellos pueden tener relación con especificar organelas o componentes del citoesqueleto. Otro 24% de genes sin especificar los vertebrados que incluyen son necesarios para el multicelularismo y para el desarrollo de diferentes tipos de tejidos. Y el 22% de los genes son únicos de los vertebrados mamíferos..

(28) Construcción de las bases de datos y preparación de las mismas. 26. Figura 2.1. Distribución de los genes en la naturaleza según las funciones necesarias para la vida. Éstos principalmente codifican para las proteínas de los sistemas inmune y nervioso; ellos codifican para muy pocas enzimas, relacionado con la idea que las enzimas tienen orígenes antiguos, y que las funciones metabólicas se originaron temprano en el proceso de evolución. Observamos, por consiguiente, que la progresión de las bacterias a los vertebrados requiere la suma de grupos de genes que representan las nuevas funciones necesarias en cada fase. Una manera de definir las proteínas normalmente necesitadas es identificar las proteínas presentes en todos los proteomas [1]. Comparando el proteoma humano en más detalle con los proteomas de otros organismos, 46% del proteoma de levadura, 43% del proteoma del gusano, y 61% del proteoma de la mosca están presentes en el proteoma humano. Un grupo importante de aproximadamente 1300 de las proteínas están presentes en los cuatro proteomas. Las proteínas comunes son básicas, aquellas requeridas para las funciones esenciales lo cual queda resumido en Figura 2.2. Las funciones principales se representan por la trascripción y. la traducción (35%), metabolismo (22%), transporte (12%),. repetición de ADN y la modificación (10%), proteína de plegado y degradación (8%), y el resto representan otros procesos celulares..

(29) Construcción de las bases de datos y preparación de las mismas. 27. Figura 2.2 Distribución de los genes según los procesos celulares que realizan. Uno de los rasgos llamativos del proteoma humano es que tiene muchas nuevas proteínas comparándolo con otros organismos eucariotes, pero tiene relativamente pocos nuevos dominios de la proteína. La mayoría de los dominios de las proteínas parecen ser comunes al reino animal. Hay sin embargo, muchas nuevas arquitecturas de la proteína, definidas como las nuevas combinaciones de dominios. Además de los genes funcionales, hay también copias de genes que se han convertido en genes no funcionales (identificados como tal por las interrupciones en las sucesiones de proteína codificadas). Éstos se llaman pseudos genes (vea Molecular Biology 1.4.6 Pseudogenes are dead ends of evolution). El número de pseudos genes puede ser grande. En el ratón y en el genoma humano, el número de pseudo genes es aproximadamente el 10% del número de genes potencialmente activos. Teniendo en cuenta las razones expuestas anteriormente, la selección de las bases de datos fue primordial para el logro de nuestros objetivos.. 2.1.. Construcción de las bases de datos.. La base de datos de proteínas para el entrenamiento esta formada por los nueve grupos nombrados anteriormente cada uno con aproximadamente 1000 cadenas y una variedad en cuanto a organismos y tipos de proteínas ver Tabla 2.1.1, esta base es nombrada en el trabajo como base curada por la selección minuciosa tanto de los organismos como de los.

(30) Construcción de las bases de datos y preparación de las mismas. 28. tipos de proteínas que la forman. Luego se confeccionó una base de datos para validar resultados, esta la nombramos base no curada la que esta formada por los mismos nueve taxa nombrados, pero con alrededor de 500 cadenas de aminoácidos y sin hacer ningún tipo de selección en lo que se refiere a proteínas que la forman. Para los análisis realizados en las taxa: archaea-bacteria, archaea-bacteria-eucariotes, vertebrados-invertebrados, vertebrados no mamiferos-mamiferos y homo sapiens-primates, se uso el 70% de la base que llamamos extendida que está constituida por la unión de la base curada más la no curada. Además en el caso de la taxa archaea-bacteria-eucariotes se uso la base extendida aumentada en número de cadenas pero sin tener en cuenta ningún tipo de selección de las proteínas ni de los organismos que la forman. En el caso de las taxa vertebradosinvertebrados y vertebrados no mamiferos-mamiferos se reorganizaron todos aquellos organismos que pertenecen a estos grupos aumentando asi el número de secuencias. Tabla 2.1.1. Bases de datos. Proteinas. Grupos de org. Archaea Bacterias Eucariotes Invertebrad os Insectos Plantas Vertebrados Vertebrados no Mamiferos Mamiferos Mamiferos no Primates Primates Homo Sapiens. Base curada Base no curada No. 50 No. 20 de subgrp. de subgrp. Sec. Sec. 1566 31 736 36 1334 26 449 22 1221. 24. 768. 38. 1010 1762. 20 35. 743 488. 37 24. 1498. 29. 440. 21. 1593. 31. 519. 25. 1473 897. 29 28. 394 1162. 19 55. Uso de Codones Base extendida Base curada Subgrps/ No. de No. 50 No. de Sec. de subgrp. Sec. Sec. 200/139 27844 1317 26 200/28 5667 830 26 200/124 24927 100/37 3742 2187 43. 100/93 100/19. 9387 1938. 100/74. 7450. 70/26 70/20. 1867 2059. 979 2114. 19 42. 1465. 29. 2036. 40. 1831 1821. 36 36.

(31) Construcción de las bases de datos y preparación de las mismas. 29. En la base de datos referida al uso de codones contamos al igual que la anterior con el mismo número de taxa cada una con alrededor de 1000 cadenas y la variedad en cuanto a tipo proteínas y especies que la forman, ver Tabla 2.1.1. Los análisis se realizaron solo con la base curada, no se formaron bases externas pues ello hubiera requerido mayor tiempo y otros objetivos no trazados en este trabajo.. 2.2.. Cálculo de los vectores NECk a partir de las bases de secuencias.. Los sistemas vivos, jerarquizados son altamente complejos ya desde el inicio de la vida misma [35]. Una bacteria tiene un sistema génico complejísimo muy similar al de cualquier Metazoo [28]. Las formas más elementales de estos comparten con los Metazoos más evolucionados, como los mamíferos, idénticas porciones de sus genomas. Estos hechos conducen directamente al planteamiento del problema que da lugar al trabajo de tesis, el cual acarrea definir el concepto de “número estimado de codones” (NEC). El concepto de NEC es derivado de la degeneración del código genético estándar (CGS) y de la existencia de un uso diferenciado de codones para cada especie (ver sección 1.1). Si se supone que el proceso de síntesis de proteínas ha sido optimizado y adaptado a las variaciones ambientales durante el proceso de evolución molecular que dio lugar a la especiación entonces, se debe esperar que, mientras mayor sea la frecuencia observada de un aminoácido faa en los genomas de los organismos vivos, mayor será, en general, su representación en la tabla del CGS. El NECk que codifican para el aminoácido k puede definirse como:. NEC k . f aak. i 1 f aai 20. 61. (2.2.1). donde k = 1,…, 20 y el número 61 hace referencia al número total de codones en la tabla del CGS que codifican para los aminoácidos. Como se muestra en la Tabla 2.2.1 existe una correlación positiva entre el NEC y las frecuencias faa en las proteínas y los genomas de Archaeas, Bacterias y Eucariotes. Sin embargo, las frecuencias faa deben de estar afectadas por el uso de codones (ver sección 1.1), de manera que, como se aprecia en la Tabla 2.2.1, para cada aminoácido el NEC difiere en alguna medida del número de codones que codifican para dicho aminoácido en la tabla del CGS (ver Tabla 1.2.1 y Tabla 2.2.1)..

(32) Construcción de las bases de datos y preparación de las mismas. 30. Tabla 2.2.1. Correlación entre el NEC y las frecuencias faa en las proteínas y los genomas de Archaeas, Bacterias y Eucariotes.a No. Archaeas Bacterias Eucariotes Aminoácido Todos Frec. Aa c Codonesb % % % Ala 4 4.789 4.929 3.953 4.758 4.697 Arg 6 3.611 3.044 3.196 3.190 3.111 Asp 2 3.337 3.087 3.239 3.166 3.172 Asn 2 2.074 2.824 2.904 2.666 2.623 Cys 2 0.543 0.610 1.135 0.671 1.220 Glu 2 4.752 3.874 4.050 4.099 3.782 Gln 2 1.159 2.373 2.611 2.105 2.501 Gly 4 4.569 4.087 3.587 4.130 4.514 His 2 1.037 1.263 1.470 1.238 1.403 Ile 3 4.630 4.301 3.343 4.240 3.233 Leu 6 5.887 6.417 5.704 6.192 5.551 Lys 2 3.684 3.922 3.843 3.855 3.599 Met 1 1.519 1.336 1.421 1.391 1.464 Phe 2 2.440 2.788 2.562 2.678 2.440 Pro 4 2.702 2.434 3.142 2.599 3.111 Ser 6 3.617 3.770 5.185 3.941 4.209 Thr 4 2.910 3.142 3.398 3.123 3.599 Trp 1 0.628 0.671 0.689 0.665 0.854 Tyr 2 2.245 1.970 1.848 2.013 1.952 Val 4 4.862 4.191 3.715 4.276 4.026 Coef. Corr. 0.634 0.643 0.743 0.666 0.735 Pearson d a. Frecuencias de aminoácidos en 8 genomas de archaeas, 22 genomas de bacterias y 5 genomas de eucariotes [29]. b Número de codones que codifican para cada aminoácido en la tabla del CGS (ver Tabla 1.2.1). c Frecuencias de aminoácidos en proteínas [30]. d Todas las correlaciones son altamentente significativas (p < 0.01).. Luego, el NEC constituye una variable que expresa la divergencia existente entre el CGS y el número efectivo funcional de codones. Por ejemplo, en la Tabla 2.2.1 el Ácido Glutámico (Glu) en Eucariotes posee un NEC=4.050, sin embargo en el CGS solo dos codones codifican para este aminácido. Esto no significa que en los organismos eucariotes existen más de dos codones que codifican para el Ácido Glutámico (pues solo hay dos), sino sugiere que, funcionalmente durante la síntesis de proteínas, se garantiza el material necesario (tRNA, enzimas involucradas, etc) para producir un efecto en la eficiencia del proceso de síntesis equivalente al que tendría la existencia de más de dos codones codificantes para dicho aminoácido..

(33) Construcción de las bases de datos y preparación de las mismas. 31. Estos análisis nos sugieren utilizar la variable NEC tal y como se plantea en la hipótesis de investigación. Luego, los vectores NECk (20-dimensionales) se calcularon (Anexo 8) a partir de las secuencias de proteínas y del uso de codones que conforman las bases de datos descritas en las secciones anteriores. Con este propósito cada base de secuencias de proteínas fue particionada en subconjuntos de secuencias en correspondencia con su tamaño.. f aai  k 1 f  Ai , Bk  20. (2.2.2). Como consecuencia a cada taxa le corresponde un conjunto de vectores NECk los cuales fueron utilizados en las pruebas estadísticas que se realizaron para verificar la hipótesis de investigación.. Cuando se parte del uso de codones cada subconjunto de la partición está formado por vectores 64-dimensionales, cada uno de los cuales contiene las frecuencias de uso de los 64 codones del gen que representa. Si ni ( i 1 ni  61 ) denota el número de codones que 20. codifican para el aminoácido i (i =1,..,20), k denota el k-ésimo vector que contiene las frecuencias. f jik. (j = 1,.., ni) de uso de los 64 codones presentes en el k-ésimo gene,. entonces la frecuencia observada. f aai del aminoácido i en un subconjunto conformado por m. genes se estimó como:. f aai  k 1  ji1 f jki m. n. (2.2.3). Como consecuencia, a cada taxa le corresponde un conjunto de vectores NECk estimados por la expresión (2.2.1), los cuales fueron utilizados en las pruebas estadísticas que se realizaron para verificar la hipótesis de investigación.. En una primera etapa se realizaron análisis con la técnica CHAID a las 11 taxa a partir de los resultados obtenidos y con un marcado interés biológico se decide estudiar 6 de estas.

(34) Construcción de las bases de datos y preparación de las mismas. 32. taxa, con la aplicación de otras técnicas, como variables dependientes escogidas una a una: . Taxa1- Archaea, Bacterias, Insectos, Invertebrados, Plantas, Vertebrados no mamíferos, Mamíferos no primate, Primates y Homo Sapiens.. . Taxa2- Archaea, Bacterias.. . Taxa3- Archaea, Bacterias y Eucariotes.. . Taxa4- Archaea, Bacterias e Invertebrados.. . Taxa5- Insectos y otros invertebrados.. . Taxa6- Invertebrados y Vertebrados.. . Taxa7- Vertebrados no mamíferos y Mamíferos (mamíferos no primates, primates y homo sapiens).. . Taxa8- Vertebrados no mamíferos y Mamíferos no primates.. . Taxa9- Mamíferos y Primates (homo sapiens).. . Taxa10- Mamíferos no primates, Primates y Homo Sapiens.. . Taxa11- Primates y Homo Sapiens.. , 20 variables independientes que representan los aminoácidos: . 3 clases de 6 tripletes, para los aminoácidos Serina (S), Leucina (L) y Arginina (R).. . 5 clases de 4 tripletes, para los aminoácidos Treonina (T), Alanina (A), Valina (V), Glycina (G) y Prolina (P).. . 2 clases de 3 tripletes, para la Isoleucina (I) y la señal de parada, respectivamente.. . 9 clases de 2 tripletes, para los aminoácidos ácido Glutámico (E), Glutamina (Q), Asparagina (N), ácido Aspártico (D), Histidina (H), Lisina (K), Tirosina (Y), Cisteína (C), y Fenilalanina (F).. . 2 clases de un solo triplete, para la Metionina (M) y el Triptófano (W)..

(35) Las diferencias en el número esperado de codones y la clasificación evolutiva. 3.. 33. LAS DIFERENCIAS EN EL NÚMERO ESTIMADO DE CODONES Y LA CLASIFICACIÓN EVOLUTIVA.. Las especies se clasifican a través de un sistema jerárquico en el cual cada categoría superior incluye otras inferiores. La teoría y la práctica de clasificar los organismos son el objeto de la Taxonomía. Los taxa se pueden clasificar basándose estrictamente en las relaciones de parentesco o valorizando también las novedades adaptativas que aparecen en los linajes. Sin embargo, existe cierta subjetividad en el proceso de clasificación a este nivel. Con el objetivo de eliminar, en alguna medida, la subjetividad presente, la taxonomía no solo se aprovecha de los datos ofrecidos por áreas clásicas de las ciencias biológicas como la Morfología, la Etología, la Citogenética, la Biología Molecular y la Biogeografía, sino además, de las herramientas desarrolladas por la Bioestadística, la Bioinformática y la Informática, las cuales realizan contribuciones significativas a la taxonomía. El análisis taxonómico está estrechamente vinculado con la historia evolutiva de las especies. Con el propósito de verificar la hipótesis de investigación se aplicaron las técnicas de CHAID y análisis de discriminantes a vectores NECk (20-dimensionales) provenientes de las bases de datos descritas en el capítulo 2. El empleo de dos clasificadores diferentes se debe a que la experiencia acumulada en el campo de la bioinformática ha conducido al consenso de que ninguna técnica por separado dará una solución definitiva o muy eficiente a los problemas de clasificación de secuencias de proteínas o de ADN, producto de las indeterminaciones propias de los procesos biológicos y la presencia de muchos ruidos o ausencia de información. La clasificación con el CHAID se ve limitada desde el punto de vista de que cada clasificador que se obtenga, partiendo de algún aminoácido, involucra no a todos los aminoácidos. Sin embargo, a través de este método se pueden detectar cuales aminoácidos y cuales interacciones están asociadas con la clasificación de los vectores NECk. Por otra parte, el análisis de discriminante, aunque no incluye el análisis de las interacciones, aporta una verificación alternativa de la hipótesis de investigación y permite evaluar la importancia absoluta de las variables predictivas en la clasificación a través de las correlaciones de estas con la funciones discriminantes, sin importar si la variable se.

Figure

Tabla 1.2.1. Tabla del código genético estándar  a, b .   Segunda base del Codón

Tabla 1.2.1.

Tabla del código genético estándar a, b . Segunda base del Codón p.17
Figura 2.1. Distribución de los genes en la naturaleza según las funciones necesarias para  la vida

Figura 2.1.

Distribución de los genes en la naturaleza según las funciones necesarias para la vida p.28
Figura 2.2 Distribución de los genes según los procesos celulares que realizan.

Figura 2.2

Distribución de los genes según los procesos celulares que realizan. p.29
Tabla 2.2.1. Correlación entre el NEC y las frecuencias f aa  en las proteínas y los genomas  de Archaeas, Bacterias y Eucariotes

Tabla 2.2.1.

Correlación entre el NEC y las frecuencias f aa en las proteínas y los genomas de Archaeas, Bacterias y Eucariotes p.32
Tabla 3.2.2.2. Clasificación obtenida con método CHAID en la bases de datos curada con  validación cruzada

Tabla 3.2.2.2.

Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada p.45
Tabla 3.2.2.3. Clasificación obtenida con método CHAID en la bases de datos extendida  con validación cruzada

Tabla 3.2.2.3.

Clasificación obtenida con método CHAID en la bases de datos extendida con validación cruzada p.47
Tabla 3.2.2.1.3. Eficacia de las funciones discriminantes a través de las correlaciones  canónicas y los valores de la Lambda de Wilk.

Tabla 3.2.2.1.3.

Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk. p.50
Tabla 3.2.2.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.2.2.1.4.

Resultado del área bajo la curva en los tres métodos utilizados. p.52
Figura 3.2.2.1.2Curvas ROC obtenidas con los dos métodos de discriminante y con el  método CHAID

Figura 3.2.2.1.2Curvas

ROC obtenidas con los dos métodos de discriminante y con el método CHAID p.53
Tabla 3.2.3.1.3. Eficacia de las funciones discriminantes a través de las correlaciones  canónicas y los valores de la Lambda de Wilk.

Tabla 3.2.3.1.3.

Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk. p.61
Tabla 3.2.4.1.1. Correlaciones de las variables discriminantes con las funciones  discriminantes canónicas

Tabla 3.2.4.1.1.

Correlaciones de las variables discriminantes con las funciones discriminantes canónicas p.67
Tabla 3.2.4.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.2.4.1.4.

Resultado del área bajo la curva en los tres métodos utilizados. p.69
Figura  3.2.4.1.1Curvas  ROC  obtenidas  con  los  dos  métodos  de  discriminante  y  con  el  método CHAID para vertebrados

Figura 3.2.4.1.1Curvas

ROC obtenidas con los dos métodos de discriminante y con el método CHAID para vertebrados p.69
Tabla 3.2.5.1.1. Correlaciones de las variables discriminantes con las funciones  discriminantes canónicas

Tabla 3.2.5.1.1.

Correlaciones de las variables discriminantes con las funciones discriminantes canónicas p.75
Tabla 3.2.5.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.2.5.1.4.

Resultado del área bajo la curva en los tres métodos utilizados. p.77
Tabla 3.2.5.1.5 Parámetros calculados a partir de la matriz de confusión para evaluar el  desempeño de los clasificadores utilizados

Tabla 3.2.5.1.5

Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados p.78
Tabla 3.2.6.1.1. Correlaciones de las variables discriminantes con las funciones  discriminantes canónicas

Tabla 3.2.6.1.1.

Correlaciones de las variables discriminantes con las funciones discriminantes canónicas p.82
Tabla 3.2.6.1.3. Eficacia de las funciones discriminantes a través de las correlaciones  canónicas y los valores de la Lambda de Wilk.

Tabla 3.2.6.1.3.

Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk. p.83
Tabla 3.2.6.1.4. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.2.6.1.4.

Resultado del área bajo la curva en los tres métodos utilizados. p.84
Tabla 3.3.2.2. Clasificación obtenida con método CHAID en la bases de datos curada con  validación cruzada

Tabla 3.3.2.2.

Clasificación obtenida con método CHAID en la bases de datos curada con validación cruzada p.90
Tabla 3.3.2.1.2. Eficacia de las funciones discriminantes a través de las correlaciones  canónicas y los valores de la Lambda de Wilk.

Tabla 3.3.2.1.2.

Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk. p.93
Tabla 3.3.2.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.3.2.1.3.

Resultado del área bajo la curva en los tres métodos utilizados. p.94
Figura 3.3.2.1.2Curvas ROC obtenidas con los dos métodos de discriminante y con el  método CHAID

Figura 3.3.2.1.2Curvas

ROC obtenidas con los dos métodos de discriminante y con el método CHAID p.96
Tabla 3.3.3.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.3.3.1.3.

Resultado del área bajo la curva en los tres métodos utilizados. p.102
Tabla 3.3.4.1.2. Eficacia de las funciones discriminantes a través de las correlaciones  canónicas y los valores de la Lambda de Wilk.

Tabla 3.3.4.1.2.

Eficacia de las funciones discriminantes a través de las correlaciones canónicas y los valores de la Lambda de Wilk. p.106
Tabla 3.3.4.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.3.4.1.3.

Resultado del área bajo la curva en los tres métodos utilizados. p.107
Tabla 3.3.5.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.3.5.1.3.

Resultado del área bajo la curva en los tres métodos utilizados. p.112
Tabla 3.3.5.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el  desempeño de los clasificadores utilizados

Tabla 3.3.5.1.4

Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados p.113
Tabla 3.3.6.1.3. Resultado del área bajo la curva en los tres métodos utilizados.

Tabla 3.3.6.1.3.

Resultado del área bajo la curva en los tres métodos utilizados. p.118
Tabla 3.3.6.1.4 Parámetros calculados a partir de la matriz de confusión para evaluar el  desempeño de los clasificadores utilizados

Tabla 3.3.6.1.4

Parámetros calculados a partir de la matriz de confusión para evaluar el desempeño de los clasificadores utilizados p.119

Referencias

Actualización...