Complejidad de la información en sistemas biológicos
51
0
0
Texto completo
(2) ————. “Las verdades son ilusiones que uno ha olvidado que son ilusiones”. Friedrich Nietzsche.
(3) Agradecimientos. Agradezco a la vida, por el aquı́ y por el ahora A mis padres José I. y Yamile por su amor y por sus enseñanzas A mis hermanas Caro y Angie por su consejo y complicidad A Ale por su apoyo, su ternura y su amor A mi familia y a mis buenos amigos por su presencia y fortaleza. Aprovecho para expresar mis sentimientos de gratitud por el respaldo suministrado durante este trabajo a Chad Leidy, Adriana Bernal, y especialmente a Jagdish Luthra por el acompañamiento durante este perı́odo.
(4) Índice general 1. Introducción. 2. 2. Teorı́a de la Información 5 2.1. Fundamentos de la Información . . . . . . . . . . . . . . . . . . 5 2.2. Generalidades para un canal Discreto sin Ruido . . . . . . . . . 7 2.3. Series de aproximación al idioma Inglés . . . . . . . . . . . . . . 10 3. Información en sistemas biológicos 3.1. Acido Desoxirribonucleico (ADN) . . . 3.1.1. Estructura Molecular del ADN 3.1.2. Replicación del ADN . . . . . . 3.1.3. El código genético . . . . . . . . 3.2. Información biológica y entropı́a . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 13 13 13 14 17 18. 4. Cantidad de Información en cadenas de ADN 4.1. Muestra . . . . . . . . . . . . . . . . . . . . . . 4.2. Análisis de la muestra . . . . . . . . . . . . . . 4.2.1. Descripción del programa . . . . . . . . 4.2.2. Análisis de resultados . . . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 21 22 25 26 28. 5. Conclusiones. . . . . .. . . . . .. . . . . .. . . . . .. 42. 6. Anexos 44 6.1. Código del programa . . . . . . . . . . . . . . . . . . . . . . . . 44. 1.
(5) Capı́tulo 1. Introducción No son pocos los fı́sicos que en las últimas décadas han dedicado un momento en sus vidas para acercarse a tratar problemas en otras áreas del conocimiento como lo son la medicina, la ingienerı́a, las artes y por supuesto la biologı́a que no ha sido la excepción, pues, a partir de sus principios más fundamentales ha generado grandes revoluciones intelectuales al rededor de desarrollos como el de la teorı́a de la evolución de las especies de Darwin en su libro el Origen de las Especies publicado en 1859, el descubrimiento de la molécula de ADN en 1870, o la culminación de un total mapeo del genoma humano en el año 2000. Erwin Schröedinger en su obra What is life?[1] nos abre un amplio panorama sobre el quehacer del fı́sico en la biologı́a, mostrando este aparte de la naturaleza como algo que aún se aleja de ser comprendido totalmente por medio de las herramientes de la fı́sica, como la estadı́stica, el estudio de sólidos periódicos, la teorı́a de la perturbación o la mecánica cuántica. A pesar de que el panorama de la fı́sica en el estudio de los fenómenos biológicos parezca desalentador, es de total pertinencia, y más aún en el actual momento de avance cientı́fico en el campo biológico,intentar desde la fı́sica aportar un grano de arena en el largo camino por recorrer hacia la comprensión de todos los procesos fı́sicos y quı́micos que se esconden aún tras el telón de la vida. Por supuesto la intención de este trabajo de grado es modesta y pretende tan sólo dar un paso de acercamiento en él trabajo venidero en pro de la conciliación entre fı́sica y biologı́a en términos de investigación acerca de la vida, tema que concierne ampliamente a ambas disciplinas. Ası́ el problema que se propone como norte este trabajo nace de algunas ideas algo más ambiciosas publicadas en el artı́culo Mathematics, Phyisics and Life. 2.
(6) de Apurva Pattel quien estudia en detalle algunos aspectos fundamentales de los procesos de transmisión de información en los sistemas biológicos, desde el marco de los algorı́tmos de la fı́sica computacional, como el algorı́tmo de Grover, y también por medio del estudio quı́mico de los nucleótidos para lanzar hipótesis acerca del posible origen de la vida en principios cuánticos, dada la naturaleza cuántica de todas las partı́culas. Partiendo de algunas de las ideas expresadas en el trabajo de Pattel se observó que la naturaleza y sus principios encerrados en los cromosomas, con sus largas cadenas de ADN, se pueden estudiar desde una perspectiva fundamentalmente informática, dado que en ellas está contenido el código necesario para generar la vida; donde en cada gen existe un mensaje que es capaz de autoreplicarse y de ser enviado por medio de canales para formar complejas estructuras con tan solo cuatro moléculas simples llamadas bases nitrogenadas, entonces, canales, mensajes, emisor, receptor, mensajero, todos estos conceptos conocidos y bien definidos por la teorı́a de la información, toman un carácter práctico donde se utilizan para generar un pánorama de la cantidad de información que está presente en estas estructuras que componen el ADN. Es preciso tener en cuenta que el estudio de estas estructuras desde el punto de vista de la teorı́a de la información, introducida por Shannon en 1948 [5], no es empresa sencilla debido a la estrecha relación que existe dentro de ésta entre entropı́a y cantidad de información o complejidad pues ésta relación, que a veces es pasada por alto cuando se analizan lenguajes convencionales, al hablar de sistemas biológicos resulta de gran relevancia debido a la naturaleza termodinámica de los sistemas biológicos. La intención principal de este trabajo consiste en entender desde la teorı́a de la información, los procesos de trnsmisión de la información en los sistemas biológicos, para tal fin este trabajo esta compuesto de tres apartados principales que se relacionan desde lo teórico, hasta su aplicación en sistemas de información biológica reales.En el primer apartado se encuentra los conceptos teóricos necesarios para el buen desarrollo del tema, en primer lugar se encuentra recopilada una introducción a la teoria de la informacion, basada casi en su totalidad en la referencia [5] de Shannon, seguido de algunos conceptos básicos acerca de los fundamentos de la información como ente fı́sico. En un segundo apartado se establece los conceptos fundamentales acerca del ADN y su replicación que se sustenta en la referencia [2], y que muestra en buena medida el comportamiento de la información en los sitemas biológicos, el final del capitulo hace un análisis de como se realciona la información y la entropı́a. 3.
(7) El tercer apartado se dedica a desarrollar y a explicar los análisis realizados sobre las cádenas de ADN con el fin de alcanzar los objetivos propuestos durante el trabajo y sobre los cuales se concluye en el último capı́tulo, estos objetivos son. General Medir cantidad de información en cadenas de ADN Especificos Establecer una cota máxima de cantidad de información para tener parámetros de comparación. Medir cantidades de información en sistemas de probabilidad aleatorios para tener otro parámetro de medida. Aplicar medidas de cantidades de información sobre cadenas de nucleótidos de organismos reales. Analizar si existe alguna realación entre la cantidad de información que posee un organismo y su grado de complejidad biológica.. 4.
(8) Capı́tulo 2. Teorı́a de la Información El proceso de replicación y transmisión de la información genética de un organismo progenitor a su progenie, no es un hecho simple ni mucho menos común en el escenario fı́sico; la información para generar este nuevo organismo viviente debe ser mantenida con un grado mı́nimo de alteración a través de las generaciones.. 2.1.. Fundamentos de la Información. Desde siempre se ha entendido la información como un ente fı́sico necesitado de un espacio, medio o canal para posibilitar su existencia. Como tal ha sido pertinente para la fı́sica ahondar en el estudio de la mı́sma. El conducto tradicional que usa la ciencia para descubrir las leyes naturales a partir de fenómenos siempre ha sido el de empezar por medir y cuantificar los diferentes aspectos de éstos, no siendo la teorı́a de la información ajena a está forma tradicional de hacer ciencia ha sido posible desarrollar todo un formalismo matématico para tal fin. Sin embargo es nesesario establecer un acuerdo de lo que en teorı́a de la información representa medir una cantidad de información. Se dice que una mayor cantidad de información implica una reducción en la incertidumbre, en el posible número de mensajes, ası́ por ejemplo si se busca una persona entre una multitud de hombres y mujeres y no se sabe nada de ella, existe una gran incertidumbre, si obtenemos la información de que la persona buscada es una mujer nuestro conjunto de posibles personas se verá reducido, ésta es la forma como la información se mide, observando su capacidad para reducir la incertidumbre frente a un sistema. El problema fundamental de la comunicación es el de reproducir en un punto 5.
(9) de manera exacta o aproximada un mensaje escogido en otro punto. Frecuentemente los mensajes tienen un significado, el cual es referido o esta correlacionado con un sistema que posee ciertas entidades fı́sicas o conceptuales. En este aspecto lo realmente significativo es que el mensaje real es uno seleccionado de un conjunto de posibles mensajes. Todos los posibles mensajes de este conjunto finito pueden conformar una función monotónica, y una medida sobre sistema cambiará cuando se toma un mensaje especı́fico del set de posibles mensajes. Como lo afirmaba Hartley [3] la manera más adecuada para representar esta medida por medio de una expresión matemática es utilizando la función logarı́tmica. Esto se debe a un concepto fundamental y convencional escogido en el campo de la informática como unidad básica de almacenamiento de información llamado bit, palabra que sugerirı́a J. W. Tukey para un dispositivo el cual podrı́a permanecer en dos posiciones estables y codificar para un código binario, donde N de estos dispositivos podrı́an tener un número posible de estados igual a 2N , como se muestra en el cuadro 2.1. ↑, ↓ ↑↑, ↓↓, ↑↓, ↓↑ ↑↑↑, ↓↓↓, ↓↓↑, ↓↑↓, ↑↓↓, ↓↑↑, ↓↑↓, ↑↑↓. N =1 N =2 N =3. Cuadro 2.1: Posibles estados para un sistema de N bits. Donde log2 2N = N y N es una medida de unidades de información en bits. Ası́ se ha establecido que en una fuente que emite un conjunto de posibles sı́mbolos , la presencia del sı́mbolo i es equivalente a una cantidad de infor1 1 mación dada por I(i) = log p(i) , donde p(i) es la probabilidad de obtener el sı́mbolo i, ası́ la cantidad media de información H por sı́mbolo en la fuente se P expresa como i p(i)I(i). H=. X i. p(i)log. X 1 =− p(i)log p(i) p(i) i. (2.1). Esta ecuación 2.1, es mejor conocida como la entropı́a de la fuente de información debido a la gran similitud con la ecuación demostrada por Gibbs para un sistema termodinámico en el cual cada microestado tiene una probabilidad P de encontrarse con cierta cantidad de energı́a, sin embargo en esta cuestión se ahondará más adelante al hablar de información biológica y entropı́a. 1 En adelante, cuando se utilicen logarı́tmos log representará el logarı́tmo en base 2, mientras no se especifique una base diferente. 6.
(10) Cuando se esta tomando en consideración una fuente de información se deben tener en cuenta importantes aspectos los cuales son enumerados a continuación: 1. La fuente de información puede codificar los mensajes de diferentes formas: combinación de letras, funciones del tiempo, colores y en el caso de la información biológica con combinaciones de nucleótidos o de aminoácidos. 2. Debe existir un transmisor el cual opera en el mensaje con el objeto de producir una señal conveniente que se pueda transmitir a través del canal. En el caso de la información biologica este canal es la molécula de ARN mensajero. 3. El canal es tan solo un medio usado para transmitir el mensaje entre el emisor y el receptor, éste puede ser: cables, frecuencias de radio, pulsos de luz, moléculas transmisoras como es el caso del ARN mensajero. 4. La operación para decodificar el mensaje realizada por el receptor es generalmente la operación inversa de la que ha realizado el transmisor, ası́ reconstruye el mensaje a partir de la señal. 5. El destino del mensaje es la persona o cosa para la cual el mensaje ha sido enviado. Un sistema de comunicación se caracteriza por la manera en la cual se codifican sus mensajes, ésta normalmente puede ser discreta, continua o una mezcla entre éstas dos últimas, para el caso de los sistemas biológicos donde a partir de la información contenida en cadenas de ADN se sintetizan proteı́nas, se observa que se puede sugerir una estructura de lenguaje de codificación discreta, pues a partir de 4 nucleótidos básicos se codifican los aminoácidos, los cuales pueden ser considerados las palabras fundamentales para formar las frases que en este caso particuar serı́an las proteı́nas.. 2.2.. Generalidades para un canal Discreto sin Ruido. Un buen ejemplo, como lo muestra Shannon en su artı́culo A mathematical theory of comunication2 , para ilustrar una fuente de información discreta es el del idioma Inglés. Para poder llevar a cabo este ejemplo es importante establecer la forma como la informacion puede ser descrita matemáticamente, 2 Shannon C. E., A mathematical theory of comunication, Bell System Technical Journal,Vol. 27, pp. 379-423, 623-656, July, October, 1948.. 7.
(11) y cuantos bits por unidad de tiempo pueden ser emitidos por la fuente. En el estudio de una fuente de información el conocimiento estadı́stico que se tenga de ésta es de suma relevancia porque esto reducirá la capacidad del canal. Esto se explica facilmente tomando el idioma Inglés y observando cuidadosamenete que letras como la E tienen una mayor frecuencia que la Q, ası́ se concluye que el lenguaje se genera en una forma que no es del todo aleatoria y que, más aún, combinaciones entre ciertos pares de palabras son más comunes que otras, por ejemplo es mas común la combinación T H que la combinación T F , dando lugar a la determinación de este modelo probabilı́stico hasta altos niveles de complejidad. En general en una fuente discreta se observara que la escogencia de los sı́mbolos para generar el mensaje se hace de acuerdo con ciertas probabilidades las cuales dependerán de manera radical de los sı́mbolos precedentes. Esto es lo que se denomina un proceso estocástico dado que los sı́mbolos se escogen de un conjunto de probabilidades para ser insertados en el mensaje. Tomando una fuente que posee lo simblos A, B, C, D, E, los cuales son equiprobables, es decir cada uno con probabilidad 0.2; un mensaje caracterı́stico de esta fuente sera del tipo: B D C B C E C C C A D C B D D A A E C E E A A B B D A E E CACEEBAEECBC Ahora si se cambia el valor de las probabilidades para cada letra respectivamente de la siguiente manera 0.4, 0.1, 0.2, 0.2, 0.1, se obtendra un mensaje tipico de esta fuente del siguiente tipo: A A A C D C B D C E A A D A D A C E D A E A D C A B E D A DDCECAAAAAD También es posible definir una probabilidad de transición que depende del sı́mbolo predecesor, es decir la probabilidad de que tras la letra i esté la letra j, y se denota pi (j). Otra probabilidad común es la de encontrar el diagrama (i, j), que cuantifica la probabilidad de encontrar la combinación de las letras i, j y se expresa como p(i, j). Estas probabilidades descritas anteriormente no son independientes y están relacionadas entre si de la siguiente manera. p(i) =. X j. p(i, j) =. X j. p(j, i) =. X j. 8. p(j)pj (i). (2.2).
(12) p(i, j) = p(i)pi (j) X. pi (j) =. j. X. p(i) =. X. i. (2.3) (2.4). p(i, j) = 1. i,j. Tomando en cuenta estos sistemas de probabilidad, es posible hacer medidas Cuadro 2.2: Un ejemplo j A B C A 0 4/5 1/5 i B 1/2 1/2 0 C 1/2 2/5 1/10 pi (j). de probabilidades para las letras A, B, C p(i, j) j i p(i) A B C A 9/27 A 0 4/15 1/15 B 16/27 i B 8/27 8/27 0 C 2/27 C 1/27 4/135 1/135. de cantidades de información con sistemas definidos de manera más compleja de la siguiente manera: Si de un sistema se tiene conocimiento de probabilidad de con que frecuencia puede aparecer una pareja de sı́mbolos, siendo diferentes las probabilidades entre la pareja (x, y) y la pareja (y, x), la medida para la entropı́a del sistema esta dada por, X. H(x, y) = −. p(i, j)log p(i, j). (2.5). i,j. mientras que, H(x) = −. X. p(i, j)log. X. i,j. p(i, j). (2.6). j. Si por otro lado deseamos conocer, tras haber obtenido el simbolo Y , la probabilidad de que sea emitido el sı́mbolo x se encuentra mediante la relación entre probabilidades p(i, j) pi (j) = P (2.7) j p(i, j) Dando lugar a que la cantidad de información para este sistema con estas probabilidades definidas es Hx (y) = −. X. p(i, j)log pi (j). (2.8). i,j. o substituyendo 2.7 en 2.8 se obtiene Hx (y) = −. X. p(i, j)log pi (j) +. i,j. X i,j. 9. p(i, j)log. X j. p(i, j). (2.9).
(13) 2.3.. Series de aproximación al idioma Inglés. Por medio de este ejemplo sencillo se explica la relevancia que tiene el conocimiento probabilı́stico de una fuente de información para predecir con cierta fiabilidad cual será el tipo de mensajes que de ella se podrán generar y también para analizar mensajes reales emitidos. En todos los casos se tendrá en cuenta que hay 27 sı́mbolos posibles, 26 letras y un espacio. 1. Aproximación a orden cero (todos los sı́mbolos son equiprobables). XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPA AMKBZAACIBZLHJQD 2. Aproximación a primer orden (Los sı́mbolos tienen la frecuencia que tendrı́an en un texto tı́pico en inglés, observadas en el cuadro 2.3). OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHEN HTTPA OOBTTVA NAH BRL 3. Aproximación de segundo orden (estructura de digramas según el Inglés). ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE 4. Aproximación de tercer orden (estructura de trigramas según el Inglés). IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE Como un primer acercamiento en lo que es una medida de entropı́a en una fuente de información, se toma en consideración que el idioma inglés consta de 27 carácteres, entre ellos un espacio y veintiseis letras, entonces si todos estos sı́mbolos son equiprobables la fuente tendrá una entropı́a H = log27 = 4,75 bit/simbolo. Ahora si se considera el caso en que cada sı́mbolo tiene una probabilidad de aparecer en un mensaje de acuerdo con la siguiente tabla, se tiene que la medida de la entropı́a disminuirá, donde H = 4,03bit/simbolo.. 10.
(14) Sı́mbolos Espacio A B C D E F G H I J K L M. Probabilidad 0.1859 0.0642 0.0127 0.0218 0.0317 0.1031 0.0208 0.0152 0.0467 0.0575 0.0008 0.0049 0.0321 0.0198. Sı́mbolos N O P Q R S T U V W X Y Z. Probabilidad 0.0574 0.0632 0.0152 0.0008 0.0484 0.0514 0.0796 0.0228 0.0083 0.0175 0.0013 0.0164 0.0005. Cuadro 2.3: Probabilidades comunes para el Inglés. 5. Si ahora la aproximación se realiza en torno a las palabras y no a las letras se obtendra patrones que se asemejarán a los siguientes ejemplos. Aproximación de primer orden para palabras, para no continuar con tetragramas y n-gramas en general, es más práctico saltar a la unidad que conforman las palabras, en esta aproximación se tienen en cuenta tan solo las frecuencias independientes de las palabras en Inglés. REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TOOF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE 6. Aproximación de segundo orden para palabras. Se incluye la probabilidad de transición entre dos palabras. THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED Como se observa claramente, una definición de la probabilidad para los sı́mbolos del sistema es de suma relevancia, pues al hacerla cada vez más fina, la generación aleatoria de mensajes evoluciona progresivamente en mensajes más coherentes y a su vez con una menor incertidumbre. Si en el ejemplo se compara el conjunto inicial de posibles mensajes donde todos los sı́mbolos eran 11.
(15) equiprobables con la última aproximación para palabras, se podrı́a decir que en esta última existen partes del mensaje que podrı́an casi hacer parte de un texto real.. 12.
(16) Capı́tulo 3. Información en sistemas biológicos 3.1.. Acido Desoxirribonucleico (ADN). La manera como ha sido desarrollada la transmisión genética en los sistemas biológicos, es sin duda el mayor logro de la vida en la tierra, dando lugar este desarrollo a una evolución sostenida y dinámica, lo que implica que la vida no se reinventa si no que especializa sus diferentes aspectos sobre una base ya preconcebida y suceptible de ser cambiada o mutada. La estructura fundamental que ha permitido toda esta revolución biológica ha sido la molécula de ADN(ácido desoxirribonucleico) de la cual se atribuye su descubrimiento al bioquı́mico Friedrich Miescher en la década de 1870 [2]. Esta molécula recibe su nombre debido a que esta localizada en el núcleo de las células y a su composición ácida con altos contenidos de fósforo. 3.1.1.. Estructura Molecular del ADN. La molécula de ADN esta constituida por nucleótidos, pequeñas subunidades estructuradas las cuales poseen los siguientes elementos fundamentales: un grupo fosfato, un azúcar de cinco carbonos y una base nitrogenada que cambia de acuerdo al nucleótido el cual puede ser de cuatro tipos diferentes, timina(T), citosina(C), adenina(A) o guanina(G) figura 3.1, los cuales a su vez estan contenidos en dos grupos estructurales fundamentales pirimidinas (tiamina y citocina) y purinas (adenina y guanina). Ası́, para formar la cadena de ADN el grupo fosfato de un nucleótido se une con el azúcar del precedente. 13.
(17) Figura 3.1: Timina,Citocina, Adenina y Guanina. en una extensa cadena que por lo general posee millones de estos nucleótidos. La estructura de la cadena de ADN fué descubierta en 1950 por los cientı́ficos Watson y Crick, y se concluyó que es en forma de hélice doble y se sustenta en el medio gracias a la union de los nucléotidos los cuales se aparean siguiendo un patrón definido llamado la regla de base-paridad; solo lo hacen pirimidinas con purinas y más especificamente timina con adenina y guanina con citosina, de acuerdo con esto el monto de timina y adenina será el mismo, al igual que el monto de citosina y guanina. 3.1.2.. Replicación del ADN. Como preámbulo en la comprensión de los procesos de transmisión de la información genética en organismos vivos es pertinente hablar de la duplicación de las cadenas de ADN un poco más en detalle. A partir de la configuración en forma de hélice doble de la cadena de ADN y teniendo en cuenta la regla de base-paridad que cumplen los nucleótidos se. 14.
(18) deduce que al decodificar la secuencia de una de las cadenas, automaticamente se obtiene la codificación para la del otro lado. Ası́ un cromosoma puede ser duplicado si se separan las cadenas y se vuelven a aparear con nucleótidos libres, los cuales abundan en el núcleo celular. De esta manera la cadena en si misma se convierte en un modelo patrón para su autoreplicación. El primer paso en la replicación es el de separar la cadena 3.2, esto se logra por medio de una enzima que la recorre, denominada ADN helicasa la cual puede arrastrarse sobre la molécula de ADN gracias a la energı́a suministrada por el ATP (adenosı́n trifosfato), y al final deja al descubierto bases sin apareamiento a lo largo del trozo de cadena separada. Luego la enzima ADN polimerasa es la encargada de complementar el lado de la cadena que ha quedado desapareado, reconociendo la secuencia de nucleótidos de esta para luego ir a buscar nucleótidos libres que han sido previamente sintetizados por la célula, ensamblandolos con el azúcar y el grupo fosfato para luego aparearlos según la regla de base paridad en la cadena patrón. El ADN polimerasa se mueve a lo largo de la cadena en sólo una dirección, la cual esta determinada por la posición de los carbonos en los nucleótidos, ası́ se desplaza del carbono libre en el azúcar hacia el que esta enlazado con el fosfato libre, conocidos común y respectivamente como carbonos 3´y 5´. Como se observa en la FIGURA estas configuraciones son opuestas en las dos cadenas por lo que las ADN polimerasas recorreran en sentidos contrarios segun la cadena que esten sintetizando. Como la ADN polimeraza recorre la cadena en sentido 3´a 5´ existiran dos casos posibles; uno en el que seguira el rastro de la ADN helicasa, asi la sı́ntesis de nucleotidos libres es continua e ininterrumpida, por el contrario en el caso en el que va por la cadena opuesta la ADN polimerasa comienza en el punto donde esta la ADN helicasa pero se aleja, ası́ tendra que arrivar otra ADN polimerasa a trabajar en el trozo que va quedando desapareado hasta que encuentra el punto donde empezo la primera y es en ese punto en el que la enzima ADN ligasa une lo que han hecho las ADN polimerasas separadamente en un ciclo que se repite hasta terminar la duplicación de toda la cadena. En gran medida la precisión en el proceso de replicación del ADN se debe a los enlaces o puentes de hidrógeno, los cuales tienen la carácteristica de ser los suficiente mente debiles como para permitir que la hebra se separe perfectamente bajo la acción de la ADN helicasa pero logran mantener una estructura estable al interior de la mlecula por medio de la cual se se mantienen unidos los nucleótidos, en el caso de la adenina y la timina dos puentes de hidrógeno las unen, en el caso de citocina y la guanina son tres. Sin embargo este proceso 15.
(19) Figura 3.2: Replicación del ADN. 16.
(20) es realizado a gran velocidad (entre 50 y 500 nucleótidos por segundo), lo cual puede generar errores a la hora de hacer la replicación pues la ADN polimerasa puede incorporar nucleótidos incorrectamente apareados, hecho que no implica un gran problema teniendo en cuenta que estos errores pueden estar en el orden de uno en 10.000 bases que son apareadas, esto gracias a las enzimas que participan en el proceso y principalmente la ADN polimerasa que prueba y lee cada uno de los nucleótidos libres en la nueva cadena. Además también es muy importante el hecho de que la lectura esta organizada para que sólo pueda ser realizada en un solo sentido y sin saltar ningún eslabón de la cadena, esto minimiza la posibilidad de que una parte quede sin ser leı́da o incompleta. 3.1.3.. El código genético. Los genes, contenidos en la molécula de ADN, son segmentos de ésta los cuales codifican para sintetizar una proteı́na en particular, ası́ cada gen tiene su propia secuencia de bases nitrogenadas y cada proteı́na una secuencia de aminoácidos, estas secuencias son recı́procas pues las bases deben codificar para los aminoácidos que conformarán la proteı́na. Las bases nitrogenadas sólo son cuatro: adenina(A), guanina(G), citocina(C) y timina(T), y deben codificar para todos los aminoácidos, componentes fundamentales de las proteı́nas, los cuales son 20. Dado este hecho es evidente que la codificación para los aminoácidos debe ser basada en distintas combinaciones de bases nitrogenadas, si la combinación para codificar para un aminoácido fuera de tan sólo dos bases, existirı́an 16 posibles combinaciones, las cuales no son suficientes para todos los aminoácidos, ası́ el siguente número de posibles combinaciones es de tres aminoácidos, esto quiere decir que es posible tener un total de 64 combinaciones 4x4x4, 60 de las diferentes combinaciones codifican para los 20 aminoácidos, lo que genera un codigo redundante pero no ambiguo pues combinaciones de diferentes bases nitrogenadas pueden codificar para un solo aminoácido cada una. Como el ADN está contenido en el núcleo celular y las proteı́nas son sintetizadas en los ribosomas del citoplasma es necesario que exista un puente de información entre estos, la solución que ha dado la naturaleza es la de utilizar una molécula mensajera llamada ácido ribonucléico ARN, la cual es semejante a la molécula de ADN pero tiene ciertas diferencias estructurales como lo es el hecho de que sólo forma una cadena simple a diferencia de la cadena doble del ADN, tiene un tipo diferente de azúcar en sus enaleces, ribosa en vez de desoxirribosa y por último la base timina(T) del ADN es cambiada por uracil(U). 17.
(21) en el ARN. La conformación de los aminoácidos a partir de las bases nitrogenadas contenidas en el ADN está estructurado de tal forma que aunque parezca redundante el código no es ambiguo, pues diferentes combinaciones de 3 nucleótidos (codones) pueden codificar para un aminoácido,tal como se observa en el CUADRO. TTT Fenilalanina TTC Fenilalanina TTA Leucina TTG Leucina CTT Leucina CTC Leucina CTA Leucina CTG Leucina ATT Isoleucina ATC Isoleucina ATA Isoleucina ATG START(Metionina) GTT Valina GTC Valina GTA Valina GTG Valina. TCU Serina TCC Serina TCA Serina TCG Serina CCT Prolina CCC Prolina CCA Prolina CCG Prolina ACT Treonina ACC Treonina ACA Treonina ACG Treonina GCT Alanina GCC Alanina GCA Alanina GCG Alanina. TAT Tirosina TAC Tirosina TAA STOP TAG STOP CAT Hitidina CAC Hitidina CAA Glutamina CAG Glutamina AAT Asparagina AAC Asparagina AAA Lisina AAG Lisina GAT Acido aspártico GAC Acido aspártico GAA Acido glutámco GAG Acido glutámco. TGT Cisteı́na TGC Cisteı́na TGA STOP TGG Triptófano CGT Arginina CGC Arginina CGA Arginina CGG Arginina AGT Serina AGC Serina AGA Arginina AGG Arginina GGT Glicina GGC Glicina GGA Glicina GGG Glicina. Cuadro 3.1: Código genetico (codones). 3.2.. Información biológica y entropı́a. Como se vio en la sección Fundamentos de la Información, la ecuación de P Shannon para medir cantidades de información H = −K p(i) log2 p(i) ha sido naturalmente relacionada con la fórmula de Boltzman para la entropı́a de P un sistema termodinámico S = −K p(i) ln p(i) y para algunos como Gibss se constituirı́a en una analogı́a de la ecuación de la entropı́a, sinembargo siempre existirá el debate de si alguna de las dos ecuaciones es más general que la otra. El hecho de que exista esta cercanı́a entre la forma matemática de las ecuaciones se hace interesante, pues es posible desde el marco de la termodinámica comprender los interesantes conceptos que encierra la no menos importante teorı́a de la información. Algunas de las cuestiones comunes a las dos teorı́as son las relacionadas a 18.
(22) la medida de incertidumbres y probabilidades. En el caso de los sistemas termodinámicos la incertidumbre es algo fundamental e inherente a estos, pues en realidad nunca un sistema llega a estar en un estado determinado sino que debido a fluctuaciones que se rigen por modelos estocásticos puede acceder a un conjunto de estados alternativos, si el número de estos crece con estos crecerá la entropı́a del sistema. En la teorı́a de la información la incertidumbre es entendida como algo momentaneo que se da solo antes de que un mensaje es escogido de entre un conjunto de posibles mensajes, pero sin embargo al rededor de esta es que es determinada en últuma instancia su estructura y la posibiliad de que exista dicho mensaje. Como tan solo es un reflejo de que un mensaje es solo uno de muchos posibles dentro de un conjunto de posibilidades la incertidumbre en el campo de la información no es considerada como algo fundamental, pues en el momento en que un mensaje es emitido o una proteina es sintetizada es reducida a cero toda incertidumbre respecto a lo que contenı́a el mensaje. En este momento de la discusión parece que puede hacerse una aceptable distinción entre la teorı́a de la información y la termodinámica, sinembargo, cuando se habla de información en sistemas biológicos es preciso tener algunos aspectos adicionales en cuenta, porque aunque es pura información lo que es contenido en las cadenas de ADN, estos sistemas por estar confinados en medios orgánicos son suceptibles a ser tratados como sistemas termodinámicos. Entonces la teorı́a de la información se presenta acá como determinadora de una entropı́a pero entendida desde un punto de vista configuracional, por ejemplo si miramos el caso de un cristal que es un objeto totalmente organizado, su entropı́a configuracional es cero, hecho que además redunda en un bajo contenido informático, sinembargo si se analiza ahora una proteina, se puede decir que esta aunque no es una estructura organizada desde el puto de vista cristalográfico, sus elementos si constituyen un arreglo estable y posee una entropı́a configuracional que también es igual a cero. Es por esto que mucho autores realizan una distinción y deciden abandonar la idea de hablar de “entropı́a” sustituyendo este concepto por el de “complejidad”, incluso dejando aun de lado el concepto de “cantidad de información” el cual conlleva a una cuestión objetiva que es la de pensar que a mayor cantidad de información más conocemos acerca del organismo. El esfuerzo por tratar de ahondar en estos problemas semánticos no es de poca importancia pues la buena definición de los términos podrı́a llegar a remediar algunos conflictos que a veces parecieran molestar en la teorı́a de la información como lo es el hecho de tener que lidiar 19.
(23) con la segunda ley de la temodinámica al hablar de entropı́a de un lenguaje o sistema informatico. No obstante cientı́ficos como Gatlin [7] hacen énfasis en la “noción de que los grandes organismos poseen una reducción en su entropı́a a causa de su mayor grado de organización”. Esto serı́a decir que una bacteria posee mayor entropı́a que un ser humano a acusa de su reducida organización y tal vez la razón sobre la cual se levanta esta afirmación es la de que la entropı́a es una propiedad extensiva de los sistemas que incrementa proporcionalmente con el tamaño de los mismos, ¿pero entonces una colonia bacterial tendrı́a menos entropı́a que una bacteria en si?, acá es donde la definición de Sannon cobra fuerza y se concentran los esfuerzon en medir sobre la base de la complejidad de su información bilológica y no sobre su estructura orgánica.. 20.
(24) Capı́tulo 4. Cantidad de Información en cadenas de ADN Es importante volver a lo que con la teorı́a de la Fundamentos de la Información es posible hacer y acá es necesario enfatizar en el hecho de que al medir cantidades de información no es posible hablar de la calidad de la misma o de si es relevante o no. En lo único que puede ser basada una apreciación cualitativa es desde el punto de vista de cómo se ha construido el sistema probabilı́stico alrededor del sitema que se está tomando como muestra. También es importante hacer una referencia al hecho de que cualquier mensaje puede ser tomado como una fuente completa de información, pues de el pueden ser estudiados y extractados modelos probabilı́sticos, pero como siempre, en un estudio estadı́stico sólo las grandes muestras y ensambles correlacionados pueden arrojar resultados confiables. Para hacer un estudio de la información contenida en las moléculas de ADN ha sido preciso realizar una delimitación del problema, basada en varios aspectos fundamentales de estas. En primer lugar debe ser tenido en cuenta que un genoma como el humano puede llegar a poseer una cantidad cercana a los 3.000 millones de bases nitrogenadas lo que hace que tratar de analizar la totalidad de una cadena de cierta forma sistemática sea una empresa bastante engorrosa incluso para un computador muy potente. Existe otra razón que tal vez es más poderosa por la cual es importante acotar el campo de acción del estudio en las cadenas de ADN y es que en ellas más de 90 % de la infomación o códigos contenidos no es más que “basura”, es por esta razón que este estudio tan solo se concentrará en analizar segmentos de ADN que tiene información protéica.. 21.
(25) Esta grandes cantidades de segmentos en las cadenas de ADN que parecieran tan solo contener la mal llamada basura, y que no deben ser confundidos con los intrones, en realidad sı́ se analizan desde un punto de vista más estadı́stico tienen un gran impacto a la hora de mantener la información libre de errores cuando tiene lugar la replicación de las cadenas de ADN. Una forma de entender este hecho es analizando que existe una probabilidad de 1 en 10.000 [2] de que se cometa un error al momento de la replicación, lo que representa un porcentaje del orden del 0.01 % de genoma total, si se tiene en cuenta además que tan solo un aproximado del 5 % del genoma es información útil para sintetizar proteı́nas es posible hacer un cálculo de cúal es la probabilidad de que uno de estos errores se cometan en un segmento útil del genoma y se encuentra que es aproximadamenete de 1 error por 200000 bases nitrogenadas, de ahı́ la importancia de esta información que no codifica para ningún tipo de proteina o estructura conocida, pero que sı́ es útil para evitar un número muy alto de mutaciones a causa de la replicación.. 4.1.. Muestra. Para cumplir con el objetivo de medir cantidades de información en sistemas biológicos es necesario definir que muestras pueden ser útiles para este fin. Se ha buscado que el grado de complejidad evolutivo entre los organismos que se comparan no sea cercano, pues teniendo unas brechas evolutivamente considerables se podrá apreciar si la cantidad de información contenida en estos es o no proporcional a su grado de complejidad orgánica. Es necesario ahondar sobre otro aspecto de la información que está contenida en el ADN con el propósito de sustentar el hecho de sólo usar la información protéica contenida en él. Sı́ tuviesemos un mensaje en español contenido en un libro en el cual el 90 % de la información son letras aleatorias y sin ninguna concordancia probabilı́stica relacionada con lo que podrı́a ser un mensaje real del español, y nos pusieramos en la tarea de establecer la probabilidad de encontrar diferentes palabras del español a partir de este texto, lo más recomendable sin lugar a dudas es tomar simplemente la parte que tiene el mensaje real para establecer una probabilidad igualmente real de la frecuencia con que esta fuente (Español)emite estos sı́mbolos, el resto del texto aunque contiene sı́mbolos propios del idioma no responde una estructura que pueda ser comprendida o capaz de transmitir un mensaje y por tanto lo mejor es desecharla. Basados en esta premisa es que se decide sólo tomar en cuenta el contenido protéico de las cadenas de ADN y con base a este se harán los 22.
(26) cálculos pertinentes. Teniendo en cuenta lo anteriormenete mencionado se han escogido varios organismos sobre los cuales se harán los análisis pertinentes, estos organismos son: Bacteriophage KVP40 → Bacteria Escherichia coli CFT073 → Bacteria Homo Sapiens → Mamı́fero Saccharomyces cerevisiae → Fungi levaduriforme Anopheles gambiae → Insecto SARS coronavirus Tor2 → Virus Esta escogencia de organismos fue realizada con base en los criterios anteriormente descritos, sinembargo ha sido necesario tener en cuenta que la disponibilidad de genomas de especies aún es muy limitada, pues aunque el proyecto genoma humano alcanzó su logro final de mapear todo el genoma humano para junio de 2000 1 , el adelanto en el mapeo de otras especies sólo cobró relevancia después de que el del humano estuvo terminado. La forma como se obtienen los genomas de los diferentes organismos es accesando a bases públicas de datos, para obtener las secuencias que en este trabajo en particular se utilizan se accesó a www.tigr.org y www.ensembl.org en donde se puede especificar el tipo de información que se desea adquirir, que puede ser de diferentes tipos: genoma completo, genes por separado, clones, secuencias de proteı́nas conocidas o incluso se pueden encontrar secuencias de segmentos que podrı́an codificar para proteı́nas de las cuales no se tiene un conocimiento real, es decir predicciones de nuevas proteı́nas. En este punto es importante hacer una descripción del formato en el que son presentadas las secuencias que son descargadas de las bases de datos. Normalmente el tipo de listas que se obtienen tienen una estandarización, en la forma de su publicación, como lo muestra la figura 4.1, donde el caracter “>” indica el inicio de una nueva proteı́na, seguido de una breve clasificación de la proteı́na que se prolonga hasta que aparece de nuevo el caracter “cuadro”lo que indica que comenzará la serie de nucleotidos en la que cada letra significa 1 http://es.wikipedia.org/wiki/ProyectoGenomaHumano. 23.
(27) el posicionamiento de un aminoácido en la cadena y por supuesto cada letra respresenta un aminoácido especı́fico, entre cada espaciamiento de renglón también aparece el caracter “cuadro” hasta que de nuevo aparece el caracter “>”.. N◦ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20. Abrviatura A Ala R Arg N Asn D Asp C Cys E Glu Q Gln G Gly H His I Ile L Leu K Lys M Met F Phe P Pro S Ser T Thr W Trp Y Tyr V Val. Nombre Alanina Arginina Asparagina Acido aspártico Cisteı́na Acido glutámco Glutamina Glicina Hitidina Isoleucina Leucina Lisina Metionina Fenilalanina Prolina Serina Treonina Triptófano Tirosina Valina. Cuadro 4.1: Abreviaturas comunes para los aminoácidos. Ası́ haber escogido un mamı́fero, un insecto, bacterias, una levadura y un virus no es fortuito y nos ayuda a acumular un amplio espectro de datos alrededor del problema. En el caso del virus es interesante analizar qué pasa en este tipo de organismo que sin ser un ser vivo cumple con la primordial caracterı́stica de la vida que es la de prolongar su existencia en siguientes generaciones, esto lo logra por medio del aprovechamiento del metabolismo de células anfitrionas que son invadidas y donde estos se reproducen, ası́ que un virus queda convertido prácticamente en una unidad pura de información biológica que tiene la capacidad de desprogramar el programa genético de la célula en la cual se aloja.. 24.
(28) Figura 4.1: Modelo Datos, bajados de www.ensembl.org. 4.2.. Análisis de la muestra. A partir de los conceptos expuestos en el Capı́tulo 2 del presente trabajo y teniendo en cuenta las caracterı́sticas de la muestra, mencionadas en el aparte anterior, se dará paso a describir cómo fue posible hacer la ejecución de los cálculos realizados sobre las secuencias de ADN de los organismos a estudiar. Ası́ tomando como base fundamental las las ecuaciones 2.1, 2.5 y 2.9, se implementó programa computacional, el cual a su vez analizó cada una de estas secuancias.. 25.
(29) 4.2.1.. Descripción del programa. Es necesario generar un programa computacional mediante el cual sea posible convertir las listas que se obtuvieron de las bases de datos, las cuales contienen la información relacionada con el código de proteı́nas, a una forma estándar la cual sea comprendida por el lenguaje de programación a utilizar que en este caso será Mathematica; ası́ el programa básicamente estará compuesto de dos partes fundamentales. Una primera en la cual se hará todo el tratamiento de las listas, la cual busca que se puedan utilizar como matrices simples de Mathematica (entendiéndose listas también como matrices); en la segunda parte, ya con las listas organizadas se podrá proceder a operarlas para acceder a los resultados preliminares a utilizar en el análisis. Para entender la manera a través de la cual se llegarón a los resultados que sirvieron como base para el analı́sis de la investigación, es necesario describir de manera completa el proceso y funcionamiento del programa diseñado. Procesamiento de la lista En primer lugar se colocan las listas en el lugar de la memoria en donde Mathematica accede por defecto, para hacer el llamamiento de las listas dentro del programa C:/Archivos de programa/Wolfram Research/Mathe matica/5.0 Debido a que la mayorı́a de caracteres de la lista inicial son del tipo alfabético, se procede a llamar la lista desde el programa y se guarda en la variable A. Por medio de la orden –ReadList[“archivo.dat”, Byte]– el programa convierte la lista a caracteres numéricos según la codificación ASCCI predeterminada. Por medio del comando Length se mide la longitud de la lista A, y se guarda en la variable LA. Se busca en la lista el caracter “>”, al que le corresponde el número 64, que es el que indica que comienza la codificación para una diferente proteı́na, y se hace una lista con estas posiciones. Teniendo en cuenta que después del caracter “>” la lista contiene una breve identificación de la proteı́na la cual no es relevante para el propósito del programa, es necesario quitar estos caracteres de la lista ası́ que por medio de un F or se recorre la lista A saltando entre las posiciones en que se encuentran estos caracteres, borrando todo lo que aparezca de ahı́ en 26.
(30) adelante hasta encontrar el caracter “cuadro”, correspondiente al número 10, recomponiendo la lista para luego volver a ser procesada. En un procedimiento similar al anteriormente descrito, se localiza el resto de caracteres “cuadro”los cuales lo único que indican es un salto de lı́nea en la lista, y se procede a eliminarlos de la misma. Como en este punto ya todos los números de la lista corresponden a caracteres asociados a aminoácidos especı́ficos, sobre estos ahora si es posible hacer el conteo requerido. En una matriz de 20x20 inicializada en ceros, la cual representa a lo largo de sus 20 filas los 20 aminoácidos, lo mismo que para sus columnas, donde el cruce entre una fila y una columna representa una pareja de aminoácidos. Por medio de un F or se recorre la lista final y cuando el contador está en la posición i examina cúal aminoácido se encuentra en esta posición y a su vez el de la posición i + 1 y mantiene este par de aminoácidos como una pareja ordenada que podrá tener sus dos valores entre el rango 1 y 20 según el aminoácido que lea. Se agregará un conteo en la matriz en la posición (i, j) según la pareja que resulte tras cada paso sobre la lista. Finalmente se divide la matriz entre la longitud de la lista menos uno, para que de esta forma quede normalizada la suma total de probabilidades.. Cálculo de la entropı́a en las matrices de probabilidad. Para hacer este cálculo se introdujeron las ecuaciones 2.6, 2.5 y 2.9 en M athematica, proceso que se ve simplificado cuando se tiene en cuenta que H(x, y) = H(x) + Hx (y) [5]. Se introducen las ecuaciones, anteriormente referenciadas, en M athematica, teniendo en cuenta que cuando las probabilidades son iguales a cero no hay problemas con el log0 que es indeterminado, pues Limx→0 x logx = 0. 27. (4.1).
(31) 4.2.2.. Análisis de resultados. La implementación del programa denominado “Procesamiento de la lista”, como se vió anteriormente, cuenta los aminoácidos en las cadenas de ADN y entorno a este contéo genera un sistema de probabilidades basado en la frecuencia con que encuentra los digramas (i, j). Estas probabilidades en realidad son independientes si se tiene en cuenta la aparición de cada digrama como un hecho que no depende del anterior, sin embargo, esto no es un impedimento para extractar un sistema de probabilidades dependientes que evidencie la posibilidad de encontrar el aminoácido j tras haber obtenido el j. Esto se logra normalizando las filas de las matrices obtenidas como evidentemente lo muestra la ecuación 2.4. Entonces lo que se obtuvo con las respetidas corridas del programa fue un sistema de matrices las cuales nos indican como se realacionan los diversos digramas de aminoácidos para los diferentes organismos estudiados. Para una correcta visualización de estos gráficos es necesario tener en cuenta la nomenclatura utilizada para los aminoácidos la cual esta descrita en el cuadro 4.1, pues en los graficos las letras con que comienzan las filas y las columnas indican un aminoácido en particular.. Figura 4.2: Probabilidad condicional p(i, j) Bacteriophage KVP40 i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j jQ j j j j jG j j j j jH j j j 1 jI j j 24232 j j jL j j j j j K j j j j j M j j j j j F j j j j j P j j j j j S j j j j j jT j j j jW j j j j jY j j kV. A 155 79 114 119 11 116 71 116 37 105 139 99 30 86 61 115 143 18 73 122. R 89 67 63 73 9 92 36 68 13 67 102 73 31 50 33 65 84 18 59 100. N 84 65 93 79 8 101 49 108 21 95 120 56 39 65 55 99 102 23 63 98. D 103 70 98 108 17 79 52 134 37 126 134 75 16 81 50 118 102 17 81 129. C 9 13 11 10 4 17 7 13 5 4 7 8 4 2 4 20 15 2 8 12. E 138 70 91 109 8 121 73 106 27 135 108 84 29 77 72 84 96 18 62 119. Q 76 47 45 37 3 56 36 59 11 62 57 64 31 33 31 51 74 12 37 74. G 142 69 106 128 14 76 61 137 29 106 110 66 33 83 53 127 133 23 57 116. H 26 24 31 23 4 27 16 21 9 26 27 35 6 18 17 40 26 5 32 33. I 113 76 96 121 13 126 63 98 23 98 92 85 38 55 47 108 131 10 44 92. L 123 101 102 109 11 151 65 97 31 74 126 111 37 49 71 133 144 22 77 96. K 102 74 64 84 16 88 53 85 29 101 92 81 46 53 37 76 65 21 58 92. M 46 29 28 41 2 46 26 36 8 29 48 47 14 32 19 37 29 12 19 27. F 58 51 64 68 6 71 33 78 13 53 63 57 32 30 28 68 74 16 40 75. P 60 36 75 84 7 31 31 25 29 60 75 46 19 21 20 52 78 0 30 54. S 132 70 82 96 7 102 48 142 26 105 112 86 59 63 60 118 110 21 66 111. T 148 81 83 104 8 119 62 137 27 110 128 73 47 74 65 128 121 22 70 145. W 17 23 13 37 6 20 13 26 5 6 17 26 5 4 9 22 24 5 16 22. Y 58 56 53 80 3 81 35 64 30 54 72 61 34 34 40 60 66 19 41 72. V 130 91 111 117 18 107 66 119 36 112 101 84 26 68 61 95 135 32 80 120. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. La figura 4.2 es un ejemplo claro de estos patrones obtenidos en diferentes organismo donde se observa por ejemplo una marcada presencia de Leusina, sin embargo como esta visualización no es tan clara se generaron algunas matrices gráficas de las cuales es más claro ver estos patrones marcados de las 28.
(32) diferentes cadenas estudiadas. Es posible ver, gracias a las matrices gráficas (figuras 4.2, 4.3, 4.4, 4.5, 4.6, Figura 4.3: Probabilidad condicional p(i, j) Bacteriophage KVP40 i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j jQ j j j j jG j j j j jH j j j 1 jI j j 22180 j j jL j j j j j K j j j j j M j j j j j F j j j j j P j j j j j S j j j j j jT j j j jW j j j j jY j j kV. A 117 76 70 108 21 155 53 76 41 131 125 121 33 50 40 87 77 16 61 78. R 78 60 56 57 16 113 56 58 18 82 95 113 40 33 21 65 55 17 30 76. N 77 51 44 66 16 76 37 55 23 91 82 69 44 36 33 50 44 15 52 71. D 95 82 54 127 26 86 32 101 41 143 113 85 32 109 56 83 71 28 64 103. C 20 16 10 24 4 20 8 32 7 21 27 11 6 17 7 14 11 3 22 24. E 135 98 96 131 25 141 61 90 43 146 123 133 23 89 67 99 97 19 78 116. 1. Q 59 26 26 33 14 79 26 42 12 44 57 77 28 37 20 43 44 13 39 39. 5. G 78 72 80 97 13 81 30 65 32 79 97 92 33 55 39 85 66 14 56 74. H 31 30 21 27 9 52 15 33 12 33 43 45 16 23 18 23 20 9 17 38. I 115 82 75 120 15 156 60 80 40 85 109 123 60 81 37 72 103 8 59 96. 10. L 136 90 67 115 20 169 76 85 37 107 136 139 44 57 51 88 104 23 64 113. 15. K 114 87 88 108 31 127 64 98 27 111 111 151 60 71 40 110 82 22 73 106. M 39 27 29 47 2 52 25 36 13 57 49 48 22 35 25 39 20 10 18 35. F 79 52 45 80 13 91 35 59 30 68 55 65 28 42 34 67 49 16 29 66. P 43 34 47 37 10 38 18 16 24 48 71 56 18 28 14 41 49 3 23 46. S 78 61 52 80 18 86 41 65 25 79 113 86 50 61 47 86 68 18 48 100. T 82 53 51 63 15 90 42 66 31 81 121 84 43 49 30 73 53 14 56 76. W 23 19 11 29 3 24 12 24 5 17 18 17 5 17 9 11 14 2 5 13. Y 56 50 40 74 13 67 34 65 15 43 74 68 18 40 28 49 46 12 26 71. V 81 73 70 108 20 107 33 92 39 110 102 98 26 73 48 76 100 16 69 101. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 15. 20. 4.7, 4.8, 4.9, 4.10, 4.11, 4.12) un marcado patrón en la distribución de probabilidades en donde se observa con mayor frecuencia ciertos tipos de aminoácidos, por ejemplo se encuentra la Leusina en general en alta frecuencia relacionada con todos los demás aminoácidos, pero tambien se observa combinaciones que en general son de baja frecuencia como la Histidina y el Triptófano con el resto de aminoácidos. Algunos casos en donde los aminoácidos conservan una alta frecuencia de aparición al lado de si mismos como Serina, la Alanina y la Valina.. 29.
(33) Figura 4.4: Probabilidad condicional p(i, j) Escherichia coli CFT073 i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 26491 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 236 112 91 149 28 148 114 144 55 159 259 100 80 137 125 124 128 27 56 176. R 138 90 61 85 36 79 72 144 31 72 160 76 47 50 52 77 68 31 57 78. N 88 73 45 62 13 52 36 72 23 55 120 63 33 52 35 53 48 18 24 73. D 141 68 64 84 17 57 46 124 29 93 125 61 40 90 68 72 71 14 39 99. C 30 14 15 17 16 22 13 36 11 33 37 15 7 26 12 16 18 8 14 27. 1. E 156 111 48 98 27 106 60 134 24 99 171 69 35 56 78 67 57 17 42 96. Q 126 86 37 43 22 96 74 77 28 45 84 61 38 28 56 51 50 33 49 63. 5. G 180 101 81 87 29 107 91 135 61 139 192 84 73 107 100 115 117 31 75 128. H 43 50 21 33 11 40 45 46 22 34 59 28 12 22 23 37 39 15 20 44. I 162 86 76 98 20 102 65 130 39 99 166 58 45 62 41 90 82 19 37 123. 10. L 255 150 98 108 33 159 113 200 61 158 265 127 81 96 139 134 170 53 68 203. 15. K 124 77 38 76 13 91 54 86 22 71 130 64 42 47 53 52 36 24 23 80. M 87 58 22 37 6 54 38 62 21 46 82 49 20 29 22 39 29 11 12 50. F 109 85 42 64 17 55 51 104 39 66 108 47 23 62 47 72 55 25 39 73. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 30. 15. 20. P 82 56 53 51 15 47 54 74 48 78 148 58 40 38 46 72 70 11 35 76. S 113 64 59 63 18 79 43 98 31 107 143 61 49 86 65 87 78 16 58 93. T 122 56 55 75 18 67 51 91 30 89 146 57 38 64 42 81 85 18 49 102. W 29 31 20 27 12 32 14 46 14 18 39 8 10 21 13 17 22 8 10 22. Y 52 41 38 58 12 48 42 65 28 39 70 35 17 42 39 38 26 14 34 52. V 175 95 74 87 24 110 71 165 27 100 167 82 45 68 96 117 88 20 49 142. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.
(34) Figura 4.5: Probabilidad condicional p(i, j) Escherichia coli CFT073 i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 25222 j j j jL j j j j jK j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j Y j j j kV. A 271 127 93 115 22 150 138 169 37 178 321 102 73 109 105 134 123 28 48 196. R 144 70 48 51 16 88 74 82 32 61 148 68 44 43 44 78 70 32 48 67. N 75 48 33 60 9 70 40 78 22 74 104 39 25 46 31 37 29 9 26 68. D 129 62 40 73 16 62 43 95 28 78 103 47 32 52 70 73 62 13 39 83. C 35 20 13 15 8 11 7 19 8 20 37 4 7 10 16 14 12 3 13 23. E 152 68 42 87 13 100 68 128 18 102 171 63 38 34 81 78 60 16 31 104. Q 121 75 45 27 17 79 124 77 38 36 124 49 32 35 78 58 64 32 34 63. G 192 82 92 84 23 100 63 140 38 128 194 60 54 92 98 135 106 18 56 146. H 33 41 25 26 6 34 22 50 20 34 60 23 14 22 23 32 29 14 13 34. I 160 66 58 77 15 69 69 138 40 83 151 71 42 70 42 81 77 19 42 110. L 313 149 90 105 32 155 138 189 54 143 344 95 85 90 141 158 203 68 70 209. K 100 56 40 64 12 85 62 95 22 43 109 37 43 29 32 55 44 13 22 65. M 75 46 24 28 7 51 27 68 15 32 86 33 29 27 33 37 32 14 13 69. F 98 60 26 48 22 43 43 93 26 52 103 26 26 53 48 61 58 18 26 70. P 90 47 60 57 14 49 54 44 27 64 155 68 36 36 40 63 82 20 31 80. S 138 60 38 61 18 81 56 107 35 112 157 48 40 76 43 90 62 23 42 118. T 138 58 50 60 13 77 59 92 26 87 168 72 44 47 53 67 79 10 33 110. W 46 29 10 25 4 19 16 32 12 15 35 9 7 21 25 23 19 8 4 29. Y 44 47 29 36 9 36 24 63 21 39 69 32 15 30 20 49 16 11 22 41. V 185 97 68 100 19 96 81 141 36 98 192 82 61 78 94 82 116 19 40 157. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. Con el propósito de posibilitar la comparación con valores lı́mite es necesario establecer cual es el máximo valor para la entropı́a de este sistema, resultado al cual se llegará calculando la expresión de Shannon para cuando la combinación de los aminoácidos es equiprobable2 .. H(x, y) = log20 = 4,32193[bit/aa] Gracias al programa escrito en M athematica ha sido posible obtener las matrices para calcular las probabilidades de los diagramas, o parejas ordenadas de aminoácidos (i, j) y de las cuales por medio de la ecuación 2.4 se podrán obtener las matrices de probabilidad simple p(i) y de probabilidad condicional pi (j). Una vez hecho esto se usa de nuevo M athematica para de esta manera obtener las expresiones de Shannon para H(x), H(x, y) y por último Hx (y), como lo muestran las ecuaciones 2.1, 2.5 y 2.9. La tabla 4.2 resume los datos obtenidos en los diferentes calculos de entropı́a para las secuencias y lo que se observa es una clara reducción dé ésta, en la mayorı́a de los casos, sı́ se compara con los valores obtenidos con probabilidades aleatorias obtenidas de sistemas hipoteticos no reales. La entropı́a condicional obtenida de la configuración de los aminoácidos, si aumenta con respecto a la obtenida de matrices aleatorias, lo que es debido a la normalización de los 2 Normalmente la información es medida en unidades de bit/sı́mbolo, en este caso como sabemos que los sı́mbolos son aminoácidos, cambiamos la notación *aa:aminoácido. 31.
(35) Figura 4.6: Probabilidad condicional p(i, j)Homo Sapiens i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 25656 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 214 147 41 88 39 159 119 191 46 53 190 96 42 42 172 143 83 29 37 130. R 134 175 34 62 63 117 90 164 53 67 188 75 21 66 138 143 82 23 51 91. N 40 37 13 21 15 48 33 43 15 26 55 30 21 32 36 45 24 20 25 38. D 78 82 13 64 49 113 62 94 25 49 114 53 28 57 64 82 54 14 31 70. C 74 65 17 51 17 38 39 79 42 22 75 23 10 36 61 85 46 4 15 55. 1. E 117 144 30 81 63 232 96 108 33 38 139 100 47 32 119 126 63 17 27 97. Q 98 86 31 37 53 91 64 90 33 44 133 47 16 45 66 84 44 16 21 65. 5. G 191 135 59 125 73 127 98 179 52 36 242 73 34 65 231 124 97 21 34 121. H 54 62 29 25 30 38 33 55 29 16 80 35 17 29 50 42 35 14 16 50. 10. I 54 45 24 40 21 71 43 46 16 36 50 46 26 48 47 69 37 9 21 54. L 209 167 59 105 89 141 122 185 89 91 276 94 47 102 143 202 131 30 56 180. 15. K 54 124 32 58 26 99 58 82 24 44 135 102 26 31 52 65 45 19 18 76. M 37 23 17 19 14 48 33 33 15 21 55 40 12 22 30 41 19 3 14 19. F 74 60 20 47 20 44 23 89 26 32 88 42 20 38 49 77 56 13 34 48. P 157 137 40 88 76 61 71 172 66 35 190 72 27 65 160 164 88 23 28 85. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 32. 15. 20. S 157 111 50 116 75 96 60 197 58 63 174 76 42 79 142 177 94 22 48 121. T 99 77 36 50 39 69 38 120 35 46 118 56 23 31 86 86 56 21 38 84. W 45 30 10 10 6 7 7 33 15 8 20 7 5 10 23 40 30 2 5 25. Y 36 29 20 32 19 29 18 49 20 31 53 24 13 24 29 40 44 9 10 47. V 139 101 42 77 67 81 57 108 47 45 143 79 39 46 107 122 80 29 47 115. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.
(36) Figura 4.7: Probabilidad condicional p(i, j)Homo Sapiens i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 52593 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 456 289 85 155 66 306 257 333 87 109 408 185 89 101 338 306 198 67 68 259. R 258 335 83 132 110 251 187 275 104 140 369 132 57 127 243 270 162 60 91 176. N 88 81 36 56 33 94 77 93 30 77 161 76 38 64 69 105 60 29 53 92. D 158 151 55 122 70 214 131 162 48 91 222 114 60 96 127 174 112 36 78 160. C 117 107 35 85 44 63 64 122 55 42 139 51 18 54 104 137 77 12 35 87. 1. E 237 300 91 169 96 457 180 197 73 90 304 205 110 92 246 280 136 37 67 200. Q 208 160 63 73 78 179 183 168 91 102 311 119 40 99 160 197 113 36 40 150. 5. G 349 252 110 194 118 230 181 300 94 81 413 143 63 126 382 297 199 39 70 197. H 100 114 56 58 41 82 76 113 59 50 166 77 32 61 100 98 66 29 30 93. 10. I 132 114 60 107 49 136 93 117 42 89 138 111 41 80 89 127 85 16 50 110. L 409 325 132 205 155 324 274 372 167 198 607 207 105 214 318 474 274 66 138 347. 15. K 139 211 75 108 54 221 122 149 53 82 265 224 56 69 119 167 100 45 50 149. M 81 62 40 45 26 106 55 60 39 42 110 68 23 39 61 79 54 11 33 50. F 149 100 48 99 45 109 74 136 60 65 185 85 38 74 105 161 117 26 55 123. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 33. 15. 20. P 297 241 96 187 110 151 158 281 132 99 377 139 55 118 323 386 189 39 54 186. S 339 240 123 232 132 204 150 393 119 163 398 164 91 162 347 455 236 48 111 254. T 201 169 79 115 66 161 93 206 79 94 252 119 55 86 179 236 128 44 67 174. W 77 52 23 25 27 26 33 62 34 11 63 24 13 21 42 70 49 6 12 45. Y 78 70 37 77 29 60 40 90 42 62 123 60 23 55 71 98 74 17 30 78. V 289 189 85 137 99 193 142 209 93 99 300 155 78 116 195 243 174 52 82 218. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.
(37) Figura 4.8: Probabilidad condicional p(i, j)Saccharomyces cerevisiae i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 28413 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 128 63 105 76 21 91 60 67 31 92 162 95 47 64 77 161 128 13 42 98. R 71 74 53 61 18 77 60 54 26 88 120 108 29 44 39 106 62 8 39 63. N 89 58 138 88 13 104 68 77 30 112 163 111 48 78 65 136 108 28 51 83. D 57 59 118 136 19 106 58 82 32 93 165 93 42 79 64 123 87 18 42 88. C 18 13 16 17 14 12 9 27 10 32 53 23 6 11 15 33 15 7 18 25. 1. E 80 66 98 134 14 161 82 71 35 117 173 124 32 68 82 141 90 27 42 92. Q 69 53 61 35 16 63 73 49 19 65 125 78 16 46 55 73 70 12 37 65. 5. G 83 46 101 86 25 81 44 88 33 93 114 73 30 65 45 127 101 22 41 86. H 24 44 43 29 8 33 26 33 23 34 66 37 15 27 30 70 37 8 16 31. I 128 83 100 97 31 117 62 87 41 158 147 143 36 88 97 169 102 22 56 141. 10. L 162 133 145 139 28 155 90 137 81 194 272 187 62 118 119 249 157 32 91 174. 15. K 121 91 97 106 18 148 63 83 44 109 187 159 53 75 76 179 103 29 60 100. M 48 28 24 26 9 52 18 19 10 52 66 53 12 34 26 50 45 8 22 48. F 62 56 65 71 24 52 41 74 32 96 134 90 20 61 59 100 79 15 42 68. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 34. 15. 20. P 53 43 62 53 15 61 56 54 26 85 144 95 19 57 62 131 109 12 35 74. S 158 89 170 134 29 134 89 126 58 189 229 148 67 91 124 390 211 26 90 142. T 104 77 96 101 19 116 69 98 30 101 136 92 45 105 96 211 197 20 56 121. W 15 13 20 23 10 24 10 23 7 14 31 14 6 20 23 26 20 6 10 17. Y 42 52 41 45 20 58 45 48 25 55 80 71 22 38 19 70 48 11 32 56. V 109 59 95 104 23 84 56 87 41 126 158 107 44 72 73 149 121 8 56 148. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.
(38) Figura 4.9: Probabilidad condicional p(i, j)Saccharomyces cerevisiae i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 28312 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 127 61 98 97 21 89 56 97 20 115 165 108 29 73 63 135 112 17 50 103. R 64 93 62 58 23 74 59 57 26 73 138 110 27 64 47 109 59 23 39 80. N 94 82 103 92 19 108 66 77 35 94 151 96 43 57 68 169 103 12 44 99. D 83 75 93 107 17 126 61 87 41 112 150 131 43 66 69 121 70 18 60 93. C 24 17 23 26 13 23 15 21 10 25 40 24 13 21 13 31 27 5 17 26. 1. E 92 77 89 134 19 140 77 83 34 114 150 133 28 70 80 124 73 19 62 117. Q 70 49 53 44 17 52 79 49 25 75 118 70 19 49 48 105 49 15 44 51. 5. G 106 63 126 82 17 67 46 105 35 103 126 100 38 78 69 120 96 12 69 101. H 31 27 32 26 10 40 31 36 32 31 60 44 8 33 23 44 32 7 28 29. I 107 81 118 109 26 112 49 92 35 126 162 140 45 94 81 191 104 18 53 105. 10. L 134 126 142 169 38 158 119 146 56 162 278 175 50 127 130 236 141 29 97 150. 15. K 126 88 113 99 18 140 78 123 32 109 220 186 38 79 91 162 104 21 74 136. M 37 28 39 28 9 42 25 30 11 45 49 35 9 26 27 56 36 9 24 31. F 65 63 59 74 30 75 54 71 29 90 129 94 20 59 60 92 70 19 55 63. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 35. 15. 20. P 68 35 63 69 20 68 42 49 37 114 135 91 26 55 67 135 85 4 32 86. S 134 115 157 133 44 127 67 146 62 171 214 153 56 98 107 275 170 25 84 139. T 112 70 78 72 25 98 63 116 22 107 118 114 41 73 91 145 111 25 42 91. W 9 18 20 21 7 20 7 19 6 19 29 19 6 12 14 22 23 3 15 18. Y 54 45 53 63 17 67 34 62 22 53 82 86 17 53 51 62 48 12 41 68. V 99 72 91 120 24 89 53 93 34 110 149 127 41 84 82 143 101 14 60 113. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.
(39) Figura 4.10: Probabilidad condicional p(i, j)Anopheles Gambie i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j j G j j j j j H j j j 1 jI j j 24651 j j j j L j j j j K j j j j j M j j j j j F j j j j jP j j j j jS j j j j jT j j j j jW j j j j jY j j kV. A 143 73 85 84 29 78 46 105 37 114 165 65 43 89 82 128 111 16 70 144. i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 23938 j j j jL j j j j jK j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 174 115 54 85 51 91 95 118 40 99 228 72 51 86 130 117 129 21 60 145. R 90 143 84 112 28 94 64 78 51 73 124 74 33 63 66 82 79 25 60 106. N 78 67 65 73 26 71 47 78 27 62 109 46 26 63 60 87 82 16 45 115. D 89 78 60 94 36 87 27 74 23 77 118 62 27 63 98 112 76 9 42 94. C 26 34 32 22 6 26 16 34 12 29 44 24 8 34 31 32 25 4 21 34. E 92 91 66 81 21 84 42 74 19 66 120 46 36 59 71 78 74 11 63 97. Q 50 47 37 41 16 72 46 45 25 57 94 52 21 38 34 68 41 22 50 67. G 94 85 86 89 37 90 49 118 37 108 109 72 39 69 69 109 94 16 58 81. H 36 27 21 31 8 34 29 30 23 28 60 37 21 25 24 34 29 21 27 47. I 119 85 91 75 26 51 64 74 23 89 116 65 34 84 59 115 111 24 43 109. L 149 142 91 128 57 133 96 127 47 117 236 116 69 99 107 147 113 27 64 153. K 84 80 44 53 23 47 39 73 40 67 88 59 26 36 70 64 63 10 34 70. M 55 46 31 24 10 28 25 40 21 34 61 19 27 16 28 33 38 13 27 43. F 84 81 53 50 28 52 53 62 34 69 116 44 29 45 62 107 72 18 51 78. P 88 69 51 65 24 63 41 54 37 89 132 64 27 73 75 83 60 11 46 83. S 125 105 100 98 31 94 73 121 34 118 155 57 41 91 79 157 92 12 63 115. T 108 87 68 93 31 68 51 114 29 94 130 54 33 75 80 95 84 18 42 118. W 13 21 20 12 8 11 8 33 19 8 26 14 8 22 5 23 20 6 11 22. Y 62 66 60 34 16 29 42 65 24 49 74 32 22 53 59 57 63 10 44 61. V 122 102 98 87 33 79 66 110 30 109 141 68 49 91 76 150 145 21 61 127. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. W 20 21 8 16 21 6 16 24 13 18 31 14 5 13 16 21 17 7 14 28. Y 67 72 36 40 32 47 43 45 21 37 91 42 10 28 38 39 53 13 51 55. V 153 78 61 75 59 65 56 86 35 94 190 65 39 83 80 103 111 10 58 129. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. Figura 4.11: Probabilidad condicional p(i, j)Anopheles Gambie R 83 102 58 89 33 108 77 105 39 58 158 63 43 81 65 80 77 15 53 97. N 82 61 40 33 25 58 40 57 29 51 85 41 32 39 32 56 86 16 25 69. D 84 73 60 77 39 60 32 55 27 48 101 55 23 51 86 84 72 11 52 69. C 51 55 30 46 19 51 36 30 23 30 64 33 10 24 25 41 44 10 25 40. E 114 78 55 79 52 71 58 80 30 59 128 55 26 50 85 73 67 16 50 75. Q 64 67 38 44 24 64 62 67 32 37 110 51 24 36 48 55 55 21 33 71. G 140 58 65 89 39 62 38 119 43 85 138 54 29 71 72 107 102 13 55 96. H 44 35 22 35 20 38 28 37 18 26 75 24 8 29 35 37 30 11 22 37. I 112 62 56 54 33 57 45 71 35 66 96 41 24 52 51 80 85 21 42 74. 36. L 212 169 107 119 64 147 112 140 69 102 315 108 72 106 112 138 134 35 77 180. K 80 76 38 29 16 70 43 69 19 39 92 61 35 42 48 75 50 17 36 63. M 47 45 26 20 16 30 25 31 11 28 54 39 25 19 28 30 28 7 24 45. F 90 72 49 40 29 42 29 61 21 55 113 31 22 66 54 81 65 10 39 65. P 98 63 48 64 41 74 58 71 47 77 139 44 26 40 81 57 62 14 43 96. S 139 85 52 63 33 68 51 110 31 82 143 57 40 71 89 134 67 35 53 111. T 107 97 54 62 41 92 59 99 28 66 168 48 34 47 68 106 105 26 48 84.
(40) Figura 4.12: Probabilidad condicional p(i, j)SARS coronavirus Tor2 A R N D C E Q G H I L K M F P S T W Y V A 20 8 6 12 7 10 8 11 0 12 21 3 4 13 8 18 17 5 10 9 R 8 7 9 6 5 4 7 12 3 8 9 3 5 6 4 9 5 3 4 6 N 11 4 9 4 6 3 8 9 2 7 10 11 2 13 7 13 13 1 8 14 D 7 6 10 9 2 7 3 7 2 8 14 5 2 6 11 10 4 0 8 13 C 8 1 4 4 5 1 2 4 1 5 5 5 2 4 2 5 10 4 3 5 E 8 3 3 6 5 8 5 9 1 10 17 2 1 2 6 5 3 1 1 10 Q 8 7 7 8 2 8 7 7 5 14 16 7 4 8 7 7 11 2 4 4 G 15 5 11 8 2 4 7 11 3 13 5 10 3 11 6 10 21 3 7 14 H 3 2 1 0 1 2 2 5 1 4 6 2 1 1 1 4 10 1 2 4 I 17 6 10 10 6 2 9 14 2 14 15 6 4 6 6 12 16 2 6 13 L 19 12 17 12 12 8 14 13 6 20 39 17 4 14 18 12 20 2 13 20 K 3 7 7 9 3 9 9 9 4 5 19 12 4 5 10 7 9 1 6 9 M 8 4 2 4 2 5 1 3 0 2 5 4 2 2 2 8 3 2 3 2 F 12 7 13 3 2 5 8 13 4 7 21 9 5 6 6 10 8 1 5 12 P 11 5 7 8 6 4 9 3 3 7 16 11 3 11 6 9 10 1 3 5 S 10 13 12 5 6 10 10 17 1 6 20 7 5 11 12 15 23 2 4 13 T 19 9 10 14 3 9 16 12 6 14 17 11 7 12 11 19 20 1 6 15 W 0 1 3 0 0 1 1 1 2 2 8 1 0 3 4 1 1 0 3 3 Y 4 6 8 5 3 4 8 5 5 4 7 9 1 10 3 12 6 1 5 6 V 12 10 6 7 2 2 9 4 2 14 22 12 4 13 8 16 21 2 11 25 2922. 1. 5. 10. 15. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 37. 15. 20.
(41) datos sobre el número total de aminoácidos, una distribución uniforme en este caso dará un número menor para la entropı́a condicional.. Organismo Bacteriophage KVP40. Escherichia coli CFT073. Homo Sapiens. Saccharomyces cerevisiae. Anopheles gambiae. SARS coronavirus Tor2 p(aleatoria). Equiprobable. H(x)[bit/aa] 4.1832 4.20444 4.16727 4.17752 4.14183 4.14766 4.154 4.15875 4.15743 4.15171 4.14271 4.19156 4.16278 4.17275 4.16278 4.16662 4.14551 4.20593 4.21317 4.19984 4.18671 4.31435 4.31217 4.30412 4.32193. H(x, y)[bit/aa] 8.34422 8.3854 8.31189 8.33325 8.25779 8.27068 8.2739 8.29385 8.28693 8.26489 8.25574 8.35984 8.30204 8.32837 8.30204 8.31051 8.26145 8.39038 8.39532 8.37786 8.27309 8.37853 8.37331 8.37594 8.64386. Hx (y)[bit/aa] 4.16101 4.18096 4.14462 4.15573 4.11596 4.12302 4.1194 4.1351 4.1295 4.11318 4.11318 4.16827 4.13926 4.15562 4.13926 4.14389 4.11544 4.18445 4.18215 4.17801 4.08638 4.06418 4.06114 4.07182 4.32193. Cuadro 4.2: Medidas de entropı́a en las cadenas de aminoácidos. Es importante observar los datos obtenidos para la entropı́a con probabilidades condicionales, que resultaron se la mejor aproximación a la fuente de información donde el valor promedio es de 4,1449Bits/aa, que es el 95.3 % del valor de entropı́a máximo con una desviación estandar de 0.0241, lo que mantiene los valores de entropia siempre con una brecha constantehacia el valor de entropı́a máximo. Lo que redunda en una menor incertidumbre en los sistemas que se han modelado probabilı́sticamente. La gráfica 4.13 muestra esta tendencia: La lı́nea verde representa el valor de máxima entropı́a, la lı́nea roja el valor medio de entropı́a en los sistemas biológicos estudiados donde los puntos son los valores particulares de entropı́a para cada muestra. 38.
(42) Figura 4.13: Desviación entropı́a Condicional.. Entropía vs Datos 4.3 4.25 4.2 4.15 4.1 4.05 5. Valor Medio Varianza Desviación Estandar. 10. H(x)[bit/aa] 4.17037 0.0004783 0.021871. 15. H(x, y)[bit/aa] 8.31532 0.00209 0.0457. 20. Hx (y)[bit/aa] 4.1449 0.00188183 0.0241. Cuadro 4.3: Resultados estadı́sticos. Un aspecto que se debe tener en cuenta al tratar de medir el grado de complejidad cuantitativa y cualitativamenete, en secuencias de ADN o cualquier otra fuente de información, es que la organización probabilistica de los signos para varios mensajes sea similar, pues bajo la analogı́a de los idiomas se podrı́a concluir que tal vez dos de estos tienen la misma incertidumbre o complejidad pero la conformación de sus simbolos es diferente como podrı́a ser el caso del español y el alemán. Como resultado de este razonamiento se ha graficado como se realaciona condicionalmente cada uno de los aminoácidos con si mismo y los demás (figura 4.15). Manteniendo la siguiente notación númerica que concuerda con el color de las lı́neas de la figura 4.14. 1. Bacteriophage KVP40 → Aminoácidos (0-552) 2. Escherichia coli CFT073 → Aminoácidos (0-563) 3. Homo Sapiens → Aminoácidos (0-548) 39.
(43) 4. Homo Sapiens → Aminoácidos (0-1086) 5. Homo Sapiens → Aminoácidos (548-1086) 6. Homo Sapiens → Aminoácidos (1088-1625) 7. Homo Sapiens → Aminoácidos (1627-2180) 8. Homo Sapiens → Aminoácidos (5998-6558) 9. Saccharomyces cerevisiae → Aminoácidos (0-562) 10. Saccharomyces cerevisiae → Aminoácidos (4004-4547) 11. SARS coronavirus Tor2 → Aminoácidos (Total). Figura 4.14: Probabilidad condicional pi (j). 11 10 9 8 7 6 5 4 3 2 1. La grafica 4.15 muestra que existe una realación marcada entre las probabilidades condicionales de encontrar cierto aminoácido i tras uno j para los diferentes organismos y en diferentes partes de sus genomas, lo que demuestra que los datos obtenidos no solo coinciden desde cierto punto de vista meramente numérico sino que existe un nivel más profundo de complejidad que es compartido entre todos los organsmos estudiados en el presente trabajo.. 40.
Documento similar