Complejidad de la información en sistemas biológicos

Texto completo

(1)COMPLEJIDAD DE LA INFORMACIÓN EN SISTEMAS BIOLÓGICOS. por. Andrés Mauricio Rincón Rivera. Tesis presentada al departamento de Fı́sica como parte de los requisitos para obtener el grado de Fı́sico. Director: Jagdish Luthra Ph.D.. Universidad de los Andes Bogotá D.C., Colombia Enero de 2006.

(2) ————. “Las verdades son ilusiones que uno ha olvidado que son ilusiones”. Friedrich Nietzsche.

(3) Agradecimientos. Agradezco a la vida, por el aquı́ y por el ahora A mis padres José I. y Yamile por su amor y por sus enseñanzas A mis hermanas Caro y Angie por su consejo y complicidad A Ale por su apoyo, su ternura y su amor A mi familia y a mis buenos amigos por su presencia y fortaleza. Aprovecho para expresar mis sentimientos de gratitud por el respaldo suministrado durante este trabajo a Chad Leidy, Adriana Bernal, y especialmente a Jagdish Luthra por el acompañamiento durante este perı́odo.

(4) Índice general 1. Introducción. 2. 2. Teorı́a de la Información 5 2.1. Fundamentos de la Información . . . . . . . . . . . . . . . . . . 5 2.2. Generalidades para un canal Discreto sin Ruido . . . . . . . . . 7 2.3. Series de aproximación al idioma Inglés . . . . . . . . . . . . . . 10 3. Información en sistemas biológicos 3.1. Acido Desoxirribonucleico (ADN) . . . 3.1.1. Estructura Molecular del ADN 3.1.2. Replicación del ADN . . . . . . 3.1.3. El código genético . . . . . . . . 3.2. Información biológica y entropı́a . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 13 13 13 14 17 18. 4. Cantidad de Información en cadenas de ADN 4.1. Muestra . . . . . . . . . . . . . . . . . . . . . . 4.2. Análisis de la muestra . . . . . . . . . . . . . . 4.2.1. Descripción del programa . . . . . . . . 4.2.2. Análisis de resultados . . . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 21 22 25 26 28. 5. Conclusiones. . . . . .. . . . . .. . . . . .. . . . . .. 42. 6. Anexos 44 6.1. Código del programa . . . . . . . . . . . . . . . . . . . . . . . . 44. 1.

(5) Capı́tulo 1. Introducción No son pocos los fı́sicos que en las últimas décadas han dedicado un momento en sus vidas para acercarse a tratar problemas en otras áreas del conocimiento como lo son la medicina, la ingienerı́a, las artes y por supuesto la biologı́a que no ha sido la excepción, pues, a partir de sus principios más fundamentales ha generado grandes revoluciones intelectuales al rededor de desarrollos como el de la teorı́a de la evolución de las especies de Darwin en su libro el Origen de las Especies publicado en 1859, el descubrimiento de la molécula de ADN en 1870, o la culminación de un total mapeo del genoma humano en el año 2000. Erwin Schröedinger en su obra What is life?[1] nos abre un amplio panorama sobre el quehacer del fı́sico en la biologı́a, mostrando este aparte de la naturaleza como algo que aún se aleja de ser comprendido totalmente por medio de las herramientes de la fı́sica, como la estadı́stica, el estudio de sólidos periódicos, la teorı́a de la perturbación o la mecánica cuántica. A pesar de que el panorama de la fı́sica en el estudio de los fenómenos biológicos parezca desalentador, es de total pertinencia, y más aún en el actual momento de avance cientı́fico en el campo biológico,intentar desde la fı́sica aportar un grano de arena en el largo camino por recorrer hacia la comprensión de todos los procesos fı́sicos y quı́micos que se esconden aún tras el telón de la vida. Por supuesto la intención de este trabajo de grado es modesta y pretende tan sólo dar un paso de acercamiento en él trabajo venidero en pro de la conciliación entre fı́sica y biologı́a en términos de investigación acerca de la vida, tema que concierne ampliamente a ambas disciplinas. Ası́ el problema que se propone como norte este trabajo nace de algunas ideas algo más ambiciosas publicadas en el artı́culo Mathematics, Phyisics and Life. 2.

(6) de Apurva Pattel quien estudia en detalle algunos aspectos fundamentales de los procesos de transmisión de información en los sistemas biológicos, desde el marco de los algorı́tmos de la fı́sica computacional, como el algorı́tmo de Grover, y también por medio del estudio quı́mico de los nucleótidos para lanzar hipótesis acerca del posible origen de la vida en principios cuánticos, dada la naturaleza cuántica de todas las partı́culas. Partiendo de algunas de las ideas expresadas en el trabajo de Pattel se observó que la naturaleza y sus principios encerrados en los cromosomas, con sus largas cadenas de ADN, se pueden estudiar desde una perspectiva fundamentalmente informática, dado que en ellas está contenido el código necesario para generar la vida; donde en cada gen existe un mensaje que es capaz de autoreplicarse y de ser enviado por medio de canales para formar complejas estructuras con tan solo cuatro moléculas simples llamadas bases nitrogenadas, entonces, canales, mensajes, emisor, receptor, mensajero, todos estos conceptos conocidos y bien definidos por la teorı́a de la información, toman un carácter práctico donde se utilizan para generar un pánorama de la cantidad de información que está presente en estas estructuras que componen el ADN. Es preciso tener en cuenta que el estudio de estas estructuras desde el punto de vista de la teorı́a de la información, introducida por Shannon en 1948 [5], no es empresa sencilla debido a la estrecha relación que existe dentro de ésta entre entropı́a y cantidad de información o complejidad pues ésta relación, que a veces es pasada por alto cuando se analizan lenguajes convencionales, al hablar de sistemas biológicos resulta de gran relevancia debido a la naturaleza termodinámica de los sistemas biológicos. La intención principal de este trabajo consiste en entender desde la teorı́a de la información, los procesos de trnsmisión de la información en los sistemas biológicos, para tal fin este trabajo esta compuesto de tres apartados principales que se relacionan desde lo teórico, hasta su aplicación en sistemas de información biológica reales.En el primer apartado se encuentra los conceptos teóricos necesarios para el buen desarrollo del tema, en primer lugar se encuentra recopilada una introducción a la teoria de la informacion, basada casi en su totalidad en la referencia [5] de Shannon, seguido de algunos conceptos básicos acerca de los fundamentos de la información como ente fı́sico. En un segundo apartado se establece los conceptos fundamentales acerca del ADN y su replicación que se sustenta en la referencia [2], y que muestra en buena medida el comportamiento de la información en los sitemas biológicos, el final del capitulo hace un análisis de como se realciona la información y la entropı́a. 3.

(7) El tercer apartado se dedica a desarrollar y a explicar los análisis realizados sobre las cádenas de ADN con el fin de alcanzar los objetivos propuestos durante el trabajo y sobre los cuales se concluye en el último capı́tulo, estos objetivos son. General Medir cantidad de información en cadenas de ADN Especificos Establecer una cota máxima de cantidad de información para tener parámetros de comparación. Medir cantidades de información en sistemas de probabilidad aleatorios para tener otro parámetro de medida. Aplicar medidas de cantidades de información sobre cadenas de nucleótidos de organismos reales. Analizar si existe alguna realación entre la cantidad de información que posee un organismo y su grado de complejidad biológica.. 4.

(8) Capı́tulo 2. Teorı́a de la Información El proceso de replicación y transmisión de la información genética de un organismo progenitor a su progenie, no es un hecho simple ni mucho menos común en el escenario fı́sico; la información para generar este nuevo organismo viviente debe ser mantenida con un grado mı́nimo de alteración a través de las generaciones.. 2.1.. Fundamentos de la Información. Desde siempre se ha entendido la información como un ente fı́sico necesitado de un espacio, medio o canal para posibilitar su existencia. Como tal ha sido pertinente para la fı́sica ahondar en el estudio de la mı́sma. El conducto tradicional que usa la ciencia para descubrir las leyes naturales a partir de fenómenos siempre ha sido el de empezar por medir y cuantificar los diferentes aspectos de éstos, no siendo la teorı́a de la información ajena a está forma tradicional de hacer ciencia ha sido posible desarrollar todo un formalismo matématico para tal fin. Sin embargo es nesesario establecer un acuerdo de lo que en teorı́a de la información representa medir una cantidad de información. Se dice que una mayor cantidad de información implica una reducción en la incertidumbre, en el posible número de mensajes, ası́ por ejemplo si se busca una persona entre una multitud de hombres y mujeres y no se sabe nada de ella, existe una gran incertidumbre, si obtenemos la información de que la persona buscada es una mujer nuestro conjunto de posibles personas se verá reducido, ésta es la forma como la información se mide, observando su capacidad para reducir la incertidumbre frente a un sistema. El problema fundamental de la comunicación es el de reproducir en un punto 5.

(9) de manera exacta o aproximada un mensaje escogido en otro punto. Frecuentemente los mensajes tienen un significado, el cual es referido o esta correlacionado con un sistema que posee ciertas entidades fı́sicas o conceptuales. En este aspecto lo realmente significativo es que el mensaje real es uno seleccionado de un conjunto de posibles mensajes. Todos los posibles mensajes de este conjunto finito pueden conformar una función monotónica, y una medida sobre sistema cambiará cuando se toma un mensaje especı́fico del set de posibles mensajes. Como lo afirmaba Hartley [3] la manera más adecuada para representar esta medida por medio de una expresión matemática es utilizando la función logarı́tmica. Esto se debe a un concepto fundamental y convencional escogido en el campo de la informática como unidad básica de almacenamiento de información llamado bit, palabra que sugerirı́a J. W. Tukey para un dispositivo el cual podrı́a permanecer en dos posiciones estables y codificar para un código binario, donde N de estos dispositivos podrı́an tener un número posible de estados igual a 2N , como se muestra en el cuadro 2.1. ↑, ↓ ↑↑, ↓↓, ↑↓, ↓↑ ↑↑↑, ↓↓↓, ↓↓↑, ↓↑↓, ↑↓↓, ↓↑↑, ↓↑↓, ↑↑↓. N =1 N =2 N =3. Cuadro 2.1: Posibles estados para un sistema de N bits. Donde log2 2N = N y N es una medida de unidades de información en bits. Ası́ se ha establecido que en una fuente que emite un conjunto de posibles sı́mbolos , la presencia del sı́mbolo i es equivalente a una cantidad de infor1 1 mación dada por I(i) = log p(i) , donde p(i) es la probabilidad de obtener el sı́mbolo i, ası́ la cantidad media de información H por sı́mbolo en la fuente se P expresa como i p(i)I(i). H=. X i. p(i)log. X 1 =− p(i)log p(i) p(i) i. (2.1). Esta ecuación 2.1, es mejor conocida como la entropı́a de la fuente de información debido a la gran similitud con la ecuación demostrada por Gibbs para un sistema termodinámico en el cual cada microestado tiene una probabilidad P de encontrarse con cierta cantidad de energı́a, sin embargo en esta cuestión se ahondará más adelante al hablar de información biológica y entropı́a. 1 En adelante, cuando se utilicen logarı́tmos log representará el logarı́tmo en base 2, mientras no se especifique una base diferente. 6.

(10) Cuando se esta tomando en consideración una fuente de información se deben tener en cuenta importantes aspectos los cuales son enumerados a continuación: 1. La fuente de información puede codificar los mensajes de diferentes formas: combinación de letras, funciones del tiempo, colores y en el caso de la información biológica con combinaciones de nucleótidos o de aminoácidos. 2. Debe existir un transmisor el cual opera en el mensaje con el objeto de producir una señal conveniente que se pueda transmitir a través del canal. En el caso de la información biologica este canal es la molécula de ARN mensajero. 3. El canal es tan solo un medio usado para transmitir el mensaje entre el emisor y el receptor, éste puede ser: cables, frecuencias de radio, pulsos de luz, moléculas transmisoras como es el caso del ARN mensajero. 4. La operación para decodificar el mensaje realizada por el receptor es generalmente la operación inversa de la que ha realizado el transmisor, ası́ reconstruye el mensaje a partir de la señal. 5. El destino del mensaje es la persona o cosa para la cual el mensaje ha sido enviado. Un sistema de comunicación se caracteriza por la manera en la cual se codifican sus mensajes, ésta normalmente puede ser discreta, continua o una mezcla entre éstas dos últimas, para el caso de los sistemas biológicos donde a partir de la información contenida en cadenas de ADN se sintetizan proteı́nas, se observa que se puede sugerir una estructura de lenguaje de codificación discreta, pues a partir de 4 nucleótidos básicos se codifican los aminoácidos, los cuales pueden ser considerados las palabras fundamentales para formar las frases que en este caso particuar serı́an las proteı́nas.. 2.2.. Generalidades para un canal Discreto sin Ruido. Un buen ejemplo, como lo muestra Shannon en su artı́culo A mathematical theory of comunication2 , para ilustrar una fuente de información discreta es el del idioma Inglés. Para poder llevar a cabo este ejemplo es importante establecer la forma como la informacion puede ser descrita matemáticamente, 2 Shannon C. E., A mathematical theory of comunication, Bell System Technical Journal,Vol. 27, pp. 379-423, 623-656, July, October, 1948.. 7.

(11) y cuantos bits por unidad de tiempo pueden ser emitidos por la fuente. En el estudio de una fuente de información el conocimiento estadı́stico que se tenga de ésta es de suma relevancia porque esto reducirá la capacidad del canal. Esto se explica facilmente tomando el idioma Inglés y observando cuidadosamenete que letras como la E tienen una mayor frecuencia que la Q, ası́ se concluye que el lenguaje se genera en una forma que no es del todo aleatoria y que, más aún, combinaciones entre ciertos pares de palabras son más comunes que otras, por ejemplo es mas común la combinación T H que la combinación T F , dando lugar a la determinación de este modelo probabilı́stico hasta altos niveles de complejidad. En general en una fuente discreta se observara que la escogencia de los sı́mbolos para generar el mensaje se hace de acuerdo con ciertas probabilidades las cuales dependerán de manera radical de los sı́mbolos precedentes. Esto es lo que se denomina un proceso estocástico dado que los sı́mbolos se escogen de un conjunto de probabilidades para ser insertados en el mensaje. Tomando una fuente que posee lo simblos A, B, C, D, E, los cuales son equiprobables, es decir cada uno con probabilidad 0.2; un mensaje caracterı́stico de esta fuente sera del tipo: B D C B C E C C C A D C B D D A A E C E E A A B B D A E E CACEEBAEECBC Ahora si se cambia el valor de las probabilidades para cada letra respectivamente de la siguiente manera 0.4, 0.1, 0.2, 0.2, 0.1, se obtendra un mensaje tipico de esta fuente del siguiente tipo: A A A C D C B D C E A A D A D A C E D A E A D C A B E D A DDCECAAAAAD También es posible definir una probabilidad de transición que depende del sı́mbolo predecesor, es decir la probabilidad de que tras la letra i esté la letra j, y se denota pi (j). Otra probabilidad común es la de encontrar el diagrama (i, j), que cuantifica la probabilidad de encontrar la combinación de las letras i, j y se expresa como p(i, j). Estas probabilidades descritas anteriormente no son independientes y están relacionadas entre si de la siguiente manera. p(i) =. X j. p(i, j) =. X j. p(j, i) =. X j. 8. p(j)pj (i). (2.2).

(12) p(i, j) = p(i)pi (j) X. pi (j) =. j. X. p(i) =. X. i. (2.3) (2.4). p(i, j) = 1. i,j. Tomando en cuenta estos sistemas de probabilidad, es posible hacer medidas Cuadro 2.2: Un ejemplo j A B C A 0 4/5 1/5 i B 1/2 1/2 0 C 1/2 2/5 1/10 pi (j). de probabilidades para las letras A, B, C p(i, j) j i p(i) A B C A 9/27 A 0 4/15 1/15 B 16/27 i B 8/27 8/27 0 C 2/27 C 1/27 4/135 1/135. de cantidades de información con sistemas definidos de manera más compleja de la siguiente manera: Si de un sistema se tiene conocimiento de probabilidad de con que frecuencia puede aparecer una pareja de sı́mbolos, siendo diferentes las probabilidades entre la pareja (x, y) y la pareja (y, x), la medida para la entropı́a del sistema esta dada por, X. H(x, y) = −. p(i, j)log p(i, j). (2.5). i,j. mientras que, H(x) = −. X. p(i, j)log. X. i,j. p(i, j). (2.6). j. Si por otro lado deseamos conocer, tras haber obtenido el simbolo Y , la probabilidad de que sea emitido el sı́mbolo x se encuentra mediante la relación entre probabilidades p(i, j) pi (j) = P (2.7) j p(i, j) Dando lugar a que la cantidad de información para este sistema con estas probabilidades definidas es Hx (y) = −. X. p(i, j)log pi (j). (2.8). i,j. o substituyendo 2.7 en 2.8 se obtiene Hx (y) = −. X. p(i, j)log pi (j) +. i,j. X i,j. 9. p(i, j)log. X j. p(i, j). (2.9).

(13) 2.3.. Series de aproximación al idioma Inglés. Por medio de este ejemplo sencillo se explica la relevancia que tiene el conocimiento probabilı́stico de una fuente de información para predecir con cierta fiabilidad cual será el tipo de mensajes que de ella se podrán generar y también para analizar mensajes reales emitidos. En todos los casos se tendrá en cuenta que hay 27 sı́mbolos posibles, 26 letras y un espacio. 1. Aproximación a orden cero (todos los sı́mbolos son equiprobables). XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPA AMKBZAACIBZLHJQD 2. Aproximación a primer orden (Los sı́mbolos tienen la frecuencia que tendrı́an en un texto tı́pico en inglés, observadas en el cuadro 2.3). OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHEN HTTPA OOBTTVA NAH BRL 3. Aproximación de segundo orden (estructura de digramas según el Inglés). ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE 4. Aproximación de tercer orden (estructura de trigramas según el Inglés). IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE Como un primer acercamiento en lo que es una medida de entropı́a en una fuente de información, se toma en consideración que el idioma inglés consta de 27 carácteres, entre ellos un espacio y veintiseis letras, entonces si todos estos sı́mbolos son equiprobables la fuente tendrá una entropı́a H = log27 = 4,75 bit/simbolo. Ahora si se considera el caso en que cada sı́mbolo tiene una probabilidad de aparecer en un mensaje de acuerdo con la siguiente tabla, se tiene que la medida de la entropı́a disminuirá, donde H = 4,03bit/simbolo.. 10.

(14) Sı́mbolos Espacio A B C D E F G H I J K L M. Probabilidad 0.1859 0.0642 0.0127 0.0218 0.0317 0.1031 0.0208 0.0152 0.0467 0.0575 0.0008 0.0049 0.0321 0.0198. Sı́mbolos N O P Q R S T U V W X Y Z. Probabilidad 0.0574 0.0632 0.0152 0.0008 0.0484 0.0514 0.0796 0.0228 0.0083 0.0175 0.0013 0.0164 0.0005. Cuadro 2.3: Probabilidades comunes para el Inglés. 5. Si ahora la aproximación se realiza en torno a las palabras y no a las letras se obtendra patrones que se asemejarán a los siguientes ejemplos. Aproximación de primer orden para palabras, para no continuar con tetragramas y n-gramas en general, es más práctico saltar a la unidad que conforman las palabras, en esta aproximación se tienen en cuenta tan solo las frecuencias independientes de las palabras en Inglés. REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TOOF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE 6. Aproximación de segundo orden para palabras. Se incluye la probabilidad de transición entre dos palabras. THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED Como se observa claramente, una definición de la probabilidad para los sı́mbolos del sistema es de suma relevancia, pues al hacerla cada vez más fina, la generación aleatoria de mensajes evoluciona progresivamente en mensajes más coherentes y a su vez con una menor incertidumbre. Si en el ejemplo se compara el conjunto inicial de posibles mensajes donde todos los sı́mbolos eran 11.

(15) equiprobables con la última aproximación para palabras, se podrı́a decir que en esta última existen partes del mensaje que podrı́an casi hacer parte de un texto real.. 12.

(16) Capı́tulo 3. Información en sistemas biológicos 3.1.. Acido Desoxirribonucleico (ADN). La manera como ha sido desarrollada la transmisión genética en los sistemas biológicos, es sin duda el mayor logro de la vida en la tierra, dando lugar este desarrollo a una evolución sostenida y dinámica, lo que implica que la vida no se reinventa si no que especializa sus diferentes aspectos sobre una base ya preconcebida y suceptible de ser cambiada o mutada. La estructura fundamental que ha permitido toda esta revolución biológica ha sido la molécula de ADN(ácido desoxirribonucleico) de la cual se atribuye su descubrimiento al bioquı́mico Friedrich Miescher en la década de 1870 [2]. Esta molécula recibe su nombre debido a que esta localizada en el núcleo de las células y a su composición ácida con altos contenidos de fósforo. 3.1.1.. Estructura Molecular del ADN. La molécula de ADN esta constituida por nucleótidos, pequeñas subunidades estructuradas las cuales poseen los siguientes elementos fundamentales: un grupo fosfato, un azúcar de cinco carbonos y una base nitrogenada que cambia de acuerdo al nucleótido el cual puede ser de cuatro tipos diferentes, timina(T), citosina(C), adenina(A) o guanina(G) figura 3.1, los cuales a su vez estan contenidos en dos grupos estructurales fundamentales pirimidinas (tiamina y citocina) y purinas (adenina y guanina). Ası́, para formar la cadena de ADN el grupo fosfato de un nucleótido se une con el azúcar del precedente. 13.

(17) Figura 3.1: Timina,Citocina, Adenina y Guanina. en una extensa cadena que por lo general posee millones de estos nucleótidos. La estructura de la cadena de ADN fué descubierta en 1950 por los cientı́ficos Watson y Crick, y se concluyó que es en forma de hélice doble y se sustenta en el medio gracias a la union de los nucléotidos los cuales se aparean siguiendo un patrón definido llamado la regla de base-paridad; solo lo hacen pirimidinas con purinas y más especificamente timina con adenina y guanina con citosina, de acuerdo con esto el monto de timina y adenina será el mismo, al igual que el monto de citosina y guanina. 3.1.2.. Replicación del ADN. Como preámbulo en la comprensión de los procesos de transmisión de la información genética en organismos vivos es pertinente hablar de la duplicación de las cadenas de ADN un poco más en detalle. A partir de la configuración en forma de hélice doble de la cadena de ADN y teniendo en cuenta la regla de base-paridad que cumplen los nucleótidos se. 14.

(18) deduce que al decodificar la secuencia de una de las cadenas, automaticamente se obtiene la codificación para la del otro lado. Ası́ un cromosoma puede ser duplicado si se separan las cadenas y se vuelven a aparear con nucleótidos libres, los cuales abundan en el núcleo celular. De esta manera la cadena en si misma se convierte en un modelo patrón para su autoreplicación. El primer paso en la replicación es el de separar la cadena 3.2, esto se logra por medio de una enzima que la recorre, denominada ADN helicasa la cual puede arrastrarse sobre la molécula de ADN gracias a la energı́a suministrada por el ATP (adenosı́n trifosfato), y al final deja al descubierto bases sin apareamiento a lo largo del trozo de cadena separada. Luego la enzima ADN polimerasa es la encargada de complementar el lado de la cadena que ha quedado desapareado, reconociendo la secuencia de nucleótidos de esta para luego ir a buscar nucleótidos libres que han sido previamente sintetizados por la célula, ensamblandolos con el azúcar y el grupo fosfato para luego aparearlos según la regla de base paridad en la cadena patrón. El ADN polimerasa se mueve a lo largo de la cadena en sólo una dirección, la cual esta determinada por la posición de los carbonos en los nucleótidos, ası́ se desplaza del carbono libre en el azúcar hacia el que esta enlazado con el fosfato libre, conocidos común y respectivamente como carbonos 3´y 5´. Como se observa en la FIGURA estas configuraciones son opuestas en las dos cadenas por lo que las ADN polimerasas recorreran en sentidos contrarios segun la cadena que esten sintetizando. Como la ADN polimeraza recorre la cadena en sentido 3´a 5´ existiran dos casos posibles; uno en el que seguira el rastro de la ADN helicasa, asi la sı́ntesis de nucleotidos libres es continua e ininterrumpida, por el contrario en el caso en el que va por la cadena opuesta la ADN polimerasa comienza en el punto donde esta la ADN helicasa pero se aleja, ası́ tendra que arrivar otra ADN polimerasa a trabajar en el trozo que va quedando desapareado hasta que encuentra el punto donde empezo la primera y es en ese punto en el que la enzima ADN ligasa une lo que han hecho las ADN polimerasas separadamente en un ciclo que se repite hasta terminar la duplicación de toda la cadena. En gran medida la precisión en el proceso de replicación del ADN se debe a los enlaces o puentes de hidrógeno, los cuales tienen la carácteristica de ser los suficiente mente debiles como para permitir que la hebra se separe perfectamente bajo la acción de la ADN helicasa pero logran mantener una estructura estable al interior de la mlecula por medio de la cual se se mantienen unidos los nucleótidos, en el caso de la adenina y la timina dos puentes de hidrógeno las unen, en el caso de citocina y la guanina son tres. Sin embargo este proceso 15.

(19) Figura 3.2: Replicación del ADN. 16.

(20) es realizado a gran velocidad (entre 50 y 500 nucleótidos por segundo), lo cual puede generar errores a la hora de hacer la replicación pues la ADN polimerasa puede incorporar nucleótidos incorrectamente apareados, hecho que no implica un gran problema teniendo en cuenta que estos errores pueden estar en el orden de uno en 10.000 bases que son apareadas, esto gracias a las enzimas que participan en el proceso y principalmente la ADN polimerasa que prueba y lee cada uno de los nucleótidos libres en la nueva cadena. Además también es muy importante el hecho de que la lectura esta organizada para que sólo pueda ser realizada en un solo sentido y sin saltar ningún eslabón de la cadena, esto minimiza la posibilidad de que una parte quede sin ser leı́da o incompleta. 3.1.3.. El código genético. Los genes, contenidos en la molécula de ADN, son segmentos de ésta los cuales codifican para sintetizar una proteı́na en particular, ası́ cada gen tiene su propia secuencia de bases nitrogenadas y cada proteı́na una secuencia de aminoácidos, estas secuencias son recı́procas pues las bases deben codificar para los aminoácidos que conformarán la proteı́na. Las bases nitrogenadas sólo son cuatro: adenina(A), guanina(G), citocina(C) y timina(T), y deben codificar para todos los aminoácidos, componentes fundamentales de las proteı́nas, los cuales son 20. Dado este hecho es evidente que la codificación para los aminoácidos debe ser basada en distintas combinaciones de bases nitrogenadas, si la combinación para codificar para un aminoácido fuera de tan sólo dos bases, existirı́an 16 posibles combinaciones, las cuales no son suficientes para todos los aminoácidos, ası́ el siguente número de posibles combinaciones es de tres aminoácidos, esto quiere decir que es posible tener un total de 64 combinaciones 4x4x4, 60 de las diferentes combinaciones codifican para los 20 aminoácidos, lo que genera un codigo redundante pero no ambiguo pues combinaciones de diferentes bases nitrogenadas pueden codificar para un solo aminoácido cada una. Como el ADN está contenido en el núcleo celular y las proteı́nas son sintetizadas en los ribosomas del citoplasma es necesario que exista un puente de información entre estos, la solución que ha dado la naturaleza es la de utilizar una molécula mensajera llamada ácido ribonucléico ARN, la cual es semejante a la molécula de ADN pero tiene ciertas diferencias estructurales como lo es el hecho de que sólo forma una cadena simple a diferencia de la cadena doble del ADN, tiene un tipo diferente de azúcar en sus enaleces, ribosa en vez de desoxirribosa y por último la base timina(T) del ADN es cambiada por uracil(U). 17.

(21) en el ARN. La conformación de los aminoácidos a partir de las bases nitrogenadas contenidas en el ADN está estructurado de tal forma que aunque parezca redundante el código no es ambiguo, pues diferentes combinaciones de 3 nucleótidos (codones) pueden codificar para un aminoácido,tal como se observa en el CUADRO. TTT Fenilalanina TTC Fenilalanina TTA Leucina TTG Leucina CTT Leucina CTC Leucina CTA Leucina CTG Leucina ATT Isoleucina ATC Isoleucina ATA Isoleucina ATG START(Metionina) GTT Valina GTC Valina GTA Valina GTG Valina. TCU Serina TCC Serina TCA Serina TCG Serina CCT Prolina CCC Prolina CCA Prolina CCG Prolina ACT Treonina ACC Treonina ACA Treonina ACG Treonina GCT Alanina GCC Alanina GCA Alanina GCG Alanina. TAT Tirosina TAC Tirosina TAA STOP TAG STOP CAT Hitidina CAC Hitidina CAA Glutamina CAG Glutamina AAT Asparagina AAC Asparagina AAA Lisina AAG Lisina GAT Acido aspártico GAC Acido aspártico GAA Acido glutámco GAG Acido glutámco. TGT Cisteı́na TGC Cisteı́na TGA STOP TGG Triptófano CGT Arginina CGC Arginina CGA Arginina CGG Arginina AGT Serina AGC Serina AGA Arginina AGG Arginina GGT Glicina GGC Glicina GGA Glicina GGG Glicina. Cuadro 3.1: Código genetico (codones). 3.2.. Información biológica y entropı́a. Como se vio en la sección Fundamentos de la Información, la ecuación de P Shannon para medir cantidades de información H = −K p(i) log2 p(i) ha sido naturalmente relacionada con la fórmula de Boltzman para la entropı́a de P un sistema termodinámico S = −K p(i) ln p(i) y para algunos como Gibss se constituirı́a en una analogı́a de la ecuación de la entropı́a, sinembargo siempre existirá el debate de si alguna de las dos ecuaciones es más general que la otra. El hecho de que exista esta cercanı́a entre la forma matemática de las ecuaciones se hace interesante, pues es posible desde el marco de la termodinámica comprender los interesantes conceptos que encierra la no menos importante teorı́a de la información. Algunas de las cuestiones comunes a las dos teorı́as son las relacionadas a 18.

(22) la medida de incertidumbres y probabilidades. En el caso de los sistemas termodinámicos la incertidumbre es algo fundamental e inherente a estos, pues en realidad nunca un sistema llega a estar en un estado determinado sino que debido a fluctuaciones que se rigen por modelos estocásticos puede acceder a un conjunto de estados alternativos, si el número de estos crece con estos crecerá la entropı́a del sistema. En la teorı́a de la información la incertidumbre es entendida como algo momentaneo que se da solo antes de que un mensaje es escogido de entre un conjunto de posibles mensajes, pero sin embargo al rededor de esta es que es determinada en últuma instancia su estructura y la posibiliad de que exista dicho mensaje. Como tan solo es un reflejo de que un mensaje es solo uno de muchos posibles dentro de un conjunto de posibilidades la incertidumbre en el campo de la información no es considerada como algo fundamental, pues en el momento en que un mensaje es emitido o una proteina es sintetizada es reducida a cero toda incertidumbre respecto a lo que contenı́a el mensaje. En este momento de la discusión parece que puede hacerse una aceptable distinción entre la teorı́a de la información y la termodinámica, sinembargo, cuando se habla de información en sistemas biológicos es preciso tener algunos aspectos adicionales en cuenta, porque aunque es pura información lo que es contenido en las cadenas de ADN, estos sistemas por estar confinados en medios orgánicos son suceptibles a ser tratados como sistemas termodinámicos. Entonces la teorı́a de la información se presenta acá como determinadora de una entropı́a pero entendida desde un punto de vista configuracional, por ejemplo si miramos el caso de un cristal que es un objeto totalmente organizado, su entropı́a configuracional es cero, hecho que además redunda en un bajo contenido informático, sinembargo si se analiza ahora una proteina, se puede decir que esta aunque no es una estructura organizada desde el puto de vista cristalográfico, sus elementos si constituyen un arreglo estable y posee una entropı́a configuracional que también es igual a cero. Es por esto que mucho autores realizan una distinción y deciden abandonar la idea de hablar de “entropı́a” sustituyendo este concepto por el de “complejidad”, incluso dejando aun de lado el concepto de “cantidad de información” el cual conlleva a una cuestión objetiva que es la de pensar que a mayor cantidad de información más conocemos acerca del organismo. El esfuerzo por tratar de ahondar en estos problemas semánticos no es de poca importancia pues la buena definición de los términos podrı́a llegar a remediar algunos conflictos que a veces parecieran molestar en la teorı́a de la información como lo es el hecho de tener que lidiar 19.

(23) con la segunda ley de la temodinámica al hablar de entropı́a de un lenguaje o sistema informatico. No obstante cientı́ficos como Gatlin [7] hacen énfasis en la “noción de que los grandes organismos poseen una reducción en su entropı́a a causa de su mayor grado de organización”. Esto serı́a decir que una bacteria posee mayor entropı́a que un ser humano a acusa de su reducida organización y tal vez la razón sobre la cual se levanta esta afirmación es la de que la entropı́a es una propiedad extensiva de los sistemas que incrementa proporcionalmente con el tamaño de los mismos, ¿pero entonces una colonia bacterial tendrı́a menos entropı́a que una bacteria en si?, acá es donde la definición de Sannon cobra fuerza y se concentran los esfuerzon en medir sobre la base de la complejidad de su información bilológica y no sobre su estructura orgánica.. 20.

(24) Capı́tulo 4. Cantidad de Información en cadenas de ADN Es importante volver a lo que con la teorı́a de la Fundamentos de la Información es posible hacer y acá es necesario enfatizar en el hecho de que al medir cantidades de información no es posible hablar de la calidad de la misma o de si es relevante o no. En lo único que puede ser basada una apreciación cualitativa es desde el punto de vista de cómo se ha construido el sistema probabilı́stico alrededor del sitema que se está tomando como muestra. También es importante hacer una referencia al hecho de que cualquier mensaje puede ser tomado como una fuente completa de información, pues de el pueden ser estudiados y extractados modelos probabilı́sticos, pero como siempre, en un estudio estadı́stico sólo las grandes muestras y ensambles correlacionados pueden arrojar resultados confiables. Para hacer un estudio de la información contenida en las moléculas de ADN ha sido preciso realizar una delimitación del problema, basada en varios aspectos fundamentales de estas. En primer lugar debe ser tenido en cuenta que un genoma como el humano puede llegar a poseer una cantidad cercana a los 3.000 millones de bases nitrogenadas lo que hace que tratar de analizar la totalidad de una cadena de cierta forma sistemática sea una empresa bastante engorrosa incluso para un computador muy potente. Existe otra razón que tal vez es más poderosa por la cual es importante acotar el campo de acción del estudio en las cadenas de ADN y es que en ellas más de 90 % de la infomación o códigos contenidos no es más que “basura”, es por esta razón que este estudio tan solo se concentrará en analizar segmentos de ADN que tiene información protéica.. 21.

(25) Esta grandes cantidades de segmentos en las cadenas de ADN que parecieran tan solo contener la mal llamada basura, y que no deben ser confundidos con los intrones, en realidad sı́ se analizan desde un punto de vista más estadı́stico tienen un gran impacto a la hora de mantener la información libre de errores cuando tiene lugar la replicación de las cadenas de ADN. Una forma de entender este hecho es analizando que existe una probabilidad de 1 en 10.000 [2] de que se cometa un error al momento de la replicación, lo que representa un porcentaje del orden del 0.01 % de genoma total, si se tiene en cuenta además que tan solo un aproximado del 5 % del genoma es información útil para sintetizar proteı́nas es posible hacer un cálculo de cúal es la probabilidad de que uno de estos errores se cometan en un segmento útil del genoma y se encuentra que es aproximadamenete de 1 error por 200000 bases nitrogenadas, de ahı́ la importancia de esta información que no codifica para ningún tipo de proteina o estructura conocida, pero que sı́ es útil para evitar un número muy alto de mutaciones a causa de la replicación.. 4.1.. Muestra. Para cumplir con el objetivo de medir cantidades de información en sistemas biológicos es necesario definir que muestras pueden ser útiles para este fin. Se ha buscado que el grado de complejidad evolutivo entre los organismos que se comparan no sea cercano, pues teniendo unas brechas evolutivamente considerables se podrá apreciar si la cantidad de información contenida en estos es o no proporcional a su grado de complejidad orgánica. Es necesario ahondar sobre otro aspecto de la información que está contenida en el ADN con el propósito de sustentar el hecho de sólo usar la información protéica contenida en él. Sı́ tuviesemos un mensaje en español contenido en un libro en el cual el 90 % de la información son letras aleatorias y sin ninguna concordancia probabilı́stica relacionada con lo que podrı́a ser un mensaje real del español, y nos pusieramos en la tarea de establecer la probabilidad de encontrar diferentes palabras del español a partir de este texto, lo más recomendable sin lugar a dudas es tomar simplemente la parte que tiene el mensaje real para establecer una probabilidad igualmente real de la frecuencia con que esta fuente (Español)emite estos sı́mbolos, el resto del texto aunque contiene sı́mbolos propios del idioma no responde una estructura que pueda ser comprendida o capaz de transmitir un mensaje y por tanto lo mejor es desecharla. Basados en esta premisa es que se decide sólo tomar en cuenta el contenido protéico de las cadenas de ADN y con base a este se harán los 22.

(26) cálculos pertinentes. Teniendo en cuenta lo anteriormenete mencionado se han escogido varios organismos sobre los cuales se harán los análisis pertinentes, estos organismos son: Bacteriophage KVP40 → Bacteria Escherichia coli CFT073 → Bacteria Homo Sapiens → Mamı́fero Saccharomyces cerevisiae → Fungi levaduriforme Anopheles gambiae → Insecto SARS coronavirus Tor2 → Virus Esta escogencia de organismos fue realizada con base en los criterios anteriormente descritos, sinembargo ha sido necesario tener en cuenta que la disponibilidad de genomas de especies aún es muy limitada, pues aunque el proyecto genoma humano alcanzó su logro final de mapear todo el genoma humano para junio de 2000 1 , el adelanto en el mapeo de otras especies sólo cobró relevancia después de que el del humano estuvo terminado. La forma como se obtienen los genomas de los diferentes organismos es accesando a bases públicas de datos, para obtener las secuencias que en este trabajo en particular se utilizan se accesó a www.tigr.org y www.ensembl.org en donde se puede especificar el tipo de información que se desea adquirir, que puede ser de diferentes tipos: genoma completo, genes por separado, clones, secuencias de proteı́nas conocidas o incluso se pueden encontrar secuencias de segmentos que podrı́an codificar para proteı́nas de las cuales no se tiene un conocimiento real, es decir predicciones de nuevas proteı́nas. En este punto es importante hacer una descripción del formato en el que son presentadas las secuencias que son descargadas de las bases de datos. Normalmente el tipo de listas que se obtienen tienen una estandarización, en la forma de su publicación, como lo muestra la figura 4.1, donde el caracter “>” indica el inicio de una nueva proteı́na, seguido de una breve clasificación de la proteı́na que se prolonga hasta que aparece de nuevo el caracter “cuadro”lo que indica que comenzará la serie de nucleotidos en la que cada letra significa 1 http://es.wikipedia.org/wiki/ProyectoGenomaHumano. 23.

(27) el posicionamiento de un aminoácido en la cadena y por supuesto cada letra respresenta un aminoácido especı́fico, entre cada espaciamiento de renglón también aparece el caracter “cuadro” hasta que de nuevo aparece el caracter “>”.. N◦ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20. Abrviatura A Ala R Arg N Asn D Asp C Cys E Glu Q Gln G Gly H His I Ile L Leu K Lys M Met F Phe P Pro S Ser T Thr W Trp Y Tyr V Val. Nombre Alanina Arginina Asparagina Acido aspártico Cisteı́na Acido glutámco Glutamina Glicina Hitidina Isoleucina Leucina Lisina Metionina Fenilalanina Prolina Serina Treonina Triptófano Tirosina Valina. Cuadro 4.1: Abreviaturas comunes para los aminoácidos. Ası́ haber escogido un mamı́fero, un insecto, bacterias, una levadura y un virus no es fortuito y nos ayuda a acumular un amplio espectro de datos alrededor del problema. En el caso del virus es interesante analizar qué pasa en este tipo de organismo que sin ser un ser vivo cumple con la primordial caracterı́stica de la vida que es la de prolongar su existencia en siguientes generaciones, esto lo logra por medio del aprovechamiento del metabolismo de células anfitrionas que son invadidas y donde estos se reproducen, ası́ que un virus queda convertido prácticamente en una unidad pura de información biológica que tiene la capacidad de desprogramar el programa genético de la célula en la cual se aloja.. 24.

(28) Figura 4.1: Modelo Datos, bajados de www.ensembl.org. 4.2.. Análisis de la muestra. A partir de los conceptos expuestos en el Capı́tulo 2 del presente trabajo y teniendo en cuenta las caracterı́sticas de la muestra, mencionadas en el aparte anterior, se dará paso a describir cómo fue posible hacer la ejecución de los cálculos realizados sobre las secuencias de ADN de los organismos a estudiar. Ası́ tomando como base fundamental las las ecuaciones 2.1, 2.5 y 2.9, se implementó programa computacional, el cual a su vez analizó cada una de estas secuancias.. 25.

(29) 4.2.1.. Descripción del programa. Es necesario generar un programa computacional mediante el cual sea posible convertir las listas que se obtuvieron de las bases de datos, las cuales contienen la información relacionada con el código de proteı́nas, a una forma estándar la cual sea comprendida por el lenguaje de programación a utilizar que en este caso será Mathematica; ası́ el programa básicamente estará compuesto de dos partes fundamentales. Una primera en la cual se hará todo el tratamiento de las listas, la cual busca que se puedan utilizar como matrices simples de Mathematica (entendiéndose listas también como matrices); en la segunda parte, ya con las listas organizadas se podrá proceder a operarlas para acceder a los resultados preliminares a utilizar en el análisis. Para entender la manera a través de la cual se llegarón a los resultados que sirvieron como base para el analı́sis de la investigación, es necesario describir de manera completa el proceso y funcionamiento del programa diseñado. Procesamiento de la lista En primer lugar se colocan las listas en el lugar de la memoria en donde Mathematica accede por defecto, para hacer el llamamiento de las listas dentro del programa C:/Archivos de programa/Wolfram Research/Mathe matica/5.0 Debido a que la mayorı́a de caracteres de la lista inicial son del tipo alfabético, se procede a llamar la lista desde el programa y se guarda en la variable A. Por medio de la orden –ReadList[“archivo.dat”, Byte]– el programa convierte la lista a caracteres numéricos según la codificación ASCCI predeterminada. Por medio del comando Length se mide la longitud de la lista A, y se guarda en la variable LA. Se busca en la lista el caracter “>”, al que le corresponde el número 64, que es el que indica que comienza la codificación para una diferente proteı́na, y se hace una lista con estas posiciones. Teniendo en cuenta que después del caracter “>” la lista contiene una breve identificación de la proteı́na la cual no es relevante para el propósito del programa, es necesario quitar estos caracteres de la lista ası́ que por medio de un F or se recorre la lista A saltando entre las posiciones en que se encuentran estos caracteres, borrando todo lo que aparezca de ahı́ en 26.

(30) adelante hasta encontrar el caracter “cuadro”, correspondiente al número 10, recomponiendo la lista para luego volver a ser procesada. En un procedimiento similar al anteriormente descrito, se localiza el resto de caracteres “cuadro”los cuales lo único que indican es un salto de lı́nea en la lista, y se procede a eliminarlos de la misma. Como en este punto ya todos los números de la lista corresponden a caracteres asociados a aminoácidos especı́ficos, sobre estos ahora si es posible hacer el conteo requerido. En una matriz de 20x20 inicializada en ceros, la cual representa a lo largo de sus 20 filas los 20 aminoácidos, lo mismo que para sus columnas, donde el cruce entre una fila y una columna representa una pareja de aminoácidos. Por medio de un F or se recorre la lista final y cuando el contador está en la posición i examina cúal aminoácido se encuentra en esta posición y a su vez el de la posición i + 1 y mantiene este par de aminoácidos como una pareja ordenada que podrá tener sus dos valores entre el rango 1 y 20 según el aminoácido que lea. Se agregará un conteo en la matriz en la posición (i, j) según la pareja que resulte tras cada paso sobre la lista. Finalmente se divide la matriz entre la longitud de la lista menos uno, para que de esta forma quede normalizada la suma total de probabilidades.. Cálculo de la entropı́a en las matrices de probabilidad. Para hacer este cálculo se introdujeron las ecuaciones 2.6, 2.5 y 2.9 en M athematica, proceso que se ve simplificado cuando se tiene en cuenta que H(x, y) = H(x) + Hx (y) [5]. Se introducen las ecuaciones, anteriormente referenciadas, en M athematica, teniendo en cuenta que cuando las probabilidades son iguales a cero no hay problemas con el log0 que es indeterminado, pues Limx→0 x logx = 0. 27. (4.1).

(31) 4.2.2.. Análisis de resultados. La implementación del programa denominado “Procesamiento de la lista”, como se vió anteriormente, cuenta los aminoácidos en las cadenas de ADN y entorno a este contéo genera un sistema de probabilidades basado en la frecuencia con que encuentra los digramas (i, j). Estas probabilidades en realidad son independientes si se tiene en cuenta la aparición de cada digrama como un hecho que no depende del anterior, sin embargo, esto no es un impedimento para extractar un sistema de probabilidades dependientes que evidencie la posibilidad de encontrar el aminoácido j tras haber obtenido el j. Esto se logra normalizando las filas de las matrices obtenidas como evidentemente lo muestra la ecuación 2.4. Entonces lo que se obtuvo con las respetidas corridas del programa fue un sistema de matrices las cuales nos indican como se realacionan los diversos digramas de aminoácidos para los diferentes organismos estudiados. Para una correcta visualización de estos gráficos es necesario tener en cuenta la nomenclatura utilizada para los aminoácidos la cual esta descrita en el cuadro 4.1, pues en los graficos las letras con que comienzan las filas y las columnas indican un aminoácido en particular.. Figura 4.2: Probabilidad condicional p(i, j) Bacteriophage KVP40 i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j jQ j j j j jG j j j j jH j j j 1 jI j j 24232 j j jL j j j j j K j j j j j M j j j j j F j j j j j P j j j j j S j j j j j jT j j j jW j j j j jY j j kV. A 155 79 114 119 11 116 71 116 37 105 139 99 30 86 61 115 143 18 73 122. R 89 67 63 73 9 92 36 68 13 67 102 73 31 50 33 65 84 18 59 100. N 84 65 93 79 8 101 49 108 21 95 120 56 39 65 55 99 102 23 63 98. D 103 70 98 108 17 79 52 134 37 126 134 75 16 81 50 118 102 17 81 129. C 9 13 11 10 4 17 7 13 5 4 7 8 4 2 4 20 15 2 8 12. E 138 70 91 109 8 121 73 106 27 135 108 84 29 77 72 84 96 18 62 119. Q 76 47 45 37 3 56 36 59 11 62 57 64 31 33 31 51 74 12 37 74. G 142 69 106 128 14 76 61 137 29 106 110 66 33 83 53 127 133 23 57 116. H 26 24 31 23 4 27 16 21 9 26 27 35 6 18 17 40 26 5 32 33. I 113 76 96 121 13 126 63 98 23 98 92 85 38 55 47 108 131 10 44 92. L 123 101 102 109 11 151 65 97 31 74 126 111 37 49 71 133 144 22 77 96. K 102 74 64 84 16 88 53 85 29 101 92 81 46 53 37 76 65 21 58 92. M 46 29 28 41 2 46 26 36 8 29 48 47 14 32 19 37 29 12 19 27. F 58 51 64 68 6 71 33 78 13 53 63 57 32 30 28 68 74 16 40 75. P 60 36 75 84 7 31 31 25 29 60 75 46 19 21 20 52 78 0 30 54. S 132 70 82 96 7 102 48 142 26 105 112 86 59 63 60 118 110 21 66 111. T 148 81 83 104 8 119 62 137 27 110 128 73 47 74 65 128 121 22 70 145. W 17 23 13 37 6 20 13 26 5 6 17 26 5 4 9 22 24 5 16 22. Y 58 56 53 80 3 81 35 64 30 54 72 61 34 34 40 60 66 19 41 72. V 130 91 111 117 18 107 66 119 36 112 101 84 26 68 61 95 135 32 80 120. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. La figura 4.2 es un ejemplo claro de estos patrones obtenidos en diferentes organismo donde se observa por ejemplo una marcada presencia de Leusina, sin embargo como esta visualización no es tan clara se generaron algunas matrices gráficas de las cuales es más claro ver estos patrones marcados de las 28.

(32) diferentes cadenas estudiadas. Es posible ver, gracias a las matrices gráficas (figuras 4.2, 4.3, 4.4, 4.5, 4.6, Figura 4.3: Probabilidad condicional p(i, j) Bacteriophage KVP40 i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j jQ j j j j jG j j j j jH j j j 1 jI j j 22180 j j jL j j j j j K j j j j j M j j j j j F j j j j j P j j j j j S j j j j j jT j j j jW j j j j jY j j kV. A 117 76 70 108 21 155 53 76 41 131 125 121 33 50 40 87 77 16 61 78. R 78 60 56 57 16 113 56 58 18 82 95 113 40 33 21 65 55 17 30 76. N 77 51 44 66 16 76 37 55 23 91 82 69 44 36 33 50 44 15 52 71. D 95 82 54 127 26 86 32 101 41 143 113 85 32 109 56 83 71 28 64 103. C 20 16 10 24 4 20 8 32 7 21 27 11 6 17 7 14 11 3 22 24. E 135 98 96 131 25 141 61 90 43 146 123 133 23 89 67 99 97 19 78 116. 1. Q 59 26 26 33 14 79 26 42 12 44 57 77 28 37 20 43 44 13 39 39. 5. G 78 72 80 97 13 81 30 65 32 79 97 92 33 55 39 85 66 14 56 74. H 31 30 21 27 9 52 15 33 12 33 43 45 16 23 18 23 20 9 17 38. I 115 82 75 120 15 156 60 80 40 85 109 123 60 81 37 72 103 8 59 96. 10. L 136 90 67 115 20 169 76 85 37 107 136 139 44 57 51 88 104 23 64 113. 15. K 114 87 88 108 31 127 64 98 27 111 111 151 60 71 40 110 82 22 73 106. M 39 27 29 47 2 52 25 36 13 57 49 48 22 35 25 39 20 10 18 35. F 79 52 45 80 13 91 35 59 30 68 55 65 28 42 34 67 49 16 29 66. P 43 34 47 37 10 38 18 16 24 48 71 56 18 28 14 41 49 3 23 46. S 78 61 52 80 18 86 41 65 25 79 113 86 50 61 47 86 68 18 48 100. T 82 53 51 63 15 90 42 66 31 81 121 84 43 49 30 73 53 14 56 76. W 23 19 11 29 3 24 12 24 5 17 18 17 5 17 9 11 14 2 5 13. Y 56 50 40 74 13 67 34 65 15 43 74 68 18 40 28 49 46 12 26 71. V 81 73 70 108 20 107 33 92 39 110 102 98 26 73 48 76 100 16 69 101. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 15. 20. 4.7, 4.8, 4.9, 4.10, 4.11, 4.12) un marcado patrón en la distribución de probabilidades en donde se observa con mayor frecuencia ciertos tipos de aminoácidos, por ejemplo se encuentra la Leusina en general en alta frecuencia relacionada con todos los demás aminoácidos, pero tambien se observa combinaciones que en general son de baja frecuencia como la Histidina y el Triptófano con el resto de aminoácidos. Algunos casos en donde los aminoácidos conservan una alta frecuencia de aparición al lado de si mismos como Serina, la Alanina y la Valina.. 29.

(33) Figura 4.4: Probabilidad condicional p(i, j) Escherichia coli CFT073 i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 26491 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 236 112 91 149 28 148 114 144 55 159 259 100 80 137 125 124 128 27 56 176. R 138 90 61 85 36 79 72 144 31 72 160 76 47 50 52 77 68 31 57 78. N 88 73 45 62 13 52 36 72 23 55 120 63 33 52 35 53 48 18 24 73. D 141 68 64 84 17 57 46 124 29 93 125 61 40 90 68 72 71 14 39 99. C 30 14 15 17 16 22 13 36 11 33 37 15 7 26 12 16 18 8 14 27. 1. E 156 111 48 98 27 106 60 134 24 99 171 69 35 56 78 67 57 17 42 96. Q 126 86 37 43 22 96 74 77 28 45 84 61 38 28 56 51 50 33 49 63. 5. G 180 101 81 87 29 107 91 135 61 139 192 84 73 107 100 115 117 31 75 128. H 43 50 21 33 11 40 45 46 22 34 59 28 12 22 23 37 39 15 20 44. I 162 86 76 98 20 102 65 130 39 99 166 58 45 62 41 90 82 19 37 123. 10. L 255 150 98 108 33 159 113 200 61 158 265 127 81 96 139 134 170 53 68 203. 15. K 124 77 38 76 13 91 54 86 22 71 130 64 42 47 53 52 36 24 23 80. M 87 58 22 37 6 54 38 62 21 46 82 49 20 29 22 39 29 11 12 50. F 109 85 42 64 17 55 51 104 39 66 108 47 23 62 47 72 55 25 39 73. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 30. 15. 20. P 82 56 53 51 15 47 54 74 48 78 148 58 40 38 46 72 70 11 35 76. S 113 64 59 63 18 79 43 98 31 107 143 61 49 86 65 87 78 16 58 93. T 122 56 55 75 18 67 51 91 30 89 146 57 38 64 42 81 85 18 49 102. W 29 31 20 27 12 32 14 46 14 18 39 8 10 21 13 17 22 8 10 22. Y 52 41 38 58 12 48 42 65 28 39 70 35 17 42 39 38 26 14 34 52. V 175 95 74 87 24 110 71 165 27 100 167 82 45 68 96 117 88 20 49 142. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.

(34) Figura 4.5: Probabilidad condicional p(i, j) Escherichia coli CFT073 i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 25222 j j j jL j j j j jK j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j Y j j j kV. A 271 127 93 115 22 150 138 169 37 178 321 102 73 109 105 134 123 28 48 196. R 144 70 48 51 16 88 74 82 32 61 148 68 44 43 44 78 70 32 48 67. N 75 48 33 60 9 70 40 78 22 74 104 39 25 46 31 37 29 9 26 68. D 129 62 40 73 16 62 43 95 28 78 103 47 32 52 70 73 62 13 39 83. C 35 20 13 15 8 11 7 19 8 20 37 4 7 10 16 14 12 3 13 23. E 152 68 42 87 13 100 68 128 18 102 171 63 38 34 81 78 60 16 31 104. Q 121 75 45 27 17 79 124 77 38 36 124 49 32 35 78 58 64 32 34 63. G 192 82 92 84 23 100 63 140 38 128 194 60 54 92 98 135 106 18 56 146. H 33 41 25 26 6 34 22 50 20 34 60 23 14 22 23 32 29 14 13 34. I 160 66 58 77 15 69 69 138 40 83 151 71 42 70 42 81 77 19 42 110. L 313 149 90 105 32 155 138 189 54 143 344 95 85 90 141 158 203 68 70 209. K 100 56 40 64 12 85 62 95 22 43 109 37 43 29 32 55 44 13 22 65. M 75 46 24 28 7 51 27 68 15 32 86 33 29 27 33 37 32 14 13 69. F 98 60 26 48 22 43 43 93 26 52 103 26 26 53 48 61 58 18 26 70. P 90 47 60 57 14 49 54 44 27 64 155 68 36 36 40 63 82 20 31 80. S 138 60 38 61 18 81 56 107 35 112 157 48 40 76 43 90 62 23 42 118. T 138 58 50 60 13 77 59 92 26 87 168 72 44 47 53 67 79 10 33 110. W 46 29 10 25 4 19 16 32 12 15 35 9 7 21 25 23 19 8 4 29. Y 44 47 29 36 9 36 24 63 21 39 69 32 15 30 20 49 16 11 22 41. V 185 97 68 100 19 96 81 141 36 98 192 82 61 78 94 82 116 19 40 157. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. Con el propósito de posibilitar la comparación con valores lı́mite es necesario establecer cual es el máximo valor para la entropı́a de este sistema, resultado al cual se llegará calculando la expresión de Shannon para cuando la combinación de los aminoácidos es equiprobable2 .. H(x, y) = log20 = 4,32193[bit/aa] Gracias al programa escrito en M athematica ha sido posible obtener las matrices para calcular las probabilidades de los diagramas, o parejas ordenadas de aminoácidos (i, j) y de las cuales por medio de la ecuación 2.4 se podrán obtener las matrices de probabilidad simple p(i) y de probabilidad condicional pi (j). Una vez hecho esto se usa de nuevo M athematica para de esta manera obtener las expresiones de Shannon para H(x), H(x, y) y por último Hx (y), como lo muestran las ecuaciones 2.1, 2.5 y 2.9. La tabla 4.2 resume los datos obtenidos en los diferentes calculos de entropı́a para las secuencias y lo que se observa es una clara reducción dé ésta, en la mayorı́a de los casos, sı́ se compara con los valores obtenidos con probabilidades aleatorias obtenidas de sistemas hipoteticos no reales. La entropı́a condicional obtenida de la configuración de los aminoácidos, si aumenta con respecto a la obtenida de matrices aleatorias, lo que es debido a la normalización de los 2 Normalmente la información es medida en unidades de bit/sı́mbolo, en este caso como sabemos que los sı́mbolos son aminoácidos, cambiamos la notación *aa:aminoácido. 31.

(35) Figura 4.6: Probabilidad condicional p(i, j)Homo Sapiens i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 25656 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 214 147 41 88 39 159 119 191 46 53 190 96 42 42 172 143 83 29 37 130. R 134 175 34 62 63 117 90 164 53 67 188 75 21 66 138 143 82 23 51 91. N 40 37 13 21 15 48 33 43 15 26 55 30 21 32 36 45 24 20 25 38. D 78 82 13 64 49 113 62 94 25 49 114 53 28 57 64 82 54 14 31 70. C 74 65 17 51 17 38 39 79 42 22 75 23 10 36 61 85 46 4 15 55. 1. E 117 144 30 81 63 232 96 108 33 38 139 100 47 32 119 126 63 17 27 97. Q 98 86 31 37 53 91 64 90 33 44 133 47 16 45 66 84 44 16 21 65. 5. G 191 135 59 125 73 127 98 179 52 36 242 73 34 65 231 124 97 21 34 121. H 54 62 29 25 30 38 33 55 29 16 80 35 17 29 50 42 35 14 16 50. 10. I 54 45 24 40 21 71 43 46 16 36 50 46 26 48 47 69 37 9 21 54. L 209 167 59 105 89 141 122 185 89 91 276 94 47 102 143 202 131 30 56 180. 15. K 54 124 32 58 26 99 58 82 24 44 135 102 26 31 52 65 45 19 18 76. M 37 23 17 19 14 48 33 33 15 21 55 40 12 22 30 41 19 3 14 19. F 74 60 20 47 20 44 23 89 26 32 88 42 20 38 49 77 56 13 34 48. P 157 137 40 88 76 61 71 172 66 35 190 72 27 65 160 164 88 23 28 85. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 32. 15. 20. S 157 111 50 116 75 96 60 197 58 63 174 76 42 79 142 177 94 22 48 121. T 99 77 36 50 39 69 38 120 35 46 118 56 23 31 86 86 56 21 38 84. W 45 30 10 10 6 7 7 33 15 8 20 7 5 10 23 40 30 2 5 25. Y 36 29 20 32 19 29 18 49 20 31 53 24 13 24 29 40 44 9 10 47. V 139 101 42 77 67 81 57 108 47 45 143 79 39 46 107 122 80 29 47 115. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.

(36) Figura 4.7: Probabilidad condicional p(i, j)Homo Sapiens i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 52593 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 456 289 85 155 66 306 257 333 87 109 408 185 89 101 338 306 198 67 68 259. R 258 335 83 132 110 251 187 275 104 140 369 132 57 127 243 270 162 60 91 176. N 88 81 36 56 33 94 77 93 30 77 161 76 38 64 69 105 60 29 53 92. D 158 151 55 122 70 214 131 162 48 91 222 114 60 96 127 174 112 36 78 160. C 117 107 35 85 44 63 64 122 55 42 139 51 18 54 104 137 77 12 35 87. 1. E 237 300 91 169 96 457 180 197 73 90 304 205 110 92 246 280 136 37 67 200. Q 208 160 63 73 78 179 183 168 91 102 311 119 40 99 160 197 113 36 40 150. 5. G 349 252 110 194 118 230 181 300 94 81 413 143 63 126 382 297 199 39 70 197. H 100 114 56 58 41 82 76 113 59 50 166 77 32 61 100 98 66 29 30 93. 10. I 132 114 60 107 49 136 93 117 42 89 138 111 41 80 89 127 85 16 50 110. L 409 325 132 205 155 324 274 372 167 198 607 207 105 214 318 474 274 66 138 347. 15. K 139 211 75 108 54 221 122 149 53 82 265 224 56 69 119 167 100 45 50 149. M 81 62 40 45 26 106 55 60 39 42 110 68 23 39 61 79 54 11 33 50. F 149 100 48 99 45 109 74 136 60 65 185 85 38 74 105 161 117 26 55 123. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 33. 15. 20. P 297 241 96 187 110 151 158 281 132 99 377 139 55 118 323 386 189 39 54 186. S 339 240 123 232 132 204 150 393 119 163 398 164 91 162 347 455 236 48 111 254. T 201 169 79 115 66 161 93 206 79 94 252 119 55 86 179 236 128 44 67 174. W 77 52 23 25 27 26 33 62 34 11 63 24 13 21 42 70 49 6 12 45. Y 78 70 37 77 29 60 40 90 42 62 123 60 23 55 71 98 74 17 30 78. V 289 189 85 137 99 193 142 209 93 99 300 155 78 116 195 243 174 52 82 218. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.

(37) Figura 4.8: Probabilidad condicional p(i, j)Saccharomyces cerevisiae i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 28413 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 128 63 105 76 21 91 60 67 31 92 162 95 47 64 77 161 128 13 42 98. R 71 74 53 61 18 77 60 54 26 88 120 108 29 44 39 106 62 8 39 63. N 89 58 138 88 13 104 68 77 30 112 163 111 48 78 65 136 108 28 51 83. D 57 59 118 136 19 106 58 82 32 93 165 93 42 79 64 123 87 18 42 88. C 18 13 16 17 14 12 9 27 10 32 53 23 6 11 15 33 15 7 18 25. 1. E 80 66 98 134 14 161 82 71 35 117 173 124 32 68 82 141 90 27 42 92. Q 69 53 61 35 16 63 73 49 19 65 125 78 16 46 55 73 70 12 37 65. 5. G 83 46 101 86 25 81 44 88 33 93 114 73 30 65 45 127 101 22 41 86. H 24 44 43 29 8 33 26 33 23 34 66 37 15 27 30 70 37 8 16 31. I 128 83 100 97 31 117 62 87 41 158 147 143 36 88 97 169 102 22 56 141. 10. L 162 133 145 139 28 155 90 137 81 194 272 187 62 118 119 249 157 32 91 174. 15. K 121 91 97 106 18 148 63 83 44 109 187 159 53 75 76 179 103 29 60 100. M 48 28 24 26 9 52 18 19 10 52 66 53 12 34 26 50 45 8 22 48. F 62 56 65 71 24 52 41 74 32 96 134 90 20 61 59 100 79 15 42 68. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 34. 15. 20. P 53 43 62 53 15 61 56 54 26 85 144 95 19 57 62 131 109 12 35 74. S 158 89 170 134 29 134 89 126 58 189 229 148 67 91 124 390 211 26 90 142. T 104 77 96 101 19 116 69 98 30 101 136 92 45 105 96 211 197 20 56 121. W 15 13 20 23 10 24 10 23 7 14 31 14 6 20 23 26 20 6 10 17. Y 42 52 41 45 20 58 45 48 25 55 80 71 22 38 19 70 48 11 32 56. V 109 59 95 104 23 84 56 87 41 126 158 107 44 72 73 149 121 8 56 148. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.

(38) Figura 4.9: Probabilidad condicional p(i, j)Saccharomyces cerevisiae i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 28312 j j jL j j j j j K j j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 127 61 98 97 21 89 56 97 20 115 165 108 29 73 63 135 112 17 50 103. R 64 93 62 58 23 74 59 57 26 73 138 110 27 64 47 109 59 23 39 80. N 94 82 103 92 19 108 66 77 35 94 151 96 43 57 68 169 103 12 44 99. D 83 75 93 107 17 126 61 87 41 112 150 131 43 66 69 121 70 18 60 93. C 24 17 23 26 13 23 15 21 10 25 40 24 13 21 13 31 27 5 17 26. 1. E 92 77 89 134 19 140 77 83 34 114 150 133 28 70 80 124 73 19 62 117. Q 70 49 53 44 17 52 79 49 25 75 118 70 19 49 48 105 49 15 44 51. 5. G 106 63 126 82 17 67 46 105 35 103 126 100 38 78 69 120 96 12 69 101. H 31 27 32 26 10 40 31 36 32 31 60 44 8 33 23 44 32 7 28 29. I 107 81 118 109 26 112 49 92 35 126 162 140 45 94 81 191 104 18 53 105. 10. L 134 126 142 169 38 158 119 146 56 162 278 175 50 127 130 236 141 29 97 150. 15. K 126 88 113 99 18 140 78 123 32 109 220 186 38 79 91 162 104 21 74 136. M 37 28 39 28 9 42 25 30 11 45 49 35 9 26 27 56 36 9 24 31. F 65 63 59 74 30 75 54 71 29 90 129 94 20 59 60 92 70 19 55 63. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 35. 15. 20. P 68 35 63 69 20 68 42 49 37 114 135 91 26 55 67 135 85 4 32 86. S 134 115 157 133 44 127 67 146 62 171 214 153 56 98 107 275 170 25 84 139. T 112 70 78 72 25 98 63 116 22 107 118 114 41 73 91 145 111 25 42 91. W 9 18 20 21 7 20 7 19 6 19 29 19 6 12 14 22 23 3 15 18. Y 54 45 53 63 17 67 34 62 22 53 82 86 17 53 51 62 48 12 41 68. V 99 72 91 120 24 89 53 93 34 110 149 127 41 84 82 143 101 14 60 113. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {.

(39) Figura 4.10: Probabilidad condicional p(i, j)Anopheles Gambie i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j j G j j j j j H j j j 1 jI j j 24651 j j j j L j j j j K j j j j j M j j j j j F j j j j jP j j j j jS j j j j jT j j j j jW j j j j jY j j kV. A 143 73 85 84 29 78 46 105 37 114 165 65 43 89 82 128 111 16 70 144. i j j j A j j j j j R j j j j j N j j j j j D j j j j j C j j j j E j j j j j Q j j j j jG j j j j jH j j j 1 jI j j 23938 j j j jL j j j j jK j j j j M j j j j j F j j j j jP j j j j j S j j j j j T j j j j j W j j j j j jY j kV. A 174 115 54 85 51 91 95 118 40 99 228 72 51 86 130 117 129 21 60 145. R 90 143 84 112 28 94 64 78 51 73 124 74 33 63 66 82 79 25 60 106. N 78 67 65 73 26 71 47 78 27 62 109 46 26 63 60 87 82 16 45 115. D 89 78 60 94 36 87 27 74 23 77 118 62 27 63 98 112 76 9 42 94. C 26 34 32 22 6 26 16 34 12 29 44 24 8 34 31 32 25 4 21 34. E 92 91 66 81 21 84 42 74 19 66 120 46 36 59 71 78 74 11 63 97. Q 50 47 37 41 16 72 46 45 25 57 94 52 21 38 34 68 41 22 50 67. G 94 85 86 89 37 90 49 118 37 108 109 72 39 69 69 109 94 16 58 81. H 36 27 21 31 8 34 29 30 23 28 60 37 21 25 24 34 29 21 27 47. I 119 85 91 75 26 51 64 74 23 89 116 65 34 84 59 115 111 24 43 109. L 149 142 91 128 57 133 96 127 47 117 236 116 69 99 107 147 113 27 64 153. K 84 80 44 53 23 47 39 73 40 67 88 59 26 36 70 64 63 10 34 70. M 55 46 31 24 10 28 25 40 21 34 61 19 27 16 28 33 38 13 27 43. F 84 81 53 50 28 52 53 62 34 69 116 44 29 45 62 107 72 18 51 78. P 88 69 51 65 24 63 41 54 37 89 132 64 27 73 75 83 60 11 46 83. S 125 105 100 98 31 94 73 121 34 118 155 57 41 91 79 157 92 12 63 115. T 108 87 68 93 31 68 51 114 29 94 130 54 33 75 80 95 84 18 42 118. W 13 21 20 12 8 11 8 33 19 8 26 14 8 22 5 23 20 6 11 22. Y 62 66 60 34 16 29 42 65 24 49 74 32 22 53 59 57 63 10 44 61. V 122 102 98 87 33 79 66 110 30 109 141 68 49 91 76 150 145 21 61 127. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. W 20 21 8 16 21 6 16 24 13 18 31 14 5 13 16 21 17 7 14 28. Y 67 72 36 40 32 47 43 45 21 37 91 42 10 28 38 39 53 13 51 55. V 153 78 61 75 59 65 56 86 35 94 190 65 39 83 80 103 111 10 58 129. y z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z {. Figura 4.11: Probabilidad condicional p(i, j)Anopheles Gambie R 83 102 58 89 33 108 77 105 39 58 158 63 43 81 65 80 77 15 53 97. N 82 61 40 33 25 58 40 57 29 51 85 41 32 39 32 56 86 16 25 69. D 84 73 60 77 39 60 32 55 27 48 101 55 23 51 86 84 72 11 52 69. C 51 55 30 46 19 51 36 30 23 30 64 33 10 24 25 41 44 10 25 40. E 114 78 55 79 52 71 58 80 30 59 128 55 26 50 85 73 67 16 50 75. Q 64 67 38 44 24 64 62 67 32 37 110 51 24 36 48 55 55 21 33 71. G 140 58 65 89 39 62 38 119 43 85 138 54 29 71 72 107 102 13 55 96. H 44 35 22 35 20 38 28 37 18 26 75 24 8 29 35 37 30 11 22 37. I 112 62 56 54 33 57 45 71 35 66 96 41 24 52 51 80 85 21 42 74. 36. L 212 169 107 119 64 147 112 140 69 102 315 108 72 106 112 138 134 35 77 180. K 80 76 38 29 16 70 43 69 19 39 92 61 35 42 48 75 50 17 36 63. M 47 45 26 20 16 30 25 31 11 28 54 39 25 19 28 30 28 7 24 45. F 90 72 49 40 29 42 29 61 21 55 113 31 22 66 54 81 65 10 39 65. P 98 63 48 64 41 74 58 71 47 77 139 44 26 40 81 57 62 14 43 96. S 139 85 52 63 33 68 51 110 31 82 143 57 40 71 89 134 67 35 53 111. T 107 97 54 62 41 92 59 99 28 66 168 48 34 47 68 106 105 26 48 84.

(40) Figura 4.12: Probabilidad condicional p(i, j)SARS coronavirus Tor2 A R N D C E Q G H I L K M F P S T W Y V A 20 8 6 12 7 10 8 11 0 12 21 3 4 13 8 18 17 5 10 9 R 8 7 9 6 5 4 7 12 3 8 9 3 5 6 4 9 5 3 4 6 N 11 4 9 4 6 3 8 9 2 7 10 11 2 13 7 13 13 1 8 14 D 7 6 10 9 2 7 3 7 2 8 14 5 2 6 11 10 4 0 8 13 C 8 1 4 4 5 1 2 4 1 5 5 5 2 4 2 5 10 4 3 5 E 8 3 3 6 5 8 5 9 1 10 17 2 1 2 6 5 3 1 1 10 Q 8 7 7 8 2 8 7 7 5 14 16 7 4 8 7 7 11 2 4 4 G 15 5 11 8 2 4 7 11 3 13 5 10 3 11 6 10 21 3 7 14 H 3 2 1 0 1 2 2 5 1 4 6 2 1 1 1 4 10 1 2 4 I 17 6 10 10 6 2 9 14 2 14 15 6 4 6 6 12 16 2 6 13 L 19 12 17 12 12 8 14 13 6 20 39 17 4 14 18 12 20 2 13 20 K 3 7 7 9 3 9 9 9 4 5 19 12 4 5 10 7 9 1 6 9 M 8 4 2 4 2 5 1 3 0 2 5 4 2 2 2 8 3 2 3 2 F 12 7 13 3 2 5 8 13 4 7 21 9 5 6 6 10 8 1 5 12 P 11 5 7 8 6 4 9 3 3 7 16 11 3 11 6 9 10 1 3 5 S 10 13 12 5 6 10 10 17 1 6 20 7 5 11 12 15 23 2 4 13 T 19 9 10 14 3 9 16 12 6 14 17 11 7 12 11 19 20 1 6 15 W 0 1 3 0 0 1 1 1 2 2 8 1 0 3 4 1 1 0 3 3 Y 4 6 8 5 3 4 8 5 5 4 7 9 1 10 3 12 6 1 5 6 V 12 10 6 7 2 2 9 4 2 14 22 12 4 13 8 16 21 2 11 25 2922. 1. 5. 10. 15. 20. 1. 1. 5. 5. 10. 10. 15. 15. 20. 20 1. 5. 10. 37. 15. 20.

(41) datos sobre el número total de aminoácidos, una distribución uniforme en este caso dará un número menor para la entropı́a condicional.. Organismo Bacteriophage KVP40. Escherichia coli CFT073. Homo Sapiens. Saccharomyces cerevisiae. Anopheles gambiae. SARS coronavirus Tor2 p(aleatoria). Equiprobable. H(x)[bit/aa] 4.1832 4.20444 4.16727 4.17752 4.14183 4.14766 4.154 4.15875 4.15743 4.15171 4.14271 4.19156 4.16278 4.17275 4.16278 4.16662 4.14551 4.20593 4.21317 4.19984 4.18671 4.31435 4.31217 4.30412 4.32193. H(x, y)[bit/aa] 8.34422 8.3854 8.31189 8.33325 8.25779 8.27068 8.2739 8.29385 8.28693 8.26489 8.25574 8.35984 8.30204 8.32837 8.30204 8.31051 8.26145 8.39038 8.39532 8.37786 8.27309 8.37853 8.37331 8.37594 8.64386. Hx (y)[bit/aa] 4.16101 4.18096 4.14462 4.15573 4.11596 4.12302 4.1194 4.1351 4.1295 4.11318 4.11318 4.16827 4.13926 4.15562 4.13926 4.14389 4.11544 4.18445 4.18215 4.17801 4.08638 4.06418 4.06114 4.07182 4.32193. Cuadro 4.2: Medidas de entropı́a en las cadenas de aminoácidos. Es importante observar los datos obtenidos para la entropı́a con probabilidades condicionales, que resultaron se la mejor aproximación a la fuente de información donde el valor promedio es de 4,1449Bits/aa, que es el 95.3 % del valor de entropı́a máximo con una desviación estandar de 0.0241, lo que mantiene los valores de entropia siempre con una brecha constantehacia el valor de entropı́a máximo. Lo que redunda en una menor incertidumbre en los sistemas que se han modelado probabilı́sticamente. La gráfica 4.13 muestra esta tendencia: La lı́nea verde representa el valor de máxima entropı́a, la lı́nea roja el valor medio de entropı́a en los sistemas biológicos estudiados donde los puntos son los valores particulares de entropı́a para cada muestra. 38.

(42) Figura 4.13: Desviación entropı́a Condicional.. Entropía vs Datos 4.3 4.25 4.2 4.15 4.1 4.05 5. Valor Medio Varianza Desviación Estandar. 10. H(x)[bit/aa] 4.17037 0.0004783 0.021871. 15. H(x, y)[bit/aa] 8.31532 0.00209 0.0457. 20. Hx (y)[bit/aa] 4.1449 0.00188183 0.0241. Cuadro 4.3: Resultados estadı́sticos. Un aspecto que se debe tener en cuenta al tratar de medir el grado de complejidad cuantitativa y cualitativamenete, en secuencias de ADN o cualquier otra fuente de información, es que la organización probabilistica de los signos para varios mensajes sea similar, pues bajo la analogı́a de los idiomas se podrı́a concluir que tal vez dos de estos tienen la misma incertidumbre o complejidad pero la conformación de sus simbolos es diferente como podrı́a ser el caso del español y el alemán. Como resultado de este razonamiento se ha graficado como se realaciona condicionalmente cada uno de los aminoácidos con si mismo y los demás (figura 4.15). Manteniendo la siguiente notación númerica que concuerda con el color de las lı́neas de la figura 4.14. 1. Bacteriophage KVP40 → Aminoácidos (0-552) 2. Escherichia coli CFT073 → Aminoácidos (0-563) 3. Homo Sapiens → Aminoácidos (0-548) 39.

(43) 4. Homo Sapiens → Aminoácidos (0-1086) 5. Homo Sapiens → Aminoácidos (548-1086) 6. Homo Sapiens → Aminoácidos (1088-1625) 7. Homo Sapiens → Aminoácidos (1627-2180) 8. Homo Sapiens → Aminoácidos (5998-6558) 9. Saccharomyces cerevisiae → Aminoácidos (0-562) 10. Saccharomyces cerevisiae → Aminoácidos (4004-4547) 11. SARS coronavirus Tor2 → Aminoácidos (Total). Figura 4.14: Probabilidad condicional pi (j). 11 10 9 8 7 6 5 4 3 2 1. La grafica 4.15 muestra que existe una realación marcada entre las probabilidades condicionales de encontrar cierto aminoácido i tras uno j para los diferentes organismos y en diferentes partes de sus genomas, lo que demuestra que los datos obtenidos no solo coinciden desde cierto punto de vista meramente numérico sino que existe un nivel más profundo de complejidad que es compartido entre todos los organsmos estudiados en el presente trabajo.. 40.