Desarrollo de modelos de clasificación para predecir la mutagenicidad de moléculas orgánicas

Texto completo

(1)Facultad Química-Farmacia Departamento de Licenciatura en Química. Trabajo de Diploma. Desarrollo de modelos de clasificación para predecir la mutagenicidad de moléculas orgánicas Autor: Adonis Jorge Huici Corrales Tutores: Dr. Reinaldo Molina Ruiz Dra. Aliuska Morales Helguera MSc. Evys Ancede Gallardo SANTA CLARA 2016.

(2) No digas: “Es imposible”; dí: “No lo he intentado todavía” Proverbio Japonés.

(3) a todos los que hicieron posible este trabajo.

(4) Agradecimientos A mis tutores, por todo su apoyo y por mostrarme nuevos caminos; A los trabajadores del CBQ, por tratarme como uno de ellos; A mis compañeros, por soportarme estos cinco años; A mis profesores, por su paciencia y dedicación; A mi familia, por siempre creer en mí. A todos, ¡¡¡GRACIAS!!!.

(5) Resumen En el proceso de desarrollo de fármacos, los ensayos de toxicidad son necesarios para preservar la salud de los pacientes que consumen el producto. Dentro de estos ensayos, los de mutagenicidad resultan especialmente costosos y difíciles de realizar. Una forma de reducir el número de estos ensayos es el uso de técnicas auxiliares como el cribado in vitro e in silico de sustancias orgánicas con potencialidades farmacológicas. El presente trabajo constituye un estudio in silico preliminar para desarrollar modelos de clasificación con alto poder predictivo de la mutagenicidad de moléculas orgánicas. Para ello se confeccionaron 4 Bases de Datos de sustancias con mutagenicidad reportada de acuerdo a 4 ensayos biológicos; cuyos casos fueron etiquetados como mutagénicos y no mutagénicos. Las bases de datos fueron curadas y posteriormente utilizadas para el cálculo de descriptores moleculares 0D-2D, implementados en los programas ISIDA_Fragmentor y DRAGON. Los descriptores más representativos junto a la variable respuesta, se emplearon para entrenar varios modelos de clasificación, que fueron validados interna y externamente. Los de mejor desempeño resultaron ser los árboles de decisión Random Forest que usan los descriptores del DRAGON. Estos alcanzaron un 75 % de predicción de la serie externa para la Base de Datos Bacterias, lo que es aceptable si se considera la heterogeneidad estructural de las bases de datos..

(6) Abstract In drug design, the toxicity assays are necessary to preserve the health of the patients that consumes the product. Within this assays, mutagenicity ones are specially expensive and hard to perform. A way to reduce the number of this assays is applying auxiliary techniques like the in vitro and in silico screening of organic substances with pharmacological potentialities. This work is a preliminary in silico study to develop classification models with high predictive power of organic molecules mutagenicity. For this purpose 4 Databases of substances with reported mutagenicity were prepared according 4 biological assays; whose cases were labeled as mutagenic and non-mutagenic. The databases were cured and then used for calculate 0D-2D molecular descriptors, implemented in ISIDA_Fragmentor and DRAGON softwares. Most representatives descriptors with the response variable were used for training of several classification, that were validated internally an externally. Best performance models were the decision trees Random Forest using the DRAGON descriptors. This models reach the 75 % of external dataset prediction in Bacterias dataset, which is acceptable if the structural heterogeneity of databases is considered..

(7) Í NDICE GENERAL Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VI Índice de figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . X Lista de Abreviaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI. 1. I NTRODUCCIÓN. PÁGINA 1. F UNDAMENTO T EÓRICO. PÁGINA 4. 1.1 1.2 1.3 1.4 1.4.1 1.4.2. 1.5 1.5.1 1.5.2. 1.6 1.6.1 1.6.2 1.6.3 1.6.4. 1.7. Estructura del ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Sustancias Mutagénicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Ensayos Toxicológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Modelación (Q)SAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Estudios (Q)SAR para mutagenicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Descriptores Moleculares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. Aprendizaje Automático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Técnicas de Aprendizaje No Supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Técnicas de Aprendizaje Supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19. Modelos de Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Árboles de Decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Algoritmos Basados en Casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Maquinas de Soporte Vectorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22. Evaluación de Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23.

(8) 2. M ATERIALES Y M ÉTODOS 2.1 2.2 2.3 2.4 2.4.1 2.4.2. 2.5 2.5.1 2.5.2. 3. Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Descriptores Moleculares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Selección de series: Entrenamiento, Prueba y Externa . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Preprocesamiento de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Selección de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Balanceo de Clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33. Modelos de Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Validación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35. D ISCUSIÓN DE LOS R ESULTADOS 3.1 3.2 3.3 3.3.1 3.3.2. PÁGINA 26. PÁGINA 37. Preparación de la Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Entrenamiento de Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Validación de Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Validación Interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Validación Externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. C ONCLUSIONES. PÁGINA 47. R ECOMENDACIONES. PÁGINA 48. B IBLIOGRAFÍA C ONSULTADA. PÁGINA 58. A NEXOS. PÁGINA 59.

(9) Índice de figuras 1.1. Formación del nucleótido monofosfato de adenosina . . . . . . . . . . . . . . . 5. 1.2. Complementaridad entre bases nitrogenadas del ADN. . . . . . . . . . . . . . . 6. 1.3. Pares de bases posibles con 5-BU . . . . . . . . . . . . . . . . . . . . . . . . . . 7. 1.4. Centros nucleófilos susceptibles de ataque por los agentes alquilantes . . . . . . 8. 1.5. Mecanismo de mutagenicidad del benzo[α]pireno . . . . . . . . . . . . . . . . . 9. 1.6. Bromuro de etidio intercalado entre dos pares de bases adenina-uracilo . . . . . . 10. 2.1. Metodología seguida para la curación de la base de datos . . . . . . . . . . . . . 28. 3.1. Clasificadores de mejor desempeño en la validación interna . . . . . . . . . . . . 43. 3.2. Predicción de los mejores modelos sobre la serie externa . . . . . . . . . . . . . 45. A.1 Comportamiento de los Random Forest del endpoint Bacterias variando I . . . . 62 A.2 Comportamiento de los Random Forest del endpoint Bacterias variando depth . . 63 A.3 Comportamiento de los Random Forest del endpoint Bacterias variando depth con I=25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64.

(10) Índice de tablas 1.1. Matriz de confusión general para problemas de dos clases . . . . . . . . . . . . . 24. 2.1. Familias de descriptores moleculares calculadas con el DRAGON . . . . . . . . 29. 3.1. Ejemplos de estructuras removidas de la base de datos . . . . . . . . . . . . . . 38. 3.2. Partición inicial de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39. 3.3. Modelos de mejor aprendizaje por algoritmo y base de datos . . . . . . . . . . . 41. A.1 Partición de los datos luego de aplicar SMOTE . . . . . . . . . . . . . . . . . . 59 A.2 Parámetros variados en los clasificadores . . . . . . . . . . . . . . . . . . . . . . 60 A.3 Modelos de mejor desempeño en la validación interna . . . . . . . . . . . . . . . 61 A.4 Predictividad de los mejores modelos sobre la serie externa . . . . . . . . . . . . 65.

(11) Lista de Abreviaturas. Abreviatura. Significado. 0D,... , 4D. 0,... , 4 Dimension(s). 5-BU. 5-bromodeoxiuridina. ADAPT. Automated Data Analysis and Pattern Recognition Toolkit. ADN. Ácido Desoxirribonucleico. ARN. Ácido Ribonucleico. AT. Adenina-Timina. AUC. Area Under the Curve. CASE. Computer Automated Structure Evaluation. CRADA. Cooperative Research and Development Agreement. DEREK. Deductive Estimation of Risk from Existing Knowledge. EMS. etilmetanosulfonato. FDA. Food and Drug Administration. FN. False Negative. FP. False Positive. G-C. Guanina-Citosina. kNN. k Nearest Neighbors.

(12) LISTA DE ABREVIATURAS. XII. Abreviatura. Significado. LD50. Dosis letal media. MG. Media Geométrica de las razones TP y TN. MODESLAB. MOlecular DEScriptors LABoratory. MOE. Molecular Operating Environment. mRMR. Minimal Redundancy & Maximal Relevancy criteria. MSV. Máquinas de Soporte Vectorial. MULTICASE. MULTIple Computer Automated Structure Evaluation. OECD. Organization for Economic Cooperation and Development. QSAR. Quantitative Structure-Activity Relationship. ROC. Receiver Operator Characteristic. SAR. Structure-Activity Relationship. SAs. Sub-structural Alerts. SMF. Sub-structural Molecular Fragment. TFT. Trifluorotimidina. TK. Timidinaquinasa. TN. True Negative. TOPKAT. Toxicity Prediction by Komputer Assisted Technology. TOXTREE. Toxic Hazard Estimation by decision tree approach. TP. True Positive.

(13) Introducción Los seres humanos se encuentran constantemente expuestos a sustancias químicas presentes en los medicamentos, los alimentos, los objetos que emplean a diario, así como en el entorno que los rodea. Muchas de estas sustancias pueden desencadenar o ayudar al desarrollo de enfermedades y trastornos que afectan la calidad de vida. Tal es el caso de aquellas que modifican la estructura del ADN o la forma de los cromosomas. Estas variaciones interfieren con sus procesos normales de transcripción, replicación y recombinación; e indirectamente con el proceso de traducción del ARN. Por este motivo, en el desarrollo de fármacos, es necesario conocer la capacidad mutagénica de las sustancias, pues el medicamento utilizado para tratar una dolencia no debe ser responsable de que surjan otras en el paciente o en su descendencia. Existen diferentes ensayos para determinar la mutagenicidad de una sustancia, pero tienen elevado costo y solo unos pocos laboratorios en el mundo poseen las condiciones necesarias para realizarlos. Esto se debe al empleo de biomodelos que requieren condiciones y protocolos de trabajo muy estrictos, la necesidad de personal calificado para realizar los ensayos, los costos de síntesis o adquisición de los reactivos que se emplean, además del tiempo necesario para obtener los resultados. Pese a estas desventajas, como ocurre con muchas otras pruebas toxicológicas, no existen alternativas suficientemente confiables para estos ensayos, por lo que su práctica es irreemplazable..

(14) 2. INTRODUCCIÓN Sin embargo, es posible utilizar estrategias de diseño racional como los cribados in vitro. e in silico de candidatos a fármacos, que ayudan a rechazar sustancias con potencialidad farmacológica antes de que se les realicen los costosos ensayos convencionales. Dentro de los métodos in silico, los estudios de Relaciones (Cuantitativas) Estructura-Actividad, (Q)SAR por sus siglas en inglés, destacan por su relativa sencillez y rapidez. En la actualidad, estos estudios resultan de gran interés para la comunidad científica [1], pues solo requieren de bases de datos de sustancias con los resultados experimentales de la propiedad a modelar y algoritmos de codificación y procesamiento de datos. Las aproximaciones in silico han sido muy utilizadas en la predicción de propiedades toxicológicas en general, que se traducen en varios estudios (Q)SAR y sistemas de expertos basados en reglas como: CASE, MULTICASE, TOPKAT, ADAPT, DEREK y TOXTREE [2]. Estos se basan generalmente en la identificación de alertas estructurales (SAs) y el uso de descriptores moleculares de 0D, 1D y 2D. Pueden dividirse en dos grupos: aquellos basados en series congenéricas de sustancias (aminas aromáticas, aldehídos, etc.) y aquellos basados en series no congenéricas. Los primeros tienden a dar muy buenos resultados predictivos pero solo dentro de su pequeño dominio de aplicación; mientras que los segundos tienen un amplio dominio de aplicación, pero como deben modelar simultáneamente varios mecanismos de acción, presentan un menor poder predictivo. Una posible vía de solución para este problema puede ser el empleo de multiclasificadores que empleen diferentes algoritmos de aprendizaje automatizado, pero para ello se necesita evaluar la predictibilidad de clasificadores independientes y seleccionar los mejores para que sirvan como base de dichos multiclasificadores. De acuerdo a lo anterior se llega al siguiente Problema científico: ¿Cómo pueden desarrollarse modelos de clasificación que relacionen exitosamente la estructura química de una molécula orgánica con su mutagenicidad?.

(15) INTRODUCCIÓN. 3. Como posible solución a este problema se plantea la Hipótesis: Es posible desarrollar modelos de clasificación que predigan la mutagenicidad de una molécula orgánica si se utilizan algoritmos de aprendizaje automático de tipo árboles de decisión, lazy, máquinas de soporte vectorial y redes bayesianas.. Para comprobarla o refutarla se establece como Objetivo General: Desarrollar modelos de clasificación para la predicción de la mutagenicidad de moléculas orgánicas, basados en algoritmos de aprendizaje automático.. que puede dividirse en los Objetivos Específicos: 1. Confeccionar bases de datos curadas de moléculas orgánicas con mutagenicidad reportada para cuatro ensayos biológicos diferentes. 2. Entrenar modelos de clasificación de tipo árboles de decisión, redes bayesianas, lazy y maquinas de soporte vectorial, basados en descriptores moleculares 0D, 1D y 2D. 3. Validar los modelos de clasificación obtenidos para determinar si pueden ser usados en la predicción de la mutagenicidad de moléculas orgánicas..

(16) 1 1.1. Fundamento Teórico. Estructura del ADN El ácido desoxirribonucleico (ADN) es una molécula polimérica que codifica mediante genes la información necesaria para controlar todas las funciones celulares, y es responsable de mantener la identidad de diferentes especies de organismos a lo largo de millones de años, por lo que se le considera la base química de la vida y la herencia [3]. Está compuesto generalmente por dos cadenas de polinucleótidos que giran hacia la derecha cada una en torno a la otra en forma de doble hélice, y se encuentran unidas entre sí mediante enlaces por puentes de hidrógeno [4]. Los monómeros que componen el ADN se conocen como nucleótidos. Consisten en una base nitrogenada unida a un azúcar pentosa, la 2-desoxi-D-ribosa, mediante un enlace glicosídico (estructura que se conoce como nucleósido); que a su vez se encuentra unida a un grupo fosfato a través de un enlace fosfoéster como se aprecia en la Figura 1.1. Los nucleótidos se enlazan por el grupo fosfato de uno y el azúcar del otro, para formar cadenas alternadas de fosfato y desoxirribosa, que constituyen la columna vertebral de la doble hélice del ADN [4]. Las bases nitrogenadas son moléculas heterocíclicas, cuyos anillos moleculares contienen.

(17) 1.1 Estructura del ADN. 5. Figura 1.1: Formación del nucleótido monofosfato de adenosina. nitrógeno. Se derivan de dos tipos de compuestos conocidos como purina (estructura cíclica de nueve puntas, hexágono-pentágono fusionados) y pirimidina (estructura cíclica de seis puntas, hexagonal). En el ADN existen cuatro bases nitrogenadas regulares: la adenina y la guanina, con estructura purínica y la citosina y la timina, con estructura pirimidínica [5]. Los enlaces por puentes de hidrógeno que unen las dos cadenas de polinucleótidos se establecen entre bases complementarias: adenina-timina con dos enlaces y guanina-citosina con tres enlaces [3], Figura 1.2. La mayor parte del ADN de un organismo se localiza en el núcleo de sus células. En los organismos eucariotas se encuentra asociado a proteínas básicas de bajo peso molecular conocidas como histonas que forman los nucleosomas, que son la unidad básica de la cromatina. En los procesos de división celular la cromatina se condensa y organiza en unidades independientes y bien definidas en los que ocurre la replicación y recombinación del ADN: los cromosomas [3]. La forma y el número de cromosomas que presenta un organismo es constante, y por lo general, coinciden con los de otro individuo de la misma especie..

(18) 6. CAPÍTULO 1. FUNDAMENTO TEÓRICO. (a) Adenina-Timina. (b) Guanina-Citosina. Figura 1.2: Complementaridad entre bases nitrogenadas del ADN.. 1.2. Sustancias Mutagénicas La interacción de ciertos compuestos químicos presentes en el medio ambiente con el ADN puede provocar cambios genéticos debido a modificaciones en su estructura, que afectan a uno o más genes [6]. Estas mutaciones químicamente inducidas se conocen como mutagénesis química, y los productos químicos capaces de inducirlas se denominan sustancias mutagénicas o genotóxicas. Muchos tipos de cáncer [7] y otras enfermedades degenerativas son resultado de mutaciones genéticas adquiridas debido a la exposición al medio ambiente, y no como resultado de los rasgos hereditarios. El poder mutagénico de una sustancia depende de su capacidad para penetrar en la célula, su reactividad con el ADN, su toxicidad general, y la probabilidad de que el tipo de cambio químico que introduce sea corregido por un sistema de reparación. Hay cientos de mutágenos químicos conocidos que pueden ser indirectos o directos, en dependencia de si requieren o no de activación metabólica por las enzimas celulares para producir la especie final que interacciona con el ADN. Entre las sustancias de acción directa se encuentran: la N-metilN-nitrosourea y los epóxidos, y entre las de acción indirecta está el benzo[α]pireno y la aflatoxina B1..

(19) 1.2 Sustancias Mutagénicas. 7. Las sustancias mutagénicas se pueden dividir también en varias clases de acuerdo a su interacción con el ADN [8, 9]: Análogos de bases: Son moléculas con estructura química similar a una de las cuatro bases del ADN y pueden sustituirlas en la hélice durante la replicación del ADN. Una característica clave de estas sustancias es que forman pares de bases con más de una base, lo que puede provocar mutaciones en el próximo proceso de replicación, cuando se intente parear una base con el mutágeno incorporado. Por ejemplo, la 5-bromo-deoxiuridina (5-BU) existe en dos formas diferentes, una con similitud a la timina y por lo tanto parea con la adenina durante la replicación, mientras que la otra es parecida a la citosina y parea con la guanina. En su forma de timina, 5-BU puede ser incorporada a través de una adenina. Luego, si pasa a su forma iónica (parecida a la citosina), durante la siguiente ronda de replicación, introducirá una guanina en la cadena opuesta en lugar de la adenina. Como resultado ocurre una transición de AT a GC [2] Figura 1.3.. Figura 1.3: Pares de bases posibles con 5-BU. Modificadores de bases: Estos mutágenos provocan cambios químicos en las bases que forman parte del ADN. La gran mayoría de estos cambios se producen de tres maneras: 1. Deaminación: consiste en la eliminación del grupo amino de la adenina o citosina.

(20) 8. CAPÍTULO 1. FUNDAMENTO TEÓRICO con formación de hipoxantina o uracilo, respectivamente. Debido a las distintas propiedades de pareamiento de los productos de deaminación (hipoxantina con citosina y uracilo con adenina) se producen transiciones AT → GC y/o GC → AT . Un ejemplo de estas sustancias lo constituye el ácido nitroso [10, 11].. Figura 1.4: Centros nucleófilos susceptibles de ataque por los agentes alquilantes. En azul los centros que forman aductos estables y en rojo los inestables. 2. Alquilación: Los agentes alquilantes son compuestos electrofílicos con afinidad por centros nucleofílicos en macromoléculas orgánicas. Esta mutagénesis ocurre a través de varias vías, pues la mayoría de los heteroátomos de la doble hélice tienen capacidad de alquilarse y como consecuencia se originan transiciones y delecciones en la estructura del ADN. Numerosos sitios potenciales de alquilación han sido identificados en las 4 bases, aunque ninguno de ellos tiene igual reactividad Figura 1.4; y sus preferencias han sido racionalizadas en términos de los principios de reactividad dura-blanda [12]..

(21) 1.2 Sustancias Mutagénicas. 9. Los agentes alquilantes con dos o más centros electrófilos (cross-linking agents) pueden generar enlaces cruzados entre dos o más centros nucleófilos del ADN [13–15]. Un ejemplo de agente alquilante es el etilmetanosulfonato (EMS) que introduce un metilo en la guanina que impide su pareamiento con la citosina y provoca la transición AT → GC. En este grupo también tenemos a los hidrocarburos aromáticos policíclicos, los cuales se encuentran en grandes cantidades en el humo del tabaco. De ellos el más representativo es el benzo[α]pireno [16], que se combina con el ADN para formar grupos voluminosos que interrumpen la replicación Figura 1.5.. Figura 1.5: Mecanismo de mutagenicidad del benzo[α]pireno. 3. Hidroxilación: Los N-hidroxicarbamatos y las hidroxiureas son agentes reductores que forman radicales libres en presencia de oxígeno y trazas de metales. Estos radicales son compuestos en los que un átomo, generalmente de oxígeno, tiene un electrón desapareado, por lo que son muy reactivos y pueden dañar el ADN [17]. Reaccionan preferentemente con la citosina y producen prioritariamente los derivados N-hidroxilados en las posiciones 3 y 4..

(22) 10. CAPÍTULO 1. FUNDAMENTO TEÓRICO. Agentes intercalantes: Son moléculas planas que se insertan entre las bases adyacentes de la doble hélice e interfieren en la replicación, transcripción, reparación y recombinación del ADN. Cuando esto ocurre, la ADN polimerasa puede añadir una base adicional frente al agente intercalante. Si sucede en un gen, induce una mutación por corrimiento de lectura (altera la lectura de la transcripción del gen y cambia el orden de los aminoácidos que serán añadidos a la proteína codificada en el código genético). Un ejemplo de este tipo de agente es el bromuro de etidio, a menudo utilizado en los laboratorios de bioquímica para visualizar fragmentos de ADN que han sido separados en geles, debido a sus propiedades fluorescentes [18] Figura 1.6.. Figura 1.6: Bromuro de etidio intercalado entre dos pares de bases adenina-uracilo. 1.3. Ensayos Toxicológicos Existen varios ensayos definidos por la Organización para la Cooperación Económica y el Desarrollo (OECD) para la identificación de sustancias mutagénicas. Entre los más utilizados están: mutagénesis in vitro en bacterias [19], mutagénesis in vitro en células de mamífero [20], aberraciones cromosómicas in vivo [21] e in vitro [22] y el test de micronúcleos in vivo [23]. Mutagénesis in vitro en bacterias: Este ensayo es ampliamente utilizado para propósitos de tamizado de sustancias mutagénicas y carcinogénicas. Combina una alta sensibili-.

(23) 1.3 Ensayos Toxicológicos. 11. dad con una relativa facilidad técnica, rapidez y economía. En este ensayo se utilizan diferentes cepas mutantes de Salmonella typhimurium incapaces de sintetizar histidina. Cada una de las cepas tiene diferentes mutaciones que desactivan el gen que codifica la enzima requerida en la síntesis de este amino ácido vital. De manera que no pueden crecer en un cultivo a no ser que el medio esté suplementado con este aminoácido. Si el gen afectado muta, se produce una reversión al estado salvaje u original y entonces la bacteria será capaz de crecer en ausencia del aminoácido. Este fenómeno es conocido como “reversión” y las colonias como “revertantes” [2]. Mutagénesis in vitro en células de mamífero: Estos ensayos son utilizados para confirmar si un presunto mutágeno lo es para mamíferos superiores como los humanos. Las células de mamífero presentan un mayor grado de organización que las bacterias y su capacidad metabólica y de reparación del ADN también es mucho más compleja. Ejemplos de células utilizadas son las células de hámster chino (CHO, AS52 y V79), células de linfoma de ratón (L5178Y) y células linfoblastoides humanas TK6. Estas células son susceptibles a sufrir la mutación T K +/−− → T K −/− , que las hace deficientes en timidinaquinasa (TK) y pueden resistir entonces los efectos citotóxicos de la trifluorotimidina (TFT); agente que inhibe el metabolismo y detiene la división celular. Así, las células mutantes son capaces de proliferar en presencia de TFT, mientras que las células normales, que contienen timidinaquinasa, no lo son. El procedimiento consiste en exponer las células, con y sin activación metabólica, a la sustancia estudiada. Se las incuba por un período de tiempo, que permita la expresión de cualquier mutación que las transforme a células homocigóticas T K −/− (enzima infuncional), para luego determinar la supervivencia relativa contra un cultivo de control [2]. Aberraciones cromosómicas in vitro: Este ensayo tiene por objeto detectar agentes que provocan aberraciones cromosómicas estructurales en los cultivos de células de mamí-.

(24) 12. CAPÍTULO 1. FUNDAMENTO TEÓRICO fero. Las aberraciones estructurales pueden ser cromosómicas o cromatídicas. El test consiste en exponer a los cultivos celulares a la sustancia en ensayo, con y sin activación metabólica. A intervalos predeterminados, después de la exposición, son tratados con una sustancia que detenga la metafase (por ejemplo, colchicina). Se recolectan las células, se tiñen y se observan al microscopio en metafase para detectar la presencia de aberraciones cromosómicas [2].. Aberraciones cromosómicas in vivo: En esta prueba los animales (roedores) se exponen a la sustancia de ensayo por una vía adecuada y son sacrificados a intervalos apropiados tras el tratamiento. Antes de sacrificar los animales, éstos son tratados con un agente que detiene la metafase (por ejemplo, colchicina). Se realizan preparaciones de cromosomas de las células de la médula ósea en metafase que, después de teñir, se observan al microscopio para detectar aberraciones cromosómicas [2].. Prueba de micronúcleos in vivo: Este ensayo se utiliza para la detección de lesiones provocadas por la sustancia en los cromosomas o el aparato mitótico de eritroblastos, mediante el análisis de eritrocitos tomados de la médula ósea o la sangre periférica de animales, por lo general roedores [2].. Todos estos ensayos identifican sustancias capaces de producir alguna alteración en el material genético. En los ensayos in vitro suele ser necesario el uso de una fuente exógena de activación metabólica a modo de imitar las condiciones in vivo. El sistema más comúnmente utilizado es un cofactor suplementario de una fracción post-mitocondrial (S9) a partir de hígados de roedores tratados con agentes inductores enzimáticos como el pesticida Aroclor 1254 [24–28] o una combinación de fenobarbital y β-naftoflavona [29–32] [2]..

(25) 1.4 Modelación (Q)SAR. 1.4. 13. Modelación (Q)SAR Los métodos in silico incluyen las relaciones (cuantitativas) estructura actividad, (Q)SAR, las cuales llaman cada vez más la atención de científicos expertos en química médica de la industria farmacéutica [1]. La modelación (Q)SAR es un medio para el cribado de potenciales candidatos a fármacos, antes de que sean estudiados mediante técnicas convencionales. Estos estudios incluyen predicciones de actividades biológicas y toxicidad, tanto in vitro como in vivo [33]. Estos modelos (Q)SAR deben cumplir cinco principios establecidos por la OECD (Organization for Economic Cooperation and Development): I). Punto final definido: para asegurar la claridad en el punto final predicho por un modelo dado, debido a que un punto final dado puede ser determinado por diferentes protocolos experimentales y en diferentes condiciones experimentales.. II ). Algoritmo sin ambigüedad: para asegurar la transparencia del algoritmo del modelo que genera las predicciones del punto final a partir de la estructura química y/o las propiedades fisicoquímicas.. III ). Dominio de aplicación definido: expresa el hecho de que los (Q)SAR son modelos reduccionistas que inevitablemente están asociados con limitaciones en términos de los tipos de estructuras químicas, propiedades fisicoquímicas y mecanismos de acción para la que los modelos pueden generar predicciones fiables.. IV ). Medidas apropiadas de bondad de ajuste, robustez y predictibilidad: pensado para simplificar el conjunto general de principios, pero no para perder la distinción entre el desempeño interno de un modelo (representado por la bondad de ajuste y la robustez) y la predictibilidad del modelo (determinada por la validación externa)..

(26) 14. CAPÍTULO 1. FUNDAMENTO TEÓRICO V). Interpretación mecanística, de ser posible, del modelo: este principio no pretende rechazar aquellos modelos que no tengan una base mecánica aparente; pero si obliga a considerar la posibilidad de cierta asociación mecanística entre los descriptores usados en un modelo y el punto final predicho; y asegura que dicha asociación esté documentada [34].. 1.4.1. Estudios (Q)SAR para mutagenicidad. Entre los modelos teóricos de predicción in silico que se han desarrollado, podemos encontrar varios estudios (Q)SAR y sistemas de expertos basados en reglas como: CASE, MULTICASE, TOPKAT, ADAPT, DEREK y de más reciente creación el TOXTREE con un módulo específico para carcinogénesis y mutagénesis [2]. Computer Automated Structure Evaluation(CASE) descompone las estructuras en fragmentos de 2-10 átomos de longitud, con todos sus hidrógenos y una posible cadena lateral. Se analiza estadísticamente la distribución de cada fragmento generado entre las moléculas activas e inactivas y se identifican los fragmentos cuya distribución se desvíe de una distribución binomial simétrica ideal. Los fragmentos que se desvían perceptiblemente de la distribución de referencia se etiquetan como bióforos (fragmentos activantes) o biófobos (fragmentos desactivantes). MULTIple Computer Automated Structure Evaluation (MULTICASE) es un desarrollo del programa CASE, construido a partir de los problemas expuestos por este. Particularmente, MULTICASE responde al problema de distinguir entre los fragmentos que provocan la actividad y los fragmentos que modulan la actividad. En términos más generales, procura hacer frente a la presencia de jerarquías y de la no-linealidad dentro de modelos SAR en relación a sistemas no congenéricos de productos químicos. Como CASE, MULTICASE crea su propio diccionario de descriptores directamente de la.

(27) 1.4 Modelación (Q)SAR. 15. base de datos. Sin embargo, en contraste con CASE, MULTICASE selecciona como bióforo el fragmento estadísticamente más importante. Asume que es responsable de la actividad observada y luego separa de la base de datos todas las sustancias que lo contienen. Este proceso se repite sucesivamente con el siguiente bióforo más significativo sobre los casos restantes de la base de datos, hasta que queda dividida en segmentos de clases químicas que contienen un bióforo importante. Luego se aplica el análisis CASE a cada clase de bióforo por separado para determinar modificaciones subestructurales en la actividad de este. Toxicity Prediction by Komputer Assisted Technology (TOPKAT) consiste en diversos módulos para la predicción de varios efectos tóxicos agudos y crónicos como carcinogénesis en roedores, mutagénesis en Salmonella typhimurium, toxicidad oral aguda, irritación de la piel y de los ojos, LD50, etc). Cada modelo se deriva de una base de datos específica y utiliza descriptores de conteo de fragmentos (y descriptores de valor continuo en versiones más recientes). TOPKAT realiza el análisis de la sustancia en cuatro etapas. Primero identifica fragmentos de la estructura ausentes en los compuestos del sistema de entrenamiento. Luego comprueba si el producto químico se encuentra en el espacio óptimo de predicción de la ecuación de estimación, lo que permite conocer si la estructura analizada se encuentra dentro del dominio de aplicación del modelo. A continuación, predice la toxicidad del producto químico; y por último, TOPKAT permite que el usuario realice otra prueba independiente con una búsqueda de similitudes en la base de datos. Automated Data Analysis and Pattern Recognition Toolkit (ADAPT) representa la estructura mediante descriptores moleculares que codifican aspectos topológicos, electrónicos, geométricos o fisicoquímicos. Entre estos se pueden citar: tipos de átomos, tipos de enlaces, índices de conectividad, distancias interatómicas, cargas atómicas parcia-.

(28) 16. CAPÍTULO 1. FUNDAMENTO TEÓRICO les, momentos dipolares, energías de repulsión electrón-núcleo y áreas superficiales parciales cargadas. Luego se aplican diversos métodos de reconocimiento de patrones, análisis discriminate lineal y redes neuronales; para obtener modelos QSAR de los cuales se seleccionan los presentan mejor ajuste para modelar la propiedad biológica deseada.. Deductive Estimation of Risk from Existing Knowledge (DEREK), esta basado en reglas del tipo if-then-else asociadas a grupos funcionales particulares, o alarmas estructurales, de varias formas de toxicidad. Las características estructurales utilizadas en la predicción se le llaman toxicóforos. Incluye modelación de carcinogénesis, mutagénesis, sensibilización de la piel, irritación, teratogénesis y neurotoxicidad. Cada punto final de toxicidad tiene una serie de reglas y un sistema de toxicóforos. El programa compara la estructura de la molécula con los toxicóforos descritos en su base de datos. En caso de encontrar alguna alerta estructural, esta se destaca y lanza un mensaje que indica la naturaleza del peligro toxicológico.. Toxic Hazard Estimation by decision tree approach (TOXTREE), posee varios módulos de predicción, que incluye uno de mutagénesis y carcinogénesis realizado por Benigni y col. (50, 51). Este módulo consiste en un sistema de reglas basado en la presencia o no de una serie de alertas estructurales (SAs), que son grupos funcionales o subestructuras que están relacionadas a la actividad genotóxica o carcinogénica. En total contiene 33 SAs, cinco de ellas referidas a mecanismos de acción no-genotóxicos. El módulo analiza la estructura mediante modelos QSAR que devuelven resultados positivos o negativos que responden a: la presencia de SAs para carcinogénesis; si se reconoce una o más SAs; y si se reconocen SAs relativas a aminas aromáticas o aldehídos α, βinsaturados. El resultado final es una o una combinación de etiquetas del tipo:.

(29) 1.4 Modelación (Q)SAR. 17. • Ninguna alerta de actividad carcinogénica • Alerta estructural de carcinogénesis genotóxica • Alerta estructural de carcinogénesis no-genotóxica • Mutagénico en Salmonella typhimurium cepa TA100 basado en QSAR (potencial carcinógeno o improbable) 1.4.2. Descriptores Moleculares. Los descriptores moleculares son representaciones formalmente matemáticas de una molécula obtenidas por un procedimiento experimental bien definido: « El descriptor molecular es el resultado final de un procedimiento lógico y matemático que transforma información química codificada dentro de una representación simbólica de una molécula en un número útil o el resultado de algún experimento estandarizado [35] » En los estudios (Q)SAR, resulta necesaria la utilización de descriptores moleculares, ya que permiten codificar la información estructural de la representación de una molécula en números interpretables que pueden ser analizados estadísticamente. Para calcularlos se han desarrollado varios programas informáticos como DRAGON, MOE, ISIDA Fragmentor, MODESLAB, etc. Los descriptores moleculares pueden ser divididos de acuerdo a la representación estructural de la que derivan en cinco clases fundamentales 0D, 1D, 2D, 3D y 4D: 0D: se obtienen a partir de la información de los átomos independientes de una molécula, por lo que no tiene en cuenta su estructura. Algunos de ellos pueden ser el número de átomos, conteo de tipos de átomos, peso molecular y en general, descriptores constitucionales y cualquier función de las propiedades atómicas. 1D: se obtienen a partir de la información de los fragmentos subestructurales en que se puede dividir una molécula (grupos funcionales, sustituyentes, etc.) y no necesitan para.

(30) 18. CAPÍTULO 1. FUNDAMENTO TEÓRICO su cálculo conocer la estructura completa de la molécula. Los más usados de este tipo de descriptores son los conteos de fragmentos subestructurales.. 2D: se obtienen a través de la representación topológica de las moléculas. Tienen en cuenta la forma en que se encuentran conectados los átomos y se basan generalmente en la matriz de distancia del grafo molecular. Ejemplos de estos descriptores son los índices topológicos y los índices de conectividad al eje.. 3D: se obtienen de la representación tridimensional de la estructura de la molécula como un objeto geométrico rígido y permite no solo la representación de la naturaleza y conectividad de los átomos, sino también la configuración espacial en conjunto de la molécula. Entre estos están los descriptores geométricos, varios descriptores estéricos y descriptores de tamaño.. 4D: se obtienen de las llamadas representaciones estéreo-electrónicas (o representaciones de enrejado) de una molécula, que se relacionan con las propiedades moleculares derivadas de la distribución-interacción de los electrones de la molécula con sondas que caracterizan el espacio que les rodea. Como ejemplo se pueden citar los campos de interacción molecular [35].. 1.5. Aprendizaje Automático El aprendizaje automático o aprendizaje de máquinas, en ciencias de la computación, es una disciplina científica cuyo objetivo es construir y desarrollar algoritmos que puedan aprender de una serie de datos [36]. Estos algoritmos construyen un modelo a partir de ejemplos introducidos, que luego se pueden usar para realizar predicciones o tomar decisiones [37]..

(31) 1.5 Aprendizaje Automático 1.5.1. 19. Técnicas de Aprendizaje No Supervisado. En las técnicas de aprendizaje no supervisado o de agrupamiento, se cuenta con una colección de datos no etiquetados. El problema consiste en formar grupos con estos datos que tengan algún sentido lógico, según la información de los casos, y asociar entonces a cada grupo una etiqueta. Por lo general estos métodos se dividen en jerárquicos y no jerárquicos. Los jerárquicos crean una descomposición de los objetos en grupos jerárquicos, al estilo de “taxonomías” (superfamilias, familias, especies...). Requieren además un criterio de distancia entre grupos para decidir su unión, los más populares son los algoritmos de enlace simple y enlace completo [38]. Por su parte, los no jerárquicos construyen una partición de los datos con k grupos, donde cada grupo optimiza un criterio determinado. Dentro de estos uno de los más utilizados es el k-medias (k-means).. 1.5.2. Técnicas de Aprendizaje Supervisado. Las técnicas de aprendizaje supervisado son aquellas donde se tiene información sobre la hipótesis planteada. Pueden dividirse en Técnicas de Clasificación si la hipótesis es continua y en Técnicas de Regresión si la hipótesis es discreta. En los problemas de clasificación, cada caso del conjunto de datos tiene una clase asignada. Los casos son cada uno de los elementos de una base de casos y pueden representarse como vectores X = x1 , x2 , ... , xN donde cada xi es un atributo o rasgo asociado a ese caso y N es la cantidad de atributos. Así una base de datos puede ser representada por una matriz M de n filas y p columnas, donde cada fila representa un caso y cada columna los rasgos o atributos. Si se incluye además una fila con los valores de la clase asignada a cada caso, se dice que estamos en presencia de una “base de conocimientos”. A partir de estos objetos etiquetados en la base de conocimientos, las técnicas de clasificación construyen un modelo de clasificador para “aprender” la relación entre estos objetos y la clase..

(32) 20. 1.6. CAPÍTULO 1. FUNDAMENTO TEÓRICO. Modelos de Clasificación Los modelos de clasificación o clasificadores, son algoritmos utilizados para asignar un elemento entrante no etiquetado, en una categoría concreta conocida; o también se le llama así a las funciones matemáticas que estos implementan. Dichos algoritmos permiten ordenar o disponer elementos entrantes por clases, a partir de cierta información característica de éstos. Una manera de implementar un clasificador es seleccionar un conjunto de ejemplos etiquetados y tratar de definir una regla que permita asignar una etiqueta a cualquier otro dato de entrada, a este proceso se le llama “entrenamiento” de los modelos de clasificación. Existen varios métodos de clasificación entre los que se pueden citar: Redes Bayesianas, árboles de decisión, algoritmos basados en casos, Máquinas de Soporte Vectorial (MSV) y redes neuronales artificiales.. 1.6.1. Árboles de Decisión. El aprendizaje que usa árboles de decisión, es un método de aproximación de funciones objetivo de valores discretos, en el cual la función aprendida se representa por un árbol en el cual intervienen las posibles variables predictivas y sus interacciones. Los árboles obtenidos pueden ser representados como conjuntos de reglas “si-entonces” (if-then). Un árbol de decisión es un grafo acíclico donde cada nodo especifica una prueba de algún rasgo, y cada arco que sale del nodo corresponde a alguno de los valores posibles del rasgo que representa ese nodo. Al enfrentarse a un caso desconocido, se le aplica la prueba del nodo raíz y en dependencia del resultado logrado se evalúa el nodo siguiente. Este proceso continúa hasta alcanzar un nodo hoja o terminal que define la clasificación [39]. Los algoritmos base para construir árboles de decisión se conocen como ID3 [40], pero estos presentan algunas limitaciones como el alto riesgo de sobreentrenamiento (overfitting) y el hecho de que trabajan con atributos de dominio discreto. El sobreentrenamiento de un modelo es un fenómeno que ocurre cuando se entrena con una serie de datos pequeña; el.

(33) 1.6 Modelos de Clasificación. 21. clasificador obtenido tiene una alta capacidad predictiva sobre ellos, pero al introducir nuevos casos tiende a confundir la asignación de sus clases. El algoritmo C4.5 [41], es una variante de los ID3 que se usa para solucionar estas limitantes. Se basa en la utilización del criterio razón de ganancia (gain ratio), con lo que consigue evitar que las variables con mayor número de posibles valores salgan beneficiadas en la selección. Para evitar el sobreentrenamiento, utiliza puntos de corte e introduce varias medidas, en particular los criterios de parada de la división y de poda del árbol [33]. 1.6.2. Algoritmos Basados en Casos. Todos los métodos supervisados se “basan en casos”, ya que usan una base de casos o instancias para aprender. Pero a diferencia del resto de estos algoritmos, la esencia de los llamados algoritmos basados en casos es que su entrenamiento consiste simplemente en almacenar los casos, no necesitan crear reglas, ni árboles, ni ajustar parámetros. Este tipo de aprendizaje es conocido como perezoso (lazy) pues la generalización se pospone hasta el momento en que se clasifican los nuevos casos. Necesitan que se les defina una medida de distancia para comparar cada nueva instancia con las de la base de conocimientos, de forma que para cada nueva instancia, se use la instancia de la base de casos que esté más cercana a ella para asignar la clase. Dicho algoritmo conoce como método del “vecino más cercano”. A menudo se usa más de una instancia cercana y la clase mayoritaria es la asignada al nuevo caso, éste se denomina k-vecinos más cercanos (k Nearest Neighbours, kNN) [42]. Existen otros algoritmos basados en casos, como kStar que usa una función de distancia basada en entropía [43]. Como el desempeño computacional de estos algoritmos está en correspondencia con la cantidad de casos del conjunto de entrenamiento, se han desarrollado muchos otros algoritmos con la idea de hacerlos más rápidos [44]. Lo más complejo de estos algoritmos es definir la función de distancia. Aunque existen muchas medidas de dis-.

(34) 22. CAPÍTULO 1. FUNDAMENTO TEÓRICO. tancias definidas para trabajar con estos algoritmos, generalmente se debe intentar buscar una distancia que defina una “distancia real” de acuerdo con el problema que se quiera resolver. 1.6.3. Redes Bayesianas. Una red bayesiana es un modelo gráfico probabilístico que representa un conjunto de variables y sus dependencias probabilísticas. Son grafos acíclicos dirigidos, donde cada nodo representa un atributo y de cada variable en el espacio se especifican dos informaciones: la estructura de dependencias condicionales y las distribuciones de probabilidad correspondientes. Estas redes pueden ser usadas para inferir un valor objetivo dado los valores observados de otras variables, y recíprocamente, inferir el valor probable de una variable, a partir de la evidencia de otras y/o del valor objetivo. Existen algoritmos de “propagación de evidencias” que facilitan calcular la probabilidad de una conclusión, sobre cualquier variable, “independiente” o “dependiente” a partir de ciertas evidencias. Cuando no se conocen todos los valores de las variables en el conjunto de entrenamiento, el aprendizaje con una red bayesiana puede ser más difícil. para estos casos se han propuesto varios algoritmos de entrenamiento como el llamado K2, que usa un algoritmo de ascenso de colinas (hill climbing) restringido por un orden sobre las variables [45]. 1.6.4. Maquinas de Soporte Vectorial. Máquina de soporte vectorial(MSV) o máquina de vectores de soporte (MSV) es una técnica de aprendizaje supervisado que se ha desarrollado en los últimos años. Parte de la teoría de aprendizaje estadístico y se basa en el principio de minimización de riesgo estructural. Concretamente, fundamenta las decisiones de clasificación, no basadas en todo el conjunto de datos, sino en un número finito y reducido de casos que constituyen los “vectores soporte”. Se ha usado tanto para clasificación (aprendizaje supervisado con función objetivo discreta), como para regresión (aprendizaje supervisado con función objetivo continua). Pueden divi-.

(35) 1.7 Evaluación de Clasificadores. 23. dirse en MSV lineal y no lineal, basado este último en diferentes funciones núcleo (kernel). En el caso del MSV lineal, se construye un hiperplano n-dimensional de separación en el espacio, que se selecciona de tal forma que la distancia desde los ejemplos más cercanos al hiperplano sea máxima [46]. En el caso de la clasificación no lineal la idea es similar, excepto que se realiza una transformación no lineal del conjunto de entrenamiento; o sea, el conjunto de puntos originales es remplazado por los obtenidos con una función núcleo, de forma que se fije el hiperplano en el espacio de rasgos transformados. Hay que tener en cuenta que para que una función pueda ser considerada función núcleo es necesario ante todo que sea simétrica y semidefinida positiva. Algunas de las funciones núcleo más comúnmente usadas son: k(x, x0 ) = hx · x0 id. kx − x0 k k(x, x ) = exp − 2σ2 0. 1.7. Polinomial. Gaussiana de base radial. (1.1a). (1.1b). Evaluación de Clasificadores Después de representado el problema, seleccionado el algoritmo del clasificador y entrenado el mismo, sólo resta comprobar que el clasificador puede ser utilizado para modelar la propiedad. Para ello, el modelo debe cumplir tres requisitos: tener buena bondad de ajuste, robustez y capacidad generalizadora. Para evaluar la bondad de ajuste se tienen en cuenta el entrenamiento, o sea la capacidad de “aprender” del modelo. Para probar la robustez se eliminan algunos casos dentro del conjunto de entrenamiento, se entrena nuevamente y se predice la clase de los casos eliminados; si el modelo es robusto los resultados obtenidos no deben alejarse mucho del entrenamiento inicial. La capacidad generalizadora puede determinarse mediante una prueba interna con casos ajenos al conjunto de entrenamiento, y por lo gene-.

(36) 24. CAPÍTULO 1. FUNDAMENTO TEÓRICO. ral, sus resultados son inferiores a los del entrenamiento. Una vez seleccionados los modelos de clasificación de mejor desempeño, se procede a la prueba externa con los datos que fueron excluidos del proceso de desarrollo y validación de los modelos, que permite evaluar el desempeño real del clasificador. No es posible encontrar, de manera general, un clasificador mejor que otro. Para cada problema nuevo se necesita determinar cuál ofrece mejores resultados. Existen varios estadígrafos para evaluar la clasificación y comparar los modelos. En los problemas de clasificación, los más conocidos están basados en la “matriz de confusión” que se obtiene cuando se prueba el clasificador en un conjunto de datos. La Tabla 1.1 muestra la matriz de confusión de un problema de dos clases, donde C1 es la clase negativa y C2 la clase positiva. Tabla 1.1: Matriz de confusión general para problemas de dos clases. Clase Predicha Clase Real C1 C2 C1 TN FP C2 FN TP TP y TN son la cantidad de elementos bien clasificados de la clase positiva y negativa respectivamente. FP y FN son la cantidad de elementos negativos y positivos mal clasificados respectivamente. Basados en estas medidas, se calcula el error, la exactitud (accuracy), la razón de TP (TP rate) o sensibilidad, la razón de FP (FP rate), la precisión y la especificidad, que se dan por las expresiones siguientes: Error=. FP + FN T P + T N + FP + FN. Razón de TP = Precisión =. TP T P + FN. TP T P + FP. Exactitud = 1 − Error Razón de FP =. FP FP + T N. Especificidad =. TN T N + FP.

(37) 1.7 Evaluación de Clasificadores. 25. El estadígrafo kappa se utiliza para evaluar la predicción de un modelo respecto a lo que sería un modelo perfecto. A partir de un clasificador aleatorio, se hace una redistribución de los casos en la matriz de confusión de tal forma que se mantengan los totales por fila y columna. Luego se determina la diferencia entre el número de predicciones correctas de la matriz del modelo en cuestión y las de la matriz del modelo aleatorio. Se calcula la diferencia del número total de casos (que serían los clasificados correctamente por un modelo perfecto) y el número de predicciones correctas del modelo aleatorio. Por último, para obtener kappa, se divide la primera diferencia entre la segunda. Los valores que puede tomar se encuentran entre 0 y 1 y mientras más cercano esté de 1, más se aproxima al clasificador perfecto [47]. Otra forma de evaluar el rendimiento de un clasificador es por el análisis de la llamada Receiver Operator Characteristic (ROC) [48]. En esta curva se representa el valor de razón de TP contra la razón de FP, mediante la variación del umbral de decisión. Se denomina umbral de decisión a aquel que decide si una instancia x, a partir del vector de salida del clasificador, pertenece o no a cada una de las clases. Usualmente, en los problemas de dos clases se toma como umbral por defecto 0.5; pero esto no es siempre lo más conveniente. Se usa el área bajo esta curva (Area Under the Curve, AUC) como un indicador de la calidad del clasificador. En tanto dicha área esté más cercana a 1, el comportamiento del clasificador está más cercano al clasificador perfecto (aquel que lograría 100 % de TP con un 0 % de FP)..

(38) 2. Materiales y Métodos. La investigación aquí expuesta requirió el uso de varios programas informáticos del sistema operativo GNU\Linux y el DRAGON 6.0 de Windows. También fueron desarrollados otros programas en lenguaje de programación Python como apoyo para la visualización de las moléculas, procesamiento y extracción de datos, la integración de programas y el manejo de ficheros. Además fue necesario modificar el programa WEKA en lenguaje de programación Java para corregir un error de código. Mientras que para la confección de este documento se utilizó el editor de texto LATEXy el sistema de gestión bibliográfica Mendeley.. 2.1. Base de Datos Como fuente de información para construir las bases de datos del trabajo, se utilizó la base de datos de sustancias “SAR Genetox” (versión 2012) [49] producto de CRADA (Cooperative Research and Development Agreement) de la FDA (Food and Drug Administration) para promover la investigación y desarrollo de modelos SAR y QSAR. Esta contiene estructuras de sustancias con su mutagenicidad reportada como positiva, negativa o media para al menos una de las pruebas: mutación en bacterias, mutación en células de mamífero, test de.

(39) 2.1 Base de Datos. 27. micronúcleos y aberraciones cromosómicas in vitro expuestas en el epígrafe 1.3. Se confeccionaron 4 bases de datos independientes según cada uno de estos puntos finales o endpoint. Sin embargo, la gran cantidad de información recogida puede conducir a errores debido a la diversidad de laboratorios, analistas y protocolos usados para su determinación que pueden falsear los resultados. Para disminuir este efecto se utilizaron datos obtenidos por protocolos similares y se curó la base de datos inicial. Recientemente estudios realizados por Young y col. [50] señalan la importancia de la curación de información química en el contexto de la modelación (Q)SAR. Estos autores analizaron las tasas de error en varias bases de datos conocidas y evaluaron las consecuencias de los errores aleatorios y sistemáticos con respecto al desempeño predictivo de los modelos QSAR-derivados. Como resultado, llegaron a la conclusión de que los pequeños errores estructurales dentro de un conjunto de datos podrían dar lugar a pérdidas significativas de la capacidad predictiva de los modelos (Q)SAR. Los autores demostraron además que la curación manual de datos conduce a un aumento sustancial de la capacidad de predicción de los modelos [51]. Según lo antes expuesto, se decidió realizar la curación de la bases de datos con el fin de detectar errores en las estructuras que pudieran disminuir el desempeño predictivo de los modelos de clasificación. Dicha curación no tiene una metodología fija para su realización pero algunas pautas fueron establecidas por Fourches y col. [51]. Esta estrategia sigue seis pasos fundamentales: 1. Remoción de mezclas, estructuras inorgánicas (y eventualmente organometálicas) 2. Conversión de estructuras. Limpieza/remoción de sales 3. Normalización de quimiotipos específicos 4. Tratamiento de formas tautoméricas.

(40) 28. CAPÍTULO 2. MATERIALES Y MÉTODOS 5. Análisis/remoción de duplicados 6. Inspección manual Debido a la gran diversidad de la base de datos utilizada, fue necesaria la aplicación de. todos los pasos anteriores. Para la eliminación, conversión, estandarización de las estructuras se utilizó el programa Standardizer del paquete ChemSuit desarrollado por ChemAxon [52], que es uno de los recomendados por Fourches y col. [51], mientras que la remoción de duplicados se realizó con el programa EdiSDF del proyecto ISIDA [53]. Luego se realizó una inspección manual de la base de datos, con el objetivo de verificar que en los pasos anteriores no cambió accidentalmente la información original. En la Figura 2.1 se resumen los pasos que se siguieron para la curación de la base de datos inicial y los programas utilizados en cada etapa.. Figura 2.1: Metodología seguida para la curación de la base de datos. A la base de datos resultante se le llamó “Curada_final” y fue dividida de acuerdo a los ensayos utilizados para determinar su mutagenicidad en cuatro nuevas bases de datos: Bacterias (ensayo de mutagénesis in vitro en bacterias); Micronúcleos (prueba de micronúcleos.

(41) 2.2 Descriptores Moleculares. 29. in vivo), Mamíferos (ensayo de mutagénesis in vitro en células de mamífero) y Cromosomas (prueba de aberraciones cromosómicas in vitro). Los casos de cada base de datos fueron entonces clasificados en dos clases según su mutagenicidad. La primera clase, a la que se llamó “mutagénica” (1), incluye aquellas sustancias que presentaron mutagenicidad positiva o media en los ensayos; mientras que los casos de mutagenicidad negativa constituyeron las segunda clase, que recibió el nombre de “no mutagénica” (0).. 2.2. Descriptores Moleculares Para codificar la información de las moléculas del estudio se utilizaron dos programas de cálculo de descriptores moleculares: DRAGON [54] e ISIDA Fragmentor [55]. Primero se calcularon los descriptores relacionados con las familias 0D a 2D del programa DRAGON que observan en la Tabla 2.1. Se escogieron estos descriptores para dividir las bases de datos en series de desarrollo y validación de los clasificadores, por su gran diversidad; lo que garantiza tener en cuenta la mayor información estructural posible. Tabla 2.1: Familias de descriptores moleculares calculadas con el DRAGON. Índices constitucionales Índices topológicos Índices de conectividad Descriptores 2D basados en matriz Valores propios de carga Índices de adyacencia al eje Fragmentos centrados en átomos CATS 2D Índices de semejanza a fármacos. Descriptores de anillos Conteo de caminos y rutas Índices de información Autocorrelaciones 2D Índices ETA Conteo de grupos funcionales Atom-type E-state indices Pares de átomos 2D. En un segundo momento se calcularon además los descriptores de conteo de fragmentos del programa ISIDA Fragmentor2015, ya que tienen mayor interpretabilidad en los clasifi-.

(42) 30. CAPÍTULO 2. MATERIALES Y MÉTODOS. cadores que aquellos del DRAGON. Estos descriptores incluían los tres tipos de fragmentos moleculares sub-estructurales (SMF, por sus siglas en inglés). Los tipos de fragmentos calculados con el programa fueron: Secuencias Átomos/Enlaces: realizan conteo de secuencias de átomos y enlaces conectados sucesivamente en el grafo molecular, que corresponden al camino más corto posible entre cada par de átomos dentro de un rango de longitud dado inicialmente. Ejemplo de la forma en que se pueden presentar estos fragmentos es: C*C-C=O el cual se traduce como un átomo de carbono enlazado aromáticamente a otro átomo de carbono enlazado mediante un enlace simple a un tercer átomo de carbono que a su vez está enlazado por un doble enlace a un átomo de oxígeno. Fragmentos Centrados en Átomos: a partir de un átomo central, codifican los átomos que se encuentran a una cierta distancia topológica(esfera) de este. Incluyen los llamados átomos vecinos (esfera = 1) o átomos aumentados (esfera >1). Un ejemplo de la representación de uno de estos fragmentos es (C-H),(C-H),(C=C),xC; el cual se traduce como un átomo de carbono que se encuentra enlazado simultáneamente a dos átomos de hidrógeno mediante un simple enlace y a otro átomo de carbono a través de un doble enlace. Tripletas: son todas las posibles combinaciones de 3 átomos en un grafo con la distancia topológica entre cada par indicada. Por ejemplo, si la tripleta N5O5C6 esta presente, significa que un nitrógeno se encuentra a 5 átomos de un oxígeno, que a su vez se encuentra a 5 átomos de distancia de un carbono y este último está a 6 átomos del nitrógeno inicial. Los descriptores fueron usados para conformar “bases de desarrollo” de clasificadores basados en los tipos de descriptores: dragon, a-b_sequences, aug_a-b y triplets para cada.

(43) 2.3 Selección de series: Entrenamiento, Prueba y Externa. 31. endpoint. Estas bases de desarrollo, como su nombre indica, se utilizaron en el desarrollo de los modelos; con el objetivo de evaluar la influencia de los tipos de descriptores sobre sus desempeños.. 2.3. Selección de series: Entrenamiento, Prueba y Externa Cada una de las bases de desarrollo fue dividida en 3 series: Entrenamiento, Prueba y Externa. Las series de Entrenamiento se usaron para entrenar los modelos; las de Prueba se utilizaron para la selección de los modelos más predictivos y la Externa para la validación externa de los mejores modelos. Para la selección de las series Externa, se utilizó una extracción aleatoria del 20 % de los casos de las 4 bases de datos de los endpoint; mientras que el 80 % restante se utilizó como conjunto de Modelado de los clasificadores. Estudios realizados por Martin y col. [56] señalan que es posible obtener modelos con mejor desempeño, si se realiza una selección racional de la serie de Prueba que garantice que esta sea representativa de todo el conjunto de Modelado. Según este criterio ampliamente compartido por la comunidad científica, se extrajo un 20 % de casos representativos de los conjuntos de Modelado, para conformar las series de Prueba y con el 80 % de casos restantes se crearon las series de Entrenamiento. Para la división del conjunto de Modelado se utilizó el método Kennard-Stone [57–59], que permite seleccionar un subconjunto dentro de un gran conjunto de candidatos a muestra con la mayor diversidad posible. El algoritmo asume una “distancia” entre dos muestras que es menor si son similares, y mayor en caso contrario. Una vez definida la fórmula para para calcular la distancia entre dos muestras, el Kennard-Stone comienza con un gran conjunto de candidatos a muestra y un conjunto vacío de muestras seleccionadas. Las dos primeras muestras seleccionadas son los 2 candidatos que se encuentran a mayor distancia. Todas las muestras subsecuentes se seleccionan de forma iterativa hasta que el número de mues-.

(44) 32. CAPÍTULO 2. MATERIALES Y MÉTODOS. tras alcanza el número deseado. En cada iteración se selecciona el candidato con la mayor distancia mínima a todas las muestras seleccionadas anteriormente [58]. El programa DatasetDivision desarrollado en la Universidad de Jadavpur [60] permite realizar un muestreo que utiliza un algoritmo Kennard-Stone basado en distancia euclideana. Este programa se usó sobre el conjunto de descriptores del DRAGON de cada conjunto de Modelado para dividirlo en las series de Entrenamiento y Prueba. Posteriormente se identificaron los casos de cada serie y se procedió a dividir las bases de desarrollo restantes en sus correspondientes series de Entrenamiento, Prueba y Externa.. 2.4 2.4.1. Preprocesamiento de Datos Selección de Variables. Según lo expuesto en el epígrafe 2.2, en este trabajo se calculó un elevado número de variables, por lo que se hace necesario la selección de las más relevantes. Las técnicas de selección de variables son, junto a las técnicas de extracción de variables, las formas de reducción de dimensionalidad que se usan para el preprocesamiento de datos. La selección permite reducir el número de rasgos a tener en cuenta pues extrae un subconjunto de atributos menor que el conjunto original. Dentro de las técnicas de selección existen tres tipos: filtrado (filter), envoltura (wrapper) y sistemas integrados (embedded). Las técnicas de filtrado calculan la relevancia de los rasgos al tener sólo en cuenta las propiedades de los datos. La mayoría calculan el peso o relevancia de los atributos y eliminan los de menor peso. Estas técnicas reducen dimensionalidad; son simples y rápidas computacionalmente; y son independientes del algoritmo de clasificación. La selección de rasgos necesita ser ejecutada una sola vez, y como resultado se obtiene una nueva base de datos, con menos rasgos. La desventaja que acarrean es que al disminuir la cantidad de atributos, también reducen el espacio de búsqueda con respecto al de la hipótesis..

(45) 2.4 Preprocesamiento de Datos. 33. Una de las técnicas más empleadas es la que utiliza el criterio Mínima Redundancia Máxima Relevancia (minimum Redundancy Maximum Relevance, mRMR), implementado en el programa mrmr_ubuntu14.04 [61]. Este criterio fue propuesto por Peng y col. [62, 63] y combina los criterios de Mínima Redundancia y Máxima Relevancia para crear un equivalente del criterio estadístico de Máxima Dependencia. Este último criterio se basa en determinar los atributos que conjuntamente tienen la mayor dependencia sobre la clase designada. Se trabaja sobre densidades probabilísticas, con un mecanismo matemático de difícil cálculo, incluso en un ordenador. El criterio de Máxima Relevancia es una aproximación del de Máxima Dependencia que requiere un algoritmo menos complicado; pero al usarlo se corre el riesgo de trabajar con rasgos redundantes. Si dos rasgos tienen una gran dependencia mutua, la eliminación de uno de ellos no afectará su respectivo poder de discriminación de clase. Para eliminar este problema, se hace uso entonces del criterio de Mínima Redundancia de los rasgos. La combinación de ambos criterios es lo que se conoce como criterio mRMR y su resolución es un problema matemático mucho menos complicado que el criterio de Máxima Dependencia. Como este criterio trabaja sobre el conocimiento previo de la variable respuesta, a cada caso de las series de Entrenamiento se le añadió su clase correspondiente: Mutagénica (1) o No mutagénica (0). Luego se se les aplicó el método mRMR implementado en mrmr_ubuntu14.04, para obtener las 50 variables de mayor relevancia y menor redundancia. Este número de variables fue escogido porque permite reducir considerablemente los cálculos, elimina información poco útil y le brinda mayor interpretabilidad a los modelos. 2.4.2. Balanceo de Clases. Como se verá en el capítulo de los resultados, las series obtenidas presentan un gran desbalance de clases. Esto no es muy recomendable porque el uso de datos desbalanceados en el entrenamiento de los modelos de clasificación, puede provocar que el el clasificador.