Bio CHEDMOLS: un nuevo programa para estudios QSAR en informática química y biológica

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación Licenciatura en Ciencia de la Computación. Título: Bio-CHEDMOLS: Un Nuevo Programa para Estudios QSAR en Informática Química y Biológica. Autor: Ernesto Miranda Castillo Tutores: Dr. C. Carlos Morell Dr. C. Yovani Marrero Ponce. “Año 53 de la Revolución”. Junio del 2011 1.

(2) Dictamen.. Hago constar que el presente trabajo fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de los estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la Universidad.. Firma del autor. Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. Firma del tutor. Firma del jefe del Laboratorio.

(3) Dedicatoria. A Fífi, que aunque quiso, no pudo ver esto. A mi madre y mi hermana, lo único verdadero que tengo en este mundo.. I.

(4) Agradecimientos A todas aquellas personas que no confiaron en mí, gracias.. II.

(5) Resumen La rama científica de estudios QSAR cuenta actualmente con muchos programas para su trabajo investigativo. Tales herramientas de propósito general ignoran especificidades y métodos propios de la investigación en QSAR. Estos han sido creados para los diferentes sistemas, sin garantizar una complementación entre ellos sin tener que cambiar de ambiente. Varios de estos no se pueden utilizar con fines educativos pues sus detalles de configuración y modos de trabajo son difíciles de comprender. La mayoría, tienen demasiadas técnicas para la construcción de modelos de clasificación y pocas de regresión, no realizan un análisis adecuado sobre aspectos como la división racional de la data. También ocurre con estos que carecen o tienen pobres los procedimientos para realizar la validación de los modelos. No existe un programa, libre o comercial ya sea para su uso en docencia como en la investigación, que integre los métodos del aprendizaje automático con los métodos propios de la investigación en QSAR de modo que están accesibles los mejores métodos de cada una de estas ramas. Por tanto el objetivo de este trabajo es la creación de una herramienta computacional que integre los métodos del aprendizaje automático con los métodos propios de la investigación en QSAR de modo que estén accesibles los mejores métodos de cada una de las ramas que se integran. Es decir, desarrollar y evaluar, partiendo de Weka, un nuevo programa que permita el desarrollo de modelos de clasificación y regresión en estudios QSAR de Informática Química y Biológica.. III.

(6) Abstract The scientific section of QSAR studies has currently a lot of programs for its research wok. Such programs in general ignore details and methods inherent to QSAR research. These have been created for the different systems, without guaranteeing complementation among them and with changing the system. A big group of this before mentioned programs cannot be used for tutorials because their configuration details and ways of work are too difficult to understand. Also, they have too much techniques for models building of classification and too few regressions; they do not perform adequate analysis about aspects as the rational division of data. Besides happens that these programs have poor methods or even do not have the procedures to perform models validation. There exists no program, free or commercial, that can be used as teaching and as research, that can join, that integrates machine learning methods with the own methods of research in QSAR in a way that anyone can use the best methods of each one of these branches of research in the world of science. Therefore, the objective of this work is the creation of a computational tool that integrates machine learning methods in QSAR in way that the best methods are accessible in any of the fields involved. In other words, develop and evaluate, from Weka, a new program that allows the development of classification and regression models in QSAR studies of Chemical and Biological Informatics.. IV.

(7) Tabla de contenidos Resumen .............................................................................................................................................III Abstract.............................................................................................................................................. IV Introducción ..........................................................................................................................................1 Capitulo 1 Marco teórico. .....................................................................................................................6 Selección de atributos .......................................................................................................................7 División racional de los datos.........................................................................................................10 Métodos de validación ....................................................................................................................11 Análisis de dominio de aplicación. El rol de los „outliers‟.............................................................17 Herramientas computacionales disponibles ...................................................................................17 Consideraciones finales ..................................................................................................................23 Capitulo 2 Análisis y diseño de los algoritmos implementados. ........................................................25 Estrategias de división de la data ....................................................................................................25 Algoritmo de exclusión de esfera ...............................................................................................25 Red de Kohonen .........................................................................................................................32 Método de clúster K-medias. ......................................................................................................42 Método de validación. ....................................................................................................................46 Método de selección de atributos. ..................................................................................................50 Selección de variables Monte Carlo ...........................................................................................51 Outliers ...........................................................................................................................................60 Detección y borrado de Outliers .................................................................................................60 Conclusiones parciales ...................................................................................................................62 Capítulo 3. Manual de usuario............................................................................................................63 Conclusiones.......................................................................................................................................70 Recomendaciones ...............................................................................................................................71 V.

(8) Bibliografía .........................................................................................................................................73.

(9) Introducción “Los modelos son para ser usados, no creídos” Menger, F.M J. Am.Chem. Soc. 107 (1985) 3105. Los métodos que emplean técnicas asistidas por ordenador usados en el descubrimiento, diseño, y optimización de compuestos con estructura y propiedades deseadas han desempeñado un rol importante en el desarrollo de fármacos que se encuentran actualmente en el mercado o en fase de estudios clínicos. (Chong et al., 2006, Loew et al., 1993, Marrero-Ponce et al., 2005, Kubinyi, 1995)El resultado de este tipo de estudio in silico puede aplicarse como estrategia de tamizaje virtual que pospone los costosos procesos de síntesis y bioensayos, que se llevan a cabo solo después que se exploran conceptos iniciales mediante modelos computacionales (QSAR, 2003). Entre las herramientas empleadas en el tamizaje (cribado) virtual (Marrero-Ponce et al., 2005, Jain, 2004) se encuentran los modelos que relacionan cuantitativamente aspectos estructurales y propiedades (o actividades) de las moléculas. Este tipo de estudio de Relación Cuantitativa Estructura-Actividad/Propiedad,(Archer, 1978, Hansch, 1979, Barlow, 1981) es conocido ampliamente en la literatura como estudios QSAR/QSPR (acrónimo de Quantitative Structure Activity/Property Relationships). Este tipo de análisis proporciona una vía para estimar, con aceptable grado de precisión, la actividad/propiedad de nuevos compuestos y permite obtener una interpretación en términos estructurales de la actividad/propiedad estudiada. Según (Van de Waterbeemd, 1995, Rivera-Borroto et al., 2008, OECD, 2007) los principios de la metodología QSAR pueden describirse mediante los siguientes pasos comunes 1.. Formulación del problema, se determina el objeto de análisis y nivel de información requerido.. 2.. Conformar la base de datos de trabajo.. 3.. Parametrización cuantitativa de la estructura molecular de los compuestos químicos orgánicos (cálculo de descriptores moleculares).. 4.. Propiedad (endpoint) de interés (efectos biológicos, índices de retención, toxicidad) que se quiere modelar.. 5.. Escoger el tipo de modelo QSAR que se va a desarrollar en función de si el problema es de clasificación o regresión. Aquí es importante evaluar el desempeño de varias técnicas.

(10) Introducción. 2. y después comparar entre ellas pues no está bien establecido o no se conoce a priori cual técnica es la mejor en cada caso (no free lunch). 6.. Selección de los compuestos en el entrenamiento y predicción. Aquí es importante resaltar que en ocasiones hay varias técnicas en las cuales es obligatorio usar una tercera data de calibración. Además, entre más conjuntos de prueba existan, mucho mejor.. 7.. Validación interna y externa de los modelos obtenidos.. 8.. Definición o determinación del dominio de aplicación del modelo obtenido para analizar si una nueva instancia puede ser predicha con fiabilidad por el modelo obtenido.. 9.. Comparación estadística entre los modelos obtenidos y selección de los de mejor desempeño.. 10.. Análisis de diversidad y Fusión de los mejores modelos.. En el pasado reciente, la comunidad de informática ha desarrollado nuevos algoritmos de aprendizaje automatizado convenientes para el desarrollo de QSAR. (Ajay, 1993, Wiese and Schaper, 1993, Zhao et al., 2005, Zernov et al., 2003, Itskowitz and Tropsha, 2005, Asikainen et al., 2004). El aprendizaje automático es una disciplina de las ciencias de la computación que ha tomado mucho auge. Su objetivo es el diseño y desarrollo de algoritmos que permitan aprender a partir de datos. El énfasis principal en la investigación en este campo lo constituye la creación de programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. El aprendizaje supervisado es un caso específico cuando los ejemplos están previamente etiquetados y el algoritmo se invoca para encontrar una función (explícita o implícita) que establece una correspondencia entre las entradas y las salidas deseadas del sistema. Varias técnicas se destacan en este campo tales como las Redes neuronales artificiales, Árboles de decisión, Razonamiento basado en instancias, entre otras(Ajay, 1993, Wiese and Schaper, 1993, Zhao et al., 2005, Zernov et al., 2003, Itskowitz and Tropsha, 2005, Asikainen et al., 2004). Hoy en día se dispone de herramientas computacionales poderosas para el descubrimiento automático del modelo que mejor se aproxima a los datos. Sin embargo, tales herramientas de.

(11) Introducción. 3. propósito general ignoran especificidades y métodos propios de la investigación en QSAR. Esta contradicción constituye el problema científico de la presente investigación. Los programas actuales, tales como Weka, Statistica, SPSS, Orange, entre otros, de trabajo general en Estadística y Minería de datos, no incorporan un ambiente amigable ni operativo para los especialistas en el campo de QSAR según la regulatoria de la OECD(OECD, 2007) para este campo. Estos programas tienen, en ocasiones, demasiadas técnicas de clasificación, pocos métodos de selección de atributos o estos están ubicados inadecuadamente, no incorporan metodologías para la división racional de la data en serie de entrenamiento y de predicción al igual que no poseen o están limitados los procedimientos de validación interna. Ninguno incluye análisis del dominio de aplicación para saber si una predicción es fiable y tampoco permiten, en muchos casos, la identificación temprana o en la modelación de los compuestos con un comportamiento outlier. Solo algunos, poseen herramientas para la comparación del desempeño de los modelos y las técnicas más actuales en este campo no son incluidas. Finalmente, no poseen adecuados métodos de análisis de la diversidad de los modelos individuales con el propósito de llevar a cabo la fusión de los mismos y las metodologías de fusión no están completamente incorporadas. Finalmente, estos programas no tienen implementado las medidas remédiales en caso de datas altamente desbalanceadas. Por otro lado, los programas que hasta el momento han sido desarrollados para el trabajo en QSAR adolecen de muchos de los algoritmos de clasificación y regresión que si tienen programas más generales y amplios. Además, la mayoría tampoco cumplen con todos los requisitos establecidos por la OECD para la aceptación de un modelo QSAR. Así por ejemplo, los programas MOLGENQSPR, ARTEQSAR, BUILDQSAR, y MOBYDIG solo emplean regresión lineal múltiple como técnica estadística y los métodos de selección de atributos son muy limitados. Otros programas como CODESSA, TSAR, QSARIS, GROUNDSTAT y CERIUS tienen además de regresión lineal múltiple otras técnicas más sofisticadas pero el número máximo es tres pues son programas que buscan más la integración con el cálculo de descriptores en la misma aplicación. Una cuestión de relevancia, es que con excepción del Weka y el Buildqsar, ninguno de los programas antes descrito es libre por lo que tampoco pueden ser usados en la docencia. Por todo lo anterior se plantea el siguiente problema científico: No existe un programa, libre o comercial ya sea para su uso en docencia como en la investigación, que integre los métodos del aprendizaje automático con los métodos propios de la investigación en QSAR de modo que están accesibles los mejores métodos de cada una de estas ramas..

(12) Introducción. 4. En consecuencia, el objetivo general de la presente investigación es la creación de una herramienta computacional que integre los métodos del aprendizaje automático con los métodos propios de la investigación en QSAR de modo que estén accesibles los mejores métodos de cada una de las ramas que se integran. Es decir, desarrollar y evaluar, partiendo de Weka, un nuevo programa que permita el desarrollo de modelos de clasificación y regresión en estudios QSAR de Informática Química y Biológica. Los objetivos específicos derivados del anterior son: 1.. Diseño e implementación de una interfaz gráfica con el usuario (GUI) que permita al investigador seguir la metodología QSAR.. 2.. Seleccionar los algoritmos de selección de atributos, clasificación y regresión al igual que de fusión en Weka e incluirlos en tal aplicación.. 3.. Implementar nuevos métodos de selección de atributos, de limpieza de datos, de división racional de los datos y métodos de validación propios de este dominio de aplicación.. 4.. Realizar un manual de usuario de la aplicación.. Preguntas de investigación 1. ¿Se logrará en este trabajo crear una interfaz grafica amigable que permita al investigador seguir la metodología QSAR?. 2. ¿Existirá la capacidad de incluir en esta aplicación los algoritmos de selección de atributos, clasificación, regresión y de fusión que existen en Weka?. 3. ¿Al final de este trabajo existirá un software con la implementación de un nuevo método de selección de atributos denominado “método de selección Monte Carlo” en la aplicación y agregar los métodos de validación propios de la investigación en QSAR, tal como la validación interna de aleatorización de la variable respuesta (Y)?. 4. ¿Se finalizará el trabajo de implementar las estrategias y coeficientes más empleados en la actualidad en el análisis de diversidad de los modelos individuales?. 5. ¿Se hará la implementación de métodos para la detección automática de outlier y del análisis de dominio de aplicación con y sin información del modelo?.

(13) Introducción 6. 5. ¿El desarrollador de este trabajo seleccionará en Weka los métodos que existen para generar diversidad en un modelo de fusión y adicionar otros de probada efectividad y los incluirá en el producto final?. Justificación de la investigación y su viabilidad Con la realización de este trabajo se optimiza la acción investigativa de los profesionales dedicados al estudio de QSAR. El volumen de trabajo que implica este proyecto se puede ajustar a un período de seis meses; teniendo en cuenta que existen los equipos y recursos necesarios para su desarrollo. Definición de los puntos de vista del autor en relación con el problema de investigación Entiendo que el trabajo tiene una importancia e impacto tremendo pues constituye un programa pensado para cumplir las normas establecidas según la regulatoria de la OECD para QSAR. Una vez desarrollado optimizaría el trabajo de los investigadores del campo y al mismo tiempo facilitaría la docencia del aprendizaje automatizado, que se ha convertido en un campo multidisciplinario, mostrando resultados de inteligencia artificial, probabilidades, estadística, de teoría de cómputo, teoría de control, teoría de información, filosofía, psicología, neurobiología, y de otros campos.. Tipo de investigación Para el desarrollo de este trabajo se llevará a cabo una investigación de tipo exploratoria pues se trata sobre el desarrollo de un software que usa otro software (Weka) como biblioteca principal. El objetivo para el cual es creado y sus características como multiplataforma, permitirán su divulgación y aplicación..

(14) Capitulo 1 Marco teórico.. En este capítulo se expondrán las principales características utilizables de los diversos programas que existen en QSAR. Estas constituirán elementos importantes para la futura realización de este proyecto. Los estudios QSPR/QSAR constituyen un enfoque que permite entender como la variación estructural afecta la propiedad/actividad biológica de un conjunto de compuestos. En estos estudios, los descriptores moleculares (X) se correlacionan con una variable respuesta (Y). (Deardena et al., 2009, Tropsha, 2010a). Es decir, este análisis puede definirse como una aplicación de métodos matemáticos y estadísticos al problema de encontrar una ecuación empírica de la forma Yi = fi(X1, X2,...Xn), donde Yi son las propiedades y/o actividades biológicas de la molécula, y X1, X2,...Xn son propiedades estructurales experimentales o calculadas (descriptores moleculares) de los compuestos. En este sentido, cada compuesto puede representarse como un punto en un espacio multidimensional, en los cuales los descriptores X1, X2,...Xn son coordenadas independientes del compuesto. El objetivo más usual de este análisis es incrementar el entendimiento del sistema biológico bajo investigación o predecir la propiedad estudiada a un objeto (compuesto) no utilizado en la obtención del modelo (QSAR, 2003) . A continuación listaremos los principales puntos de QSAR resumidos anteriormente mostrando el estado actual de cada uno y especificando las tareas del presente trabajo. Selección del número óptimo de predictores. Principio de la parsimonia. El coeficiente de determinación (R2) aumenta en la medida en que se añaden variables a la ecuación; pero a partir de cierto punto el incremento de R2 para cada nueva variable que se añade, es insignificante. (Johnson and Wichern, 1988). Un buen modelo no debe presentar ni demasiadas variables, ni debe olvidar las que sean verdaderamente relevantes. Es decir, debe cumplir el principio de la parsimonia, según la cual un fenómeno debe ser descrito con el número mínimo de elementos posibles. Diversos procedimientos se han propuesto para seleccionar el número óptimo de variables a incluir en la ecuación y son los más usados en QSAR tradicional; los cuales aparecen en la mayoría de los programas actuales, como por ejemplo „forward selection‟, „backward elimination; y „stepwise.

(15) Capítulo 1. Marco teórico. 7. selection‟. (Eibe et al., 2004, Norusis, 1985) Este último método es el más utilizado (es una combinación de los dos anteriores) y sigue un proceso de selección de variables paso a paso.. Selección de atributos En QSAR, los conjuntos de datos con los cuales se trabaja, constituyen tablas, donde las filas representan todos y cada uno de los compuestos y las columnas, los descriptores moleculares. Entonces, el objetivo de construir un modelo QSAR es analizar y detectar los factores determinantes de una actividad para un sistema particular, para tener una idea del mecanismo y comportamiento del sistema estudiado. La estrategia desarrollada es generar un modelo matemático que conecte las medidas experimentales con un conjunto de descriptores químicos determinado de la estructura molecular de un grupo de compuestos. Este modelo debe tener buenas capacidades predictivas; puesto que debe ser funcional a la hora de realizar un análisis del comportamiento físico-químico de nuevos compuestos. (QSAR, 2003) Un modelo QSAR expresa la relación matemática de múltiples variables entre un conjunto de propiedades físico-químicas (descriptores) {Xij} y una función experimental o actividad biológica {Yi}. Esta relación es cuantitativa en el sentido de que es usada para cuantificar la actividad observada. Para el compuesto i-ésimo la ecuación lineal que relaciona las propiedades moleculares x1, x2,… con la actividad deseada y es:. yi = xi1 *b1 + xi2 *b2 + …. + x i n * b n + e i. 1.1.1. De forma general se tiene:. 1.1.2. Donde {bi } constituyen los coeficientes de regresión. (QSAR, 2003).

(16) Capítulo 1. Marco teórico. 8. En la mayoría de los problemas QSAR, hay un gran número de descriptores de los cuales se puede seleccionar los que se crean óptimos y expresen de la mejor manera la correlación con la variable respuesta. Este proceso debe cumplir con dos principios fundamentales: Principio de la invarianza (cubrir tanto espacio paramétrico como sea posible). Principio de ortogonalidad (la elección de descriptores moleculares independientes). La selección de variables es el proceso en el cual se busca la mejor combinación posible de descriptores, obviando las demás. Estas combinaciones están sujetas al análisis de regresión. La cuestión principal de la selección de variables es que implica la eliminación de descriptores redundantes e identifica el subconjunto de descriptores que influye en la variable respuesta.(Sofie Van Damme, 2007) La selección de atributos se realiza normalmente buscando en espacio del conjunto de atributos y evaluando cada uno de ellos. De manera general existen varios métodos de selección aplicables a los conjuntos de datos existentes en el campo. Algunos de estos son: BestFirst: Usa Greedy Hill-climbing con backtracking. Puede buscar “hacia adelante” con el conjunto vacío o “hacia atrás” con el conjunto lleno o comenzar en un punto intermedio y buscar en ambas direcciones considerando todas las posibles adiciones/eliminaciones de atributos(Frank, 2005). Búsqueda exhaustiva: busca exhaustivamente en todo el espacio de atributos, comenzando con el espacio vacío y reportando el mejor conjunto encontrado. Si se le suministra un conjunto inicial, buscará “hacia atrás” a partir de ese conjunto y reportará el menor subconjunto con la mejor evaluación. Búsqueda genética: realiza la búsqueda de selección usando un algoritmo genético simple. Los parámetros incluyen tamaño de la población, número de generaciones y. probabilidades de. cruzamiento y mutación. Se puede especificar una lista de índices de atributos como punto inicial, los cuales se convertirán en miembros de la población inicial. Búsqueda aleatoria: realiza la búsqueda en todo el espacio de atributos de forma aleatoria. Si se suministra un conjunto inicial, buscará en los subconjuntos. De otra manera, comienza por un punto aleatorio y reporta el mejor subconjunto encontrado. Búsqueda por rankeo: ordena los atributos y rankea los subconjuntos candidatos.(Frank, 2005).

(17) Capítulo 1. Marco teórico. 9. No obstante, en el campo QSAR, se han introducido otros métodos que han demostrado ser más efectivos que varias meta-heurísticas, tales como el método de selección de atributos Monte Carlo. En la actualidad y principalmente en los programas de QSAR se han incrementado varios métodos y estrategias, que de forma común, se han usado en minería de datos, tales como: 1) algoritmos genéticos, 2) búsqueda exhaustiva, 3) colonia de hormigas(Shen et al., 2005) 4) diferentes variantes de selección por pasos, entre otras. El proceso de desarrollo de un modelo QSAR generalmente puede ser dividido en tres estados: la preparación, el análisis de los datos y la validación del modelo. Estos pasos representan una práctica estándar en el modelado QSAR y sus implementaciones están determinadas generalmente por los intereses de los investigadores, la experiencia y las posibilidades de software. Ese primer estado incluye la selección de un conjunto de datos, el cálculo de descriptores moleculares y la elección del enfoque QSAR en términos de métodos estadísticos de los análisis de los datos y la correlación existente. La segunda parte del proceso del modelado QSAR incluye la construcción de modelos que correlacionan los valores de los descriptores con la actividad biológica. Para este propósito hay muchos algoritmos y software, de los cuales, la mayoría son basados en métodos lineales (regresión lineal múltiple MLR con selección de variables y redes neuronales artificiales). En todos los enfoques, los descriptores representan las variables independientes y las actividades biológicas actúan como variables dependientes. La parte final del desarrollo del modelado QSAR es la validación del modelo. Se establece el poder predictivo del modelo y también su habilidad de reproducir la actividad biológica de compuestos “no probados”. La mayoría de los métodos de modelado QSAR implementan como procedimiento de validación cruzada los métodos “dejar uno afuera” o el “dejar alguno afuera”. El resultado de este procedimiento es “R (q)”, el cual es considerado como último criterio en cuanto a robustez y poder predictivo del modelo(QSAR, 2003). Un enfoque ampliamente usado para establecer la robustez del modelo es la Y-randomización, el cual consiste en repetir el proceso de cálculo con el vector Y (actividad) ordenado aleatoriamente y la consecuente valoración de los resultados estadísticos.(Alexander Golbraikh and Tropsha, 2003).

(18) Capítulo 1. Marco teórico. 10. División racional de los datos Si deseamos obtener, un modelo QSAR con buen poder predictivo y además validado, el conjunto de datos con el que trabajamos debe ser correctamente organizado para un mejor funcionamiento de la sucesión de técnicas que serán aplicadas posteriormente. Se debe dividir este conjunto de datos original en dos conjuntos; entrenamiento y test. Para que la predicción estadística sea fiable, en el conjunto de entrenamiento deben estar representados todos los atributos de tipo clase para que no existan riesgos futuros. El conjunto de test debe tener, al menos, cinco compuestos. Idealmente, la división del conjunto de datos a conjuntos de entrenamiento y test, debe satisfacer las siguientes condiciones: i.. Todos los puntos representativos de compuestos del conjunto de test deben estar cerca de los del conjunto de entrenamiento en el espacio multidimensional de descriptores.. ii.. Todos los puntos representativos del conjunto de entrenamiento deben estar cerca de los del conjunto de test.. iii.. Los puntos representativos del conjunto de entrenamiento deben estar distribuidos dentro del área total ocupada por el conjunto de datos(Alexander Golbraikh and Tropsha, 2003).. Muchos autores e investigadores usan conjuntos de test externo para la validación de los modelos QSAR; pero no dan ninguna razón fundamental sobre cómo y por qué algunos compuestos son elegidos para el conjunto de test. Uno de los métodos ampliamente utilizado es dividir el conjunto de datos en subconjuntos de entrenamiento y test usando una mera selección aleatoria y otros asignan subconjuntos completos de moléculas. Un enfoque muy utilizado también es el de la actividad de la muestra. El rango completo de actividades es dividido en. “cajones” y los. compuestos pertenecientes a cada “cajón” son asignados aleatoriamente (o por alguna otra vía) a los conjuntos de entrenamiento y test, respectivamente. Obviamente, estos métodos no pueden garantizar que los compuestos del conjunto de entrenamiento representen la totalidad del espacio de descriptores del conjunto de datos original; tampoco que cada punto representativo del conjunto de test este cerca de al menos un punto del conjunto de entrenamiento. En varias publicaciones, la división del conjunto de datos se ha hecho usando los mapas autoorganizados (redes de Kohonen: SOM). Este método preserva la proximidad entre los puntos, pero su desventaja es que en lugar de usar valores exactos de distancias entre los puntos.

(19) Capítulo 1. Marco teórico. 11. representativos (rasgo de los métodos cuantitativos de predicción), distorsiona las distancias, como buen método de proyección no lineal que es. También la selección racional de los conjuntos de entrenamiento y test usando el algoritmo de exclusión de esfera conduce generalmente a modelos QSAR con mayores habilidades predictivas que los modelos basados en enfoques alternativos para la selección de estos conjuntos.(Alexander Golbraikh and Tropsha, 2003). En muchos casos la valoración de riesgos del modelado QSAR incluye grandes bases de datos con compuestos clusterizados. El término “clúster” corresponde a un conjunto de datos en el cual están muchas clases de compuestos químicos. Estas clases pueden ser parcialmente superpuestas, apenas separadas o completamente resueltas en el espacio descriptor químico X y/o el espacio de propiedades biológicas Y de los compuestos en cuestión. El método de clústeres en específico, kmedias, constituye una muy buena opción para la división racional de la data en vistas a una mejor construcción de modelos.. Métodos de validación Validación estadística de los modelos QSAR. El enfoque convencional adoptado en los análisis QSAR, basado en la RLM, es considerar el parámetro R2 („varianza explicada‟), R y s. Las variables como R2 varían entre 0 y 1, donde 1 significa un modelo perfecto (explica el 100% de la variable respuesta, Y) y 0 un modelo sin ningún poder de explicación. Entonces un alto valor de R 2 y una baja s, son condiciones necesarias para la validez del modelo RLM. O sea, como en ANOVA la validez viene dada sólo por el ensayo F, si varios modelos pasan esta prueba, el de mayor R2 y/o menor s será el mejor modelo encontrado. La significación estadística de la función discriminante obtenida con el ADL debe ser probada analizando la. de Wilks y la D2 de Malahanobis, aunque según Kier, la calidad de la FD puede. evaluarse de tres formas diferentes(Kaiser, 2004): 1) Comparación del valor de F con el valor tabulado. 2) Determinación de casos bien clasificados en la serie de entrenamiento (SE). 3) Validación externa. Además, los métodos de validación cruzada también pueden aplicarse a este tipo de modelos. Varios investigadores del campo han propuesto otro enfoque para seleccionar la mejor FD, la cual.

(20) Capítulo 1. Marco teórico. 12. se selecciona teniendo en cuenta el análisis de la combinación de dos criterios(Wold and Erikson, 1995): 1) una combinación de variables que minimice el número de compuestos mal clasificados, 2) el empleo del número menor de variables, y 3) la linealidad entre las variables independientes es minimizada. Cuatro herramientas pueden ser utilizadas para acceder a la validación de los modelos QSAR obtenidos por RLM/ADL y la mayoría de estas pueden también extrapolarse a la validación de los modelos obtenidos con cualquier modelo(Wold and Erikson, 1995, Tropsha, 2010a) : 1) Aleatorización de la variable respuesta (Y- Randomización), 2) validaciones cruzadas, 3) división de la data de compuestos en serie de entrenamiento (SE) y en serie de predicción (SP) y 4) confirmación del poder predictivo utilizando SP „externas‟. Una vez que la ecuación de regresión es obtenida, además de la bondad de ajuste y la estabilidad del modelo, también es muy importante evaluar la robustez y la capacidad predictiva o validez del modelo antes de usar el modelo en la interpretación y predicción de la actividad biológica. Validar un método es establecer la confiabilidad y relevancia del método para un propósito particular. La confiabilidad se refiere a la reproductividad de los resultados y la relevancia está relacionada con el uso científico y la utilidad práctica. La validación de un modelo QSAR es un proceso por el cual la habilidad predictiva de QSAR y de las bases mecánicas es valorada para propósitos prácticos. La validación evalúa si el modelo exactamente representa la realidad desde una perspectiva de intentar la aplicación del modelo. Se debe prestar especial atención a los outliers los cuales son estructuras con residuales mayores que el doble de la desviación estándar de los residuales que no ajustan el modelo. Una vez identificados, el diagnóstico de los datos que puede tomar decisiones sobre esta cuestión debe ser examinado. Estas estructuras deben ser iterativamente eliminadas de las observaciones usadas para calcular la ecuación QSAR y así la ecuación re calculada obtendrá mejores resultados. Puede ocurrir, por ejemplo, que si la estructura de uno o más compuestos del conjunto de entrenamiento difiere significativamente del resto, determinen estos la calidad y forma del modelo. Varios procedimientos pueden ser usados para comprobar la confiabilidad y significancia del modelo..

(21) Capítulo 1. Marco teórico. 13. La validación interna usa el conjunto de datos desde el cual el modelo se deriva sin agregar nuevos elementos al modelo y comprueba la consistencia interna. La calidad del modelo puede ser internamente calculada por varios criterios. Validación cruzada es el proceso más usado para determinar la estabilidad del modelo predictivo lo cual significa que realiza el análisis de influencia de cada uno de los elementos sobre el modelo final. Esta técnica es extensamente utilizada como método de validación interna de los métodos estadísticos. El procedimiento deriva en nuevo modelo usando un conjunto reducido de datos. El nuevo modelo es usado para predecir las actividades de las moléculas que no fueron incluidas en el conjunto del nuevo modelo. Este proceso es repetido hasta que todos los compuestos hayan sido eliminados y predichos una vez. Entonces la validación cruzada consiste en la extracción de un cierto número de objetos k, del conjunto inicial, construir un nuevo modelo con los restantes n-k datos y usar el modelo reducido para predecir la variable dependiente de los objetos excluidos inicialmente. Esto es repetido tantas veces como sea necesario hasta que el vector. 1.3.1. es obtenido; es decir, el proceso es realizado hasta que todas las moléculas tengan predicciones, donde n es el número de moléculas en el conjunto y m el número de moléculas extraídas. La profundidad del estudio de la validación cruzada depende del número de elementos extraídos m del conjunto de datos.. 1.3.2.

(22) Capítulo 1. Marco teórico. 14. Usualmente un elemento del conjunto es extraído, cada vez, y entonces el modelo es re calculado usando como conjunto de entrenamiento los restantes n-1 elementos así el valor de la propiedad para el elemento extraído es predicha una vez para todos los compuestos. Este proceso es repetido n veces para todos los elementos del conjunto inicial, obteniendo pues una predicción de cada objeto. Por eso el método es llamado como “dejar uno afuera”. Análogamente, se pueden definir otras medidas de estabilidad de predicción de modelos dejando afuera del sistema algo más que solo una molécula cada vez. Estos procedimientos son comúnmente referidos como “dejar N afuera” y “dejar muchos afuera” y en estos casos, si k moléculas son eliminadas al mismo tiempo, del conjunto total de n moléculas, entonces se realizaran k*n regresiones. La capacidad de predicción del modelo se puede obtener por dos coeficientes: el coeficiente de predicción (q2) y el coeficiente de correlación (rcv). Para los valores predichos de cada uno de los objetos, se calcula el error residual predictivo de suma de cuadrados (PRESS) de la siguiente manera: 1.3.3. Donde ŷcvi es el valor y predicho por la validación cruzada: 1.3.4. Randomización de la variable respuesta Y Otro procedimiento para realizar la validación del modelo es el método de “Y-scrambling” o.

(23) Capítulo 1. Marco teórico. 15. randomización-Y. Incluso con un número grande de observaciones y un número pequeño de términos, la ecuación puede tener muy poco poder predictivo. Esto puede ocurrir si cada una de las observaciones no son lo suficientemente independientes entre sí. Una manera de hacer esto es mediante la aleatorización de la variable independiente. El conjunto de valores de actividad es reasignado aleatoriamente a diferentes moléculas, y una nueva regresión se realiza. Este proceso se repite varias veces. Si la predicción de actividad del modelo aleatorio es comparable con la ecuación original (dentro de un nivel de confidencia estimado) el conjunto de observaciones no es suficiente para soportar el modelo. Un típico test de aleatoriedad consiste en permutar arbitrariamente el vector respuesta-actividad un número considerable de veces. El nuevo vector aleatorio es usado como el vector real para construir un modelo QSAR en las mismas condiciones del original; y se analiza la capacidad de predicción del nuevo vector ordenado en términos de los valores rcv y q2. El test aleatorio analiza la habilidad del modelo de derivar relaciones reales de estructura-actividad. Si el modelo es correcto, debe existir una clara separación entre el modelo original (sus valores predichos) y los valores obtenidos con el test. De lo contrario, si los modelos relevantes son los encontrados usando vectores de actividad organizados aleatoriamente, el modelo es sospechoso de correlación con cualquier conjunto de datos externo. Esto puede ser un indicador de sobre-ajuste o en otras palabras, el número de descriptores es demasiado grande en comparación con el número de compuestos. Hay diferentes tipos de test aleatorios, dependiendo de la libertad del modelo para seleccionar los datos o la restricción de los descriptores de regresión para proporcionar el modelo óptimo. Para evitar la sobre-parametrización incluida en los métodos estadísticos sofisticados, el test debe ejecutarse permitiendo a la totalidad del algoritmo re calcular los coeficientes de regresión y reseleccionar las variables más predictivas para el modelo. La más común representación de los resultados del test aleatorio es en un sistema de ejes coordenados representando q2 versus r2cv, distintivamente marcando los puntos correspondientes al conjunto de datos original de los generados eventualmente. Cuando el test es satisfactoriamente realizado, existe una clara separación entre los puntos originales y los aleatorios. Si no ocurre esto, los puntos pueden aparecer mezclados, y los modelos generados aleatoriamente pueden presentar coeficientes más significativos que los del modelo original, en este caso el modelo se rechaza. Si no hay una clara separación, la correlación entre los vectores de actividad (el original y el permutado).

(24) Capítulo 1. Marco teórico. 16. debe ser re-examinada. Si hay una correlación significativa, esto podría indicar que el vector aleatorio no difiere significativamente del original, o que las permutaciones pueden haber intercambiado moléculas con propiedades similares y los valores de los descriptores. Como esto puede conllevar a resultados similares a los del original, el test aleatorio debe repetirse. Cualquier modelo, incluso uno con excelente bondad de ajuste y predicciones satisfactorias puede carecer de una relación real entre los descriptores estructurales y la actividad. Para probar la existencia de una correlación, se debe ejecutar un método de validación fiable. La validación externa es la validación definitiva de cada modelo, con la cual se evalúa que tan bien la ecuación de regresión generaliza y representa. Hay dos tipos de métodos para realizar esta validación, el conjunto de test externo y el conjunto de test interno. Conjunto de test externo Si hay grandes series de moléculas con actividad conocida y están disponibles, el conjunto de datos puede ser dividido en dos subconjuntos; uno de entrenamiento y otro de test. El conjunto de calibración o test es usado para derivar un ajuste del modelo, el cual es usado posteriormente para predecir las actividades de los miembros del conjunto de test o validación. Alternativamente, como que el conjunto de test no ha sido utilizado en ningún momento durante la construcción del modelo, este puede ser también un conjunto externo. Las predicciones obtenidas del nuevo modelo generado para el conjunto de test determina la validez del modelo y los parámetros que cuantifican la calidad de predicción de la prueba del conjunto externo puede ser la misma usada para la validación interna. Conjunto de test interno Un inconveniente de este método de validación es la disponibilidad de suficiente datos como para dividir el conjunto original en dos conjuntos significativos. Si el conjunto no es suficientemente grande, este método puede ser no viable. Alternativamente un conjunto de test interno puede ser simulado usando un procedimiento similar al “dejar uno afuera” pero con una total ausencia de intervención de la molécula extraída de los cálculos, alcanza entonces predicciones reales.(QSAR, 2003).

(25) Capítulo 1. Marco teórico. 17. Análisis de dominio de aplicación. El rol de los ‘outliers’. Los „outliers’ son puntos que se desvían significativamente del modelo encontrado (no se ajustan al modelo) o son pobremente predichos por estos, afectando los parámetros estadísticos del mismo. Generalmente, la identificación de ‘outliers’. busca un mejoramiento cualitativo del modelo.. Existen varias técnicas para detectar la presencia de ‘outliers’, tales como: los análisis de los residuales estandarizados, los residuales studentizados, el método de Leverage, la estadística DFITS, la distancia de Cook y el método de dejar “varios” fuera. Recientemente, el programa AMBIT permite determinar la presencia de outlier en los datos usando varias medidas de similitud y diversidad al igual que el dominio de aplicabilidad del modelo. El dominio de aplicabilidad de un modelo es la región en donde este modelo hace predicciones fiables.. Herramientas computacionales disponibles Hoy en día se dispone de herramientas computacionales poderosas para el descubrimiento automático del modelo que mejor se aproxima a los datos. Sin embargo, tales herramientas de propósito general ignoran especificidades y métodos propios de la investigación en QSAR. Los programas actuales, tales como Weka, Statistica, SPSS, Orange, entre otros, de trabajo general en Estadística y Minería de datos no incorporan un ambiente amigable ni operativo para los especialistas en el campo de QSAR según la regulatoria de la OECD para este campo. Estos programas tienen, en ocasiones, demasiadas técnicas de clasificación, pocos métodos de selección de atributos o estos están ubicados inadecuadamente, no incorporan metodologías para la división racional de la data en serie de entrenamiento y de predicción al igual que no poseen o están limitados los procedimientos de validación interna. Ninguno incluye análisis del dominio de aplicación para saber si una predicción es fiable y tampoco permiten, en muchos casos, la identificación temprana o en la modelación de los compuestos con un comportamiento outlier. Solo algunos, poseen herramientas para la comparación del desempeño de los modelos y las técnicas más actuales en este campo no son incluidas. Finalmente, no poseen adecuados métodos de análisis de la diversidad de los modelos individuales con el propósito de llevar a cabo la fusión de los mismos y las metodologías de fusión no son completamente incorporadas. Finalmente, estos programas no tienen implementado las medidas remédiales en caso de datas altamente desbalanceadas. Por otro lado, los programas que hasta el momento han sido desarrollados para el trabajo en QSAR adolecen de muchos de los algoritmos de clasificación y regresión que tienen programas más.

(26) Capítulo 1. Marco teórico. 18. generales y amplios. Además, la mayoría tampoco cumplen con todos los requisitos establecidos por la OECD para la aceptación de un modelo QSAR.. MOLGEN-QSPR Herramienta de software integrado para generación de estructuras, cálculo de descriptores y realización de análisis de regresión en química combinatoria. Permite construir bibliotecas combinatorias virtuales. Tiene implementado varios descriptores moleculares, los cuales, al servir como entrada en el análisis de regresión, resulta en la predicción de las propiedades químicas, físicas o biológicas de las bibliotecas virtuales. Además tiene incluido regresión múltiple lineal, arboles de regresión y redes neuronales. Solo para ambientes Windows.(Joachim Braun, 2003) ARTEQSAR Programa para construir y analizar modelos QSAR usando varias técnicas de análisis de regresión y su respectiva validación. Su salida, de fácil interpretación, le permite al usuario concluir si el modelo obtenido es apropiado para predicción y análisis. Tiene dos métodos de selección de variables: la búsqueda sistemática y los algoritmos genéticos. Puede hacer regresión lineal múltiple y detección de outliers. Se pueden incluir test externos.(Sofie Van Damme, 2007) BUILDQSAR Ayuda en las tareas de construir y analizar los modelos cuantitativos a través del análisis de regresión. Tiene un banco externo de datos. Las tareas más comunes que permite realizar el programa son: 1. Crear modelos lineales, cuadráticos y bilineales. 2. Analizar gráficos. 3. Analizar correlaciones. 4. Probar hipótesis. 5. Construir subconjuntos del conjunto de datos original que incluyan grupos de compuestos seleccionados por el usuario..

(27) Capítulo 1. Marco teórico. 19. 6. Crear nuevas variables derivadas de las existentes y puede además crear varios tipos de variables indicador. 7.. Construir conjuntos de datos desde el banco de datos seleccionando los compuestos y las variables.. 8. Realizar la selección de variables usando algoritmos genéticos y búsqueda sistemática. 9. Efectuar la validación cruzada de modelos específicos. 10. Eliminar outliers y analizar el modelo resultante. Solo para ambientes Windows 95/98/00/NT.. (Daniel Barbosa de Oliveira, 2003). MOBYDIG Software para el cálculo de modelos de regresión usando algoritmos genéticos con un enfoque multi-poblacional como método de selección de variables para obtener un subconjunto óptimo de modelos predictivos. Permite la obtención del modelo de regresión óptimo con cantidades de hasta 2000 predictores candidatos y su adicional validación. Puede desarrollar un modelo de regresión simple de componentes principales calculado con el subconjunto final de descriptores de las variables de modelado. Puede también evaluar las semejanzas/diferencias entre los diferentes modelos obtenidos. Con este programa se puede: 1. Agregar nuevos objetos/nuevas variables al conjunto de datos. 2. Realizar predicción externa usando los modelos obtenidos. 3. Obtener un subconjunto final de las variables del modelado y usarlas para otros propósitos. 4. Usar diagnósticos y herramientas gráficas para analizar cada modelo de regresión. 5. Realizar análisis de consenso (evaluar promedio de predicciones de dos o más modelos finales). 6. Hacer análisis de variables con poderosas herramientas gráficas y parámetros estadísticos. 7. Salvar cualquier tipo de resultados. 8. El programa construye, con gráficos incluido, un reporte final del trabajo del usuario. No es libre ni gratis.(R.Todeschini, 2004).

(28) Capítulo 1. Marco teórico. 20. CODESSA Programa para el cálculo de descriptores y la realización de análisis estructural y estadístico. Desarrolla las relaciones cuantitativas de estructura-actividad. integrando herramientas. matemáticas y computacionales. Además calcula gran variedad de descriptores moleculares 3D, crea modelos no lineales y de linealidad múltiple de QSPR con las propiedades químicas y físicas o actividad biológica de los compuestos químicos. Realiza análisis de clusterizado de datos experimentales y de descriptores moleculares. Puede crear el mejor modelo QSAR/QSPR en un gran espacio de descriptores y su correspondiente validación. Solo para ambientes Windows, UNIX y MacOS. No es gratis.(Semichem, 1994) TSAR Permite realizar análisis estadístico para desarrollar modelos predictivos de actividad. Las correlaciones pueden ser explicadas usando clusterizado o métodos de regresión. Incluye redes neuronales para examinar las relaciones no lineales y además tiene visualización 2D/3D. Solo para ambientes Windows. Tiene pocos métodos de selección de variables.(Council, 2009) QSARIS Toma la estructura de una muestra química y le permite al usuario agregar información (nombre, valores experimentales Kp, Log P y solubilidad en agua). Este programa calcula alrededor de 300 descriptores incluyendo el índice de conectividad molecular chi (Representaciones cuantitativas de la estructura molecular construidas desde el gráfico de una molécula), el índice de E-estado (representación cuantitativa de la accesibilidad del electrón en un componente estructural dado) y el índice de E-estados H (accesibilidad del hidrógeno para/por cada átomo de hidrógeno en un componente estructural dado). Puede realizar análisis de regresión. Al permitir crear modelos de absorción de la piel, el programa permite la eliminación de propiedades físico-químicas que no muestren correlación e identifica aquellas propiedades que muestren correlaciones estadísticas significativas con la constante de permeabilidad de la piel Kp.(Wen Luo, 2007) GROUNDSTAT GROUND/ GROUNDSTAT, es un programa simple para su utilización. El paquete incluye dos grandes programas llamados GROUND y GROUNDSTAT, más muchos otros módulos auxiliares opcionales..

(29) Capítulo 1. Marco teórico. 21. GROUND calcula 300 descriptores moleculares desordenados, incluyendo los de tipo topológico, electrónico, geométrico y combinados. Estos descriptores fueron derivados de la literatura publicada entre 1947 y 1991 y el programa se actualiza anualmente para reflejar las publicaciones recientes. GROUNDSTAT realiza regresión lineal con varias opciones. La entrada del paquete puede ser preparada usando cualquier descriptor molecular que pueda trabajar con formato MDL (Molfile). Algunos módulos opcionales son: PREDICT: programa para un análisis estadístico más detallado y una visualización del estudio de regresión. MOLGEO: un rápido convertidor (de 2D a 3D)/minimizador de las estructuras moleculares optimizadas. GRAPHIN: el editor molecular. Solo para máquinas PC‟s, VAX‟s e IBM RISC.(A. M. Harper, 2001) CERIUS Ambiente de software designado para facilitar las necesidades químicas de cómputo. Permite aplicar el gran poder predictivo de la química computacional a cuestiones críticas de la investigación. Este programa permite:  Visualizar estructuras, refinar modelos estructurales.  Predecir las propiedades y el comportamiento de sistemas químicos.  Integrar en ambientes de software comerciales nuestros códigos computacionales “caseros”. Este ambiente integra la construcción de modelos, el desarrollo de aplicaciones, herramientas de visualización y simulación con herramientas específicamente desarrolladas por aplicaciones. El modelado de componentes CADD incluye: C2*Alignment: organiza en forma de lista a los conjuntos de moléculas usando métodos manuales o automáticos, para una fácil comparación durante el estudio de los fármacos candidatos. C2*Analog Builder: usado para especificar bibliotecas combinatorias y seleccionar fragmentos/reactivos basados en su diversidad. Se pueden generar conjuntos de “analogías” que pueden ser rápidamente monitoreadas para identificar los candidatos a fármacos. Las.

(30) Capítulo 1. Marco teórico. bibliotecas pueden ser. 22. importadas desde el proyecto de bibliotecas de Accelrys para. efectuar el análisis de diversidad. C2*CAVEAT: identifica los frameworks moleculares desde los cuales, los activos propuestos como candidatos pueden ser rediseñados. Herramientas como el clusterizado y el filtrado facilitan una prueba rápida de las nuevas ideas y permite además enfocarse en los mejores guías (compuestos). C2*DBAccess: proporciona acceso directo a bases de datos estructurales para usarlas en experimentos de modelado. Puede ser examinada en 2D/3D. C2*Diversity: analiza diversidad química de diseño y evalúa bibliotecas de compuestos y conjuntos de reactivos para la química combinatoria. Se puede inteligentemente reunir a todos los potenciales candidatos a fármacos en un grupo. pequeño. y. pueden. ser. sintetizados. C2*FieldFit: Provee algoritmos para la alineación de moléculas en un sitio receptor de enlaces. Estas organizaciones antes mencionadas están basadas más en momentos electrostáticos o de inercia que en subgrafos comunes. C2*GA: utiliza la tecnología de algoritmos genéticos para evolucionar una familia de modelos predictivos lo cual ayuda a desarrollar modelos QSAR desde la superficie del receptor y desde otros datos, guiando así a un rápido monitoreo de los fármacos candidatos. C2*Ludi: es una herramienta de diseño de fármacos. Puede ser usada para diseñar nuevas moléculas desde bibliotecas y simular un monitoreo. C2*MFA: desempeña QSAR 3D basado en campos y visualización. Se puede predecir las actividades de las nuevas moléculas basado en las propiedades geométricas de compuestos existentes. C2*QSAR+: provee un amplio rango de tecnologías integradas de regresión y análisis. Los datos existentes pueden ser usados para predecir las actividades de los candidatos a fármacos. C2*Visualizer: proporciona un ambiente comprensivo de modelado para la construcción, edición y visualización de modelos de estructuras moleculares.(Corporation, 2010) WEKA.

(31) Capítulo 1. Marco teórico. 23. Herramienta desarrollada en la universidad de Waikato (Nueva Zelanda) y su nombre corresponde a las siglas de Waikato Environment for Knowledge Analysis, (ambiente de Waikato para el análisis del conocimiento). Desarrollada en Java y bajo los términos de GNU General Public License. Este software incluye métodos para todos los problemas que constituyen un estándar en la minería de datos como son la regresión, la clasificación, la minería de reglas de asociación y la selección de atributos. Cuenta con herramientas para el pre procesado del juego de datos y con facilidades para su visualización. Una manera de utilizar Weka es aplicarle un método de aprendizaje a un conjunto de datos y analizar su salida en función de aprender algo más sobre los datos. Otra posible aplicación es la de usar modelos “eruditos” para generar predicciones sobre nuevas instancias. Un tercer uso de esta poderosa aplicación puede ser comparar el comportamiento de varios de los modelos antes mencionados y elegir uno para realizar predicciones. En Weka los métodos de aprendizaje son nombrados como “clasificadores” y las herramientas para el pre procesado de la data son “filtros”.(Frank, 2005). Consideraciones finales Los investigadores QSAR se apoyan en varios programas que implementan técnicas avanzadas de Aprendizaje Automático. Pero muchos de estos no cuentan con el detalle de calidad específico requerido por el nivel de trabajo a realizar. Por tanto, no son suficientes los programas existentes para garantizar docencia e investigación de los investigadores. Luego de mencionar los programas existentes en la rama científica QSAR, y analizar sus posibilidades reales a la hora de realizar una correcta construcción de un modelo determinado de acuerdo con lo establecido por los pasos comunes de la metodología QSAR para este fin, queda plasmado que estos programas no constituyen un paquete de herramientas completamente eficaz. Entonces surge la propuesta de implementar algunos algoritmos en aras de mejorar el status de trabajo actual en QSAR. La idea es aprovechar todas las funcionalidades de alguno de estos programas y adicionarle otras, resultando un programa con mayores posibilidades de trabajo. El programa en cuestión debe tener suficientes técnicas para la construcción de modelos, tanto de clasificación como de regresión y además. debe poseer métodos de selección de atributos y. evaluadores de calidad de estos. También sería óptimo que este programa sea tan “universal” como le sea posible, es decir, que sea ejecutable en varias plataformas. Debe tener métodos de validación tanto interna como externa..

(32) Capítulo 1. Marco teórico. 24. A este programa se le sumarían algunos algoritmos y técnicas actuales de trabajo que mejoran efectivamente la construcción de modelos QSAR y han sido propuestos a lo largo del capítulo. Estos algoritmos son: Selección de atributos Método de selección de atributos Monte Carlo Métodos de División racional de la data Red de Kohonen Exclusión de esfera K-medias Métodos de validación Aleatorización de la variable respuesta Y Outliers Detección y eliminación de posibles outliers..

(33) Capitulo 2 Análisis y diseño de los algoritmos implementados. En este capítulo se abordarán los detalles necesarios para la implementación de estos algoritmos. Se dará una explicación detallada de los aspectos más importantes de cada uno de los algoritmos siguientes: Métodos de división racional de los datos Exclusión de esfera. Red de Kohonen. K-medias. Métodos de validación Aleatorización de la variable respuesta Y. Selección de atributos Método de selección de atributos Monte Carlo. Outliers Detección y eliminación de posibles outliers.. Estrategias de división de la data En varios momentos de la investigación, conviene aplicar técnicas para dividir y mejorar el trabajo con los datos originales. Estas técnicas pueden ser realizadas con el objetivo de obtener una mejor construcción de modelos.(Frank, 2005) Algunas de estas técnicas, las cuales constituyen una parte importante del desarrollo de este trabajo son: El método de exclusión de esfera. Las redes auto-organizadas. Análisis de clúster jerárquico y k-medias.. Algoritmo de exclusión de esfera Definición matemática del método de exclusión de esfera. Este método, descrito por Alexander y Tropsha, usa los conceptos de diversidad molecular y.

(34) Capítulo 2. Análisis y Diseño de los algoritmos implementados. 26. algoritmo de exclusión de esfera para generar conjuntos de entrenamiento y predicción, los cuales satisfacen el criterio de que los puntos de entrenamiento y predicción deben estar cerca entre ellos (en términos de espacio de descriptor) y el conjunto de entrenamiento debe ser diverso, relativo al valor de su índice de diversidad (Alexander Golbraikh and Tropsha, 2003). El autor describe tres algoritmos de este tipo pero aquí se referirá solamente al general. De un conjunto de entrenamiento con N componentes y descrito por K descriptores, se selecciona primeramente el componente con la mayor actividad y se sitúa en el conjunto de entrenamiento Luego se calcula el radio R mediante la fórmula: 2.1.1.1. donde V es el volumen del espacio ocupado por los puntos del conjunto en el espacio de descriptores y c es una constante definida por el usuario en términos de nivel de disimilitud y que esencialmente controla el número de moléculas ubicadas en los conjuntos de entrenamiento y predicción. Para simplificar cálculos el espacio de descriptores es normalizado con la fórmula: 2.1.1.2. n. donde X ij es el j-ésimo descriptor no normalizado para la i-ésima molécula y X. ij. es el valor. normalizado para dicho descriptor. Después de normalizado, resulta V=1 y la ecuación del radio queda 2.1.1.3.

(35) Capítulo 2. Análisis y Diseño de los algoritmos implementados. 27. Luego de calcular R, se crea una esfera, cuyo centro es el punto anteriormente elegido. Todos los componentes que estén situados dentro de la esfera (excepto el punto central) están incluidos en el conjunto de predicción y eliminados del conjunto de datos para no ser considerados posteriormente. Si no hay puntos fuera de la esfera se considera que el algoritmo falla (se para) sino las distancias desde los restantes puntos a los centros de todas las esferas consideradas lejanas se calculan:. 2.1.1.4. donde Xi y Xj son los vectores de descriptores para los i-ésima y j-ésima molécula y K es el número de descriptores. Uno de estos es elegido para ser el centro de la próxima esfera y este proceso es repetido. La manera de elegir el próximo punto tiene tres posibilidades: el punto con el menor dij ,el punto con el mayor dij y elegir aleatoriamente el punto.(Guha, 2004) Con frecuencia, los puntos representativos están distribuidos por el espacio de descriptores, y la densidad de puntos en algunas áreas puede ser mucho mayor que en las demás. Estas esferas en áreas de alta densidad pueden incluir muchos puntos y solo uno de estos, será asignado al conjunto de entrenamiento y todos los demás al conjunto de test.(Alexander Golbraikh and Tropsha, 2003). Definición computacional del método de exclusión de esfera. Según (Guha, 2004, Alexander Golbraikh and Tropsha, 2003), el método de exclusión de esfera divide el conjunto de datos original en dos conjuntos, uno de entrenamiento y otro de predicción. Estos conjuntos deben cumplir ciertas condiciones como la diversidad del conjunto de entrenamiento y la cercanía que debe existir entre los puntos correspondientes de cada conjunto. Este método maneja los conceptos de distancia entre descriptores (en términos de espacio vectorial de descriptores)..

(36) Capítulo 2. Análisis y Diseño de los algoritmos implementados. 28. El método de exclusión de esfera recibe como valores para su desarrollo el conjunto original de compuestos, los cuales están descritos por varios descriptores y al finalizar debe quedar como resultado de su ejecución dos conjuntos. El conjunto de datos original está compuesto por una estructura de tipo tabla las cuales las filas son todos y cada uno de los compuestos (instancias) y las columnas son los descriptores (variables).La implementación de este y otros métodos se basa en estructuras ya definidas en el programa Weka que manipulan esta información en este formato. Estas clases de soporte son Instance e Instances y pertenecen al paquete weka.core. La primera clase representa cada uno de los compuestos (filas de la tabla) y la segunda clase constituye el arreglo de compuestos; la tabla, en concreto. Estas clases tienen métodos para facilitar la manipulación de los datos que representan, los cuales están correctamente definidos y pueden ser usados en cualquier momento de la ejecución. Para la implementación de este método se crearon tres clases; la Exclusión Esfera, la clase Esfera y la clase Normalización. La clase Exclusión Esfera constituye la clase principal del método implementado. Pasos del algoritmo del método de exclusión de esfera PP Normalizar el espacio de descriptores P1 Como primer paso del método se debe seleccionar un compuesto, por lo general se selecciona el de mayor actividad. P2 Incluir el compuesto de mayor actividad en el conjunto de entrenamiento. P3 Construir una esfera cuyo centro es el punto representativo del compuesto antes seleccionado, con radio según 2.1.1.1:. Donde K es el número de descriptores (variables), N es el número de compuestos (instancias) y c es el nivel de disimilaridad. Este valor debe ser variado en aras de construir varios conjuntos de entrenamiento y predicción. P4 Incluir los compuestos cuyos puntos representativos están dentro de esta esfera (la distancia espacial entre la instancia-centro de la esfera y cualquier otra es menor que el radio de la esfera) en el conjunto de predicción excepto la instancia-centro de la esfera. P5 Excluir todos los puntos dentro de la esfera del conjunto inicial de compuestos..

(37) Capítulo 2. Análisis y Diseño de los algoritmos implementados. 29. P6 En el conjunto original de datos restan N compuestos. Si N no es igual a 0, ir al próximo paso. Si N es igual a 0; fin. P7 Seleccionar uno de los puntos representativos de instancias que restan, como el próximo “pivote o centro” y comenzar el proceso nuevamente.. Pseudocódigo Se definen los principales atributos y procedimientos a utilizar: Instances entren: conjunto resultante de entrenamiento Instances test: conjunto resultante de test Instances data: conjunto inicial de datos Esfera [] esferas: conjunto de esferas creadas NormalizarDataset (): Normaliza el espacio de descriptores Instance compuestoMayorActividad (Instances): devuelve del conjunto como parámetro, la próxima instancia a evaluar. double calcularRadio(Instance i1,double c): devuelve el radio según el valor de c double clacularDistancia(Instance i1,Instance i2):devuelve la distancia euclidiana entre dos instancias. void ejecutarExclusionEsfera(): realiza varios pasos del procedimiento de exclusión de esfera. Este método tiene el peso principal. ejecutarExclusionEsfera(): | atrib1  compuestoMayorActividad(entren) |testadicionarElemento(atrib1) |normalizarDataset() |mientras data.NúmeroElementos =!= 0 |. radiocalcularRadio(atrib1,c).

(38) Capítulo 2. Análisis y Diseño de los algoritmos implementados. |. 30. esferas[i]nuevaEsfera(atrib1,radio). |. para j0 hasta jdata.NúmeroElementos. |. atrib2  entren.ObtenerElemento (j). |. radcalcularDistancia(atrib2,atrib1). |. si rad<=radio. |. test.adicionarElemento(atrib2). |. data.ObtenerElemento(j). |. ii+1. Fin. Paso previo: PP Normalizar el espacio de descriptores. Esta operación se realiza para optimizar los cálculos y se usa la fórmula (se aplica a todo el conjunto de datos original): según 2.1.1.2. donde Xij es el j-ésimo descriptor no normalizado para la i-ésima molécula y Xnij es el valor normalizado para dicho descriptor. Se crea un objeto de tipo vector de elementos Normalización y luego se calculan los valores. máximo y mínimo por descriptor usando un método de. organización ascendente por descriptores que incluye la clase Instances. Luego se realiza un desplazamiento por todo el conjunto de datos original usando los valores ya calculados y los existentes originalmente. Cada instancia ya normalizada se copia a otro conjunto, resultando un conjunto totalmente normalizado. P1 Como primer paso del método se debe seleccionar un compuesto, por lo general se selecciona el de mayor actividad. En la mayoría de los casos, se resuelve seleccionando el compuesto que tenga mayores valores numéricos. Se debe mencionar que existen conjuntos de datos que según su sentido físico o.