Medidas de similitud novedosas en quimioinformática

Texto completo

(1)UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN. MEDIDAS DE SIMILITUD NOVEDOSAS EN QUIMIOINFORMÁTICA Tesis presentada en opción al grado científico de Doctor en Ciencias Matemáticas. OSCAR MIGUEL RIVERA BORROTO. Santa Clara, Cuba 2013.

(2) UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN. MEDIDAS DE SIMILITUD NOVEDOSAS EN QUIMIOINFORMÁTICA Tesis presentada en opción al grado científico de Doctor en Ciencias Matemáticas. Autor: Inv. Agr. MSc. Oscar Miguel Rivera Borroto Tutor: Prof. Tit. Dr. Yovani Marrero Ponce Cotutores: Prof. Tit. Dr. Ricardo del C. Grau Ábalo Catedrático, Dr. José M. García de la Vega Santa Clara, Cuba 2013.

(3) AGRADECIMIENTOS A Jehová Dios, mi padre bendito: Por llevarme de la mano en cada paso que doy, por estar siempre a mi lado. A mi mamá Gina: No solo me has animado y mantenido económicamente durante estos años, sino que has dedicado tu vida casi entera a mí, gracias por darme el ejemplo de tu vida. A mi papá Oscarito: Gracias por encaminarme en los estudios, por siempre animarme frente a las adversidades, por tu amor y apoyo material. A mis hermanos Humbe y Albe: Gracias por vivir orgullosos de ser mis hermanos; sé que más que por mis logros, me quieren por quien soy, igual los quiero yo a ustedes. A mis tutores: Por vuestra sabia conducción de esta tesis, ejemplo como líderes científicos y ayuda institucional y personal cuando los he necesitado. A mis primos y tíos cercanos, cuñada y sobrinos: Ustedes también han sido pilares en mi vida, me han apoyado y han querido lo mejor para mí, incluyendo el éxito en esta empresa. A mis amigos y amigas más cercanos de Zaza del Medio y de la UCLV: Prefiero no mencionar nombres para no dejar a alguno fuera, ustedes mismos saben quiénes son. Gracias por escuchar mis situaciones personales, aconsejarme y estar dispuestos a ayudarme en los peores momentos de mi vida y compartir mis mayores alegrías….gracias mis hermanos! A mis ex-parejas: Durante este tiempo cada una de ustedes me apoyó como pudo y alegró mi espíritu en algún sentido. A mis extraordinarios compañeros de trabajo del Laboratorio de Bioinformática: Más que compañeros hemos sido amigos, más que amigos seguiremos siendo una gran familia a pesar de las distancias geográficas. A mis demás compañeros y amigos del CEI: Gracias por cada apretón de manos, cada beso y cada ayuda desinteresada..

(4) A mis estimados tesiantes de grado: No saben cuánto he apreciado vuestra labor, siempre los he visto como colaboradores, sin el trabajo de vosotros algunos de los resultados de esta tesis no hubieran sido posibles. A mis colaboradores y amigos del grupo CAMD-BIR Unit y Bioactivos Químicos: Por los excelentes debates científicos que hemos efectuado, por los intercambios de información científica tan útiles. A los demás colaboradores de la UCLV, Cuba y el extranjero: Hemos llevado a cabo investigaciones interesantes, espero podamos seguir trabajando y dando buenos frutos como hasta el momento. Al Programa de Cotutelas de Doctorado entre la Universidad Autónoma de Madrid y Universidades Cubanas: Este programa, convenido con la UCLV, subvencionó varias estancias de investigación al autor de esta tesis en la UAM, permitiéndole disponer de recursos computacionales de altas prestaciones y de información científica de primer nivel, imprescindibles para el sano desarrollo de este trabajo de investigación. Al programa de colaboración internacional entre la Universidad Central “Marta Abreu” de Las Villas y la institución Vlaamse Interuniversitaire Radd - Intitutional University Cooperation (VLIR-IUC) del Consejo de Universidades Flamencas. Este programa permitió el acceso a recursos computacionales, material bibliográfico y material de oficina necesarios para la investigación en la UCLV Al Sistema Educacional Cubano: Por darme el acceso gratuito a escalar cada peldaño en mi carrera académica y llegar a otra cima superior de mi camino científico, espero pueda seguir retribuyendo con mis resultados este hermoso gesto del Estado Cubano..

(5) DEDICATORIA. D. edico este trabajo con devoción a Dios, a mis padres y a la memoria de mi abuela Cayaya..

(6) i SÍNTESIS Se introducen medidas matemáticas de similitud y se integran a algoritmos de cribado virtual de repositorios quimioinformáticos representados por descriptores moleculares informativos y relevantes. Se fundamenta la disimilitud de Ruzicka de la Ecología para búsqueda de similitud, logrando un desempeño similar a algunas medidas reportadas. Paralelamente, se introducen tres algoritmos de agrupamiento de la Ecología, mostrando efectividades comparables al de referencia (Ward). Posteriormente, se fundamenta el índice de Dunn del Análisis Visual de Datos, para el análisis de clusterabilidad y el estudio de la relación entre separabilidad de los datos y desempeño de la clasificación. Se prueban nueve medidas de la Teoría Estadística de las Mediciones para búsqueda de similitud en Quimioinformática. Dichas medidas superan de forma general a las reportadas, incluyendo al coeficiente de elección (Tanimoto), y proporcionan además información de la relación funcional entre los vectores de representación. Por último, se deducen relaciones de orden parcial entre algunas medidas bivariadas de acuerdo relacional; también se considera la extensión de dichas medidas al caso de múltiples objetos biomoleculares y se demuestra que las medidas multivariadas pueden expresarse como la media ponderada de sus contrapartes bivariadas. Como resultado, se proponen siete medidas de acuerdo relacional multivariadas que son nuevas en Estadística aplicada en Quimioinformática..

(7) ii LISTADO DE PUBLICACIONES ORIGINALES Los principales resultados de esta tesis están resumidos en los artículos siguientes, los cuales serán referidos en el informe por números romanos: I.. Novel similarity measures for the effective and efficient retrieval of pharmacological data sets. Rivera-Borroto OM, Hernández-Díaz Y, García-de la Vega JM, Grau-Ábalo RC, Marrero-Ponce Y Afinidad 2011; 68: 50-56.. II.. Comparison of combinatorial clustering methods on pharmacological data sets represented by machine learning-selected real molecular descriptors. Rivera-Borroto OM, Marrero-Ponce Y, García-de la Vega JM, Grau-Ábalo RC J. Chem. Inf. Model. 2011; 51: 3036-3049.. III.. Dunn’s index for cluster tendency assessment of pharmacological data sets. Rivera-Borroto OM, Rabassa-Gutiérrez M, Grau-Ábalo RC, Marrero-Ponce Y, García-de la Vega JM Can. J. Physiol. Pharmacol. 2012; 90: 425-433.. IV.. Comparación de modelos novedosos de proximidad en quimioinformática. Rivera-Borroto OM, Hernández-Díaz Y, García-de la Vega JM, Grau-Ábalo RC, Marrero-Ponce Y Afinidad 2012; 69: 272-277.. V.. Relational agreement measures for similarity searching of chembioinformatic data sets. Rivera-Borroto OM, Hernández-Díaz Y, García-de la Vega JM, Mazorra-Cubas GM Bioinformatics 2013; EN REVISIÓN.. VI.. Theoretical advances on coefficients of relational agreement: Application to cheminformatics as k-way biomolecular similarity measures. Rivera-Borroto OM, García-de la Vega JM, Hernández-Díaz Y J Chemometr 2013; DOI: 10.1002/cem.2552. VII. Perspectiva general sobre el proceso de desarrollo de fármacos y las técnicas de cribado virtual basadas en la similitud molecular. Rivera-Borroto OM, Hernández-Díaz Y, García-de la Vega JM, Grau R, Marrero-Ponce Y, Cruz-Monteagudo M An R Acad Nac Farm 2013; ACEPTADO PARA PUBLICAR. *Este artículo fue aceptado para publicación en la revista Anales de la Real Academia Nacional de Farmacia, pero fue retirado de la imprenta y actualmente se encuentra entre los trabajos candidatos al premio “Juan Abelló” que promueve la Real Academia Nacional de Farmacia de España..

(8) iii PARTICIPACIÓN EN EVENTOS CIENTÍFICOS Algunos de los resultados obtenidos por el autor han sido publicados en eventos científicos nacionales e internacionales que se brindan a continuación: 1.. Rivera-Borroto OM, Hernández-Díaz Y, García-de la Vega JM, Marrero-Ponce Y, GrauÁbalo RC, Rabassa-Gutiérrez M, Rodríguez-Abed A. Cribado virtual en conjuntos de datos farmacológicos utilizando medidas de similitud para la recuperación efectiva y eficiente de los mismos. VIII Congreso Internacional de Informática en Salud y el II Congreso Internacional “Moodle Salud”; 2011, 7-11 Feb; La Habana, Cuba.. 2.. Rivera-Borroto OM, Rabassa-Gutiérrez M, Marrero-Ponce Y, García-de la Vega JM, GrauÁbalo RC, Hernández-Díaz Y, Rodríguez-Machín L. Implementación del índice de Dunn para la evaluación de la tendencia al agrupamiento de conjuntos de datos quimioiformáticos. VIII Congreso Internacional de Informática en Salud y el II Congreso Internacional “Moodle Salud”; 2011, 7-11 Feb; La Habana, Cuba.. 3.. Rivera-Borroto OM, Hernández-Llanes D, Marrero-Ponce Y, Grau-Ábalo RC, RodríguezMachín L, García-de la Vega JM, López-Fernández R, González-Jonte-Cruz R. Comparación de algoritmos de clústeres combinatorios novedosos en quimioinformática. Conferencia Internacional de Ciencias Computacionales e Informáticas (CICCI’ 2011); 2011, 7-11 Feb; La Habana, Cuba.. 4.. Rivera-Borroto OM, Hernández-Díaz Y, García-de la Vega JM, Grau-Ábalo RC, MarreroPonce Y. Comparación de Modelos de Proximidad Novedosos en Quimioinformática. VII Taller de Bioinformática. VI Conferencia Científica UCIENCIA; 2012, 20-22 Feb; La Habana Cuba.. PUBLICACIÓN DE MONOGRAFÍAS Varios de los resultados obtenidos por el autor han sido publicados pormenorizadamente en monografías de editoriales cubanas las cuales se muestran a continuación: 1.. Rivera-Borroto OM, Hernández-Díaz Y, Marrero-Ponce Y, Grau-Ábalo RC, García-de la Vega JM, Rodríguez-Abed A, Casas-Cardoso G, Rodríguez-Martín I, Díaz-Gálvez A. Comparación de estrategias aglomerativas combinatorias tipo Ward usando conjuntos de datos quimioinformáticos y descriptores moleculares reales seleccionados por técnicas de aprendizaje automático. Monografías 2011. Editorial Samuel Feijoó. ISBN: 978-959-250670-1. 2.. Rivera-Borroto OM, Hernández-Díaz Y, García-de la Vega JM, Grau-Ábalo RC, MarreroPonce Y. Modelos de proximidad novedosos para el cribado virtual de conjuntos de datos quimioinformáticos. Monografías 2012. Editorial Samuel Feijoó. ISBN 978-959-250-8118. 3.. Rivera-Borroto OM, Hernández-Díaz Y, Rodríguez-Martín I, García-de la Vega JM, GrauÁbalo RC, Marrero-Ponce Y. Herramientas de tendencia y validación para el agrupamiento. Índice de Dunn para aplicaciones quimioinformáticas. Monografías 2013. Editorial Samuel Feijoó. ISBN 978-959-250-896-5.

(9) iv. PRODUCCIÓN DE SOFTWARE El autor ha participado en la programación de dos productos de software donde se han implementado las principales técnicas de trabajo y actualmente están a la disposición (con los permisos correspondientes) de la comunidad científica, estos son: 1.. Hernández Díaz Y, Rivera Borroto OM. FUSE 1.0 [versión para Windows]. La Habana, Cuba: CENDA; 2012. Registro 2497-2012.. 2.. Rivera Borroto OM, Rabassa-Gutiérrez M. TODAEX 1.0 [versión para Windows]. La Habana, Cuba: CENDA; 2012. Registro 2498-2012. LISTADO DE OTRAS PUBLICACIONES RELACIONADAS CON EL TRABAJO ESTADÍSTICO DEL AUTOR El autor también ha trabajado en el cribado virtual de biocompuestos usando otras técnicas estadísticas supervisadas que derivaron en publicaciones de reconocimiento internacional y un premio CITMA provincial. También se han aplicado algunas técnicas de fiabilidad de mediciones en diversos contextos de la ciencia química obteniendo resultados relevantes, los resultados en su conjunto se muestran a continuación: 1.. Discovery of novel trichomonacidals using LDA-driven QSAR models and bondbased bilinear indices as molecular descriptors. Rivera-Borroto OM, Marrero-Ponce Y, Meneses-Marcel A, Escario JA, Gómez-Barrio A, Arán VJ, Martins-Alho MA, Montero-Pereira D, Nogal JJ, Torrens F, Ibarra-Velarde F, Vera-Montenegro Y, Huesca-Guillén A, Rivera N, Vogel C Mol. Inf. 2008; 28, 9-26.. 2.. New antitrichomonal drug-like chemicals selected by bond (edge)-based TOMOCOMD-CARDD descriptors. Meneses-Marcel A, Rivera-Borroto OM, Marrero-Ponce Y, Montero A, Machado-Tugores Y, Escario JA, Gómez-Barrio A, Montero-Pereira D, Nogal JJ, Kouznetsov VV, OchoaPuentes C, Bohórquez AR, Grau R, Torrens F, Ibarra-Velarde F, Arán VJ J. Biomol. Screen. 2008; 13: 785-794.. 3.. Bond-based linear indices in QSAR: Computational discovery of novel antitrichomonal compounds. Marrero-Ponce Y, Meneses-Marcel A, Rivera-Borroto OM, García-Domenech R, De Julián-Ortiz JV, Montero A, Escario JA, Gómez-Barrio A, Montero-Pereira D, Nogal JJ J. Comput. Aided Mol. Des. 2008; 22: 523-540.. 4.. Estrategias QSAR combinadas, TOMOCOMD-CARDD y quimiométricas, para el descubrimiento de candidatos a fármacos nuevos/novedosos frente al trichomonas vaginalis. Rivera-Borroto OM, Marrero-Ponce Y, Meneses-Marcel A, Grau-Ábalo RC, MonteroTorres A Premio CITMA Provincial (Villa Clara, 2008).

(10) v 5.. The conductivity as a tool to evaluate the operation of the washing process in moving bed. Rodriguez-Machin L, Hoffner B, Stahl W, Rivera-Borroto OM Afinidad 2008; 65: 457-462.. 6.. Behavior of short-circuit frequency and duration time and electrical conductivity on arc turn-on during SMAW (AC) with E6013 electrodes. García-Rodríguez A, Gómez-Pérez CR, Rivera-Borroto OM, Miguel-Oria JV Soldagem Insp. São Paulo 2009; 14: 66-73.. 7.. Self-feed device behaviour valuation designed for assessment of operability of covered electrodes. García-Rodríguez A, Gómez-Pérez CR, Miguel-Oria JV, Rivera-Borroto OM, SánchezRoca A Soldagem Insp. São Paulo 2009; 14: 58-65.. 8.. Determinación de oro en muestras geológicas por ensayo al fuego combinado con espectrofotometría UV/VIS. Rodríguez-Rodríguez Y, Basilio-de la Torre J, Prieto-García JO, Rivera-Borroto OM Rev. Metal. Madrid 2013; EN REVISIÓN.. FORMACIÓN DE PROFESIONALES El autor ha incidido directamente en la formación de nuevos graduados en Licenciatura en Ciencia de la Computación. Su labor como tutor se puede apreciar en el desarrollo de los trabajos de diploma siguientes: 1. Trabajo de diploma: Algoritmos de conglomerados combinatorios novedosos en aplicaciones quimioinformáticas. Tesiante: Jorge David Hernández Llanes Curso: 2009-2010 2.. Trabajo de diploma: Modelos de proximidad novedosos para el cribado virtual de conjuntos de datos quimioinformáticos. Tesiante: Yoandy Hernández Díaz Curso: 2010-2011. 3.. Trabajo de diploma: Herramientas de tendencia y validación para el agrupamiento. Índice de Dunn para aplicaciones Quimioinformáticas. Tesiante: Itnamy Rodríguez Martín Curso: 2010-2011. 4. Trabajo de diploma: Medidas de similitud biomolecular k-arias basadas en la Teoría de la Generalizabilidad. Tesiante: Emilia María Castillo Fernández Curso: 2012-2013.

(11) vi GLOSARIO Area Under Curve. Área Bajo la Curva 15 averaged MLPs, each Trained on all Available Data and Having Avg-M_A Slightly Different Architectures. 15 RNPM Entrenadas con los Datos Disponibles y con Arquitecturas Diferentes Bagged Trees Árboles Embolsados 15 Bagged MLPs, all Having Slightly Different Architectures. 15 RNPM Bag-M_B con Arquitecturas Diferentes y Embolsadas Bag-M_W 15 Bagged MLPs. 15 RNPM Embolsadas Bag-RBF 15 Bagged RBF Networks. 15 RNFBR Embolsadas Boosted Trees Árboles Amplificados CCR de Spearman Coeficiente de Correlación de Ranqueos de Spearman CPM de Pearson Coeficiente Producto-Momento de Pearson Combinatorial SAHN. Algoritmos de Agrupamiento Jerárquicos, CSAHN Aglomerativos, Secuenciales, no Superpuestos y Combinatorios DI Dunn’s Index. Índice de Dunn FUSE Fuzzy Search. Búsqueda Borrosa GASSEN Neural Networks. Técnica de Postprocesamiento de Redes GAS Neuronales MAX-SIM Maximum Similarity. Similitud Máxima MDDR MDL Drug Data Report. Reporte de Datos Farmacológicos de la MDL Multilayer Perceptron Neural Network. Red Neuronal Perceptrón MLP Multicapas (RNPM) Maximum Unbiased Validation (Data Sets). Conjuntos de Datos para MUV (Data Sets) Validación con Sesgo Mínimo NegBagg Neural Networks. Algoritmo de Aprendizaje de Ensamblajes NB Cooperativos para Diseñar RN NFL No Free Lunch. Ningún Almuerzo es Gratis PMs Proximity Measures. Medidas de Proximidad Quantitative Structure-Activity Relationships. Relaciones Cuantitativas QSAR Estructura-Actividad Random Forest Bosques Aleatorios Radial Basis Function Neural Network. Red Neuronal con Función de RBF Base Radial (RNFBR) Receiver Operating Characteristic curve. Curva de las Características del ROC Curve Operador Receptor SVM Support Vector Machine. Máquinas Vectoriales de Soporte (MVS) Tools for Data set Exploration. Herramientas para la Exploración de TODAEX Conjuntos de Datos Trees Árboles (grafos) Tunned Forest Bosques Sintonizados Tunned SVM MVS Sintonizadas VAT Visual Assessment of Tendency. Evaluación Visual de la Tendencia World of Molecular Bioactivity Data. Universo de Datos de Bioactividad WOMBAT Molecular AUC.

(12) TABLA DE CONTENIDOS INTRODUCCIÓN ............................................................................................................................. 1 1.. MARCO TEÓRICO ................................................................................................................... 9 1.1.. 1.1.1.. Enfoques generales sobre similitud........................................................................... 14. 1.1.2.. Tratamiento matemático de la similitud.................................................................... 17. 1.2.. Métodos computacionales en Quimio(Bio)informática.................................................... 22. 1.2.1.. Cribado virtual. ......................................................................................................... 23. 1.2.2.. Componentes básicos de una técnica de VS basada en similitud. ............................ 24. 1.2.3.. Técnicas principales de VS basadas en (di)similitud. ............................................... 31. 1.3. 2.. Analogía y similitud. .......................................................................................................... 9. Consideraciones finales del capítulo. ............................................................................... 39. MÉTODOS COMPUTACIONALES ...................................................................................... 41 2.1.. Planificación general de la investigación. ........................................................................ 41. 2.1.1.. Estudio preliminar sobre la introducción de algunas medidas novedosas de. (di)similitud de otras áreas del conocimiento en técnicas de búsqueda de similitud y algoritmos de agrupamiento. .................................................................................................... 41 2.1.2.. Racionalidad de las relaciones subyacentes entre las características distribucionales. de los datos y las técnicas de VS basadas en (di)similitud....................................................... 44 2.1.3.. Introducción de medidas de similitud novedosas basadas en el Acuerdo Relacional y. su validación en la búsqueda de similitud. ............................................................................... 45 2.1.4.. Análisis teórico de medidas de similitud por pares del acuerdo relacional, su. generalización al caso de varios objetos químicos y derivación de nuevas medidas k-arias para su uso en la Quimioinformática y Estadística. ......................................................................... 51 3.. RESULTADOS Y DISCUSIÓN.............................................................................................. 52.

(13) 3.1.. Estudio preliminar sobre la introducción de algunas medidas novedosas de (di)similitud. de otras áreas del conocimiento en técnicas de búsqueda de similitud y algoritmos de agrupamiento................................................................................................................................ 53 3.1.1.. Búsqueda de similitud. .............................................................................................. 53. 3.1.2.. Algoritmos de agrupamiento..................................................................................... 56. 3.2.. Racionalidad de las relaciones subyacentes entre las características distribucionales de. los datos y las técnicas de VS basadas en (di)similitud. .............................................................. 60 3.2.1.. Clusterabilidad de los conjuntos de datos. ................................................................ 62. 3.2.2.. Separabilidad y exactitud de clasificación. ............................................................... 63. 3.3.. Introducción de medidas de similitud novedosas basadas en el Acuerdo Relacional y su. validación en la búsqueda de similitud. ....................................................................................... 64 3.3.1.. Primera etapa: Introducción de medidas de similitud basadas en el Acuerdo. Relacional y su validación preliminar en la búsqueda de similitud de repositorios de la Química Médica. ...................................................................................................................... 64 3.3.2.. Segunda etapa: Sistematización de medidas de similitud basadas en el acuerdo. relacional y su validación exhaustiva en la búsqueda de similitud de repositorios quimioinformáticos. ................................................................................................................. 71 3.4.. Análisis teórico de medidas de similitud por pares del acuerdo relacional, su. generalización al caso de varios objetos químicos y derivación de nuevas medidas k-arias para su uso en la Quimioinformática y Estadística. ............................................................................. 80 3.4.1.. Generalización de las fórmulas de Zergers-ten Berge y su relación con la Teoría de. la Generalizabilidad.................................................................................................................. 81 3.4.2.. Relación de orden entre coeficientes de acuerdo relacional bivariados corregidos por. aleatoriedad. ............................................................................................................................. 82.

(14) 3.4.3.. Relación funcional entre los coeficientes de Acuerdo Relacional multivariados y. bivariados no corregidos por aleatoriedad. .............................................................................. 87 3.4.4.. Relación funcional entre los coeficientes de Acuerdo Relacional multivariados y. bivariados corregidos por aleatoriedad. ................................................................................... 90 3.4.5.. Coeficientes de Acuerdo Relacional aplicados como medidas de similitud. biomoleculares (k ≥ 2)- arias. ................................................................................................... 93 3.5.. Conclusiones parciales del capítulo. ................................................................................. 95. CONCLUSIONES ........................................................................................................................... 97 RECOMENDACIONES .................................................................................................................. 98 REFERENCIAS BIBLIOGRÁFICAS............................................................................................. 99 ANEXOS ....................................................................................................................................... 114.

(15) INTRODUCCIÓN.

(16) INTRODUCCIÓN La presente tesis integra disciplinas como la Estadística Matemática, la Computación y la Química. Se parte de la presentación del problema científico a partir de la Quimioinformática; pero se demostrará que su objeto de estudio son nuevas medidas matemático-estadísticas de similitud aunque su campo de acción inmediato sea la Quimioinformática o la Bioinformática. Los capítulos 2 y 3 de la tesis, darán fe que los resultados estadístico-matemáticos son los fundamentales y por ello se defienden en un tribunal de Ciencias Matemáticas. El concepto de similitud juega un rol prominente en Quimioinformática y Bioinformática (1-2). La aplicación prolífica de la similitud en estos campos del conocimiento está cimentada en el principio de similitud-propiedad de Johnson y Maggiora (3), el cual plantea que “moléculas estructuralmente similares se espera que exhiban propiedades (actividades) similares”. Este paradigma parece ser una adaptación directa del proceso fundamental del pensamiento, razonamiento por analogía (4). La comprobación práctica de este principio ha sido apoyada por un buen número de resultados experimentales (5-7); sin embargo, otros hallazgos sugieren que eventualmente. bio(macro)moléculas estructuralmente. similares. exhiben. comportamientos. disimilares, así como bio(macro)moléculas estructuralmente disimilares exhiben comportamientos similares (8-10). Para sistematizar este cuerpo de evidencias algunos autores han propuesto, en el contexto del diseño de fármacos, un cuadro (matriz de confusión) de cuatro hipótesis bayesianas, o sea, i-) biomoléculas estructuralmente similares es muy plausible que tengan funciones bioquímicas similares, ii-) biomoléculas estructuralmente similares es plausible que tengan funciones bioquímicas disimilares, iii-) biomoléculas estructuralmente disimilares es plausible que tengan funciones bioquímicas similares, iv-) biomoléculas estructuralmente disimilares es muy plausible que tengan funciones bioquímicas disimilares (11-12). La validez general de las hipótesis ii-) y iii-) debe ser aceptada con reservas ya que no se han presentado evidencias suficientemente claras en la literatura, en el sentido que aún no se ha conducido un estudio _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(17) Introducción. 2. exhaustivo sobre la selección de rasgos relevantes bio(macro)moleculares en contextos bioquímicos diversos. La causa para la dificultad en establecer un grupo de experimentos controlados pudiera residir en la carencia de mediciones “húmedas” o experimentales fiables, a la promiscuidad observada de algunos ligandos, y a la multiplicidad de funciones de las macromoléculas (genes, proteínas, etc) (13-14). Por otro lado, el aceptar estas dos hipótesis como realidades infalibles presupondría un reto filosófico interesante pues algunos pensadores han postulado que el núcleo cognitivo humano opera analógicamente (15). La cuestión no solamente radica en que el concepto de analogía es más general que el de similitud (16), sino también que en Quimio(Bio)informática lo que los investigadores usualmente llaman “relaciones de similitud” probablemente sean en realidad relaciones de similitud estructurada o analógicas. La consideración anterior se basa en que la comparación entre objetos químicos frecuentemente comprende el emparejamiento de los elementos correspondientes (fragmentos moleculares) y las relaciones entre estos (los fragmentos se encuentran relacionados por enlaces bioquímicos), y esta información aparece codificada casi siempre en los descriptores que luego se usan para los cálculos de similitud. Cualquiera que fuere la situación, si es que estas hipótesis están poco fundamentadas o que en el futuro habremos de aceptarlas como parte de nuestra realidad, el hecho es que las hipótesis i-) y iv-) conforman la lógica de base para técnicas como la búsqueda de similitud, muestreo de compuestos intraclústeres y modelación de QSAR (17-19). La hipótesis ii-) conforma la lógica de base de un grupo de técnicas para el análisis y visualización de los acantilados de actividad de perfiles farmacológicos, y una de sus aplicaciones potenciales es la identificación de pequeños cambios moleculares responsables de un cambio abrupto en la actividad observada, que de por sí conllevan un gran interés (20-21). Por último, la hipótesis iii-) subyace en las técnicas basadas en diversidad para la búsqueda de estructuras patrones o “Scaffold Hopping”, que se refiere a la capacidad para identificar clases estructuralmente diferentes de compuestos activos (quimiotipos) a través del cribado computacional. Este constituye el criterio de _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(18) Introducción. 3. éxito más importante en las aplicaciones de cribado virtual (VS) prospectivo (22-23), y de esta forma influye en varias técnicas de análisis de diversidad como la búsqueda de disimilitud, la selección de compuestos interclústeres, los algoritmos de partición basados en celdas y los algoritmos basados en optimización (24). En Quimioinformática y Bioinformática las medidas de (di)similitud bio(macro)moleculares se han tratado tradicionalmente como relaciones binarias y generalizaciones explícitas al caso de varios objetos o k-arias han recibido poca atención en estas áreas; la mayoría de las veces el uso de estas últimas se ha restringido a las funciones objetivo para la selección de compuestos basada en disimilitud (25), o para la comparación de secuencias y estructuras de proteínas y genomas (26). Por otra parte, salvo algunas excepciones (27), la mayoría de las medidas de similitud usadas en estas áreas carecen de una distribución estadística asociada, por tanto, la decisión acerca de si un valor de similitud en particular es significativo debe hacerse sobre bases irregulares. Por último, las medidas de similitud usadas en estas áreas cuantifican el grado de semejanza entre las bio(macro)moléculas pero no brindan información sobre la relación funcional explícita entre los vectores de representación correspondientes. A partir del análisis de la literatura se nota que las cadenas binarias o fingerprints (p.e., las huellas MACCs, las huellas dactilares Daylight, las huellas BCI, etc) han sido adoptadas como el medio de facto para la representación molecular (28), y la razón para ello radica principalmente en la eficiencia con la que estas pueden ser generadas, comparadas y almacenadas (29-30). Alternativamente, en contadas publicaciones, otros autores han introducido diferentes tipos de descripción numérica que capturan mayor información química de las entidades moleculares (3132). Aunque, desde la perspectiva computacional, el usar descriptores numéricos es una estrategia menos eficiente que usar huellas dactilares, desde el punto de vista estadístico el transformar descriptores de escala continua (discreta) en descriptores de escala nominal (binarios) conlleva a una pérdida de información estadística que afecta la potencia, capacidad de resolución de las _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(19) Introducción. 4. ataduras de proximidad y versatilidad en general de los métodos basados en similitud (33). También se constata que la selección de rasgos es una etapa casi ignorada en los estudios de comparación de técnicas basadas en similitud, usualmente consideradas como “técnicas (obligatoriamente) no supervisadas” a pesar de que la mayoría de estos se han conducido en escenarios supervisados. Sin embargo, la importancia de la selección automática de rasgos para este tipo de técnicas se ha resaltado en otros campos del conocimiento (34-38). En Quimioinformática, la selección de rasgos se ha guiado mayoritariamente por la experiencia acumulada de estudios anteriores o por la estrategia de “prueba y error” y, en la extensión de nuestros conocimientos, poquísimos trabajos han usado técnicas automáticas en esta etapa (39-40), que sean consistentes con el principio de vecindad (o similitud) (41-42). Consecuentemente, también el autor de esta tesis considera que el disponer de un conocimiento racional a priori basado en el comportamiento de los descriptores en contextos supervisados permite una mejor toma de decisiones sobre la selección de descriptores en contextos análogos pero no supervisados. Esta sería una estrategia del tipo “aprendiendo a aprender”, un tipo de meta aprendizaje (43). Resultados provenientes de estudios académicos y subsecuentes aplicaciones en la industria farmacéutica, han sugerido la superioridad general en efectividad del algoritmo de agrupamiento de Ward, usando la técnica de vecinos más cercanos recíprocos y huellas dactilares 2D para la representación vectorial biomolecular, sobre otros métodos jerárquicos como el promedio de grupo y diámetro mínimo, y sobre otros métodos no jerárquicos como el algoritmo de JarvisPatrick y k-medias, en el agrupamiento de conjuntos de datos (17,44). Además, para la técnica de búsqueda de similitud, se ha afirmado que el coeficiente de Tanimoto, usando representaciones biomoleculares binarias, es el más efectivo para dicha tarea (45). Sin embargo, ambas afirmaciones parecen contradecir el teorema No Free Lunch (NFL), del Aprendizaje Automático, que establece que ningún algoritmo de aprendizaje es superior a los demás (al menos se establece para “todos los problemas de clasificación”) dado que todos presentarán como promedio el mismo _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(20) Introducción. 5. riesgo de clasificación incorrecta sobre la población de conjuntos de datos (quimioinformáticos) (46). Como consecuencia de las razones expuestas anteriormente surge el problema científico: ¿Cómo introducir medidas de similitud biomoleculares novedosas en Quimioinformática, superiores cuantitativamente y cualitativamente a las ya reportadas, que usen representaciones biomoleculares informativas relevantes al contexto bioquímico estudiado y permitan mejorar el desempeño de los principales algoritmos basados en similitud en la clasificación de datos quimioinformáticos? Como vía para solucionar este problema científico se formula la hipótesis de investigación siguiente: -. El uso de medidas de similitud de otras áreas del conocimiento en Quimioinformática usando representaciones biomoleculares numéricas coherentes con el principio de similitud mejorará cualitativamente y cuantitativamente las medidas de similitud biomoleculares reportadas.. Como. objetivo. general. se. plantea introducir medidas. novedosas de. similitud en. Quimioinformática usando descriptores moleculares (DMs) seleccionados de acuerdo al principio de similitud, superiores a las medidas ya reportadas en cuanto a la interpretación de las relaciones de semejanza biomoleculares y al desempeño de los principales algoritmos de cribado virtual basados en similitud. Para dar cumplimiento a este objetivo general se han trazado cuatro objetivos específicos: -. Emplear medidas binarias de similitud de la Ecología y compararlas con medidas ya reportadas en el desempeño de algoritmos de búsqueda de similitud y agrupamiento de datos químico-médicos representados por DMs numéricos relevantes.. -. Emplear medidas de similitud del Análisis Visual de Datos para evaluar la tendencia al agrupamiento de conjuntos de datos químico-médicos representados por DMs numéricos. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(21) Introducción. 6. relevantes, y estudiar la relación entre el solapamiento de los datos y el desempeño del agrupamiento. -. Comparar medidas binarias de similitud de la Teoría Estadística de las Mediciones con las ya reportadas en cuanto al desempeño de la búsqueda de similitud de datos quimioinformáticos representados por DMs numéricos relevantes, y lograr interpretaciones tipológicas de las relaciones de semejanza biomoleculares.. -. Realizar un estudio teórico de las medidas de acuerdo relacional que comprenda el sistematizar las relaciones de orden entre las medidas bivariadas, generalizar dichas relaciones bivariadas al caso de múltiples objetos y analizar la dependencia funcional entre medidas multivariadas y bivariadas.. La novedad científica de este trabajo se fundamenta en la propuesta de medidas de similitud novedosas en Quimioinformática, ya que mejoran a las medidas clásicas en cuanto a un mejor desempeño de los principales algoritmos de clasificación basados en similitud y algunas de ellas incorporan información distribucional y funcional entre los vectores de representación, y, pueden ser generalizadas para la modelación de las relaciones de semejanza de múltiples objetos biomoleculares. En este trabajo pueden destacarse los aportes siguientes: Valor Teórico: La introducción de medidas de similitud de otras áreas del conocimiento (Ecología, Psicología, Estadística) e integración a algoritmos de búsqueda de similitud y de agrupamiento para la clasificación de conjuntos quimioinformáticos; la sistematización de las relaciones de orden parcial entre las medidas bivariadas de acuerdo relacional corregidas estadísticamente, correspondiente a cuatro escalas métricas de medición (de siete estudiadas); la sistematización de la dependencia funcional entre las medidas de acuerdo relacional multivariadas y bivariadas para los casos no corregido y corregido estadísticamente, correspondientes a todas las escalas métricas. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(22) Introducción. 7. de medición, y, como resultado de ello la propuesta de siete medidas de similitud biomoleculares multivariadas que son nuevas en la literatura quimioinformática. Valor Práctico: Se desarrollan dos productos de software para Windows “FUSE” y “TODAEX” para la minería de datos quimioinformáticos. El primer producto tiene como propósito la búsqueda de similitud en repositorios quimioinformáticos representados por DMs numéricos; para ello se integran varias de las medidas de similitud biomoleculares clásicas reportadas en la literatura, todas las medidas de similitud propuestas en este trabajo, un algoritmo de auto entrenamiento para la selección de las mejores medidas de acorde al problema estudiado, varios esquemas de fusión de datos que actúan como multiclasificadores y una métrica de desempeño apropiada para problemas de ordenamiento para la evaluación de la efectividad de la técnica. El segundo producto de software tiene como propósito la exploración del espacio de representación biomolecular mediante técnicas de detección de “outliers” basada en similitud, técnicas de análisis y visualización de la tendencia al agrupamiento, algoritmos de agrupamiento con determinación de agrupamiento óptimo de manera automática, medidas de validación interna y externa del agrupamiento, técnicas de predicción de propiedades bioquímicas, entre otros. Valor Metodológico: La comparación y validación de las medidas de similitud biomoleculares novedosas usando conjuntos de datos quimioinformáticos de tamaño pequeño a grande, que consisten en repositorios de fármacos de uso práctico en Química Médica; conjuntos extensos de DMs de naturaleza numérica e informativos de la estructura química; una etapa de selección automática de rasgos supervisada consistente con el principio de similitud o vecindad; métricas de desempeño apropiadas para cada estudio y pruebas estadísticas potentes para la comparación relativa de los modelos de similitud en cuanto a su efectividad. Por otra parte, desde el punto de vista de su estructura, la tesis se organiza de la manera siguiente: La síntesis, un listado de las publicaciones originales que constituyen el hilo conductor de los resultados y que se refieren con números romanos (I a VII), seguidos de una relación de trabajos _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(23) Introducción. 8. publicados en eventos científicos, de los software patentados por el autor y de otra lista de publicaciones, incluido un premio, relacionadas con la tesis y el autor. Luego la Introducción, seguida de los tres capítulos que forman el cuerpo de la tesis. El capítulo 1 está dedicado a aspectos filosóficos y matemáticos relacionados con los conceptos de analogía y similitud, y a la descripción de las principales técnicas de clasificación basadas en similitud a través de sus componentes esenciales usadas en este trabajo. El segundo capítulo se dedica a la exposición secuencial de las etapas de la investigación, detallando los materiales y métodos empleados en cada caso. En el tercer capítulo se presentan los resultados principales del trabajo, tanto computacionales como teóricos, que ilustran la relevancia de las medidas de similitud propuestas por primera vez en Quimioinformática. A ello le siguen las conclusiones, recomendaciones, referencias bibliográficas y anexos formados por las publicaciones originales del autor que tributan directamente al informe de tesis.. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(24) 1.. MARCO TEÓRICO.

(25) 1.. MARCO TEÓRICO. Este capítulo de la tesis está dedicado primeramente al tratamiento epistemológico del concepto de similitud a través de su relación con el concepto de analogía. También, se brindan los modelos más extendidos para el estudio de la similitud; especial énfasis se hace en el modelo geométrico donde se trata el concepto dual de disimilitud. A continuación se muestran los modelos matemáticos clásicos, tanto para el caso usual donde la disimilitud se considera como una relación entre dos objetos matemáticos, como para el caso tratado más recientemente en la literatura, donde este concepto se extiende como una relación entre múltiples objetos. Más adelante, se abordan los métodos y técnicas características de la Quimioinformática; de interés particular resultan las técnicas de VS basadas en similitud donde se describen detalladamente sus componentes esenciales y se describen las tres técnicas usadas en este reporte: 1) los algoritmos de agrupamiento, 2) las técnicas de tendencia al agrupamiento, y 3) los algoritmos de búsqueda de similitud. 1.1. Analogía y similitud. Indiscutiblemente, el estado actual de la humanidad está conectado con nuestra amplia historia evolutiva y cultural. Si consideramos que significa “el ser humano”, encontraremos ciertas capacidades cognitivas asombrosas que secundan el lenguaje, el arte, la música, la invención y la ciencia. En la búsqueda de explicaciones para tales capacidades se pone de manifiesto que un componente básico es un tipo especial de capacidad simbólica, la capacidad de memorizar patrones, de identificar recurrencias de estos patrones a pesar de la variación de los elementos que los componen, de formar conceptos que abstraen y sistematizan estos patrones, y de expresar estos conceptos en el lenguaje. La analogía, en su sentido más general, es esta capacidad de pensar en patrones relacionales y ha tenido un profundo impacto en el desarrollo de las ciencias cognitivas en la última centuria (47). Tal es el alcance de este concepto que Hofstadter lo ha propuesto como _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(26) Marco Teórico. 10. candidato al núcleo cognitivo humano (15). El razonamiento por analogía es un tipo de razonamiento que por lo general no siempre se presenta en la forma de un argumento; la mayor parte del razonamiento analógico consiste en resolver problemas, describiendo algo, aprendiendo o explicando cosas y extendiendo nuestro pensamiento a partir de cosas que entendemos a otras cosas que, hasta el momento, no comprendemos. Pero esta concepción del razonamiento analógico es muy general. Dos objetos son análogos si y solo si existe una correspondencia uno a uno entre los elementos de los objetos. Esto es, lo que hace a la inferencia analógica ir de un caso particular a otro sin pasar por una premisa universal (16). La analogía, vista en general, es una forma de razonamiento de la lógica informal y por tanto criticable. Por ejemplo, uno de los tutores de este trabajo, lo planteaba claramente en una Conferencia Magistral del evento COMPUMAT 2011 de la Sociedad Cubana de Matemática y Computación (48). R. Grau objetaba y ejemplificaba que el hecho de que dos objetos fueran análogos respecto a un conjunto de atributos, no implicaba que fueran análogos respecto a otros valores para su predicción, a menos que formalmente se hubiera establecido que ese conjunto de atributos determinará en buena medida el valor a predecir. Pero ello se resuelve o se alivia si se formula una definición más clara de analogía como expresamos a continuación, adhiriéndonos en primer lugar a la terminología y definición (más bien conceptualización) de Juthe (16): El sujeto-objeto (SO) es el objeto de comparación al cual la conclusión del argumento por analogía le asigna un nuevo predicado. El análogo (A) es el objeto que se compara con el SO con el objetivo de hacer la inferencia analógica del nuevo predicado acerca del SO. El predicado asignado (PA) es el predicado del análogo el cual es asignado al SO en virtud de la relación analógica entre ellos. El SO y el A son análogos con respecto a un PA si y solo si cada uno de los elementos del A (e1*, e2*, e3*,…, en*) el cual determina el PA se corresponde uno a uno con un. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(27) Marco Teórico. 11. elemento contraparte en el SO (e1, e2, e3,…, en). Es en virtud de esta correspondencia que el PA puede ser mutatis mutandis concluido con respecto al SO. De manera más concreta podemos definir una relación de analogía como: 1. A es análogo con SO con respecto al PA si y solo si existe una correspondencia entre los elementos de A, que determina el PA, y los elementos del SO. 2. Los elementos de A y los elementos de SO se encuentran en una correspondencia uno a uno si y solo si cada elemento de A que determina el PA tiene su elemento contraparte en el SO. 3. Un elemento ei* de A es una contraparte de un elemento ei del SO si y solo si el elemento ei* tiene una relación R con otro elemento ej* en A y el elemento ei tiene una relación R con otro elemento ej en el SO. 4. A es un análogo del mismo dominio con el SO con respecto al PA si y solo si existe una correspondencia uno a uno entre los elementos de A que determina el PA y los elementos de A son del mismo dominio que los del SO. A partir de las propiedades anteriores se comprende que la relación de analogía exige la correspondencia tanto entre los elementos de los dos objetos como entre las relaciones entre los elementos de los mismos. Cuando puede establecerse solamente una correspondencia entre los elementos de los objetos hablamos entonces de similitud o similaridad entre dos objetos. Por otra parte, se reconoce que el razonamiento por analogía es una clase de argumento que se supone es de naturaleza inductiva, pero no equivale a una inducción completa sino plausible 1 . La misma consiste en la transferencia de un argumento de un dominio a otro con la pretensión de que el argumento término (SO) será bueno si lo es el argumento fuente (A) (49). El tipo de argumentación analógica analizada hasta el momento es de naturaleza asimétrica; sin embargo, en 1. El concepto de “plausibilidad” ha sido también formalizado matemáticamente. Está formulado un conjunto de tres axiomas, suficientemente comprensibles y aceptables, que debe cumplir cualquier función de plausibilidad, y un teorema formal que prueba, que si se cumplen tales axiomas, dicha función, es salvo una constante multiplicativa normalizadora, una función de probabilidad (Axiomas y Teorema de Cox-Jaynes). Este concepto de “plausibilidad” puede generalizar o abarcar varios otras definiciones de la Estadística y la Inteligencia Artificial; pero la discusión de este término escapa a los objetivos del marco teórico del presente trabajo.. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(28) Marco Teórico. 12. otras ocasiones también puede argumentarse que dos dominios son análogos (o que no lo son), en cuyo caso la analogía aparece, no como premisa o garantía de un razonamiento, sino como conclusión del mismo, y en este caso la analogía tiene un carácter simétrico que conlleva a la conclusión disyuntiva: objetos análogos poseen propiedades análogas mientras que objetos no análogos poseen propiedades no análogas (50). Rouvray (51), propone una modelación matemática de las analogías asumiendo que el cerebro impone la estructura S sobre el dominio de conocimiento Δ, de modo que: =⟨ ,. ⟩. donde,. los. ={ ,. ,. paréntesis ,…,. quebrados. indican. una. estructura. matemática. generalizada,. } es el conjunto de conceptos encontrados dentro del dominio Δ, y Ri es una. familia de relaciones definidas sobre C. Supongamos también que existen dos estructuras, que denotaremos por S y S’, entonces la analogía entre S y S’ se puede definir como la familia de correspondencias uno a uno que pueden establecerse entre dichas estructuras, a partir de las correspondencias: :. →. Que siguen las reglas siguientes: i.. Descartar los atributos de los conceptos, o sea: ( )] → [ ( ). ii.. Emparejar las relaciones entre los conceptos: ,. →. ,. iii. Definir la analogía construyendo la intersección Γ de los conjuntos de relaciones. y. como: Γ = {⋃. }⋂ ⋃. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(29) Marco Teórico. 13. Ruvray (51) también aboga por un modelo de similitud entre entidades químicas del tipo simétrico, argumentando que el contenido emotivo en estas comparaciones es mínimo o no existente en lo absoluto, por tanto las similitudes que se tratan en esta área son bien comportadas. Los conceptos de analogía y de razonamiento analógico deben ser concretados en cada rama del saber. En Inteligencia Artificial hay una parte importante que trata sobre razonamiento analógico. De hecho, muchos trabajos 2 y libros 3 en esta área lo tratan. En la Física-Matemática aparece también un concepto de analogía y se utiliza para heredar propiedades de una a otra parte de esta rama4. En Matemáticas no existe un concepto general de analogía pero se usa evidentemente como forma de razonamiento o al menos inducción. Quizás lo más cercano a este podría ser la Teoría de Categorías. La teoría de categorías es una manera moderna de considerar la organización de las matemáticas permitiendo reunir en clases de objetos que tienen características similares para de esta forma su estudio sea más organizado y también para relacionar las diferentes clases con un proceso similar a construir funciones entre conjuntos. Una categoría es una clase de objetos y morfismos entre ellos. Como por ejemplo el álgebra lineal: aquí los objetos son todos los espacios vectoriales y los morfismos todas las transformaciones lineales entre estos objetos. Otro ejemplo es la categoría de los espacios topológicos como objetos y las funciones continuas entre los espacios, como los morfismos 5 . Cuando un morfismo es biyectivo y su inverso es también un morfismo, estamos en presencia de un isomorfismo en esa categoría y ello puede considerarse la analogía o similitud dentro de esta clase de objetos.. 2. Morell Pérez C. Extensiones al razonamiento basado en casos [Doctorado en Ciencias Técnicas, especialidad Informática]. Santa Clara: UCLV; 2005. Tutores: Rafael Bello y Ricardo Grau. 3 Michalski RS y otros. Machine learning: an Artificial Intelligence approach. Vol I y II. San Francisco, USA: Morgan Kaufman Publishers; 1989. 4 León Torres, G. Análisis cualitativo y caracterización de dos cosmologías incluyendo campos escalares [Doctorado en Ciencias Matemáticas, especialidad Ecuaciones Diferenciales e Integrales]. Santa Clara: UCLV; 2010. Tutores: Rolando Cárdenas Ortiz y Ruth Lazkoz Sáez. 5 Lawvere W, Schanuel S. Conceptual Mathematics: A First Introduction to Categories. Cambridge: Cambridge University Press; 1997.. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(30) Marco Teórico. 14. Los intentos de caracterización de analogías en Matemática no se acaban aquí. En Geometría Diferencial se estudian objetos que se denominan “variedades” (topológicas o diferenciales)6. Las variedades de dimensión 2 son superficies que no son globalmente isomorfas topológicamente al plano pero lo son “localmente”. Un ejemplo típico es el de una superficie esférica. No es posible definir una biyección (bicontinua o bidiferenciable) de toda la esfera en el plano; pero si es posible hacerlo localmente, incluso de forma diferenciable con inverso diferenciable. Quizás la forma más simple es tomar la esfera (como si fuera la Tierra), quitar el Polo Norte y desde allí hacer una proyección de todos los restantes puntos de la esfera hacia un plano tangente en el Polo Sur. Luego quitamos el Polo Sur y hacemos una proyección a través a la superficie a un plano tangente en el Polo Norte. Así hacemos dos “cartas” o “mapas” que cubren totalmente la esfera. El conjunto de ellas se denomina un “atlas”. Es conocido que hay muchas formas de hacer un atlas de la esfera terrestre con diferentes tipos de proyecciones. Lo que se trata de ilustrar es que estamos en presencia de aplicaciones bicontinuas e incluso diferenciables (ellas y sus inversas) pero no tenemos un isomorfismo de espacios topológicos. Regresando al tema de esta tesis, se ha hecho la discusión anterior a partir de una concepción filosófica muy general y su concreción en algunas ramas para resaltar la necesidad de su concreción en Quimio(Bio)informática. En estas ramas analogía debe entenderse como similitud de estructuras moleculares, que en principio garantice al menos con basta probabilidad igualdad de propiedades (funciones). La cuestión es cómo medir la similitud y este es el objetivo esencial del presente trabajo. 1.1.1.. Enfoques generales sobre similitud.. Las evaluaciones humanas de similitud son fundamentales para la cognición porque las similitudes son reveladoras para el mundo en que vivimos. Este mundo es un lugar suficientemente ordenado. 6. Spivak M. A comprehensive Introduction to Differential Geometry. Vol. 1. Houston, Texas: Publish or Perish, Inc.; 1999. Accesible en http://www.mediafire.com/?uvy2onmzj45 (visitado el 7 octubre de 2013).. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(31) Marco Teórico. 15. de modo que los objetos y eventos tienden a comportarse similarmente; este hecho, observado en múltiples fenómenos no es una coincidencia fortuita, sino que se debe al principio básico fundamental de que objetos que son similares también tenderán a comportarse similarmente en la mayoría de los aspectos (52).. 1.1.1.1.. Modelos más difundidos de similitud.. En la literatura científica ha aparecido un número importante de tratados que brindan enfoques teóricos de similitud y describen como la misma puede ser medida empíricamente (53). Estos modelos han tenido un profundo impacto en estadística, reconocimiento automático de patrones, minería de datos y marketing. Los modelos de similitud más importantes son: a) el geométrico, b) el basado en rasgos, c) basado en alineamiento y d) transformacional (54).. 1.1.1.1.1. Modelo geométrico. El modelo geométrico funciona bajo la premisa de que dos cosas son similares cuando están cerca una de la otra en un espacio matemático. Estos enfoques son ejemplificados por la técnica de modelación estadística de escalamiento multidimensional (MDS, de sus siglas en inglés, Multidimensional Scaling). Los modelos MDS representan las relaciones de similitud entre entidades en término de un modelo geométrico que consiste en un conjunto de puntos embebidos en un espacio (matemático). La entrada de las rutinas MDS pueden ser juicios de similitud, confusiones entre entidades, patrones de coocurrencia en muestras grandes de texto, u otra medida de proximidad por pares. La salida de una rutina MDS es un modelo geométrico de un conjunto de objetos, con cada objeto representado en un espacio n-dimensional (55). La similitud entre un par de objetos se evalúa entonces como relacionada inversamente a la distancia entre dos objetospunto en dicho espacio. En la técnica MDS, la distancia entre los puntos X e Y se calcula típicamente mediante la distancia de Minkowsky generalizada (o distancia lp, p≥1) como: = ∑. −. /. (1.1). _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(32) Marco Teórico. 16. donde n es la dimensión del espacio y xj e yj son los valores de las variables X e Y en el rasgo j, respectivamente.. 1.1.1.1.2. Modelos de características. En los años 1970, se observó que las evaluaciones subjetivas de similitud no siempre satisfacen los supuestos de los modelos geométricos de similitud: i.. ( , )≥. ( , ) = 0 (minimalidad). ii.. ( , )=. ( , ) (simetría). iii.. ( , )≤. ( , ) + ( , ) (desigualdad triangular). En este caso, ( , ) debe ser interpretado en el sentido más amplio de disimilitud entre los ítems X e Y. En la práctica, de hecho, se han obtenido empíricamente evidencias que violan los tres supuestos. El modelo más radical fue presentado en 1977 por Amos Tversky (56), quien propuso una modelación de la similitud en términos del emparejamiento o desparejamiento de características o rasgos, en vez de distancias entre dimensiones psicológicas. En su modelo, las entidades se representan como colecciones de rasgos y la similitud se calcula por: ( , )=. ( ⋂ )−. ( / )−. ( / ). (1.2). donde, ( , ) es la similitud del objeto X al objeto Y, y es expresada como una combinación lineal de la medida de los rasgos comunes y distintivos. El termino ( ⋂ ) representa los rasgos que los objetos X e Y tienen en común. La expresión ( / ) representa los rasgos que tiene X y no tiene Y. Similarmente, ( / ) representa los rasgos que tiene Y y no tiene X. Por otra parte, f representa una función de emparejamiento (p.e., el cardinal de conjuntos). Finalmente, θ, α y β son los pesos de los componentes comunes (θ) y distintivos (α y β); nótese que el peso asignado a los rasgos distintivos no es el mismo y entonces el modelo permite describir asimetrías observadas en experimentos que involucran estímulos psicológicos. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(33) Marco Teórico. 17. 1.1.1.1.3. Modelo basado en alineamiento. Una comunalidad entre las representaciones geométricas y de características es que ambas usan representaciones relativamente no estructuradas. Sin embargo, entidades como los objetos naturales con partes, escenarios del mundo real, palabras, oraciones, historias, teorías científicas, y hasta caras humanas no son simplemente una “bolsa de atributos”, y es que las relaciones entre las partes de las entidades es algo muy importante para lograr una modelación más realista de estas. Inspirados en los modelos de emparejamiento de estructuras de Dedre Gentner (57), en los modelos basados en alineamiento, el emparejamiento de rasgos influye la similitud más acentuadamente si pertenecen a partes que están situadas en correspondencia. Las partes tienden a estar situadas en correspondencia si estas tienen muchos rasgos en común y son consistentes con otras correspondencias emergentes.. 1.1.1.1.4. Modelos transformacionales. Este enfoque sobre similitud sostiene que la similitud entre dos objetos está directamente relacionada con el número de transformaciones requeridas para convertir un objeto a otro. Las operaciones de alineamiento rotan, escalan, trasladan y deforman topográficamente las descripciones de los objetos. De acuerdo a Hahn y coautores (53), la similitud entre dos entidades está basada en cuan compleja es la secuencia de transformaciones que transforma una entidad en la otra; desde este punto de vista, mientras más simple es la secuencia de transformaciones entre dos objetos, más similares tienden a ser estos. 1.1.2. Tratamiento matemático de la similitud. Se abordan ahora posibles enfoques diferentes de tratamiento matemático de la similitud.. _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(34) Marco Teórico. 18. 1.1.2.1. Relaciones de similitud entre dos objetos o binarias. En Matemática, el concepto de similitud es analizado usualmente a través de su concepto opuesto o dual de disimilitud. De hecho, las medidas de similitud y disimilitud pueden ser interconvertidas a través de transformaciones matemáticas relativamente sencillas que conservan las propiedades topológicas del par (58). Uno de los modelos matemáticos más difundidos en la literatura exige que para que una medida de disimilitud sea “bien comportada”, esta debe satisfacer dos conjuntos de supuestos, esto es, dimensionales y métricos. Los supuestos dimensionales son necesarios y suficientes para la sustractividad intradimensional y la aditividad interdimensional, mientras que las propiedades métricas se refieren a los siguientes axiomas: Sea ℝ el conjunto de números reales no negativos. Una métrica es un par ( , ), donde conjunto no vacío y d una función de disimilitud :. es un. → ℝ , que satisface para todo , , ∈. :. i.). ( , )=0⟺. ii.). ( , ) = ( , ) (simetría). iii.). ( , ) ≤ ( , ) + ( , ) (desigualdad triangular). =. (minimalidad). Tversky y Gatti (59) argumentan que a los axiomas anteriores debe agregarse un cuarto axioma definido como:. iv.). ( , ) = ( , ) + ( , ) (aditividad segmentaria, cuando z yace en el segmento entre x a y). Esta última propiedad es ignorada usualmente, pero es muy importante porque en la ausencia de segmentos aditivos, la desigualdad triangular puede satisfacerse trivialmente adicionando una constante suficientemente grande a todas las distancias entre los distintos puntos. Cuadras (60) ha propuesto un esquema más extendido que abarca otros modelos matemáticos para las relaciones binarias de distancia, de este modo sean las siguientes propiedades o axiomas: P1. ≥0 _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(35) Marco Teórico. 19. P2.. =0. P3.. =. P4.. ≤. P5.. = 0 ssi i = j. P6.. ≤ max. P7.. +. P8.. es euclidea; esto significa que existen dos puntos = =. +. ,. (desigualdad ultramétrica). ≤ max. ,. ,. ,…,. −. Es decir, si. +. ,. +. (desigualdad aditiva) =(. ,. ,. ,…,. ) y. de ℝ tales que: −. es la distancia euclídea entre los puntos Xi y Xj, entonces ( , ) puede. representarse en el espacio euclídeo (ℝ , ). P9.. es riemaniana; lo cual significa que ( , ) puede ser representado mediante una variedad de Rieman ( ,. P10.. ).. es una divergencia; supongamos que hemos definido una medida de probabilidad μ sobre E, entonces esta propiedad significa que d es una expresión funcional sobre μ.. A partir de estas propiedades, podemos clasificar las distancias según las mismas en: Disimilaridad: P1, P2, P3 Distancia métrica: P1, P2, P3, P4, P5 Distancia ultramétrica: P1, P2, P3, P6: ( , ) puede ser representado a través de un dendrograma Distancia euclídea: P1, P2, P3, P4, P8 Distancia aditiva: P1, P2, P3, P7 Actualmente, existe una gran variedad de modelos matemáticos que “demandan” propiedades características, dando como resultado una gran variedad de métricas. Una fuente excelente que hace énfasis en esta materia importante se brinda en la referencia (61). _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(36) Marco Teórico. 20. 1.1.2.2. Generalización al caso de varios objetos o k-arias. La generalización de la noción de métrica como relación entre dos objetos o binaria al caso de multimétrica como la relación entre varios objetos o k-arias ha sido estudiada en gran medida por Warrens (62). En este punto, es útil hacer una presentación de tales definiciones pues precisamente varias medidas de similitud propuestas en este trabajo están inspiradas en esta idea. Para ello utilizaremos la notación de este autor. Sea. ,. =( ,. ,. ) denote la k-upla y sea. ,…,. 1)-upla donde el menos en el supraíndice de. ,. ,. =( ,. ,. ,. ) denote la (k-. …,. se usa para indicar que el objeto xi ha sido. retirado de la k-upla. A partir de aquí se define una multimétrica como una medida de disimilitud que satisface: i.). ( , , , … , ) = 0 ∀ = 1, :. ii.) Una disimilitud. → ℝ es totalmente simétrica para todos los. cada permutación π de { , ( ), … ,. iii.). ( ). iv.) ( − 1). ,. ,. ,. ,…,. ∈. y. } si:. ) (Simetría generalizada). (Desigualdad triangular generalizada para métricas débiles). ,. ≤∑. ,. ,…,. ( ,…,. =. ≤∑. ,. (Minimalidad generalizada). (Desigualdad poliédrica o desigualdad triangular. ,. generalizada para métricas fuertes) v.). ,. ,. =. ,. ,. ,. , =⋯=. ,. ,. (Requerimiento. de. que. si. cualesquiera dos objetos son iguales dk debe permanecer invariante) vi.). =. ,. ,. ,. (Expresa que. y. son iguales hasta un factor de. multiplicación p cuando dos objetos son idénticos) vii.). , igual que. ,. ≤. ,. ,. (Expresa que. sin objetos idénticos siempre es mayor o. con objetos idénticos). Warrens (62) también define de manera análoga las multimétricas ultramétricas como: _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.

(37) Marco Teórico Sea. ,. 21. =(. ,. ≤ max. ,. ,…,. ) una k-upla de multimétricas entonces:. (Multimétrica ultramétrica débiles). ,. En artículos posteriores, este autor brinda ejemplos de multimétricas para el caso de tres objetos como el semiperímetro y el área del triángulo (63), y el perímetro para el caso generalizado de k objetos (64). Sin embargo, la extensión natural de estas medidas al mayor grado polinómico posible entre k puntos es el volumen del poliedro formado por los mismos. Supongamos que el conjunto formado por la k-upla. ,. =( ,. ,. ) esté representado por. ,…,. un poliedro simplicial P en ℝ , con estructura combinatoria K dada por el conjunto de k vértices, y un conjunto de e aristas con longitudes = { , , , … , }. Sabitov (65) probó la existencia un polinomio mónico (llamado polinomio de Sabitov): ( , )=. (). +. (). + ⋯+. +. (). (1.3). De modo que el volumen generalizado de cada poliedro isométrico a P es un cero de este polinomio, cuyos coeficientes. ( ), con 1 ≤ ≤. , son polinomios también en los cuadrados de. las longitudes de las aristas del poliedro, con coeficientes numéricos que dependen de la estructura combinatoria del poliedro. Este resultado puede generalizarse a dimensiones superiores. ≥ 3,. permite probar las conjeturas del fuelle y de Robbins, y puede considerarse como la generalización natural de la fórmula de Herón para poliedros (65). Otra característica geométrica que se preserva por los flexores es la curvatura integral media H de la superficie poliédrica (66-67). Con el propósito de ejemplificar el uso práctico de (1.3), se muestra el caso particular (y más simple) del tetraedro con k = 4 y longitudes de aristas = { , , , , , }, para el cual el cero correspondiente a (1.3) sería la ecuación: [. = +. −. ( −. + )−. +. + −. −. − −. )+ −. (. + ]. +. +. −. −. )+. (. +. + (1.4). _______________________________________________________________________________ Rivera Borroto OM: Medidas de similitud novedosas – Quimioinformática.