2. MATERIALES Y MÉTODOS 36
2.3 ESPECIFICACIONES DE LAS FUNCIONES DE DESEABILIDAD 47
La optimización de la deseabilidad global fue conducida mediante el metodo Optimum desirability at exact grid points para el conjunto de datos relativo a la familia de quinazolinonas; mientras que para la familia de fluoroquinolonas se usó el método Use general function optimization. Ambos métodos están implementados en el modulo MRG del software STATISTICA 7.0 (180). El método spline (201, 202) fue usado para ajustar las funciones de deseabilidad. El nivel actual de cada variable independiente fue establecido como sus respectivos valores óptimos. Los parámetros s y t fueron fijados a 1.00 bajo la hipótesis de que las funciones de deseabilidad aumentan linealmente hacia Ti para cada respuesta.
Se ajustaron dos funciones de deseabilidad, uno para cada respuesta. Específicamente, la toxicidad sobre sobre células sanguíneas MT4 debe ser minimizada. En este trabajo esta propiedad se expresa a través de CC50
que por la información que aporta debe ser maximizada de manera que el compuesto con mayor valor de CC50
(transformada como 2
50
+1/2
CC
) es el más deseable (di = 1). Para la estimación de los valores dicorrespondientes a los valores de toxicidad sobre sobre células sanguíneas MT4 el valor superior Ui que coincide
con el valor diana Ti se fijo en 2
50
+1/2
CC
= 23,011 que se corresponde con un valor de CC50 = 529 µMexhibido por el compuesto menos tóxico de la serie, y el valor inferior Li se fijó en 2
CC
50+1/2
= 2,796 / CC50= 7,32 µM exhibido por el compuesto más tóxico de la serie. Contrariamente, la acitividad inhibitoria sobre la TI del VIH-1 (expresado como EC50 y transformada esta en 1/(1+EC50)) debe ser maximizada. Aquí Ui = Ti =
1/(1+EC50) = 0.998 / EC50 = 0.002 µgM correspondiéndose estos valores con el compuesto más activo de la serie
y Li = 1/(1+EC50) = 0.017 / EC50 = 58 µM), coincidiendo este último con el compuesto de menor actividad
Hai Pham The-Aplicación de la Metodología MOOP-DESIRE …
2.4 MÉTODOS COMPUTACIONALES Y ANÁLISIS ESTADÍSTICO
Las estructuras moleculares de todos los compuestos fueron representadas en ChemDraw Ultra 9.0(203). Las estructuras fueron inicialmente optimizadas por un método semi-empírico de orbitales moleculares implementado en el programa Hyperchem 8.05. El método Hamiltoniano PM3(203) fue usado para obtener estructuras optimizadas con geometrías correspondientes a su mínimo energético.
Posteriormente, los 1664 descriptores moleculares implementados en el software DRAGÓN 7.0 (204) fueron calculados. Para reducir información redundante que podría conducir a correlaciones casuales, descriptores con valores constantes o cercanos a valores constantes fueron excluidos del posterior proceso de selección de variables. La clase de descriptores moleculares (0D, 1D, 2D y 3D), las familias de descriptores incluidas dentro de cada clase y el número de descriptores de cada familia que fueron calculados a través del software DRAGÓN 7.0 son mostrados en la Tabla 2.5.
Tabla 2.2 Descriptores moleculares implementados en el software DRAGÓN 5.0.
FAMILIA NÚMERO DESCRIPTORES 0D Descriptores Constitucionales 48 DESCRIPTORES 1D Descriptores de Carga 14 Propiedades Moleculares 29
Conteo de Grupos Funcionales 154
Fragmentos Centrados en Átomos 120
DESCRIPTORES 2D
Descriptores Topológicos 119
Conteo de Pasos y Caminos 47
Índices de Conectividad 33
Índices de Información 47
Autocorrelaciones 2D 96
Índices de Adyacencia entre Aristas 107
Autovalores de Burden 64
Índices Topológicos de Carga 21
Índices basados en Autovalores 44
DESCRIPTORES 3D
Perfiles Moleculares de Randic 41
Descriptores Geométricos 74
Descriptores RDF 150
Descriptores 3D-MoRSE 160
Descriptores WHIM 99
Descriptores GETAWAY 197
Debido a que en los estudios QSPR la selección de descriptores apropiados es una tarea complicada, ya que no hay una regla absoluta que gobierne esta selección, fue aplicada una técnica de optimización - Algoritmo
Hai Pham The-Aplicación de la Metodología MOOP-DESIRE …
Genético (AG)- para la selección de variables (205-208) usando el paquete informático BuildQSAR (209, 210). El mismo parte de ecuaciones polinómicas lineales con un máximo de 10 variables a incluir para cada propiedad dentro, de una población de 3000 posibles ecuaciones con una probabilidad de mutación del 30% y donde el criterio de optimización usado fue la maximización del coeficiente de correlación (R). En la Tabla 2.6, se muestran los descriptores moleculares seleccionados y usados finalmente para la optimización simultánea de la acitividad inhibitoria sobre la TI del VIH-1 y toxicidad sobre células sanguíneas MT-4 de los 109 compuestos tipo INNTI incluidos en el conjunto de entrenamiento.
Tabla 2.3. Descriptores moleculares seleccionados para ser empleados en el proceso de optimización simultánea.
SÍMBOLO DEFINICIÓN FAMILIA CLASE PROPIEDAD
MATS8e Moran autocorrelation - lag 8 / weighted by atomic Sanderson electronegativities 2D autocorrelations 2D EC50
GATS3m Geary autocorrelation - lag 3 / weighted by atomic masses 2D autocorrelations 2D EC50
pilD conventional bond-order ID number Walk and path counts 2D EC50
EEig09x Eigenvalue 09 from edge adj. matrix weighted by edge degrees Edge adjacency indices 2D EC50
EEig10x Eigenvalue 10 from edge adj. matrix weighted by edge degrees Edge adjacency indices 2D EC50
BEHe2 highest eigenvalue n. 2 of Burden matrix / weighted by atomic Sanderson electronegativities Burden eigenvalues 2D EC50
JGI4 mean topological charge index of order4 Topological charge indices 2D EC50
RDF130v Radial Distribution Function - 13.0 / weighted by atomic van der Waals volumes RDF Descriptors 3D EC50
HTu H total index / unweighted GETAWAY Descriptors 3D EC50
R7e R autocorrelation of lag 7 / weighted by atomic Sanderson electronegativities GETAWAY Descriptors 3D EC50
BEHm8 highest eigenvalue n. 8 of Burden matrix / weighted by atomic atomic masses Burden eigenvalues 2D CC50
BELe4 lowest eigenvalue n. 4 of Burden matrix / weighted by atomic Sanderson electronegativities Burden eigenvalues 2D CC50
RDF030m Radial Distribution Function - 3.0 / weighted by atomic masses RDF Descriptors 3D CC50
RDF135m Radial Distribution Function - 13.5 / weighted by atomic masses RDF Descriptors 3D CC50
RDF150m Radial Distribution Function - 15.0 / weighted by atomic masses RDF Descriptors 3D CC50
G1e 1st component symmetry directional WHIM index / weighted by atomic Sanderson electronegativities WHIM Descriptors 3D CC50
Ks K global shape index / weighted by atomic electrotopological states WHIM Descriptors 3D CC50
H7v H autocorrelation of lag 7 / weighted by atomic van der Waals volumes GETAWAY Descriptors 3D CC50
R8v+ R maximal autocorrelation of lag 8 / weighted by atomic van der Waals volumes GETAWAY Descriptors 3D CC50
R3p+ R maximal autocorrelation of lag 3 / weighted by atomic polarizabilities GETAWAY Descriptors 3D CC50
En lo que se refiere a la técnica de modelación, se optó por un enfoque basado en técnicas de RLM; en este caso, los coeficientes de regresión y los parámetros estadísticos fueron obtenidos mediante el módulo de
Hai Pham The-Aplicación de la Metodología MOOP-DESIRE …
regresión general múltiple (RGM) implementado en el software STATISTICA 7.0 (180). Para cada MP, la bondad de ajuste se evaluó examinando el coeficiente de determinación (R2), el coeficiente de determinación
ajustado (Adj.R2), la desviación típica (s), el estadístico de Fisher (F), así como la proporción entre el número de casos y el número de parámetros ajustables en el modelo, conocido como el estadístico ρ. La robustez y la capacidad predictiva del modelo fueron determinadas considerando el coeficiente de determinación de la validación cruzada dejando un caso fuera de cada MP (Q2
LOO) (211). El procedimiento de la validación cruzada
dejando un caso fuera consiste en quitar un caso de la serie de entrenamiento y reconstruir el modelo sólo con la serie de entrenamiento remanente y luego predecir el caso removido. Todos los casos de la serie de entrenamiento fueron predichos y de este modo determinado el Q2
LOO.
El dominio de aplicación de los MPs se determinó mediante un ploteo de los valores de los residuales estandarizados contra los valores de leverage de los compuestos del entrenamiento (211, 212). El leverage (h) de un compuesto mide la influencia sobre el modelo del espacio de variables originales incluidas en el MP y se define como: ) ,..., 1 ( ) ( 1 i n h T T i =xi X X − xi = (2.2.17)
donde xi es el vector de descriptores del compuesto considerado y X es la matriz de los valores de descriptores
del modelo derivada de la serie de entrenamiento. El leverage crítico h* se define a continuación:
n
p
h
*=3×
´/
(2.2.18) Aquí n es el número de casos usados en el entrenamiento y p´ es el número de parámetros ajustables incluidos en
Hai Pham The- Aplicación de la Metodología MOOP-DESIRE …