ESPECIFICACIONES DE LAS FUNCIONES DE DESEABILIDAD 47

2. MATERIALES Y MÉTODOS 36

2.3 ESPECIFICACIONES DE LAS FUNCIONES DE DESEABILIDAD 47

La optimización de la deseabilidad global fue conducida mediante el metodo Optimum desirability at exact grid points para el conjunto de datos relativo a la familia de quinazolinonas; mientras que para la familia de fluoroquinolonas se usó el método Use general function optimization. Ambos métodos están implementados en el modulo MRG del software STATISTICA 7.0 (180). El método spline (201, 202) fue usado para ajustar las funciones de deseabilidad. El nivel actual de cada variable independiente fue establecido como sus respectivos valores óptimos. Los parámetros s y t fueron fijados a 1.00 bajo la hipótesis de que las funciones de deseabilidad aumentan linealmente hacia Ti para cada respuesta.

Se ajustaron dos funciones de deseabilidad, uno para cada respuesta. Específicamente, la toxicidad sobre sobre células sanguíneas MT4 debe ser minimizada. En este trabajo esta propiedad se expresa a través de CC50

que por la información que aporta debe ser maximizada de manera que el compuesto con mayor valor de CC50

(transformada como 2

+1/2

CC

) es el más deseable (di = 1). Para la estimación de los valores di

correspondientes a los valores de toxicidad sobre sobre células sanguíneas MT4 el valor superior Ui que coincide

con el valor diana Ti se fijo en 2

+1/2

CC

= 23,011 que se corresponde con un valor de CC50 = 529 µM

exhibido por el compuesto menos tóxico de la serie, y el valor inferior Li se fijó en 2

CC

+1/2

= 2,796 / CC50

= 7,32 µM exhibido por el compuesto más tóxico de la serie. Contrariamente, la acitividad inhibitoria sobre la TI del VIH-1 (expresado como EC50 y transformada esta en 1/(1+EC50)) debe ser maximizada. Aquí Ui = Ti =

1/(1+EC50) = 0.998 / EC50 = 0.002 µgM correspondiéndose estos valores con el compuesto más activo de la serie

y Li = 1/(1+EC50) = 0.017 / EC50 = 58 µM), coincidiendo este último con el compuesto de menor actividad

Hai Pham The-Aplicación de la Metodología MOOP-DESIRE …

2.4 MÉTODOS COMPUTACIONALES Y ANÁLISIS ESTADÍSTICO

Las estructuras moleculares de todos los compuestos fueron representadas en ChemDraw Ultra 9.0(203). Las estructuras fueron inicialmente optimizadas por un método semi-empírico de orbitales moleculares implementado en el programa Hyperchem 8.05. El método Hamiltoniano PM3(203) fue usado para obtener estructuras optimizadas con geometrías correspondientes a su mínimo energético.

Posteriormente, los 1664 descriptores moleculares implementados en el software DRAGÓN 7.0 (204) fueron calculados. Para reducir información redundante que podría conducir a correlaciones casuales, descriptores con valores constantes o cercanos a valores constantes fueron excluidos del posterior proceso de selección de variables. La clase de descriptores moleculares (0D, 1D, 2D y 3D), las familias de descriptores incluidas dentro de cada clase y el número de descriptores de cada familia que fueron calculados a través del software DRAGÓN 7.0 son mostrados en la Tabla 2.5.

Tabla 2.2 Descriptores moleculares implementados en el software DRAGÓN 5.0.

FAMILIA NÚMERO DESCRIPTORES 0D Descriptores Constitucionales 48 DESCRIPTORES 1D Descriptores de Carga 14 Propiedades Moleculares 29

Conteo de Grupos Funcionales 154

Fragmentos Centrados en Átomos 120

DESCRIPTORES 2D

Descriptores Topológicos 119

Conteo de Pasos y Caminos 47

Índices de Conectividad 33

Índices de Información 47

Autocorrelaciones 2D 96

Índices de Adyacencia entre Aristas 107

Autovalores de Burden 64

Índices Topológicos de Carga 21

Índices basados en Autovalores 44

DESCRIPTORES 3D

Perfiles Moleculares de Randic 41

Descriptores Geométricos 74

Descriptores RDF 150

Descriptores 3D-MoRSE 160

Descriptores WHIM 99

Descriptores GETAWAY 197

Debido a que en los estudios QSPR la selección de descriptores apropiados es una tarea complicada, ya que no hay una regla absoluta que gobierne esta selección, fue aplicada una técnica de optimización - Algoritmo

Hai Pham The-Aplicación de la Metodología MOOP-DESIRE …

Genético (AG)- para la selección de variables (205-208) usando el paquete informático BuildQSAR (209, 210). El mismo parte de ecuaciones polinómicas lineales con un máximo de 10 variables a incluir para cada propiedad dentro, de una población de 3000 posibles ecuaciones con una probabilidad de mutación del 30% y donde el criterio de optimización usado fue la maximización del coeficiente de correlación (R). En la Tabla 2.6, se muestran los descriptores moleculares seleccionados y usados finalmente para la optimización simultánea de la acitividad inhibitoria sobre la TI del VIH-1 y toxicidad sobre células sanguíneas MT-4 de los 109 compuestos tipo INNTI incluidos en el conjunto de entrenamiento.

Tabla 2.3. Descriptores moleculares seleccionados para ser empleados en el proceso de optimización simultánea.

SÍMBOLO DEFINICIÓN FAMILIA CLASE PROPIEDAD

MATS8e Moran autocorrelation - lag 8 / _{weighted by atomic Sanderson electronegativities} 2D autocorrelations 2D EC50

GATS3m Geary autocorrelation - lag 3 / _{weighted by atomic masses} 2D autocorrelations 2D EC50

pilD conventional bond-order ID number Walk and path counts 2D EC50

EEig09x Eigenvalue 09 from edge adj. matrix _{weighted by edge degrees} Edge adjacency indices 2D EC50

EEig10x Eigenvalue 10 from edge adj. matrix _{weighted by edge degrees} Edge adjacency indices 2D EC50

BEHe2 highest eigenvalue n. 2 of Burden matrix / _{weighted by atomic Sanderson electronegativities} Burden eigenvalues 2D EC50

JGI4 mean topological charge index of order4 Topological charge indices 2D EC50

RDF130v Radial Distribution Function - 13.0 / _{weighted by atomic van der Waals volumes} RDF Descriptors 3D EC50

HTu H total index / unweighted GETAWAY Descriptors 3D EC50

R7e R autocorrelation of lag 7 / _{weighted by atomic Sanderson electronegativities} GETAWAY Descriptors 3D EC50

BEHm8 highest eigenvalue n. 8 of Burden matrix / _{weighted by atomic atomic masses} Burden eigenvalues 2D CC50

BELe4 lowest eigenvalue n. 4 of Burden matrix / _{weighted by atomic Sanderson electronegativities} Burden eigenvalues 2D CC50

RDF030m Radial Distribution Function - 3.0 / _{weighted by atomic masses} RDF Descriptors 3D CC50

RDF135m Radial Distribution Function - 13.5 / _{weighted by atomic masses} RDF Descriptors 3D CC50

RDF150m Radial Distribution Function - 15.0 / _{weighted by atomic masses} RDF Descriptors 3D CC50

G1e 1st component symmetry directional WHIM index / _{weighted by atomic Sanderson electronegativities} WHIM Descriptors 3D CC50

Ks K global shape index / _{weighted by atomic electrotopological states} WHIM Descriptors 3D CC50

H7v H autocorrelation of lag 7 / _{weighted by atomic van der Waals volumes} GETAWAY Descriptors 3D CC50

R8v+ R maximal autocorrelation of lag 8 / _{weighted by atomic van der Waals volumes} GETAWAY Descriptors 3D CC50

R3p+ R maximal autocorrelation of lag 3 / _{weighted by atomic polarizabilities} GETAWAY Descriptors 3D CC50

En lo que se refiere a la técnica de modelación, se optó por un enfoque basado en técnicas de RLM; en este caso, los coeficientes de regresión y los parámetros estadísticos fueron obtenidos mediante el módulo de

Hai Pham The-Aplicación de la Metodología MOOP-DESIRE …

regresión general múltiple (RGM) implementado en el software STATISTICA 7.0 (180). Para cada MP, la bondad de ajuste se evaluó examinando el coeficiente de determinación (R2_{), el coeficiente de determinación}

ajustado (Adj.R2), la desviación típica (s), el estadístico de Fisher (F), así como la proporción entre el número de casos y el número de parámetros ajustables en el modelo, conocido como el estadístico ρ. La robustez y la capacidad predictiva del modelo fueron determinadas considerando el coeficiente de determinación de la validación cruzada dejando un caso fuera de cada MP (Q2

LOO) (211). El procedimiento de la validación cruzada

dejando un caso fuera consiste en quitar un caso de la serie de entrenamiento y reconstruir el modelo sólo con la serie de entrenamiento remanente y luego predecir el caso removido. Todos los casos de la serie de entrenamiento fueron predichos y de este modo determinado el Q2

LOO.

El dominio de aplicación de los MPs se determinó mediante un ploteo de los valores de los residuales estandarizados contra los valores de leverage de los compuestos del entrenamiento (211, 212). El leverage (h) de un compuesto mide la influencia sobre el modelo del espacio de variables originales incluidas en el MP y se define como: ) ,..., 1 ( ) ( 1 _i _n h T T i =xi X X − xi = (2.2.17)

donde xi es el vector de descriptores del compuesto considerado y X es la matriz de los valores de descriptores

del modelo derivada de la serie de entrenamiento. El leverage crítico h* se define a continuación:

n

p

h

₌3_×

´/

(2.2.18) Aquí n es el número de casos usados en el entrenamiento y p´ es el número de parámetros ajustables incluidos en

Hai Pham The- Aplicación de la Metodología MOOP-DESIRE …

In document Aplicación de la Metodología MOOP DESIRE a la Identificación de Inhibidores No Nucleósidos de la Transcriptasa Inversa del VIH Tipo 1 con perfiles de Eficacia y Seguridad Simultáneamente Optimizados (página 58-63)

ESPECIFICACIONES DE LAS FUNCIONES DE DESEABILIDAD 47

2. MATERIALES Y MÉTODOS 36

2.3 ESPECIFICACIONES DE LAS FUNCIONES DE DESEABILIDAD 47

+1/2

CC

+1/2

CC

CC

+1/2

2.4 MÉTODOS COMPUTACIONALES Y ANÁLISIS ESTADÍSTICO

n

p

h

=3×

´/

₌3_×