Modelo de Clasificación ADL - Mediciones experimentales: log P, Refractividad Molar, Momento Di

1. Mediciones experimentales: log P, Refractividad Molar, Momento Dipolo,

4.1 Modelo de Clasificación ADL

Una vez seleccionada una muestra estructural y farmacológicamente representativa es posible obtener una ecuación lineal simple capaz de discriminar entre mezclas compatibles e incompatibles. En este sentido nosotros aplicamos el método forward stepwise como estrategia para la selección de variables con el objetivo de encontrar un modelo discriminante lineal estadísticamente significativo:

(1) F = 147.6079 p < 0.00 D2 = 25.86595 ρ= 14.16

U = 0.141854 RCan = 0.926362 Eigenvalue = 6.049502

Al analizar la ecuación es posible notar la influencia que ejercen los hidrógenos unidos a heteroátomos presentes en los compuestos orgánicos, inorgánicos y polímeros sobre la polarizabilidad de la molécula en el estado inicial y esta a su vez influye de manera positiva sobre la compatibilidad de los componentes de la mezcla. Lo anterior pudiera ser interpretado como la influencia que puede tener estos fragmentos sobre la polaridad de la molécula y esta a su vez sobre propiedades fisicoquímicas de las moléculas como la temperatura de fusión, lo que a su vez podría determinar la compatibilidad o no entre los componentes de la mezcla.

De manera especulativa podemos inferir que la presencia recurrente de variables relativas a la polarizabilidad de la molécula podría estar dada por la contribución de tal propiedad a la temperatura de fusión de los sólidos integrantes de la mezcla. Específicamente, la disminución de la temperatura de fusión podría conducir a la licuefacción del sólido lo cual constituye una causa de inestabilidad física de una formulación.

Por otra parte, la colinealidad entre las variables es un problema común cuando se usan descriptores topológicos. Si la multicolinealidad esta presente entre las variables del modelo, los coeficientes obtenidos por el método de mínimos cuadrados continúan siendo lineal e insesgados, pero teniendo una gran varianza. Por tanto, los coeficientes no son eficientes y consecuentemente las inferencias hechas a partir del método pueden ser erróneas ya que se aumenta el riesgo de cometer un error de tipo II al realizar el test de Fisher de significación de variables.

Es debido a este problema la necesidad de usar el procedimiento de ortogonalización de Randic [Randic, 1975, 1990, 1998] para obtener coeficientes más eficientes de las

variables predichas. Este procedimiento permite eliminar la colinealidad de las variables sin variar el promedio de casos correctamente clasificados ni los parámetros estadísticos del modelo. El nuevo modelo obtenido usando el procedimiento de ortogonalización de Randic es detallado a continuación:

(2)

Nuestro modelo fue capaz de clasificar correctamente un 96.87% de los casos en la serie de entrenamiento, con solo 5 variables predictivas, mostrando una excelente precisión y parsimonia (ρ =14.16). Específicamente, valores satisfactorios de sensitividad, especificidad, predictividad positiva, predictividad negativa, % de falsos positivos y falsos negativos fueron alcanzados usando este modelo, cuyos valores están detallados en la Tabla 4.

TABLA 4. Estadísticos de Cooper para las series de entrenamiento y predicción obtenidos aplicando el modelo discriminante lineal.

Modelo discriminante Estadísticos de Cooper (%)

Serie de entrenamiento Serie de predicción

Sensibilidad 93.47826 93.33333 Especificidad 98.78049 100.0000 Precisión 96.87500 97.61905 Predictividad positiva 97.72727 100.000 Predictividad negativa 96.42857 96.42857 Falsos positivos 1.21951 0.00000 Falsos negativos 6.52174 6.66667

Específicamente la Tabla 5 muestra el número de casos correctamente/erróneamente clasificados por el modelo.

TABLA 5. Matrices de clasificación de las series de entrenamiento y predicción para la ecuación (2).

Serie de entrenamiento No compatible Compatible

No compatible 43 3

Compatible 1 81

TOTAL 44 84

Serie de predicción No compatible Compatible

No compatible 14 1

Compatible 0 27

TOTAL 14 28

El área bajo la curva ROC (receiver operating characteristic curve) del modelo mostrado en la Figura 1 es evidentemente superior a 0.5 (todos los puntos de la curva están situados sobre la diagonal principal del gráfico). Esto demuestra que nuestro modelo no es un clasificador aleatorio. Ver Figura 1.

Figura 1. Curva ROC relativa al modelo ADL.

Si bien la bondad de ajuste, la no aleatoriedad del modelo obtenido y su parsimonia son propiedades deseables para un modelo, la capacidad predictiva del mismo es la propiedad más significativa de cualquier modelo. Como se puede ver en la Tabla 4 el modelo obtenido es capaz de clasificar correctamente el 97.62% (41 de 42 casos) de los casos utilizados en la serie de predicción externa lo que demuestra su precisión ante la clasificación de nuevos casos. Específicamente, el modelo dio muestras excelentes de su sensibilidad (93.33%) y especificidad (100%) a la hora de ser probado con la serie de predicción externa. Otros indicadores de la capacidad predictiva del modelo son mostrados en la Tabla 4.

Por otra parte, el ajuste de nuestro modelo a los supuestos paramétricos (normalidad, homocedasticidad y multicolinealidad) así como la correcta especificación de la forma matemática del mismo son aspectos muy importantes en la aplicación de técnicas

estadísticas multivariadas en estudios QSAR. La validez y significación estadística de cualquier modelo está fuertemente condicionada por los factores antes mencionados.

En nuestro caso, la forma matemática escogida para nuestro modelo resultó ser lineal ya que ante la ausencia de información a priori, esta es la forma matemática más simple para asumir. En apoyo de esta decisión, la examinación visual de la distribución de los residuales para los 128 casos empleados para ajustar el modelo (residuales contra casos) mostrado en la Figura 2 no muestra ningún patrón característico indicando que no existen evidencias que apoyen la hipótesis que la forma funcional de nuestro modelo fue incorrectamente especificada. El mismo criterio es bueno para probar la ausencia de multicolinealidad en nuestro modelo, el cual es un resultado lógico (recordar que las variables incluidas en el modelo fueron ortogonalizadas).

-3.00 -2.50 -2.00 -1.50 -1.00 -0.50 0.00 0.50 1.00 1.50 2.00 2.50 3.00 0 6 12 18 24 30 36 42 48 54 60 66 72 78 84 90 96 102 108 114 120 126 132 Casos R e s idua le s

Figura 2. Ploteo de los residuales para los casos usados como serie de aprendizaje. Especificación de la forma funcional del modelo.

Con respecto a la normalidad de los residuales de la ecuación, debemos decir que este es un punto débil de nuestro modelo. En este sentido, los residuales no exhiben valores adecuados de Skewness y Kurtosis, lo cual es una señal de desviación de las mismas de la distribución normal. Los resultados de los diferentes tests de normalidad aplicados confirman lo anterior, ver Tabla 6. Sin embargo, cuando examinamos el histograma de frecuencia de distribución de los residuales podemos ver que los mismos están

aparentemente distribuidos de forma normal. Ver el histograma de frecuencia de distribución descrito en la Figura 3.

Tabla 6. Estadísticos descriptivos y pruebas de normalidad empleados para evaluar la normalidad del modelo.

RESIDUALES

In document Aplicación de la metodología MARCH INSIDE a la predicción de posibles incompatibilidades en mezclas fármaco excipiente (página 38-43)