MATERIAL Y MÉTODOS
II.1. OBTENCIÓN DE LOS MODELOS TOPOLÓGICOS
II.2.1. Validación interna del modelo
Con el fin de validar internamente el modelo de regresión se llevan a cabo dos tipos de estudio: validación cruzada (cross-validation) y test de aleatoriedad de Fischer (Scrambling model).
II.2.1.1.Validación cruzada
La validación cruzada o cross-validation se basa en las técnicas Leave
One Out (LOO -“Dejar-uno-afuera”) y Leave Group Out (LGO -“Dejar
algunos a fuera”). Consisten en retirar del conjunto de entrenamiento n compuestos (n igual a 1 en LOO o muchos en LGO), volver a calcular el modelo con los compuestos restantes y predecir la clasificación de los compuestos eliminados con este nuevo modelo. El proceso se repite hasta que todos los compuestos del conjunto de entrenamiento son eliminados al menos una vez (Gramatica, 2007).
En la presente Tesis, se determina la estabilidad de los modelos de regresión aplicando la técnica del LOO, es decir, eliminando un compuesto
(y su correspondiente propiedad logCI50) del conjunto de entrenamiento y
volviendo a obtener un modelo sin este compuesto. Con el nuevo modelo se predice la propiedad para el compuesto eliminado, repitiéndose el proceso para todos los compuestos del conjunto y obteniéndose así una predicción para cada uno de ellos.
Los valores del coeficiente de correlación y de los residuales obtenidos al realizar las sucesivas eliminaciones se comparan con los de la ecuación seleccionada. Si son similares a los de la ecuación original el modelo se considerará estable. Por esta razón, con los resultados obtenidos en el test de estabilidad se realizará una representación gráfica de los residuales
125
frente a residuales obtenidos en el estudio de validación cruzada, que permitirá la detección de compuestos que no se ajustan al modelo.
Además de esta representación, se emplea un parámetro clave a la hora de evaluar la estabilidad del modelo. Se trata del coeficiente de
correlación de la validación cruzada, Q2, cuya expresión matemática se
expone a continuación:
𝑄2 = 𝑆𝐷−𝑃𝑅𝐸𝑆𝑆
𝑆𝐷
Donde, SD, es la desviación estándar al cuadrado de cada valor respecto de la media:
𝑆𝐷 = ∑ (𝑦𝑛𝑖=1 𝑖 − 𝑦�)2
PRESS, es la suma de los cuadrados de los residuales: 𝑃𝑅𝐸𝑆𝑆 = ∑ (𝑦𝑛𝑖=1 𝑖 − 𝑦𝑖(𝑣𝑐))2
Siendo yi, el valor experimental de la variable dependiente del
compuesto i; yi(vc), el valor medio experimental de la variable dependiente
e 𝑦�, el valor predicho en la validación cruzada de la variable dependiente del compuesto i.
Por convenio general se considera aceptable un valor de Q2 > 0,5
126
II.2.1.2. Test de aleatoriedad de Fischer
El objetivo de este test es comprobar la probabilidad de correlación fortuita entre los descriptores y la variable dependiente. Para ello, y siguiendo un proceso al azar, se modifica el valor de la propiedad de cada compuesto (variable dependiente) del grupo de entrenamiento
(Gramatica, 2007).Este nuevo valor estará comprendido dentro del rango
de valores experimentales de la propiedad a estudio. Por ejemplo, si el
logaritmo del valor de CI50 para un grupo de compuestos se encuentra
entre 0-4 los valores aleatorios generados estarán dentro de este intervalo.
Al dar un valor arbitrario a la propiedad, cancelamos cualquier relación que pudiera existir entre estructura y propiedad. A continuación, se generan nuevos modelos para evaluar si existe probabilidad de correlación al azar entre las variables independientes y la variable
dependiente, calculándose los parámetros r2 y Q2 (test de estabilidad)
para diez series. El modelo a validar será considerado como no aleatorio si ninguno de los valores de los coeficientes es > a 0,5. Finalmente, se representan los valores de los coeficientes obtenidos, para apreciar gráficamente si el modelo seleccionado pasa o no el test de aleatoriedad.
Cuando un modelo de predicción supera las pruebas de estabilidad y aleatoriedad se considera que su calidad predictiva y robustez han quedado validadas.
127
II.2.1.3. Curvas ROC
Para evaluar a los modelos discriminantes o de clasificación, se determina el balance entre sensibilidad (Se, es decir la tasa de verdaderos positivos, VP) y especificidad (Sp, es decir tasa de verdaderos negativos,
VN). Las definiciones son:
𝑆𝑒 = 𝑉𝑃+𝐹𝑁𝑉𝑃 𝑆𝑝 =𝑉𝑁+𝐹𝑃𝑉𝑁
donde FN, denota los falsos negativos (moléculas activas respecto a una determina actividad farmacológica -inhibición de Akt o β-catenina- identificadas como inactivas por el modelo) y FP representa los falsos positivos (moléculas inactivas identificadas como activas por el modelo). A partir de aquí, se construyen las llamadas Curvas ROC (Receiver Operating
Charateristic) asociadas al modelo, graficando el balance de Se frente a 1- Sp (1-especificidad) (Massart y cols., 1988).
El área bajo la curva (AUC, del inglés area under the curve) ROC constituye un criterio clave para determinar (Cerda y Cifuentes, 2012):
• El punto de corte en el que se alcanza la sensibilidad y especificidad más altas.
• La capacidad discriminante del modelo, comprobando que no proporciona una clasificación al azar (Hamel, 2009).
128
La curva ROC se elabora basándonos en la unión de distintos puntos de corte, correspondiendo el eje Y a la sensibilidad y el eje X a 1-especificidad de cada uno de ellos. Ambos ejes, incluyen valores entre 0 y 1 (0% a 100%). La Figura II.3 ilustra la forma de una curva ROC (Hamel, 2009).
Otro parámetro de interés, relacionado con la curva ROC es el índice
de Youden, que determina el punto de corte con sensibilidad y
especificidad más alta. Viene descrito por la siguiente expresión matemática (Cerda y Cifuentes, 2012):
Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑌𝑜𝑢𝑑𝑒𝑛 = Sensibilidad + Especificidad − 1
Este punto de corte corresponde gráficamente, al punto de la curva ROC más cercano al ángulo superior−izquierdo del gráfico (punto 0,1), es decir, al punto del gráfico cuya sensibilidad = 100% y especificidad = 100%
129
Figura II.3. Gráfico de curva ROC de un modelo discriminante. Cada punto de la curva
ROC (rombos azules) corresponde a un posible punto de corte del modelo, y nos informa de su respectiva sensibilidad (eje y) y 1-especificidad (eje x). Los ejes del gráfico incluyen valores entre 0 y 1 (0% a 100%). En rojo se aprecia la diagonal de referencia o línea de no-discriminación.
Como bien explican Cerda J. y Cifuentes L (Cerda y Cifuentes, 2012) podemos simplificar la significación de una curva ROC a la representación de la “proporción de verdaderos positivos” (eje Y) versus la “proporción de falsos positivos” (eje X) para cada punto de corte de un modelo de discriminación.
En toda curva ROC aparece un elemento denominado diagonal de referencia o línea de no-discriminación; línea trazada desde el punto 0,0 al punto 1,1, que delimita un cuadrado de área = 1,00 (ver Figura II.3). Esta línea de no-discriminación describe la curva ROC para un modelo incapaz de discriminar entre moléculas activas e inactivas; debido a que cada
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Se ns ib ilid ad 1-Especificidad
130
punto de corte que la compone determina la misma proporción de verdaderos positivos que de falsos positivos, la cual está asociada a un AUC = 0,50 (la línea de no-discriminación divide en dos mitades iguales el
cuadrado de área = 1,00) (Cerda y Cifuentes, 2012).Por tanto, un modelo
tendrá mayor capacidad discriminante a medida que sus puntos de corte tracen una curva ROC lo más lejana posible a la línea de no-discriminación;
dicho de otra manera, lo más cercana posible a los lados izquierdo y
superior del gráfico (Cerda y Cifuentes, 2012). Es decir, conforme el AUC del modelo se acerque al valor 1,00 (clasificación perfecta), mejor capacidad discriminante tendrá éste.
En la presente Tesis, se decidió priorizar Sp sobre Se en la construcción de los modelos con el objetivo de reducir el número de falsos positivos seleccionados tras el cribado virtual de bases de datos (compuestos seleccionados como inhibidores de Akt y β-catenina que no presentan dicha actividad). Esto puede comportar la pérdida de algunos scaffolds estructurales potencialmente novedosos, ya que se estarán perdiendo muchos falsos negativos.