Diseño del segundo módulo basado en un sistema multiclasificador

2 Cribado virtual de compuestos químicos

2.2 Diseño e implementación del sistema experto

2.2.2 Diseño del segundo módulo basado en un sistema multiclasificador

El segundo y último módulo que forma parte del sistema experto se basa en la aplicación de diferentes modelos QSAR ensamblados con el fin de determinar la actividad inhibidora de los compuestos, además del grado de potencia de esta actividad. Este sistema multiclasificador fue propuesto por la Dra. Huong Le Thi Thu (Thu, 2011) en su tesis de doctorado y se corroboró que sus modelos resultaron en una exactitud de predicción del 95.52% con respecto a la clasificación de actividad y de un 88.89% en cuanto a la de potencia en las pruebas realizadas.

Los modelos QSAR fueron concebidos utilizando la herramienta Weka, específicamente mediante la utilización y configuración de varios clasificadores que forman parte de esta, estableciendo la optimización de sus respectivos parámetros.

2.2.2.1 Configuración de los modelos clasificadores

Varios sistemas entrenados y no-entrenados fueron desarrollados para combinar la salida de los clasificadores individuales. Los resultados mostraron que todos los sistemas multiclasificadores superaron el mejor modelo individual y mejoraron el desempeño de sus

35 correspondientes clasificadores de base. Esto sugiere que los sistemas multiclasificadores pudieran ser la mejor opción hasta el momento para obtener modelos QSAR apropiados para la predicción de agentes despigmentantes. Por último, consideramos que este enfoque ayudará a mejorar los procedimientos de CV.

La configuración del modelo QSAR de actividad está basada en clasificadores como MSO,

BayesNet y MLP, utilizando un voto no entrenado basado en el promedio de las probabilidades pronosticadas por cada clasificador. Como es lógico cada uno de los parámetros de estos fueron optimizados.

Por otra parte el modelo QSAR de potencia está basado en un clasificador de tipo

RandomComitte, utilizando un “bosque de clasificación” para clasificar. Este utiliza 13

árboles de profundidad indefinida para realizar este proceso en un total de 10 iteraciones. Para la configuración de cada modelo se probaron varias variantes y se escogió como es lógico la que mejores resultados arrojó en cada caso, ya que en el Aprendizaje Automático no existe ningún algoritmo o técnica que resulte ser siempre la más efectiva, esto se conoce en este campo como teorema de “ nofree lunch”.

2.2.2.2 Pasos para la integración del sistema multiclasificador en el

sistema experto

Con vistas a la integración de los modelos QSAR en nuestro sistema experto se llevaron a cabo una serie de pasos los cuales se describen a continuación:

 Para el cálculo de los atributos que intervienen en la serie de predicción se utilizó la herramienta QuBILs-MAS (Valdes-Martini, 2012), a través de la cual se calculan un total de once DMs para cada uno de los casos que se están analizando. Una vez que se tienen el conjunto de atributos calculados para cada una de las instancias queda conformada la serie de predicción que queremos clasificar.

 Como paso opcional, teniendo en cuenta que los modelos ya han sido entrenados anteriormente se puede repetir este proceso utilizando la serie de entrenamiento que se encontrará de forma embebida en nuestro sistema experto, o se podrá

36 utilizar otra serie que el usuario podrá cargar, lo cual permite el reentrenamiento de los modelos permitiéndole a estos dirigir su enfoque a otros objetivos, esto se realizará mediante el uso de las clases y métodos pertinentes de Weka, a los cuales accederemos gracias a la capacidad que tiene esta de ser usada como biblioteca.  Finalmente se procede a la clasificación, por parte de los modelos previamente

cargados, de cada una de las instancias que conforman la serie de predicción asignándole a estas una clase según corresponda.

El sistema deberá clasificar las instancias evaluadas en dos tipos de clases según corresponda, es decir, activo o no activo, para el caso del multiclasificador de actividad inhibidora, y en potente o débil, si se trata del modelo clasificador de potencia. Cabe destacar que el segundo depende del primero, pues lógicamente solo se podrá evaluar la potencia de la actividad inhibidora de una instancia si antes se aplicó a esta el modelo clasificador de actividad. Este proceso como es lógico es totalmente invisible al usuario, lo cual converge en una de las características fundamentales del sistema experto.

En versiones posteriores se añadirán nuevos multiclasificadores orientados a nuevas dianas biológicas y se agregará la opción que permite al usuario añadir nuevos modelos diseñados por este, así como sus respectivas series de entrenamiento y de predicción.

En el anexo se expone, de manera detallada la configuración de los clasificadores que componen los dos modelos multiclasificadores.

2.2.2.3 Implementación

Para la implementación de este módulo se crearon 4 clases que contienen los métodos necesarios para la automatización del proceso de clasificación, estas se encuentran en el paquete uclv.camdbirunit.SilixSPOD.step3.QSAR. El método calcAtributes(…) de la clase

AtributesCalculator se encarga en un inicio de calcular los atributos para cada una de las instancias que formaran la serie conformada por las instancias que se van a clasificar, como ya dijimos esto lo logramos utilizando las clases y métodos pertinentes del software QuBILs-MAS, el cual tendremos embebido en nuestro sistema a modo de biblioteca. Las instancias están conformadas en este caso por los compuestos que se están analizando, los

37 cuales tienen asociados los valores de cada uno de los atributos, estos valores se traducen en un total de 10 descriptores moleculares cuyos valores son asociados a los compuestos quedando así conformada la serie a clasificar, la lista de atributos quedaría como sigue:

1) N1_Q_AB_nCi_2_NS13_H_T_KA_m 2) N1_Q_AB_nCi_2_NS15_T_KA_m 3) N1_Q_AB_nCi_2_NS11_X_KA_e 4) N1_Q_AB_nCi_2_SS4_H_T_KA_m 5) N1_Q_AB_nCi_2_SS6_H_T_KA_m 6) N1_Q_AB_nCi_2_SS5_H_D_KA_m 7) N1_Q_AB_nCi_2_SS8_H_D_KA_m 8) N1_Q_AB_nCi_2_SS2_H_X_KA_e 9) N1_Q_AB_nCi_2_SS14_X_KA_e 10)N1_Q_AB_nCi_2_SS3_H_X_KA_e

Estos índices moleculares tienen como características principales que codifican la

invariante de distancia de Manhattan, son basados en formas cuadráticas, presentan un nivel atómico, no presentan chirality, se utilizaron matrices de varios órdenes y se incluyen indistintamente los átomos de hidrógeno para su obtención. Principalmente están basados en propiedades como electronegatividad y masa molecular. Para profundizar en la decodificación de los índices algebraicos consultar la aplicación QuBiLS-MAS.

Posteriormente pasamos a la organización de los atributos, o sea, se ordenan los atributos consecuentemente con los modelos a través del método createPS(…) de la clase PSCreator

con lo cual ya tenemos la serie a clasificar lista. Es momento entonces de cargar los modelos en Weka, que como ya dijimos se encuentra de forma implícita en nuestro sistema como biblioteca, esta función corre a cargo del método loadModel(…) perteneciente a la clase ModelLoader. Finalmente se realiza la clasificación de las instancias de la serie a través del método classify(…), el cual pertenece a la clase Classification.

En la figura 5 se expone un diagrama UML de las clases que intervienen en este proceso y las dependencias respecto a las bibliotecas externas QuBILs-MAS y Weka.

Figura 5 Diagrama UML que representa las principales clases que hacen posible la implementación del segundo módulo así como las bibliotecas externas que intervienen en este.

In document Sistema experto para el descubrimiento de nuevos inhibidores de la enzima tirosinasa mediante el cribado virtual de bases de datos de compuestos químicos (página 44-48)