Modelación de ACO para obtener las mejores combinaciones de modelos

2.2 Modificaciones sobre el software

2.2.2 Modelación de la Meta Heurística ACO

2.2.2.3 Modelación de ACO para obtener las mejores combinaciones de modelos

las combinaciones de modelos que superen la mejor exactitud individual de los mismos. Diseño del individuo

En el diseño del individuo tuvimos en cuenta al igual que en el epígrafe 2.2.1.1 que estábamos en presencia de un problema combinatorio con 2𝑛 posibles soluciones. Por tanto la representación de una solución será a través de un vector binario 𝐺⃗⃗⃗⃗⃗ 𝑥 donde a cada

posición del vector se hace corresponder un clasificador en específico, la longitud del vector denota la cantidad máxima de clasificadores que pueden ser incluidos en la solución. Entonces cada individuo o solución, está representando una combinación específica de clasificadores y por lo tanto un multiclasificador. La representación matemática de lo descrito anteriormente sería la siguiente:

𝐺𝑥

⃗⃗⃗⃗⃗ = (𝐶1, 𝐶2, … , 𝐶𝐿,, )

𝐶𝑖= { 0 , 𝑠𝑖 𝑒𝑙 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑟 𝑖 𝑛𝑜 𝑒𝑠𝑡á 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒

1 , 𝑠𝑖 𝑒𝑙 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑟 𝑖 𝑒𝑠𝑡á 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒 Eq. 36 Diseño de la función de calidad de la solución

Para conformar la función de evaluación de un individuo, es decir, de una solución, se tuvo en cuenta un balance en cuanto a la clasificación del error y reducción de la dimensión del problema.

Para una mejor comprensión de la función objetivo, primeramente se explican los términos error global y error individual mediante las siguientes ecuaciones, que están en función de los resultados de la clasificación:

𝐸𝑟𝑟𝑜𝑟𝐺𝑙𝑜𝑏𝑎𝑙 = 1 − 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦𝐺𝑙𝑜𝑏𝑎𝑙 Eq. 37

𝐸𝑟𝑟𝑜𝑟𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙 = 1 − 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙 Eq. 38

∆𝐸 = 𝐸𝑟𝑟𝑜𝑟_{𝐺𝑙𝑜𝑏𝑎𝑙} − 𝐸𝑟𝑟𝑜𝑟_{𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙} Eq. 39

Se puede observar que el error global es el resultado de restar 1 menos la exactitud del multiclasificador, mientras que el error individual es el resultado de restar 1 menos la exactitud del mejor clasificador individual incluido en la combinación del sistema. El ∆𝐸 es la diferencia entre estos dos términos.

La ecuación Eq.Eq. 40, representa la función de calidad de la solución, está definida por ramas, dependiendo del valor resultante de ∆𝐸, que fue explicado anteriormente.

𝐹( 𝐺⃗⃗⃗⃗⃗ ) = {𝑥

𝑓( 𝐺⃗⃗⃗⃗⃗ ) , 𝑠𝑖 ∆𝐸 < 0 𝑥

𝑓( 𝐺⃗⃗⃗⃗⃗ ) + 𝑃(𝐸𝑖, 𝐸𝑔) , 𝑠𝑖 ∆𝐸 > 0 𝑥

Eq. 40

𝑑𝑜𝑛𝑑𝑒:

𝑓(𝐺⃗⃗⃗⃗⃗ ) =_𝑥 𝜇 ∗ (1 − 𝐴_𝐺) + (1 − 𝜇) ∗ (|𝑥|_𝑛) = 𝜇 ∗ (𝐸_𝐺) + (1 − 𝜇) ∗ (|𝑥|_𝑛) Eq. 41 Es decir, 𝑓(𝐺⃗⃗⃗⃗⃗ )_𝑥 es igual a la suma del error global en la clasificación de la combinación (solución o individuo) y la cantidad de clasificadores incluidos en ella. La constante 𝜇 se utiliza para otorgarle mayor o menor prioridad a uno de los términos de la función, en este trabajo se usó 𝜇 = 0.6 como resultado de experimentos realizados en el capítulo 3 dándole mayor importancia a la exactitud de la clasificación, es decir, al error global de la solución (individuo o combinación).

El valor resultante de la función objetivo siempre se encuentra en un intervalo entre 0 y 1, debido a que el mayor valor posible de cada término es igual a 0.6 y 0.4 respectivamente, esto ocurre cuando la exactitud de la solución es muy pequeña o igual a 0 y la cantidad de clasificadores incluidos en la solución es la mayor posible.

El menor valor posible del primer término es igual a 0, esto ocurre cuando la exactitud de la solución es la máxima posible y el segundo término también está acotado inferiormente por 0, aunque su menor valor posible nunca llega a tomar este valor pues por las restricciones del problema, que se explicaran más adelante, nunca se tendrá como solución una combinación donde no se encuentre ningún clasificador incluido.

Cuando ∆𝐸 > 0 significa que el error global de la combinación es mayor que el error del mejor clasificador individual incluido en ella y esto no es lo que se desea ya que queremos encontrar combinaciones que superen al mejor clasificador individual en ella, por lo tanto se penaliza la función sumándole un término llamado factor de penalización, el cual se muestra a continuación: 𝑃(𝐸𝑖, 𝐸𝑔) =∆𝐸∗(1−𝐹(𝐺⃗⃗⃗⃗⃗⃗ ))𝑥 𝐸𝑔 = (𝑒𝑟𝑟𝑜𝑟𝑔𝑙𝑜𝑏𝑎𝑙− 𝑒𝑟𝑟𝑜𝑟𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙) 𝑒𝑟𝑟𝑜𝑟𝑔𝑙𝑜𝑏𝑎𝑙 ∗ (1 − 𝑓(𝐺⃗⃗⃗⃗⃗ ))𝑥 Eq. 42

Como se puede observar en la fórmula anterior el factor consiste en penalizar a los individuos (soluciones o combinaciones) que no cumplan con superar la exactitud del mejor clasificador individual.

El término 𝑒𝑟𝑟𝑜𝑟𝑔𝑙𝑜𝑏𝑎𝑙− 𝑒𝑟𝑟𝑜𝑟𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙 muestra en cuánto el multiclasificador está

siendo peor que el mejor clasificador individual de la combinación. La división entre el 𝑒𝑟𝑟𝑜𝑟𝑔𝑙𝑜𝑏𝑎𝑙 hace que el término completo constituya el error relativo.

Cuando se usa el factor de penalización el intervalo de los valores resultantes de la función también estarán entre 0 y 1 pues el término _𝐸𝑔∆𝐸 toma valores menores o iguales a 1,

cuando este término toma su máximo valor posible, entonces su multiplicación con el factor 1 − 𝐹(𝐺⃗⃗⃗⃗⃗ )_𝑥 da como resultado este mismo factor y precisamente esto es lo que le falta a la función objetivo para sumar 1.

A continuación se muestra la función con todas sus especificidades:

𝐹(𝐺⃗⃗⃗⃗⃗ ) = {𝑥 𝑓(𝐺⃗⃗⃗⃗⃗ ) +𝑥 (𝑒𝑟𝑟𝑜𝑟𝑔𝑙𝑜𝑏𝑎𝑙− 𝑒𝑟𝑟𝑜𝑟𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙) 𝑒𝑟𝑟𝑜𝑟𝑔𝑙𝑜𝑏𝑎𝑙 ∗ (1 − 𝑓(𝐺⃗⃗⃗⃗⃗ )) , 𝑠𝑖 𝑒𝑟𝑟𝑜𝑟𝑥 𝑔𝑙𝑜𝑏𝑎𝑙− 𝑒𝑟𝑟𝑜𝑟𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙≥ 0 𝑓(𝐺⃗⃗⃗⃗⃗ ) , 𝑠𝑖 𝑒𝑟𝑟𝑜𝑟𝑥 𝑔𝑙𝑜𝑏𝑎𝑙− 𝑒𝑟𝑟𝑜𝑟𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙< 0 }Eq. 43

Finalmente se desea minimizar a 𝐹( 𝐺⃗⃗⃗⃗⃗ )𝑥 .

Estimación de la información heurística

En el diseño de la función de evaluación heurística se utilizó un criterio basado en el uso de la exactitud de la clasificación, es decir, si al clasificador i se le asigna el estado 0 (no está en la combinación) la heurística es igual a la diferencia entre la unidad y la exactitud del clasificador que es lo mismo que el error cometido por él, en caso contrario si se asigna el estado 1 (está en la combinación) entonces la heurística es igual a la exactitud del clasificador.

𝐻_𝐸 → 𝑁_𝑖𝑗 𝑁_𝑖(𝑗 = 0) = 1 − 𝐴(𝐶_𝑖) Eq. 44

𝑁𝑖(𝑗 = 1) = 𝐴(𝐶𝑖)

Diseño de la restricciones

El problema tiene dos restricciones fundamentales, necesarias para la construcción de un sistema multiclasificador, estas se presentan a continuación:

1. 𝐴𝐺 > 𝐴𝑖,⩝ 𝑖 Eq. 45

2. |𝑥| >= 2 Eq. 46

La primera restricción significa que la exactitud global (exactitud del multiclasificador) tiene que ser mayor que la exactitud de todos los clasificadores individuales y por tanto que el mejor de ellos a la vez. .

La segunda restricción plantea que el número de clasificadores incluidos en una solución debe ser mayor o igual a dos pues no tendría sentido obtener una combinación vacía o incluir solamente un clasificador en ella.

2.3 Consideraciones finales del capítulo

En este capítulo se presenta un breve resumen de la versión anterior del software DASDE

v1, el cual constituye un antecedente de nuestra investigación, además se detalla la modelación de nuestro problema con la meta heurística ACO para obtener combinaciones de modelos diversos y combinaciones de modelos que superan la mejor exactitud individual, por último se explican a los módulos implementados e incorporados a la nueva versión del software DASDE v2, así como sus diagramas de clases correspondientes para la mejor comprensión de los mismos.

3 DISEÑO DE EXPERIMENTOS Y ANÁLISIS DE SUS

RESULTADOS

En este capítulo se describe detalladamente el diseño de los experimentos que se realizaron, utilizando dos bases de datos reales de modelos QSAR. Además se realiza una comparación entre las dos búsquedas implementadas. Mostrando al final del capítulo un manual de usuario de los nuevos componentes incorporados a la interfaz visual del software para explicar la forma de trabajar con las nuevas funcionalidades del mismo.

In document Herramienta Computacional DASDE® para aplicaciones quimio bioinformática usando Optimización de Colonias de Hormigas en la construcción de multiclasificadores (página 67-72)