• No se han encontrado resultados

3. Evaluaci´ on de modelos de clasificaci´ on

4.5. M´etodos h´ıbridos para conjuntos de datos no balanceados

4.5.3. T´ecnicas basadas en bagging

El desarrollo de algoritmos basados en bagging utilizando t´ecnicas de preprocesamiento se presenta como una aproximaci´on m´as simple que la integraci´on de ´estas en el Algoritmo AdaBoost, ya que no se requiere el rec´alculo de pesos en cada iteraci´on ni, por tanto, la modificaci´on del proceso de computaci´on del algoritmo original. En estas t´ecnicas, el paso clave es la generaci´on de las r´eplicas bootstrap que forman los conjuntos de datos de entrenamiento (l´ınea 2 del algoritmo 1), es decir, la obtenci´on en cada iteraci´on un clasificador ´util y suficientemente distinto al resto. Encontramos 4 grupos de t´ecnicas dentro de esta familia:

1. OverBagging: la aproximaci´on m´as directa para lidiar con el problema del desequilibrio de clases es generar, para cada r´eplica bootstrap, un nuevo conjunto equilibrado a partir del original. En este sentido, es f´acil pensar en realizar el muestreo utilizando t´ecnicas de sobremuestreo, en lugar del muestreo aleatorio habitual. La integraci´on de t´ecnicas de so- bremuestreo se realiza a directamente en las r´eplicas boostrap, realizando una replicaci´on aleatoria de las instancias de la clase minoritaria. N´otese que, mediante esta t´ecnica, cada una de las r´eplicas tendr´a un tama˜no superior al del conjunto de datos de entrenamiento ori- ginal. N´otese que es posible integrar cualquiera de las t´ecnicas de sobremuestreo analizadas en 4.3 dentro del proceso de replicaci´on, siendo posible, por ejemplo, utilizar el remuestreo mediante SMOTE o bSMOTE en lugar del sobremuestreo aleatorio para construir los nue- vos conjuntos de datos. Si esta es la aproximaci´on utilizada, es posible definir un ratio de remuestreo para la clase minoritaria que var´ıe en cada iteraci´on -partiendo del 10 % para la primera iteraci´on y alcanzando el 100 % en la ´ultima iteraci´on, p.ej.-, que indicar´a el n´umero de instancias de la clase minoritaria que ser´an seleccionadas. El resto de instancias de dicha clase se generar´an a partir de ´estas, hasta alcanzar el balance de clases deseado. Este m´etodo, aplicable siempre que el conjunto de datos sea lo suficientemente grande, asegura la variedad de los modelos a combinar, lo que deber´ıa contribuir a la precisi´on del modelo conjunto siempre que la precisi´on de cada uno de los modelos individuales sea lo suficientemente alta. 2. UnderBagging o Assymetric Bagging: este m´etodo es an´alogo al anterior, pero utilizando el submuestreo en lugar del sobremuestreo. En este sentido, el submuestreo se realiza sobre

4.5. M ´ETODOS H´IBRIDOS PARA CONJUNTOS DE DATOS NO BALANCEADOS 45 cada una de las r´eplicas Boostrap que se utilizar´an para entrenar el modelo, lo que dar´a lugar a que cada una de las r´eplicas tenga menos instancias que el conjunto de datos de entrenamiento original.

3. UnderOverBagging: este m´etodo, a diferencia de los dos anteriores, propone integrar el re- muestreo en el proceso de replicaci´on bootstrap, asignando una probabilidad de selecci´on distinta a las instancias seg´un la clase a la que pertenezcan. De nuevo, con el objetivo de alcanzar clasificadores lo suficientemente diversos, es habitual definir un ratio de remuestreo,

a%, que var´ıe entre el 10 % para la primera iteraci´on y el 100 % para la ´ultima, y que indique el n´umero de instancias de la r´eplica que deben ser muestreadas a partir de instancias de la clase minoritaria.

Secci´on 5

Experimento computacional

En este punto se presenta un experimento computacional que analiza el impacto del desequi- librio de clases sobre la precisi´on de los modelos de clasificaci´on en presencia de otros factores comunes en los conjuntos de datos del ´ambito m´edico, como son la escasez de datos, la elevada dimensionalidad o la presencia de atributos correlacionados o poco informativos. En dicho experi- mento se evaluar´a el resultado de aplicar las t´ecnicas presentadas en la Secci´on 4 sobre un conjunto de datos resultado de una aplicaci´on m´edica real, como son los datos obtenidos de im´agenes di- gitalizadas de muestras de l´ıquido mamario extra´ıdas mediante test FNA. El objetivo final del experimento es definir un marco de trabajo ´optimo para el desarrollo de sistemas de clasificaci´on supervisada con ANN cuando se trabaje con conjuntos de datos que presenten las caracter´ısti- cas indicadas, recogiendo una selecci´on de metodolog´ıas de preprocesamiento y procesamiento de datos que permitan maximizar el acierto del clasificador neuronal.

Esta secci´on se organiza como sigue:

En 5.1 se presenta el conjunto de datos Wisconsin Diagnostic Breast Cancer (WDBC) y se indica el tratamiento que se ha realizado sobre el mismo para obtener un conjunto de datos altamente desbalanceado.

En 5.2 se realiza una descripci´on estad´ıstica del conjunto de datos, que se acompa˜na con representaciones gr´aficas. Este punto busca alcanzar un buen nivel de comprensi´on del con- junto de datos antes de proceder a la etapa de modelizaci´on, y debe permitirnos tomar algunas decisiones importantes en relaci´on a la selecci´on de los atributos que se presentar´an a la red y los procesos de estandarizaci´on que se utilizar´an.

En 5.3 se definir´a el marco en el cu´al se desarrollar´a el experimento. En concreto, se fijar´an las m´etricas de evaluaci´on, la estrategia de evaluaci´on y se describir´a la topolog´ıa inicial de la ANN y la taxonom´ıa de t´ecnicas de remuestreo y ensamble que se incluir´an en el experimento, indicando en cada caso los par´ametros utilizados.

En 5.4 se resumir´an los resultados del experimento. Estos comentarios se complementar´an en la Secci´on 6 con algunas conclusiones globales y con la definici´on del marco de trabajo ´optimo que se anunciaba al iniciar esta secci´on.

Para finalizar, en 5.5 se realizar´an algunos ajustes sobre la topolog´ıa y la configuraci´on de la red, a efectos de ver si la modificaci´on de los par´ametros recomendados o por defecto proporciona mejoras de rendimiento en presencia del desequilibrio de clases.