T´ecnicas basadas en bagging - M´etodos h´ıbridos para conjuntos de datos no balanceados

3. Evaluaci´ on de modelos de clasificaci´ on

4.5. M´etodos h´ıbridos para conjuntos de datos no balanceados

4.5.3. T´ecnicas basadas en bagging

El desarrollo de algoritmos basados en bagging utilizando técnicas de preprocesamiento se presenta como una aproximación más simple que la integración de éstas en el Algoritmo AdaBoost, ya que no se requiere el recálculo de pesos en cada iteración ni, por tanto, la modificación del proceso de computación del algoritmo original. En estas técnicas, el paso clave es la generación de las réplicas bootstrap que forman los conjuntos de datos de entrenamiento (l´ınea 2 del algoritmo 1), es decir, la obtención en cada iteración un clasificador útil y suficientemente distinto al resto. Encontramos 4 grupos de técnicas dentro de esta familia:

1. OverBagging: la aproximación más directa para lidiar con el problema del desequilibrio de clases es generar, para cada réplica bootstrap, un nuevo conjunto equilibrado a partir del original. En este sentido, es fácil pensar en realizar el muestreo utilizando técnicas de sobremuestreo, en lugar del muestreo aleatorio habitual. La integración de técnicas de sobremuestreo se realiza a directamente en las réplicas boostrap, realizando una replicación aleatoria de las instancias de la clase minoritaria. Nótese que, mediante esta técnica, cada una de las réplicas tendrá un tamaño superior al del conjunto de datos de entrenamiento original. Nótese que es posible integrar cualquiera de las técnicas de sobremuestreo analizadas en 4.3 dentro del proceso de replicación, siendo posible, por ejemplo, utilizar el remuestreo mediante SMOTE o bSMOTE en lugar del sobremuestreo aleatorio para construir los nue- vos conjuntos de datos. Si esta es la aproximación utilizada, es posible definir un ratio de remuestreo para la clase minoritaria que var´ıe en cada iteración -partiendo del 10 % para la primera iteración y alcanzando el 100 % en la última iteración, p.ej.-, que indicará el número de instancias de la clase minoritaria que serán seleccionadas. El resto de instancias de dicha clase se generarán a partir de éstas, hasta alcanzar el balance de clases deseado. Este método, aplicable siempre que el conjunto de datos sea lo suficientemente grande, asegura la variedad de los modelos a combinar, lo que deber´ıa contribuir a la precisión del modelo conjunto siempre que la precisión de cada uno de los modelos individuales sea lo suficientemente alta. 2. UnderBagging o Assymetric Bagging: este método es análogo al anterior, pero utilizando el submuestreo en lugar del sobremuestreo. En este sentido, el submuestreo se realiza sobre

4.5. M ÉTODOS HÍBRIDOS PARA CONJUNTOS DE DATOS NO BALANCEADOS 45 cada una de las réplicas Boostrap que se utilizarán para entrenar el modelo, lo que dará lugar a que cada una de las réplicas tenga menos instancias que el conjunto de datos de entrenamiento original.

3. UnderOverBagging: este método, a diferencia de los dos anteriores, propone integrar el remuestreo en el proceso de replicación bootstrap, asignando una probabilidad de selección distinta a las instancias según la clase a la que pertenezcan. De nuevo, con el objetivo de alcanzar clasificadores lo suficientemente diversos, es habitual definir un ratio de remuestreo,

a%, que var´ıe entre el 10 % para la primera iteración y el 100 % para la última, y que indique el número de instancias de la réplica que deben ser muestreadas a partir de instancias de la clase minoritaria.

Secci´on 5

Experimento computacional

En este punto se presenta un experimento computacional que analiza el impacto del desequilibrio de clases sobre la precisión de los modelos de clasificación en presencia de otros factores comunes en los conjuntos de datos del ámbito médico, como son la escasez de datos, la elevada dimensionalidad o la presencia de atributos correlacionados o poco informativos. En dicho experimento se evaluará el resultado de aplicar las técnicas presentadas en la Sección 4 sobre un conjunto de datos resultado de una aplicación médica real, como son los datos obtenidos de imágenes di- gitalizadas de muestras de l´ıquido mamario extra´ıdas mediante test FNA. El objetivo final del experimento es definir un marco de trabajo óptimo para el desarrollo de sistemas de clasificación supervisada con ANN cuando se trabaje con conjuntos de datos que presenten las caracter´ısti- cas indicadas, recogiendo una selección de metodolog´ıas de preprocesamiento y procesamiento de datos que permitan maximizar el acierto del clasificador neuronal.

Esta secci´on se organiza como sigue:

En 5.1 se presenta el conjunto de datos Wisconsin Diagnostic Breast Cancer (WDBC) y se indica el tratamiento que se ha realizado sobre el mismo para obtener un conjunto de datos altamente desbalanceado.

En 5.2 se realiza una descripción estad´ıstica del conjunto de datos, que se acompaña con representaciones gráficas. Este punto busca alcanzar un buen nivel de comprensión del conjunto de datos antes de proceder a la etapa de modelización, y debe permitirnos tomar algunas decisiones importantes en relación a la selección de los atributos que se presentarán a la red y los procesos de estandarización que se utilizarán.

En 5.3 se definirá el marco en el cuál se desarrollará el experimento. En concreto, se fijarán las métricas de evaluación, la estrategia de evaluación y se describirá la topolog´ıa inicial de la ANN y la taxonom´ıa de técnicas de remuestreo y ensamble que se incluirán en el experimento, indicando en cada caso los parámetros utilizados.

En 5.4 se resumirán los resultados del experimento. Estos comentarios se complementarán en la Sección 6 con algunas conclusiones globales y con la definición del marco de trabajo óptimo que se anunciaba al iniciar esta sección.

Para finalizar, en 5.5 se realizarán algunos ajustes sobre la topolog´ıa y la configuración de la red, a efectos de ver si la modificación de los parámetros recomendados o por defecto proporciona mejoras de rendimiento en presencia del desequilibrio de clases.

In document Aprendizaje supervisado en conjuntos de datos no balanceados con redes neuronales artificiales: métodos de mejora de rendimiento para modelos de clasificación binaria en diagnóstico médico (página 62-66)