Estrategias de evaluaci´on de modelos de clasificaci´on

3. Evaluaci´ on de modelos de clasificaci´ on

3.2. Estrategias de evaluaci´on de modelos de clasificaci´on

Una primera aproximación para evaluar el modelo de clasificación consiste en utilizar todo el espacio de instancias para el aprendizaje y calcular el error de muestra de la hipótesis a partir

1_{No confundir con la m´etrica de precisi´}_{on, definida como} _{T P}₊_{T N}_/

3.2. ESTRATEGIAS DE EVALUACI ÓN DE MODELOS DE CLASIFICACI ÓN 25 del mismo conjunto. Esta estrategia, sin embargo, tiende a subestimar las probabilidades de error, ya que los mismos datos se utilizan para inferir la función de clasificación y para evaluar el procedimiento resultante, favoreciendo claramente las hipótesis que sobreajustan. Se presentan a continuación algunas de las aproximaciones que se han propuesto para resolver este problema [Hernández et. al., 2004]:

3.2.1. Submuestreo aleatorio o

Holdout

Un procedimiento mejor consiste en realizar una divisi´on aleatoria del espacio de instanciasZ

en dos subconjuntos, utilizando el primer subconjunto (t´ıpicamente dos tercios del espacio original) para el aprendizaje de la hipótesis y el segundo (el tercio restante) para calcular la métrica de precisión. Al primer conjunto se le denomina Conjunto de Entrenamiento (Training Set), mientras que al segundo se le denomina Conjunto de Validación o Conjunto de prueba (Test Set).

El submuestreo aleatorio, si bien solventa el problema de premiar el sobreajuste, presenta el claro inconveniente de depender de la partición realizada, de manera que dos modelos aprendidos sobre el mismo conjunto de datos y el mismo espacio de hipótesis pueden presentar resultados muy dispares. Adicionalmente, en casos en los que se dispone de pocos datos, el particionamiento puede no ser adecuado, pues reduce aún más el número de observaciones utilizadas para inferir la hipótesis h.

3.2.2. Validaci´on cruzada o

Cross-Validation

Un mecanismo que permite reducir la dependencia del resultado del experimento del modo en el que se realiza la partición es la Validación cruzada (Cross-Validation ok-fold Cross-Validation). En la validación cruzada, los datos iniciales se particionan en k subconjuntos disjuntos de ta- maño similar. El procedimiento de aprendizaje y evaluación se repite para las k combinaciones de entrenamiento-validación, de manera que en la iteración i el subconjuntoDi se reserva para la

evaluación y losk 1 subconjuntos restantes se utilizan de forma conjunta para el entrenamiento. A diferencia de la aproximación presentada en el punto anterior, en la validación cruzada cada conjunto de datos se utiliza k 1 veces para entrenar el modelo y una vez para evaluarlo, evitan- do el sobreajuste del mismo. En este procedimiento, el error de muestra final se calcula como la media aritmética de los k errores de muestra parciales, y es posible realizar un test estad´ıstico de significancia para comparar los errores medios de dos clasificadores como se indicará en 3.3.

La principal ventaja del método de validación cruzada es que subsana el problema de dependencia de la partición realizada, lo que beneficia claramente a la significancia del resultado.

3.2.3. Leave-one-out

Una variación del método de validación cruzada consiste en definir el número de subconjuntosk

como el tamaño del conjunto de datos, de manera que en cada iteración se deja una única instancia fuera del conjunto de entrenamiento, y ésta es utilizada para realizar la validación, calculándose el error de muestra como el porcentaje de iteraciones en las que el elemento que se ha dejado fuera se ha clasificado correctamente. En este método el solape entre los conjuntos utilizados para realizar el entrenamiento en las k iteraciones es máximo, y presenta el claro inconveniente de ser computacionalmente muy costoso -el algoritmo de clasificación debe ejecutarse tantas veces como observaciones tenga el espacio de instancias- si bien proporciona una estimación muy estable del error de muestra.

26 SECCI ÓN 3. EVALUACI ÓN DE MODELOS DE CLASIFICACI ÓN

3.2.4. Evaluaci´on por

bootstrap

La evaluación porbootstrap está indicada en casos en los que se dispone de pocos ejemplos. El procedimiento bootstrap es el siguiente: dada una muestra de N ejemplos, se realiza un submuestreo aleatorio con reposición de N ejemplos para preparar una muestra de entrenamiento. Esta muestra, óbviamente, puede contener ejemplos repetidos, y no contendrá algunos ejemplos del conjunto original. Los ejemplos no presentes en la muestra de entrenamiento formarán un subconjunto disjunto al de entrenamiento que podrá ser utilizado en la etapa de validación. El tamaño de dicho conjunto de validación corresponde a la probabilidad de que un ejemplo no sea seleccionado para el entrenamiento, y puede estimarse calculando la probabilidad de que un ejemplo no salga en una extracción y multiplicando este número por las veces que se realiza la extracción, es decir,

✓ 1 1

◆N

Considerando una muestra suficientemente grande, tenemos l´ım N!+1 ✓ 1 1 N ◆N = 1 e ⇡0,386.

El proceso de selección con reemplazo, evaluación y entrenamiento debe repetirse un número prefijado k de veces, para actuar después como en el caso de la validación cruzada promediando los errores o precisiones del clasificador. La principal aportación de la evaluación por bootstrap

sobre la validación cruzada es que las k iteraciones son independientes entre s´ı, por lo que la métrica de evaluación obtenida es estad´ısticamente más robusta.

In document Aprendizaje supervisado en conjuntos de datos no balanceados con redes neuronales artificiales: métodos de mejora de rendimiento para modelos de clasificación binaria en diagnóstico médico (página 42-44)