3. Evaluaci´ on de modelos de clasificaci´ on
3.2. Estrategias de evaluaci´on de modelos de clasificaci´on
Una primera aproximaci´on para evaluar el modelo de clasificaci´on consiste en utilizar todo el espacio de instancias para el aprendizaje y calcular el error de muestra de la hip´otesis a partir
1No confundir con la m´etrica de precisi´on, definida como T P+T N/
3.2. ESTRATEGIAS DE EVALUACI ´ON DE MODELOS DE CLASIFICACI ´ON 25 del mismo conjunto. Esta estrategia, sin embargo, tiende a subestimar las probabilidades de error, ya que los mismos datos se utilizan para inferir la funci´on de clasificaci´on y para evaluar el procedimiento resultante, favoreciendo claramente las hip´otesis que sobreajustan. Se presentan a continuaci´on algunas de las aproximaciones que se han propuesto para resolver este problema [Hern´andez et. al., 2004]:
3.2.1.
Submuestreo aleatorio o
Holdout
Un procedimiento mejor consiste en realizar una divisi´on aleatoria del espacio de instanciasZ
en dos subconjuntos, utilizando el primer subconjunto (t´ıpicamente dos tercios del espacio original) para el aprendizaje de la hip´otesis y el segundo (el tercio restante) para calcular la m´etrica de precisi´on. Al primer conjunto se le denomina Conjunto de Entrenamiento (Training Set), mientras que al segundo se le denomina Conjunto de Validaci´on o Conjunto de prueba (Test Set).
El submuestreo aleatorio, si bien solventa el problema de premiar el sobreajuste, presenta el claro inconveniente de depender de la partici´on realizada, de manera que dos modelos aprendidos sobre el mismo conjunto de datos y el mismo espacio de hip´otesis pueden presentar resultados muy dispares. Adicionalmente, en casos en los que se dispone de pocos datos, el particionamiento puede no ser adecuado, pues reduce a´un m´as el n´umero de observaciones utilizadas para inferir la hip´otesis h.
3.2.2.
Validaci´on cruzada o
Cross-Validation
Un mecanismo que permite reducir la dependencia del resultado del experimento del modo en el que se realiza la partici´on es la Validaci´on cruzada (Cross-Validation ok-fold Cross-Validation). En la validaci´on cruzada, los datos iniciales se particionan en k subconjuntos disjuntos de ta- ma˜no similar. El procedimiento de aprendizaje y evaluaci´on se repite para las k combinaciones de entrenamiento-validaci´on, de manera que en la iteraci´on i el subconjuntoDi se reserva para la
evaluaci´on y losk 1 subconjuntos restantes se utilizan de forma conjunta para el entrenamiento. A diferencia de la aproximaci´on presentada en el punto anterior, en la validaci´on cruzada cada conjunto de datos se utiliza k 1 veces para entrenar el modelo y una vez para evaluarlo, evitan- do el sobreajuste del mismo. En este procedimiento, el error de muestra final se calcula como la media aritm´etica de los k errores de muestra parciales, y es posible realizar un test estad´ıstico de significancia para comparar los errores medios de dos clasificadores como se indicar´a en 3.3.
La principal ventaja del m´etodo de validaci´on cruzada es que subsana el problema de depen- dencia de la partici´on realizada, lo que beneficia claramente a la significancia del resultado.
3.2.3.
Leave-one-out
Una variaci´on del m´etodo de validaci´on cruzada consiste en definir el n´umero de subconjuntosk
como el tama˜no del conjunto de datos, de manera que en cada iteraci´on se deja una ´unica instancia fuera del conjunto de entrenamiento, y ´esta es utilizada para realizar la validaci´on, calcul´andose el error de muestra como el porcentaje de iteraciones en las que el elemento que se ha dejado fuera se ha clasificado correctamente. En este m´etodo el solape entre los conjuntos utilizados para realizar el entrenamiento en las k iteraciones es m´aximo, y presenta el claro inconveniente de ser computacionalmente muy costoso -el algoritmo de clasificaci´on debe ejecutarse tantas veces como observaciones tenga el espacio de instancias- si bien proporciona una estimaci´on muy estable del error de muestra.
26 SECCI ´ON 3. EVALUACI ´ON DE MODELOS DE CLASIFICACI ´ON
3.2.4.
Evaluaci´on por
bootstrap
La evaluaci´on porbootstrap est´a indicada en casos en los que se dispone de pocos ejemplos. El procedimiento bootstrap es el siguiente: dada una muestra de N ejemplos, se realiza un submues- treo aleatorio con reposici´on de N ejemplos para preparar una muestra de entrenamiento. Esta muestra, ´obviamente, puede contener ejemplos repetidos, y no contendr´a algunos ejemplos del conjunto original. Los ejemplos no presentes en la muestra de entrenamiento formar´an un subcon- junto disjunto al de entrenamiento que podr´a ser utilizado en la etapa de validaci´on. El tama˜no de dicho conjunto de validaci´on corresponde a la probabilidad de que un ejemplo no sea seleccionado para el entrenamiento, y puede estimarse calculando la probabilidad de que un ejemplo no salga en una extracci´on y multiplicando este n´umero por las veces que se realiza la extracci´on, es decir,
✓ 1 1
N
◆N
.
Considerando una muestra suficientemente grande, tenemos l´ım N!+1 ✓ 1 1 N ◆N = 1 e ⇡0,386.
El proceso de selecci´on con reemplazo, evaluaci´on y entrenamiento debe repetirse un n´umero prefijado k de veces, para actuar despu´es como en el caso de la validaci´on cruzada promediando los errores o precisiones del clasificador. La principal aportaci´on de la evaluaci´on por bootstrap
sobre la validaci´on cruzada es que las k iteraciones son independientes entre s´ı, por lo que la m´etrica de evaluaci´on obtenida es estad´ısticamente m´as robusta.