Evaluaci´on mediante la precisi´on - Evaluaci´ on de modelos de clasificaci´ on

3. Evaluaci´ on de modelos de clasificaci´ on

3.1.1. Evaluaci´on mediante la precisi´on

3.1.1.1. El error verdadero, el error de muestra y la precisi´on

La primera métrica de evaluación de modelos de clasificación que revisaremos se basa en el porcentaje el error de la hipótesis h con respecto a la función objetivo f. Dicho porcentaje de error puede ser estimado utilizando los datos del espacio de instancias Z, tal y como se verá a continuación.

Formalmente, se define el error verdadero de una hip´otesishcon respecto a la funci´on objetivo

f como

et(h) =P rx2D[( (f(x)6=h(x))],

dónde D es la distribución de probabilidad que ha generado los datos. En general, sin embargo, la función objetivo f es desconocida, por lo que todo lo que se puede conocer sobre la precisión de una hipótesis es el error de muestra. El error de muestra se define, dada una muestra S de

20 SECCI ÓN 3. EVALUACI ÓN DE MODELOS DE CLASIFICACI ÓN instancias xi 2X, como es(h) = 1 n X x2S (f(x)6=h(x)),

dóndenes el número de componentes deS, y (verdadero) = 1, (f also) = 0. La métrica comple- mentaria al error de muestra se denomina Precisión (Accuracy) del modelo, y puede interpretarse como el porcentaje de instancias (casos o sujetos) que el modelo ha clasificado correctamente. El procedimiento operativo para medir la precisión es el siguiente: en situaciones de clasificación binaria, cada instancia es etiquetada con uno de los elementos del conjunto

{”P ositivo(P)”,”N egativo(N)”_}

según la estimación de la clase a la que pertenece dicha instancia. La aplicación de un clasificador a un conjunto de casos o sujetos produce cuatro resultados posibles:

Si el caso es positivo y es clasificado como positivo por el clasificador se denomina Verdadero Positivo (TP, del ingl´es True Positive)

Si el caso es negativo y es clasificado como positivo se denomina Falso Positivo (FP, del ingl´es Flase Positive), o Error de Tipo I

Si el caso es negativo y es clasificado como negativo se denomina Verdadero Negativo (TN, del ingl´es True Negative)

Si el caso es positivo y es clasificado como negativo se denomina Falso Negativo (FN, del ingl´es False Negative), o Error de Tipo II

A partir de estos resultados, es posible construir una tabla como la mostrada en el Cuadro 3.1 para representar la distribución de éxitos de dicho conjunto. A esta tabla se la denomina Tabla de Contingencia o Matriz de Confusión, y se utiliza para expresar el resultado de un clasificador.

Clase Verdadera Clase hipot´etica P N

P TP FP

N FN TN

Cuadro 3.1: Matriz de casos para un clasificador. Los elementos de la matriz muestran el volumen o porcentaje de elementos representados en relaci´on a su clase verdadera y estimada.

La diagonal principal de la Matriz de Confusión representa las clasificaciones correctas, mien- tras que la diagonal secundaria representa la confusión o error entre clases. Con estos valores, la métrica de precisión enunciada se obtiene a partir de la matriz de confusión como

Accuracy (ACC) = T P +T N

T P +T N+F P +F N.

3.1.1.2. Aplicaci´on de costes a la evaluaci´on

En los sistemas de aprendizaje es común que los errores de clasificar un ejemplo de la clase minoritaria en la clase mayoritaria tengan asociado un coste mayor que la situación inversa (p.ej., la clasificación de un individuo enfermo como sano es menos deseable que la situación contraria).

3.1. M ÉTRICAS DE EVALUACI ÓN DE MODELOS DE CLASIFICACI ÓN 21 Para estos casos la precisión vista en 3.1.1.1 no es, en general, una buena medida para evaluar la calidad del modelo, pues considera costes uniformes para todos los errores de clasificación. En esta situación cabe la posibilidad de extender el planteamiento de evaluación presentado anteriormente para medir la calidad del modelo en términos de minimización de costes, en lugar de utilizar la minimización de errores.

Considérese que se pueden determinar los costes de cada clasificación errónea, de manera que es posible construir una tabla que exprese los costes de todas las combinaciones posibles entre la clase predicha y la real como la presentada en el Cuadro 3.2. A esta tabla se le denomina Matriz de Costes, y puede utilizarse para estimar el coste de un clasificador realizando el producto escalar entre ésta y la Matriz de Confusión.

Cuadro 3.2: Distribución de costes en la Matriz de Costes. Los costes se utilizan en la evaluación junto a los datos del Cuadro 3.1 para obtener una evaluación basada en coste, y no en precisión.

Clase Verdadera Clase hipot´etica P N

P 0 CI

N CII 0

Los costesCI y CII corresponden a los errores de tipo I y II, respectivamente. N´otese que los

casos de la diagonal (casos o sujetos bien etiquetados) tienen un coste 0 en el cuadro presentado, pero es posible asignar beneficios mediante la imputaci´on de costes negativos [Hern´andez, 2005].

3.1.1.3. Aproximaci´on del error verdadero a partir del error de muestra

Al calcular el valor de la métrica de Precisión, es inmediato plantear cuestiones sobre la fiabi- lidad del resultado. En este sentido, es posible, dada una muestra de N ejemplos tomada a partir de una distribución N, aproximar los intervalos de confianza para el error verdaderoet(h) a partir

del error de muestra, es(h), utilizando una distribuci´on normal mediante la expresi´on

et(h)⇡es(h)±zc ⇥

es(h)(1 es(h))

N .

D´onde la constante zc se puede establecer a partir del nivel de confianza seg´un la tabla de la

distribuci´on de la normal (Cuadro 3.3).

Cabe notar que la distribución que deber´ıa utilizarse es la binomial, por tratarse de un evento discreto. No obstante, según el teorema de Moivre, la distribución binomial del número de éxitos en N pruebas independientes de Bernoulli con probabilidad de éxito p en cada intento es, apro- ximadamente, una distribución normal de media np y desviación t´ıpicapN pq, con q = 1 p, lo que permite afirmar que si N es suficientemente grande y se satisfacen determinadas condicio- nes se puede utilizar la distribución normal para calcular el intervalo de confianza sin pérdida de generalización.

Nivel de confianza 50 % 80 % 90 % 95 % 99 %

zc 0,67 1,28 1,64 1,96 2,58

22 SECCI ÓN 3. EVALUACI ÓN DE MODELOS DE CLASIFICACI ÓN

In document Aprendizaje supervisado en conjuntos de datos no balanceados con redes neuronales artificiales: métodos de mejora de rendimiento para modelos de clasificación binaria en diagnóstico médico (página 37-40)