M´ etricas y curvas de evaluaci´ on - Evaluaci´ on del comportamiento del clasificador

3.4. Aspectos a tener en cuenta para el diagn´ ostico

3.4.1. Evaluaci´ on del comportamiento del clasificador

3.4.1.1. M´ etricas y curvas de evaluaci´ on

La elección de las métricas o curvas de evaluación de las prestaciones del clasificador que se trata de diseñar debe tener en cuenta aspectos como el desequilibrio de clases o aportar información sobre cómo son clasificadas las observaciones pertenecientes a cada clase.

Real Predicci´on

Clase1 Clase2 Total

Clase1 Verdadero Positivo (TP) Falso Negativo (FN) PReal

Clase2 Falso Positivo (FP) Verdadero Negativo (TN) NReal

Total PP red NP red M

Tabla 3.1: Matriz de confusi´on.

En el campo de la AI, la MC es una herramienta muy usada para visualizar el desempeño de un algoritmo empleado para un aprendizaje supervisado. Cada columna de la matriz representa el número de predicciones de cada clase, mientras que cada fila representa a las observaciones correspondientes a la clase real. La principal virtud de la MC es la facilidad con la que permite observar si el sistema está confundiendo dos clases. Si los datos de entrada son desequilibrados, es decir, la proporción del número de muestras de cada clase es muy diferente, la tasa de error del clasificador no es representativa de lo bien que realiza la tarea el clasificador. Si por ejemplo hay 990 muestras de la Clase1 y sólo 10 de la Clase2, el

clasificador puede tener f´acilmente un sesgo hacia la Clase1. Si el clasificador clasifica todas

las muestras como Clase1 su precisi´on ser´a del 99 %. Sin embargo, esto no significa que sea

un buen clasificador, pues tuvo un 100 % de error en la clasificaci´on de las muestras de la Clase2.

En la Tabla 3.1 se presenta la MC para un problema biclase. A partir de esta tabla, se pueden obtener m´etricas como:

1. Accuracy o exactitud. Una de las métricas más utilizadas para evaluar la clasificación discreta en el diagnóstico de máquinas eléctricas es la exactitud oaccuracy. Esta métrica es indicativa del error de clasificación cometido evaluando dos o más clases:

Accuracy = T P +T N

Al clasificar varias clases, este métrica es optimista ya que todos los errores de clasifica- ción se consideran igualmente, y los errores de cada clase no son evaluados individual- mente. Dos clasificadores podr´ıan tener la misma exactitud pero pueden proporcionar una clasificación diferente para cada clase.

Las siguientes métricas aportan más información sobre las clases de la variable a pre- decir.

2. Especificidad o True Negative Rate (TNR). TNR es una m´etrica de rendimiento enfo- cada en la clase negativa.

T N R= T N

T N +F P (3.59)

3. Precisión o Precision. Por el contrario, esta métrica de rendimiento evalúa la clasifica- ción correcta de la clase positiva.

P recision= T P

T P +F P (3.60)

4. Sensibilidad, True Positive Rate (TPR) o Recall. Esta medida, junto con la especificidad, proporciona una proporción de muestras de una clase correctamente clasificadas. Sin embargo, al igual que Precision, sólo evalúa la clase positiva.

T P R (Recall) = T P

T P +F N (3.61)

5. Medida-F o F-measure. Esta métrica puede ayudar a resolver cualquier contradicción que pueda aparecer entre las métricas Precision y Recall. Existen varias versiones, de- pendiendo del valor asignado aα, lo que permite elegir cómo ponderar a la Precision y Recall. Paraα∈ <, α >0, la expresión general se muestra a continuación:

fα =

(1 +α)(P recision×Recall)

(α×P recision) +Recall (3.62)

6. Media geométrica o Geometric mean. Esta métrica proporciona información sobre el rendimiento del clasificador en un problema desequilibrado. Hay dos versiones de esta

m´etrica.Gmean,1 se utiliza para evaluar el equilibrio relativo del rendimiento del clasifi-

cador en todas las clases:

Gmean,1 =

√

T P R×T N R (3.63)

La otra versi´on, Gmean,2, pone el foco en la clase positiva, tomando en cuenta la Preci-

sion.

Gmean,2 =

√

T P R×P recision (3.64)

En ciertas situaciones, se requiere que los clasificadores asignen la pertenencia a una u otra clase usando un umbral. Para estos casos, es necesario incorporar alguna infor- mación adicional además de la deducida de la MC. Para ello, los métodos de análisis gráfico sirven como herramientas efectivas para describir el rendimiento de los algoritmos. Existen varios métodos gráficos para evaluar las prestaciones de los algoritmos de aprendizaje [129]. A continuación se presentan algunos de ellos.

7. Curva ROC (Receiver Operating Characteristic). El análisis ROC se introdujo en la teor´ıa de detección de señales y permite visualizar el rendimiento de un clasificador de forma gráfica. Esta curva (Fig. 3.12) ilustra el rendimiento de un clasificador binario según va variando su umbral de discriminación entre clases. La curva se crea trazando la tasa de TP frente a la tasa de FN variando el umbral. A diferencia de la Medida-F y la Precisión, esta métrica es insensible al desequilibrio de clases. El punto óptimo de operación se puede elegir de acuerdo a varias formulaciones [129, 160]. El área bajo la curva ROC es un escalar que nos da información útil del comportamiento de un clasificador [160]. Sin embargo, este escalar no sirve para comparar clasificadores cuando sus curvas ROC se cortan [130].

Figura 3.12: Ejemplo de curva ROC para dos clasificadores [161].

8. Curva Precision-Recall. Este tipo de gráfico (Fig.3.13) sirve para analizar el equilibrio entre los ejemplos positivos correctamente clasificados y los ejemplos negativos mal clasificados. Básicamente, es una gráfica donde el valor Precision del clasificador está representado como una función de los valoresRecall. En otras palabras, en un escenario de diagnóstico de fallos, estas curvas representan la proporción de casos de fallos ver- daderamente detectados referida a aquellos que se identifican como sanos (eje vertical) y en el eje x referido con respecto a la tasa de ocurrencia de falsas indicaciones posi- tivas. Estas curvas han demostrado ser también útiles cuando se tiene el problema del desequilibrio de clases.

Figura 3.13: Ejemplo de curva Precision-Recall para dos clasificadores [161].

9. Otros gráficos. Las curvas de costes usan los costos de clasificación errónea (en caso de que se conozcan) en lugar de emplear las métricas de la curva ROC. La principal ventaja es su uso sencillo al decidir el clasificador más adecuado en aquellos casos en los que se conoce el coste de error, la distribución de clase o la proporción desequilibrada de las clases. La diferencia con las curvas ROC es que proporcionan información más prácti- ca para aquellas circunstancias en las que la información requerida está disponible. Es decir, cuando el operador tiene suficiente conocimiento o información de los costes de parada inesperada, intervención innecesaria, etc.

Existen otros gráficos conocidos comoLift Chart que permiten visualizar los verdaderos positivos, pero en este caso contra el tamaño del conjunto de datos utilizado para lograr dicho número de verdaderos positivos. Para este gráfico, los verdaderos positivos se trazan en el eje vertical mientras que el eje horizontal indica el número de observaciones en el conjunto de datos tomado en cuenta los verdaderos positivos obtenidos en el eje vertical.

In document Metodología de diagnóstico de motores de inducción alimentados por convertidor para la detección de fallos incipientes: basada en conjuntos pequeños de datos y clases desequilibradas (página 101-106)