Capítulo 3. Análisis de los métodos de reconocimiento de patrones
3.2. Desarrollo de un sistema de clasificación
Cuando se desarrolla un sistema de reconocimiento de patrones varios subproblemas están envueltos en el objetivo final de encontrar una correcta clasificación de los objetos del dominio de la aplicación. El primer paso es identificar las medidas cuantificadas que permitan dividir el espacio de representación de los objetos en varias regiones distintas cada una de la otra, a continuación ilustramos un ejemplo.
Figura 3.1. Señal ECG de un paciente masculino de 65 años con PVCs.
La Figura 3.1 muestra una señal ECG de un paciente masculino de 65 años, proveniente de una base de datos de señales anotadas por expertos, con el fin de utilizarlas como conjunto de aprendizaje, para detectar casos de pacientes con contracciones ventriculares prematuras (PVCs). Cada tira es de 10 s, la señal es continua y leída como las líneas de un libro. Cada pulso fue manualmente etiquetado como Normal (‘o’) o PVC (‘x’), el último pulso no fue procesado.
Figura 3.2. Espacio de representación del vector de características (FF, RR) para las señales ECG de la Figura 3.1 (conjunto de aprendizaje). Clase Normal (‘o’) y la clase PVC (‘x’). En este caso una línea
recta separa el espacio de representación en dos regiones.
Las medidas cuantificadas para estos pulsos fueron el valor del factor de forma (FF) y el intervalo RR. En la Figura 3.2 se muestra una representación gráfica de estas medidas. Los diferentes puntos (FF, RR) en la figura, corresponden a las medidas realizadas a cada uno de los pulsos en las señales de la base de datos. Como se muestra en la figura los puntos se agrupan en dos clases que tiende a estar distribuida en diferentes áreas. La línea recta parece ser un buen candidato para separar las dos clases. Nosotros podemos deducir que si tomamos las medidas de un nuevo pulso y las colocamos en el espacio de representación,
podemos saber a que clase pertenece este. Un ejemplo lo visualizamos en la figura con un * y podemos decir que este punto es mas similar a la clase PVC (‘x’) que a la Normal (‘o’).
La clasificación anterior nos ha esbozado la gran mayoría de los problemas de clasificación de patrones. Las medidas utilizadas para la clasificación, el factor FF y el intervalo RR en este caso, son conocidas como características o rasgos. De forma más general, suponiendo patrones con n características, un patrón X es una variable aleatoria n-dimensional compuesta por n componentes xi, i = 1, 2,…, n, estas componentes forman un vector de características, que puede ser escrito como:
X = [x1, x2,…, xn] T
Donde T denota la transpuesta. Cada vector denota un único patrón (objeto), o sea un punto en el espacio de representación.
La línea continua es conocida como línea de decisión (superficie o frontera de decisión) y esta constituye el clasificador, su papel es dividir el espacio de características en regiones distintas(regiones de decisión), que correspondan a cada una de las clases. Si un vector de características, correspondiente a un patrón desconocido, cae en la región por encima de la línea, es clasificado como clase PVC, en caso contrario como clase Normal. Esto no necesariamente significa que la decisión es correcta. Si la clasificación es incorrecta ocurrió un
error de clasificación.
La línea recta fue pintada utilizando el hecho de que para cada punto representado en el espacio de características se conocía de antemano su clase cierta. Los patrones que su clase cierta es conocida de antemano y son utilizados para el diseño del clasificador son conocidos como patrones de entrenamiento
(vectores de características de entrenamiento) y al conjunto de todos estos patrones conjunto de entrenamiento.
Figura 3.3. Etapas básicas envueltas en el diseño de un sistema de clasificación.
Teniendo una idea general de las definiciones y razonamientos en un problema de reconocimiento de patrones, se precisarán cuáles son las interrogantes básicas que surgen en una tarea de construcción de un sistema de clasificación, ver las etapas de la Figura 3.3:
1. ¿Cómo son generadas las características de los patrones? Este subproblema está relacionado con la etapa de generación de las características de los patrones. De la calidad con que las características puedan ser cuantificadas o digitalizadas, dependerá la eficiencia y complejidad del clasificador diseñado. El tipo de ruido presente en los sensores y en la naturaleza de los patrones, son interrogantes a las que se enfrentan los especialistas en esta etapa. Además que muchas veces sensores y equipo de procesamiento muy potentes no pueden ser aplicados por razones económicas.
2. ¿Cuál es el mejor número n de características a utilizar? Esta concierne a la etapa de selección de características. Un problema con una alta dimensionalidad puede ser inaplicable por su alto costo computacional, además que el mayor número de características en ocasiones lo que hace es entorpecer la correcta clasificación.
3. ¿Teniendo adoptadas las características apropiadas, para la tarea específica, como diseñar el clasificador? En la práctica no es común el caso en que una línea pueda ser dibujada de forma óptima siguiendo algún
clasificador es lineal (líneas continuas o hiperplanos en el espacio n- dimensional) y este pueda dar como resultados una ejecución aceptable, no son la regla. En general, las superficies que dividen el espacio en varias regiones de clases son no lineales. ¿Qué tipo de no linealidad puede ser adoptada y qué tipo de criterio de optimización puede ser utilizado, para localizar las regiones correctas en el espacio de características? Estas interrogantes son respondidas en la etapa de diseño del clasificador. 4. Finalmente, una vez diseñado el clasificador, ¿Cómo es evaluada la
ejecución del clasificador diseñado? En esta etapa es evaluada la calidad del clasificador. ¿Cuál es el rango de error o de calidad del clasificador? Estas interrogantes le conciernen a la etapa de evaluación del sistema.
Las etapas de diseño de un clasificador mostradas en la Figura 3.3, no son independientes. Al contrario ellas están interrelacionadas, los resultados de una etapa pueden hacer que se retroceda para rediseñar en etapas anteriores con el objetivo de mejorar el desempeño final del clasificador, esto es reflejado en la figura con las flechas que tienen el sentido hacia atrás. Existen varios métodos que combinan etapas como la selección y extracción de características, el diseño optimizado de clasificadores, entre otros (19).
Hasta aquí hemos sentado las ideas principales relacionadas con un problema de clasificación, estamos listos para adoptar una definición más formal de los principales métodos y conceptos relacionados con un problema de reconocimientos de patrones.