Extracci´ on de Caracter´ısticas

3.6 Clasificaci´ on

3.6.1 Extracci´ on de Caracter´ısticas

Es necesario representar y describir los p´ıxeles resultantes de la segmentación de forma que sea posible su procesamiento; la descripción de una región se realiza con base en sus caracter´ısticas internas, externas o ambas. La extracción de caracter´ısticas consiste básicamente en la tarea de localizar puntos de interés en una imagen dada, los cuales, contienen una alta cantidad de información relevante sobre su entorno y son invariables ante las perturbaciones que puede sufrir una imagen, es decir, son reproducibles.

Para lograr clasificar correctamente las imágenes dermatoscópicas se debe asegurar que la representación de las imágenes de una misma clase sea lo más similar posible. En otras palabras, en la representación por puntos de interés se debe lograr que en imágenes diferentes de la misma clase se detecten los mismos puntos de interés, en las mismas zonas y que estas zonas sean las más representativas de la imagen.

SIFT

Muchos algoritmos son invariantes ante las rotaciones pero esto no necesariamente aplica cuando la imagen presenta un escalamiento. Scale Invariant Feature Transform, SIFT, es un algoritmo de detección de puntos de interés que es invariante ante rotaciones y escalamientos. SIFT consiste en aplicar sobre la imagen una secuencia de diferencias gaussianas centradas en cada uno de los p´ıxeles de la imagen en una escala σ determinada (de la pirámide de imágenes5₎ _3-8_{, esto produce un efecto de suavizado y p´}_{erdida del detalle de la imagen ori-}

ginal a medida que los pixeles vecinos van perdiendo influencia una vez se van alejando del p´ıxel principal. La diferencia de gaussianas actúa como detector de contornos o áreas con intensidad homogénea (BLOBS) rodeadas de zonas oscuras o claras.

Con lo anterior, podemos encontrar los máximos locales a través de la escala y el espacio, lo que nos da una lista de valores (x, y, σ) indicando que hay un punto de interés potencial en (x, y) a escala σ. En otras palabras, un p´ıxel es comparado con sus 8 vecinos más cercanos en la misma escala, como también se compara con los 9 puntos vecinos en las escala anterior y posterior3-9. Esto significa que un punto de interés está mejor representado en esa escala. Una vez localizados todos los puntos de interés, estos deben refinarse para obtener resultados más precisos. Se eliminan todos los puntos con contraste bajo (bajo valor en la diferencia de

5_{Conjunto de im´}_{agenes con tama˜}_{no decreciente o creciente, usada para detectar caracter´ısticas de diferentes}

3.6 Clasificaci´on 19

Figura 3-8: Pir´amide de im´agenes [18].

gaussianas) adem´as de puntos localizados en los bordes ya que pueden introducir ruido en la imagen.

Ahora una orientación es asignada a cada punto de interés, ya que la descripción de estos se representará a través de un vector numérico que representa la información que se tiene de la imagen en una zona que se define alrededor del punto de interés. El descriptor se basa en el concepto de gradiente y se define como el cambio de intensidad de la imagen en una dirección determinada. La diferencia de intensidad se mide en las coordenadas x e y, éstas se pueden ubicar en un plano describiendo un vector con su respectiva magnitud y ángulo de dirección.

Se crea un histograma de orientación dividiendo los 360 grados en 36 intervalos, que provee información sobre la distribución de las orientaciones del gradiente en una determinada región además de, la orientación dominante en la región. Los p´ıxeles centrales deben tener una mayor importancia y por ello se pondera la magnitud del gradiente con una función gaussiana de σ igual a 1,5 veces la escala del punto de interés. Para calcular la orientación se toma el pico más alto en el histograma y picos superiores al 80 %, creando puntos de interés con la misma ubicación y escala, pero con diferentes direcciones, contribuyendo a la estabilidad de la coincidencia.

A continuación se crea el descriptor del punto de interés. Se toma un área de 16x16 alrededor del punto de interés y se divide en 16 subbloques de tamaño 4x4. Para cada subbloque, se crea un histograma de orientación de 8 divisiones, de modo que hay un total de 128 valores de división disponibles. Además de esto, se toman varias medidas para lograr robustez contra

Figura 3-9: Comparaci´on entre p´ıxeles [18].

cambios de iluminaci´on (normalizar el descriptor), rotaci´on, etc.

SURF

Speeded-Up Robust Features, SURF, es la versión mejorada de SIFT. Este algoritmo aproxima el Laplaciano de Gaussianas(LoG) mediante filtros cuadrados, lo cual implica mayor rapidez debido a que su convolución puede ser calculada mediante el uso de imágenes integrales. SURF también usa el determinante de la matriz Hessiana para hallar BLOBS en lugares donde este es máximo y seleccionar la escala.

Para la asignación de orientación al igual que para la descripción de los puntos de interés, SURF usa respuestaswavelet en dirección horizontal y vertical para un vecindario de tamaño determinado. En el primer caso, se toma un vecindario circular de radio 6s, siendosla escala del punto de interés, y al igual que en SIFT se ponderan con pesos Guassianos adecuados. La orientación dominante se estima sumando todas las respuestas dentro de una ventana de orientación deslizante con ángulo de 60 grados. La respuestawavelet se puede encontrar usando de nuevo imágenes integrales en cualquier escala.

En la descripción de los puntos de interés, se toma un vecindario cuadrado de tamaño 20sx20s alrededor del punto central, el cual se divide en 4x4 subregiones. Para cada subregión, se toman las respuestas wavelets horizontales y verticales, suavizando los resultados mediante un filtro Gaussiano (ofrece mayor robustez ante el ruido, errores y deformaciones geométricas o fotométricas) y obteniendo as´ıdx y dy. A continuación se suman los resultados dx, dy y el valor absoluto |dx|, |dy|. De esta manera, cada subregión proporciona un vector v, que estará compuesto por:

v = (Xdx,Xdy,X|dx|,X|dy|) (3-16)

3.6 Clasificaci´on 21

3.6.2. Clasificaci´on

Una vez se obtienen las caracter´ısticas de los objetos a clasificar, hay dos criterios que se pueden aplicar para la determinación de las clases en un algoritmo de clasificación, la clasi- ficación supervisada y no supervisada. La clasificación supervisada parte de un conjunto de clases conocido a priori (datos de entrenamiento), que servirán para generar una signatura caracter´ıstica para cada clase a través de la extracción de caracter´ısticas[1]. Existen nume- rosos algoritmos de este tipo, como son las redes neuronales artificiales, SVM, árboles de decisión, Na¨ıve Bayes, Random Forests, etc.

En la clasificación no supervisada es necesario establec er el número de clases en las cuales se quiere clasificar los objetos, ya que se emplea para procesar datos de los cuales no se ten´ıa conocimiento a priori. Aqu´ı los elementos más similares se van agrupando formando clases hasta llegar al número definido inicialmente. Dentro de esta categor´ıa se incluyen las técnicas de clustering o agrupamiento y el algoritmo k-means. Con cualquiera de los dos criterios se puede diseñar un sistema que será capaz de asignarle a muestras futuras una clase determinada.

Redes Neuronales

Las redes neuronales artificiales son modelos matemáticos inspirados en nuestra comprensión de los sistemas nerviosos biológicos. Por tanto una red neuronal es una colección de neuronas artificiales, las cuales son unidades elementales para el procesamiento de la información. El modelo matemático de una neurona artificial se basa en las siguiente proposiciones:

Las neuronas son las unidades elementales en un sistema nervioso en el que se produce el procesamiento de la informaci´on.

Las entradas están dadas en forma de señales que se transmiten entre las neuronas a través conexiones.

Cada conexi´on tiene un peso que multiplica la se˜nal transmitida.

Cada neurona tiene una acción interna, según el umbral de disparo, lo que resulta en una función de activación aplicada a la suma ponderada de las señales de entrada para producir una señal de salida.

SMV

Las máquinas de vectores soporte (SVM, del inglés Support Vector Machines) pertene- cen a la categor´ıa de los clasificadores lineales, puesto que inducen separadores lineales N-dimensionales o hiperplanos en la dimensión correspondiente para lograr una separación ´

optima. Para la introducci´on de dichos hiperplanos en problemas no lineales, se transforma el problema original en su forma dual equivalente (plano de caracter´ısticas) y se resuelve este

ultimo mediante el uso de funciones kernel. La idea principal es obtener el margen m´aximo equidistante entre el hiperplano y aquellas muestras de cada clase que se encuentran m´as cercanas a la frontera entre clases (vectores soporte),

En SVM existen kernels lineales y no lineales, los primeros dan peores resultados ya que muchos problemas no son linealmente separables, sin embargo el costo computacional y de entrenamiento es muy bajo. La ecuación de predicción para una nueva entrada está dada por el producto punto entre la entrada (X) y cada vector soporteXi. Loskernels no lineales tienen un costo computacional mayor (tiempo y memoria) en las etapas de aprendizaje y clasificación (es necesario guardar todos los vectores de soporte).

Es necesario validar el parámetro C que es el factor de regularización de impacto del com- promiso entre el grado de sobreajuste del clasificador final y la proporción del número de ejemplos mal clasificados; en la actualidad no existe una forma teórica de encontrar el valor del parámetro, sin embargo, se utiliza un valor tendiente al infinito.

K-MEANS

El parámetro de entrada en este tipo de algoritmos es el número final de conjuntos (k), utilizado para obtener un representante para cadacluster. Los clusters son definidos por la distancia al representante más cercano, el algoritmo es iterativo y su objetivo es encontrar la agrupación que minimice la distancia de las muestras al representante de cada cluster. El funcionamiento del algoritmo ser´ıa el siguiente:

Inicializar los representantes de cadacluster de forma aleatoria con una muestra cualquiera del conjunto de entrenamiento.

Se calcula la distancia de las muestras a los diferentes clusters inicializados aleatoria- mente y se asigna al cluster que muestre la distancia m´as peque˜na.

Se modifica el representante de cada clase recalculando la media de todas las muestras asignadas alcluster.

Se modifican las fronteras de los clusters y se repiten los pasos 2 y 3 hasta que no hayan cambios en la asignaci´on.

El resultado depende de la inicializaci´on, a veces es necesario repetir el proceso con diferentes inicializaciones y escoger la soluci´on que tenga la menor suma total de cada una de las distancias de las muestras a los representantes de cadacluster.

ˆ C =argmin k X j=1 X xi∈Cj d(xi, Cj) (3-17)

3.6 Clasificaci´on 23

Bag of Words

El método de bag of words (BOW) considera la imagen como un conjunto de caracter´ısticas locales, comunes y relevantes que son utilizadas para reconocer y clasificar las imágenes por métodos estad´ısticos. A estas caracter´ısticas se les llamará palabras visuales.

La estructura general del algoritmo consiste en primer lugar agrupar las caracter´ısticas mediante el uso del algoritmo de agrupamiento K-means y de all´ı obtener el vocabulario visual. Los centros de agrupamiento son considerados como palabras visuales que componen el vocabulario visual. Luego se hace uso del histograma descrito por la frecuencia de aparición de las palabras visuales para representar el contenido de la imagen; como resultado, una imagen se ve como una bolsa llena de palabras visuales. Como último paso, se toma el histograma formado por palabras visuales de cada imagen como caracter´ısticas, luego se obtiene el modelo de clasificación por entrenamiento SVM. En este método no se tiene en cuenta la localización de las caracter´ısticas locales de la imagen, lo cual puede ayudar a clasificar una imagen independientemente de donde se encuentre el objeto[10].

Como ya se ha mencionado anteriormente, K-Means permite construir el vocabulario a través de un conjunto de imágenes suficientemente caracter´ısticas de cada clase, el resultado será un conjunto de puntos de interés los cuales son agrupados mediante clustering. La idea básica para representar una imagen a través de BOW se basa en asignar cada caracter´ıstica local a la palabra visual más cercana, se selecciona la palabra visual que tenga la menor distancia al punto de referencia. La representación final corresponde a un histograma de palabras donde cada componente indica cuantas caracter´ısticas han quedado asociadas a una palabra. Existe la necesidad de comparar cada caracter´ıstica con todas las palabras, lo que puede generar un costo computacional elevado por ello, se definen diferentes pesos para las caracter´ısticas. Las palabras que sean comunes y aparezcan frecuentemente en las imágenes brindan en su mayor´ıa poca información y se le asigna un peso menor, en cambio, una caracter´ıstica poco común puede brindar más información en la representación de la imagen. El valor asociado a cada palabra va dado por elterm frecuency, el primer termino en la formula 3-17, éste cuenta la frecuencia de cada palabra en la imagen, normalizado por el número total de caracter´ısticas o de palabras que se tienen en la imagen.

El valor anterior se pondera con otro factor que tiene en cuenta la relevancia o capacidad de discriminación de la palabra (IDF), este se obtiene dividiendo el número total de imágenes que hemos utilizado para construir el vocabulario, por el número de imágenes donde aparece una determinada palabra. De esta forma, si una palabra aparece en todas las imágenes, este cociente va a ser igual a 1 y al tomar el logaritmo, su peso va a ser de 0. Por lo contrario, si una palabra aparece en muy pocas imágenes, el valor de este cociente va a ser elevado y, por lo tanto, su ponderación va a ser elevada. En este método es importante normalizar para evitar dependencia del número total de palabras en la imagen.

In document Detección de melanomas a partir de imágenes dermatoscópicas (página 32-38)