Pruebas con una ´ unica base de datos - Estimación eficiente de atributos demográficos del rost

2.4. Experimentos

2.4.1. Pruebas con una ´ unica base de datos

Los primeros experimentos se efectuaron sobre las bases de datos descritas al co- mienzo de esta sección, para más detalle recomendamos revisar el Apéndice A. Cada base de datos la evaluamos individualmente, y para cada experimento utilizamos un esquema de validación cruzada (5-fold) para comprobar la bondad de cada modelo. En la tabla 2.2 se muestra el resultado de cada uno de estos experimentos, en general, la mayor´ıa de los experimentos utilizan imágenes de caras que no han sido alineadas manualmente excepto en el caso de la base de datos FERET. En este caso particular, realizamos un experimento para aquellas imágenes que estaban no alineadas (Columna FERET, en tabla 2.2) y, otro, para las imágenes que fueron

2.4 Experimentos 35 10−3 10−2 10−1 88 89 90 91 92 93 94 95 96 GAMMA Tasa de acierto CHILE −UCN C1 C10 C1000

(a) Experimento UCN

10−3 10−2 10−1 72 74 76 78 80 82 84 86 88 90 X: 0.044 Y: 87.22 GAMMA Tasa de acierto PAL C1 C21 C991 (b) Experimento PAL 10−3 10−2 10−1 85 86 87 88 89 90 91 92 93 94 GAMMA Tasa de acierto FERET C1 C101 C991

10−3 10−2 10−1 80 82 84 86 88 90 92 94 GAMMA Tasa de acierto FERET−ALIGN C1 C11 C991

(d) Experimento FERET alineado

Figura 2.8: Pruebas sobre un clasificador SVM+RBF utilizando diferentes par´ame- tros C y γ para varias bases de datos.

alineadas manualmente (Columna FERET alineadas, en tabla 2.2).

De losresultados obtenidosen cada uno de los experimentos se puede observar que para cada clasificador sobre una ´unica base de datos se obtiene un comporta- miento distinto dependiendo de diferentes factores que son discutidos a continuaci´on:

Alineamiento manual vs caras no alineadas. Uno de los primeros resultados visibles que encontramos en la Tabla 2.2 es que no encontramos una diferencia significativa entre los rendimientos de los clasificadores entrenados con im´agenes de caras alineadas manualmente o las que utilizamos directamente desde el detector de caras. Confirmando los resultados previos obtenidos por Mak¨ınen

36 Clasificador Unidimensional de Atributos Faciales Demográficos y otros [MR08a]. Creemos que esto se debe a la capacidad del detector de caras de entregar imágenes lo suficientemente alineadas para ser utilizadas directamente por el clasificador sin perjudicar significativamente su rendimiento. Para confirmar esta hipótesis realizamos un pequeño experimento utilizando las imágenes alineadas de la galer´ıaFERETfa. Sobre éstas aplicamos el detector de caras implementado en OpenCV. A partir de la información conseguida de las coordenadas originales (etiquetadas manualmente) y las obtenidas por el detector de caras, dibujamos la distribución de coordenadas originales dentro de la ventana adquirida desde el detector de caras ajustada a una imagen de 25×25 p´ıxeles, ver Figura 2.9. La desviación estándar de los nuevos puntos coordenados es de 0.5 p´ıxel. Esto confirma que para caras escaladas a 25×25 desde FERET fa la precisión de detector de caras es cerca del la mitad de un p´ıxel. Cabe observar, que esto es solo verdadero para la galer´ıa frontal deFERET

fa, obviamente, cuando las caras están rotadas la precisión del clasificador, en términos de tasa de acierto, deber´ıa disminuir.

5 10 15 20 25 5 10 15 20 25

Figura 2.9: Coordenadas de ojos manualmente etiquetados (puntos rojos y azules) a partir de caras detectadas desde la galer´ıa FERET fa utilizando el detector de caras de OpenCV.

Clasificación LDA. En la clasificación utilizando LDA logramos un 77,68 % de tasa de acierto sobre FERET. En las pruebas no se consideró la base de datos

PALya que la matrizSmtiene unrangocercano a cero, causado por el peque˜no

tamaño de la muestra. Estos experimentos confirman los malos resultados obtenidos por Moghaddam y Yang [MY02] utilizandoLDA. Ellos obtuvieron un 86,07 % para el reconocimiento de género en términos de tasa de acierto, y que incluso es superior al obtenido en nuestros experimentos. Esta diferencia la podemos explicar por la forma en que desarrollaron sus experimentos, donde incluyeron imágenes de los mismos individuos en los diferentes folds para

2.4 Experimentos 37 la validación de sus clasificadores. Además, contaban con un número mayor de imágenes (alrededor de 2000) que las utilizadas en nuestros experimentos. Estos exiguos resultados preliminares nos llevan a pensar que esta pudo haber sido la causa de que las subsecuentes aproximaciones hayan desestimado el algoritmo LDA.

Por el contrario, si utilizamosLDAsobre una base de datos con un gran número de imágenes como las contenidas en UCN, con alrededor de 10000 imágenes, obtenemos una tasa de acierto del 92,65 %. A partir estos resultados, se puede concluir que a causa de la “maldición” de la dimensionalidad, 993 imágenes no son suficientes para suministrar información para que el LDA encuentre la o las proyecciones correctas para un espacio de 625 dimensiones. Incrementando el número de imágenes de entrenamiento a 10000 ofrecemos suficientes datos al LDApara llegar a obtener un clasificador competitivo.

De igual manera, si el problema es de alta dimensionalidad como en nuestro caso (625 dimensiones) una base de datos como FERET (994 im´agenes) no entrega una buena soluci´on al usarLDA, a pesar de queSm sea una matriz de

rango completo.

Clasificación PCA+LDA. Uno de los principales motivos de mejora vistos hasta ahora es seleccionar de manera adecuada los mejores vectores propios calculados a partir del algoritmo PCA. Esto nos permite construir vectores de caracter´ısticas apropiados para el entrenamiento del subespacioLDA. En este estudio probamos dos métodos para la selección de caracter´ısticas:

1. PCA+LDA(P´agina 24). 2. PCA-M+LDA(P´agina 27).

En cada caso, se utilizó el Algoritmo 2.1 y el Algoritmo 2.2, respectivamente, para seleccionar las mejores dimensiones para el subespacio PCA. En la Tabla 2.2 se muestran los resultados logrados para este procedimiento ite- rativo. Se puede advertir que el LDA no tiene la capacidad para aprender la mejor proyección cuando se utilizan pocas imágenes, como es el caso 993 imágenes (ver la columna FERET de la Tabla 2.2). Sin embargo, si aplicamos una reducción de la dimensionalidad antes del LDA, tal como PCA+LDA y PCA-M+LDA, logramos rendimientos competitivos y comparables al estado del arte. Estos resultados se obtienen a partir de un clasificador lineal y una apropiada extracción de caracter´ısticas.

En ambos casos, tanto para PCA+LDA como PCA-M+LDA, realizamos las pruebas utilizando una validaci´on cruzada 5-fold iterativa, que incrementa el n´umero de vectores propios calculados al aplicar PCA, previo al LDA para

38 Clasificador Unidimensional de Atributos Faciales Demográficos buscar el mejor clasificador. Los gráficos PCA-M+LDAyPCA+LDAmostra- dos en la Figura 2.10 confirman el buen rendimiento conseguido al utilizar un procedimiento de ordenamiento de los valores propios, y en consecuencia de los vectores propios, generados por el PCA. Seleccionamos aquellos vectores que contribuyen con una mayor varianza iterativamente, en grupos de diez en diez, hasta lograr una tasa de acierto óptima en la proyección generada por el LDA. En las curvas mostradas en las figuras, observamos que en general para el algoritmo que utiliza una proyecciónPCA-M+LDAobtenemos la mejor tasa de clasificación dentro de los 100 primeros vectores propios ordenados por los ´ındicesIjy calculados a partir de la ecuación 2.5. En las mismas circunstancias,

la mejor tasa de clasificación para PCA+LDAse encuentra entre los primeros 130 vectores propios con una mayor varianza. Igualmente, confirmamos que al usar una base de datos grande, como lo es UCN, el rendimiento del clasificador no depende de las las dimensiones intermedias del subespacio generado por el PCA. En este caso, se puede asegurar que el rendimiento del LDA tendrá un rendimiento equivalente si se aplica directamente sobre los datos originales o sobre el subespacio intermedio generado por el PCA cuando se utilizan todas sus dimensiones de proyección.

¿Cuál es la razón para conseguir tan buenos resultados con los algoritmos PCA+LDA y PCA-M+LDA? La razón de que los algoritmos PCA+LDA y PCA-M+LDA sean exitosos se debe a que ellos disminuyen la maldición de la dimensionalidad del LDA ya que como paso previo solo seleccionamos las direcciones más discriminantes dadas por el PCA. En los experimentos mostrados, tanto el PCA+LDA como el PCA-M+LDA se comportan de manera similar. Esto es porque en nuestro problema los vectores propios más discriminantes son aquellos que tienen la mayor varianza, ya que la mayor´ıa de las imágenes empleadas no tienen grandes cambios de iluminación, son expre- siones neutras y frontales. A consecuencia de esto, la mayor variabilidad se concentra solo en las diferencias que observamos entre una persona u otra, y por lo tanto los cambios de apariencia en el género aparecen explicados en la mayor´ıa de la varianza existente de los datos. En conclusión, para este tipo de problemas los clasificadores lineales propuestos funcionan correctamente y con rendimientos que bordean o igualan el estado del arte. Es probable que esta afirmación no sea completamente cierta en otras bases de datos de imáge- nes donde los cambios de pose, calidad de adquisición, iluminación, entre otros factores; sean diferentes o con mayor variabilidad que las consideradas en estos experimentos.

Otro hecho interesante es que dependiendo del número de imágenes, el núme- ro de caracter´ısticas PCA necesarias para obtener una buena clasificación es

2.4 Experimentos 39 0 100 200 300 400 500 600 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Número de características Tasa de acierto PCA + LDA UCN FERET FERET ALIGN (a) 0 100 200 300 400 500 600 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Número de características Tasa de acierto PCA M+LDA UCN FERET FERET ALIGN (b)

Figura 2.10: Rendimiento de la clasificaci´on (variable Rj en el Algoritmo 2.1) a

medida que el subespacio intermedio PCA incrementa para (a) PCA+LDA y (b) PCA-M+LDA.

40 Clasificador Unidimensional de Atributos Faciales Demográficos distinto (p. ej. En la base de datos FERET los resultados obtenidos utilizando PCA, Tabla 2.2, necesitaron 130 caracter´ısticas mientras que en el caso de la base de datos UCN fueron necesarias 460). Estos resultados se oponen a los encontrados en la literatura donde generalmente se utiliza un número fijo de caracter´ısticas para la clasificación o se calcula por medio de la proporción de varianza explicada [ZM06a], ambos métodos no son los más indicados para una buena selección de caracter´ısticas. Como resultado de esto, advertimos que es necesario considerar una correcta selección de las caracter´ısticasPCAantes de la clasificación.

Clasificación ICA+LDA. Otro resultado interesante es el de estimar el subespacio intermedio utilizandoICAen lugar dePCA. En el Algoritmo 2.3 mostramos como estimar la dimensión del subespacio y obtener las mejores caracter´ısticas para la etapa de clasificación. En la Tabla 2.2 y en la Figura 2.11 se muestran los resultados de nuestros experimentos. No es sorprendente observar que los resultados para ICA+LDA y PCA+LDA sean muy similares. Al mismo tiempo, ambas aproximaciones tienen las mismas tasas de clasificación cuando el número de caracter´ısticas seleccionadas es lo suficientemente grande, ver Fig. 2.12. Estos resultados eran teóricamente previsibles, puesto que, FastICA es equivalente a blanqueado del PCA más una rotación [VHH07] y LDA es una técnica que es invariante a la rotación, en ese sentido tanto PCA+LDA como FastICA son equivalentes cuando no realizamos una selección de caracter´ısticas. 0 100 200 300 400 500 600 0.76 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Número de características Tasa de acierto

ICA+LDA, Distancia a la media

UCN DB FERET FERET ALign

Figura 2.11: Rendimiento de la clasificaci´on (variable Rj en el Algoritmo 2.3) a

2.4 Experimentos 41 Para los experimentos realizados con ICA+LDA utilizamos una base datos de prueba con 993 individuos seleccionados desde Color FERET. Siguiendo el mismo camino utilizado para los algoritmos PCA+LDAoPCA-M+LDA, realizamos las pruebas con un n´umero diferente de caracter´ısticas ICA antes de utilizar LDA con un esquema de validaci´on cruzada 5-fold (ver Tabla 2.2 y Figura 2.11) un clasificador Bayesiano (Tabla 2.2, fila ICA+LDA).

Un resultado emp´ırico interesante es que tanto las aproximaciones ICA+LDA y PCA+LDAtienen las mismas tasas de clasificaci´on cuando el n´umero de caracter´ısticas seleccionadas es lo suficientemente grande (ver Figura 2.12). Este resultado no contradice lo explicado anteriormente y confirma los resultados obtenidos [VHH07].

De la misma manera, Jain y Huang publicaron una tasa de acierto del 99,3 % en un experimento utilizandoFastICA+LDAy un clasificador eucl´ıdeo [JH04]. Probaron su aproximación con 500 imágenes utilizando la base de datosFERET. Para el entrenamiento utilizaron 200 imágenes (100 hombres y 100 mujeres) y las 300 imágenes restantes (150 hombres y 150 mujeres) se utilizaron para pruebas. Además, alinearon las imágenes utilizando la posición de los ojos, las ecualizaron, agregaron una máscara para evitar la influencia del fondo en la imagen y, finalmente, las redimensionaron a una escala de 64×96 p´ıxeles. Para construir el clasificador utilizaron 200 caracter´ısticas ICA (las mismas que el número de imágenes que fueron utilizadas para el entrenamiento). Dentro de los experimentos desarrollados, no nos fue posible reproducir los resultados obtenidos por Jain y Huang [JH04]. En los experimentos realizados, la mejor tasa de acierto obtenida fue 93,57 %, y que coincide con los experimentos PCA+LDAyPCA-M+LDA. La razón más probable de esta discrepancia entre los resultados de [JH04] y los presentados en la Tabla 2.2, se deba a que utilizaron una base de datos pequeña y que sus evaluaciones pueden haber estado sesgadas.

Base de datos de Mäkinen and Raisamo. Finalmente, por completitud, pro- cesamos el mismo conjunto de datos usados por Mäkinen y Raisamo en sus experimentos [MR08a]. Para esto empleamos el mismo procedimiento descrito en este cap´ıtulo (detección de la cara, ecualización del histograma y recorte de la imagen). Debido al tamaño de la base de datos, desarrollamos todos los experimentos excepto el que utilizaLDAsin un subespacio intermedio, debido a que la muestra de imágenes no es lo suficientemente grande para condicionar bien la matriz Sm.

Una vez entrenados los clasificadores con los Algoritmos 2.1, 2.2 y 2.3 con el conjunto de imágenes de entrenamiento y pruebas propuesto por Mäkinen and Raisamo (304 imágenes y 107 imágenes, respectivamente) calculamos la

42 Clasificador Unidimensional de Atributos Faciales Demogr´aficos 0 100 200 300 400 500 600 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 Número de características Tasa de acierto

PCA+LDA vs ICA+LDA (FERET)

PCA+LDA ICA+LDA (a) 0 100 200 300 400 500 600 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Número de características Tasa de acierto

PCA+LDA vs ICA+LDA (UCN)

PCA+LDA ICA+LDA

(b)

Figura 2.12: Comparaci´on entre PCA+LDA y ICA+LDA utilizando las bases de datos FERET (a) y UCN(b).

2.4 Experimentos 43 bondad de cada clasificador, ver Tabla 2.1. Estos resultados confirman el nota- ble rendimiento logrado por los métodos lineales. Estos experimentos también corroboran la equivalencia entre la implementación SVM que utilizamos y la publicada en [MR08a], donde lograron un 82,62 % de tasa de acierto en imáge- nes de 24×24 p´ıxeles. En nuestro experimentos logramos una tasa de acierto 81,30 % para imágenes de 25×25 p´ıxeles.

Clasificador Base de Datos: Mak¨ınen & Raisamo SVM+RBF 81,30 % (156)

PCA+LDA 85,98 % (48)

PCA-M+LDA 85,04 % (56)

ICA+LDA 85,98 % (48)

Tabla 2.1: Tasas de acierto para el conjunto de imágenes seleccionadas por Mäkinen y Raisamo [MR08a]. En la filaSVM+RBF, se muestra la tasa de acierto obtenida y entre paréntesis los vectores de soporte utilizados por el clasificador. Para los resultados PCA/ICA, se muestra la tasa de acierto obtenida y el número de caracter´ısticas retenidas antes de aplicar LDA entre paréntesis.

Finalmente, los resultados mostrados en la Tabla 2.1 muestran, de nuevo, el buen rendimiento de los métodos lineales (ver fila PCA+LDA,PCA-M+LDA e ICA+LDA en la tabla) y una mejor capacidad de generalización de estos métodos sobre SVM+RBF, en el caso de clasificación de género.

Un último asunto a considerar es la sensibilidad de los clasificadores frente a los giros de la cara fuera del plano de rotación . En este experimento, entrenamos los diferentes clasificadores con las 304 imágenes de caras frontales del subconjunto seleccionado por Mäkinen and Raisamo [MR08a] de la base de datosGray FERET. Para las pruebas se utilizaron 1008 imágenes tomadas en diferentes orientaciones horizontales de la cara de la misma base de datos. A diferencia de la mayor´ıa de los experimentos desarrollados en este cap´ıtulo, se alinearon las caras manualmente debido a que para ángulos extremos el detector de caras perd´ıa la mayor´ıa de éstas. En la Figura 2.13 se muestran los resultados de éstas pruebas. Las asimetr´ıas vistas en el gráfico son causadas por que algunas imágenes de entrenamiento que han sido rotadas levemente hacia ángulos negativos. En promedio, todos los métodos tienen un rendimiento similar, mostrando un mejor rendimiento en los ángulos de rotación negativos más extremos con respecto a los ángulos positivos. Para los algoritmos basados en Boosting observamos un rendimiento levemente mejor para los rangos negativos, mientras que los métodos lineales son marginalmente superiores en los rangos positivos.

44 Clasificador Unidimensional de Atributos Faciales Demogr´aficos

Clasificador Base de Datos

FERET FERET Alineada PAL UCN

SVM+RBF 93,95±2,60 % (247) C=100;γ= 0,001 93,46±1,65 % (314) C=10;γ= 0,003 89,81±1,55 % (320) C=20;γ= 0,01 95,39±0,21 % (1891) C=100;γ= 0,002 PCA+LDA 93,33±2,33 % (130) 93,57±1,39 % (120) 85,52±3,01 % (180) 92,86±0,64 % (460) PCA-M+LDA 92,83±0,75 % (100) 93,57±1,25 % (60) 84,83±1,98 % (140) 92,86±0,77 % (300) ICA+LDA 93,33±2,33 % (130) 93,57±1,39 % (120) 85,52±3,01 % (180) 92,86±0,64 % (460) LDA 77,68±2,61 % 77,09±2,26 % —— 92,65±0,65 % Baluja625 92,12±1,36 % 93,17±1,65 % 85,86±2,48 % 93,87±0,64 % Baluja1000 93,33±1,06 % 93,07±1,99 % 87,24±1,27 % 94,67±0,30 % Tabla 2.2: Tasas de clasificación y desviación estándar sobre una única base de datos para entrenamiento y pruebas utilizando validación cruzada5-fold. En las filas SVM y LDA, respectivamente, se muestra entre paréntesis el número de vectores de soporte o el número de caracter´ısticas capturadas para antes de realizar elLDA. Para el caso del SVM también se muestran los mejores parámetros C y γ.

−60 −40 −20 0 20 40 60 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 Ángulo en grados Tasa de acierto PCA+LDA PCA−M+LDA Baluja625 Baluja1000 SVM−RBF Sensibilidad de los clasi cadores fuera del plano de rotación

Figura 2.13: Sensiblidad de los clasificadores para giros de la cara fuera del plano de rotaci´on.

2.4 Experimentos 45 En general, el rendimiento de todos los experimentos con clasificadores sobre una ´

unica base de datos es muy similar a lo visto en el estado del arte. Sin embargo, en la Tabla 2.2 podemos observar una significativa diferencia de rendimiento cuando empleamos un gran conjunto de im´agenes para el entrenamiento de un clasificador, como es el caso de UCN. El clasificadorSVM+RBF muestra el mejor rendimiento, lo que ratifica los resultados equivalentes entrados en [MR08a,BR07].

In document Estimación eficiente de atributos demográficos del rostro humano en imágenes (página 64-75)