2.4. Experimentos
2.4.1. Pruebas con una ´ unica base de datos
Los primeros experimentos se efectuaron sobre las bases de datos descritas al co- mienzo de esta secci´on, para m´as detalle recomendamos revisar el Ap´endice A. Cada base de datos la evaluamos individualmente, y para cada experimento utilizamos un esquema de validaci´on cruzada (5-fold) para comprobar la bondad de cada modelo. En la tabla 2.2 se muestra el resultado de cada uno de estos experimentos, en general, la mayor´ıa de los experimentos utilizan im´agenes de caras que no han sido alineadas manualmente excepto en el caso de la base de datos FERET. En este caso particular, realizamos un experimento para aquellas im´agenes que estaban no alineadas (Columna FERET, en tabla 2.2) y, otro, para las im´agenes que fueron
2.4 Experimentos 35 10−3 10−2 10−1 88 89 90 91 92 93 94 95 96 GAMMA Tasa de acierto CHILE −UCN C1 C10 C1000
(a) Experimento UCN
10−3 10−2 10−1 72 74 76 78 80 82 84 86 88 90 X: 0.044 Y: 87.22 GAMMA Tasa de acierto PAL C1 C21 C991 (b) Experimento PAL 10−3 10−2 10−1 85 86 87 88 89 90 91 92 93 94 GAMMA Tasa de acierto FERET C1 C101 C991
(c) Experimento FERET no alineado
10−3 10−2 10−1 80 82 84 86 88 90 92 94 GAMMA Tasa de acierto FERET−ALIGN C1 C11 C991
(d) Experimento FERET alineado
Figura 2.8: Pruebas sobre un clasificador SVM+RBF utilizando diferentes par´ame- tros C y γ para varias bases de datos.
alineadas manualmente (Columna FERET alineadas, en tabla 2.2).
De losresultados obtenidosen cada uno de los experimentos se puede observar que para cada clasificador sobre una ´unica base de datos se obtiene un comporta- miento distinto dependiendo de diferentes factores que son discutidos a continuaci´on:
Alineamiento manual vs caras no alineadas. Uno de los primeros resultados visibles que encontramos en la Tabla 2.2 es que no encontramos una diferencia significativa entre los rendimientos de los clasificadores entrenados con im´age- nes de caras alineadas manualmente o las que utilizamos directamente desde el detector de caras. Confirmando los resultados previos obtenidos por Mak¨ınen
36 Clasificador Unidimensional de Atributos Faciales Demogr´aficos y otros [MR08a]. Creemos que esto se debe a la capacidad del detector de caras de entregar im´agenes lo suficientemente alineadas para ser utilizadas directa- mente por el clasificador sin perjudicar significativamente su rendimiento. Para confirmar esta hip´otesis realizamos un peque˜no experimento utilizando las im´agenes alineadas de la galer´ıaFERETfa. Sobre ´estas aplicamos el detector de caras implementado en OpenCV. A partir de la informaci´on conseguida de las coordenadas originales (etiquetadas manualmente) y las obtenidas por el detector de caras, dibujamos la distribuci´on de coordenadas originales dentro de la ventana adquirida desde el detector de caras ajustada a una imagen de 25×25 p´ıxeles, ver Figura 2.9. La desviaci´on est´andar de los nuevos puntos coordenados es de 0.5 p´ıxel. Esto confirma que para caras escaladas a 25×25 desde FERET fa la precisi´on de detector de caras es cerca del la mitad de un p´ıxel. Cabe observar, que esto es solo verdadero para la galer´ıa frontal deFERET
fa, obviamente, cuando las caras est´an rotadas la precisi´on del clasificador, en t´erminos de tasa de acierto, deber´ıa disminuir.
5 10 15 20 25 5 10 15 20 25
Figura 2.9: Coordenadas de ojos manualmente etiquetados (puntos rojos y azules) a partir de caras detectadas desde la galer´ıa FERET fa utilizando el detector de caras de OpenCV.
Clasificaci´on LDA. En la clasificaci´on utilizando LDA logramos un 77,68 % de tasa de acierto sobre FERET. En las pruebas no se consider´o la base de datos
PALya que la matrizSmtiene unrangocercano a cero, causado por el peque˜no
tama˜no de la muestra. Estos experimentos confirman los malos resultados ob- tenidos por Moghaddam y Yang [MY02] utilizandoLDA. Ellos obtuvieron un 86,07 % para el reconocimiento de g´enero en t´erminos de tasa de acierto, y que incluso es superior al obtenido en nuestros experimentos. Esta diferencia la podemos explicar por la forma en que desarrollaron sus experimentos, don- de incluyeron im´agenes de los mismos individuos en los diferentes folds para
2.4 Experimentos 37 la validaci´on de sus clasificadores. Adem´as, contaban con un n´umero mayor de im´agenes (alrededor de 2000) que las utilizadas en nuestros experimentos. Estos exiguos resultados preliminares nos llevan a pensar que esta pudo haber sido la causa de que las subsecuentes aproximaciones hayan desestimado el algoritmo LDA.
Por el contrario, si utilizamosLDAsobre una base de datos con un gran n´umero de im´agenes como las contenidas en UCN, con alrededor de 10000 im´agenes, obtenemos una tasa de acierto del 92,65 %. A partir estos resultados, se puede concluir que a causa de la “maldici´on” de la dimensionalidad, 993 im´agenes no son suficientes para suministrar informaci´on para que el LDA encuentre la o las proyecciones correctas para un espacio de 625 dimensiones. Incrementando el n´umero de im´agenes de entrenamiento a 10000 ofrecemos suficientes datos al LDApara llegar a obtener un clasificador competitivo.
De igual manera, si el problema es de alta dimensionalidad como en nuestro caso (625 dimensiones) una base de datos como FERET (994 im´agenes) no entrega una buena soluci´on al usarLDA, a pesar de queSm sea una matriz de
rango completo.
Clasificaci´on PCA+LDA. Uno de los principales motivos de mejora vistos has- ta ahora es seleccionar de manera adecuada los mejores vectores propios cal- culados a partir del algoritmo PCA. Esto nos permite construir vectores de caracter´ısticas apropiados para el entrenamiento del subespacioLDA. En este estudio probamos dos m´etodos para la selecci´on de caracter´ısticas:
1. PCA+LDA(P´agina 24). 2. PCA-M+LDA(P´agina 27).
En cada caso, se utiliz´o el Algoritmo 2.1 y el Algoritmo 2.2, respectivamen- te, para seleccionar las mejores dimensiones para el subespacio PCA. En la Tabla 2.2 se muestran los resultados logrados para este procedimiento ite- rativo. Se puede advertir que el LDA no tiene la capacidad para aprender la mejor proyecci´on cuando se utilizan pocas im´agenes, como es el caso 993 im´agenes (ver la columna FERET de la Tabla 2.2). Sin embargo, si aplicamos una reducci´on de la dimensionalidad antes del LDA, tal como PCA+LDA y PCA-M+LDA, logramos rendimientos competitivos y comparables al estado del arte. Estos resultados se obtienen a partir de un clasificador lineal y una apropiada extracci´on de caracter´ısticas.
En ambos casos, tanto para PCA+LDA como PCA-M+LDA, realizamos las pruebas utilizando una validaci´on cruzada 5-fold iterativa, que incrementa el n´umero de vectores propios calculados al aplicar PCA, previo al LDA para
38 Clasificador Unidimensional de Atributos Faciales Demogr´aficos buscar el mejor clasificador. Los gr´aficos PCA-M+LDAyPCA+LDAmostra- dos en la Figura 2.10 confirman el buen rendimiento conseguido al utilizar un procedimiento de ordenamiento de los valores propios, y en consecuencia de los vectores propios, generados por el PCA. Seleccionamos aquellos vectores que contribuyen con una mayor varianza iterativamente, en grupos de diez en diez, hasta lograr una tasa de acierto ´optima en la proyecci´on generada por el LDA. En las curvas mostradas en las figuras, observamos que en general para el algoritmo que utiliza una proyecci´onPCA-M+LDAobtenemos la mejor tasa de clasificaci´on dentro de los 100 primeros vectores propios ordenados por los ´ındicesIjy calculados a partir de la ecuaci´on 2.5. En las mismas circunstancias,
la mejor tasa de clasificaci´on para PCA+LDAse encuentra entre los primeros 130 vectores propios con una mayor varianza. Igualmente, confirmamos que al usar una base de datos grande, como lo es UCN, el rendimiento del clasificador no depende de las las dimensiones intermedias del subespacio generado por el PCA. En este caso, se puede asegurar que el rendimiento del LDA tendr´a un rendimiento equivalente si se aplica directamente sobre los datos originales o sobre el subespacio intermedio generado por el PCA cuando se utilizan todas sus dimensiones de proyecci´on.
¿Cu´al es la raz´on para conseguir tan buenos resultados con los algoritmos PCA+LDA y PCA-M+LDA? La raz´on de que los algoritmos PCA+LDA y PCA-M+LDA sean exitosos se debe a que ellos disminuyen la maldici´on de la dimensionalidad del LDA ya que como paso previo solo seleccionamos las direcciones m´as discriminantes dadas por el PCA. En los experimentos mos- trados, tanto el PCA+LDA como el PCA-M+LDA se comportan de manera similar. Esto es porque en nuestro problema los vectores propios m´as discri- minantes son aquellos que tienen la mayor varianza, ya que la mayor´ıa de las im´agenes empleadas no tienen grandes cambios de iluminaci´on, son expre- siones neutras y frontales. A consecuencia de esto, la mayor variabilidad se concentra solo en las diferencias que observamos entre una persona u otra, y por lo tanto los cambios de apariencia en el g´enero aparecen explicados en la mayor´ıa de la varianza existente de los datos. En conclusi´on, para este tipo de problemas los clasificadores lineales propuestos funcionan correctamente y con rendimientos que bordean o igualan el estado del arte. Es probable que esta afirmaci´on no sea completamente cierta en otras bases de datos de im´age- nes donde los cambios de pose, calidad de adquisici´on, iluminaci´on, entre otros factores; sean diferentes o con mayor variabilidad que las consideradas en estos experimentos.
Otro hecho interesante es que dependiendo del n´umero de im´agenes, el n´ume- ro de caracter´ısticas PCA necesarias para obtener una buena clasificaci´on es
2.4 Experimentos 39 0 100 200 300 400 500 600 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Número de características Tasa de acierto PCA + LDA UCN FERET FERET ALIGN (a) 0 100 200 300 400 500 600 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Número de características Tasa de acierto PCA M+LDA UCN FERET FERET ALIGN (b)
Figura 2.10: Rendimiento de la clasificaci´on (variable Rj en el Algoritmo 2.1) a
medida que el subespacio intermedio PCA incrementa para (a) PCA+LDA y (b) PCA-M+LDA.
40 Clasificador Unidimensional de Atributos Faciales Demogr´aficos distinto (p. ej. En la base de datos FERET los resultados obtenidos utilizando PCA, Tabla 2.2, necesitaron 130 caracter´ısticas mientras que en el caso de la base de datos UCN fueron necesarias 460). Estos resultados se oponen a los encontrados en la literatura donde generalmente se utiliza un n´umero fijo de caracter´ısticas para la clasificaci´on o se calcula por medio de la proporci´on de varianza explicada [ZM06a], ambos m´etodos no son los m´as indicados para una buena selecci´on de caracter´ısticas. Como resultado de esto, advertimos que es necesario considerar una correcta selecci´on de las caracter´ısticasPCAantes de la clasificaci´on.
Clasificaci´on ICA+LDA. Otro resultado interesante es el de estimar el subespa- cio intermedio utilizandoICAen lugar dePCA. En el Algoritmo 2.3 mostramos como estimar la dimensi´on del subespacio y obtener las mejores caracter´ısticas para la etapa de clasificaci´on. En la Tabla 2.2 y en la Figura 2.11 se mues- tran los resultados de nuestros experimentos. No es sorprendente observar que los resultados para ICA+LDA y PCA+LDA sean muy similares. Al mismo tiempo, ambas aproximaciones tienen las mismas tasas de clasificaci´on cuando el n´umero de caracter´ısticas seleccionadas es lo suficientemente grande, ver Fig. 2.12. Estos resultados eran te´oricamente previsibles, puesto que, FastICA es equivalente a blanqueado del PCA m´as una rotaci´on [VHH07] y LDA es una t´ecnica que es invariante a la rotaci´on, en ese sentido tanto PCA+LDA como FastICA son equivalentes cuando no realizamos una selecci´on de carac- ter´ısticas. 0 100 200 300 400 500 600 0.76 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Número de características Tasa de acierto
ICA+LDA, Distancia a la media
UCN DB FERET FERET ALign
Figura 2.11: Rendimiento de la clasificaci´on (variable Rj en el Algoritmo 2.3) a
2.4 Experimentos 41 Para los experimentos realizados con ICA+LDA utilizamos una base datos de prueba con 993 individuos seleccionados desde Color FERET. Siguiendo el mismo camino utilizado para los algoritmos PCA+LDAoPCA-M+LDA, rea- lizamos las pruebas con un n´umero diferente de caracter´ısticas ICA antes de utilizar LDA con un esquema de validaci´on cruzada 5-fold (ver Tabla 2.2 y Figura 2.11) un clasificador Bayesiano (Tabla 2.2, fila ICA+LDA).
Un resultado emp´ırico interesante es que tanto las aproximaciones ICA+LDA y PCA+LDAtienen las mismas tasas de clasificaci´on cuando el n´umero de ca- racter´ısticas seleccionadas es lo suficientemente grande (ver Figura 2.12). Este resultado no contradice lo explicado anteriormente y confirma los resultados obtenidos [VHH07].
De la misma manera, Jain y Huang publicaron una tasa de acierto del 99,3 % en un experimento utilizandoFastICA+LDAy un clasificador eucl´ıdeo [JH04]. Probaron su aproximaci´on con 500 im´agenes utilizando la base de datosFERET. Para el entrenamiento utilizaron 200 im´agenes (100 hombres y 100 mujeres) y las 300 im´agenes restantes (150 hombres y 150 mujeres) se utilizaron para pruebas. Adem´as, alinearon las im´agenes utilizando la posici´on de los ojos, las ecualizaron, agregaron una m´ascara para evitar la influencia del fondo en la imagen y, finalmente, las redimensionaron a una escala de 64×96 p´ıxeles. Para construir el clasificador utilizaron 200 caracter´ısticas ICA (las mismas que el n´umero de im´agenes que fueron utilizadas para el entrenamiento). Dentro de los experimentos desarrollados, no nos fue posible reproducir los resultados obtenidos por Jain y Huang [JH04]. En los experimentos realizados, la mejor tasa de acierto obtenida fue 93,57 %, y que coincide con los experimentos PCA+LDAyPCA-M+LDA. La raz´on m´as probable de esta discrepancia entre los resultados de [JH04] y los presentados en la Tabla 2.2, se deba a que utilizaron una base de datos peque˜na y que sus evaluaciones pueden haber estado sesgadas.
Base de datos de M¨akinen and Raisamo. Finalmente, por completitud, pro- cesamos el mismo conjunto de datos usados por M¨akinen y Raisamo en sus experimentos [MR08a]. Para esto empleamos el mismo procedimiento descrito en este cap´ıtulo (detecci´on de la cara, ecualizaci´on del histograma y recorte de la imagen). Debido al tama˜no de la base de datos, desarrollamos todos los experimentos excepto el que utilizaLDAsin un subespacio intermedio, debido a que la muestra de im´agenes no es lo suficientemente grande para condicionar bien la matriz Sm.
Una vez entrenados los clasificadores con los Algoritmos 2.1, 2.2 y 2.3 con el conjunto de im´agenes de entrenamiento y pruebas propuesto por M¨akinen and Raisamo (304 im´agenes y 107 im´agenes, respectivamente) calculamos la
42 Clasificador Unidimensional de Atributos Faciales Demogr´aficos 0 100 200 300 400 500 600 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 Número de características Tasa de acierto
PCA+LDA vs ICA+LDA (FERET)
PCA+LDA ICA+LDA (a) 0 100 200 300 400 500 600 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 Número de características Tasa de acierto
PCA+LDA vs ICA+LDA (UCN)
PCA+LDA ICA+LDA
(b)
Figura 2.12: Comparaci´on entre PCA+LDA y ICA+LDA utilizando las bases de datos FERET (a) y UCN(b).
2.4 Experimentos 43 bondad de cada clasificador, ver Tabla 2.1. Estos resultados confirman el nota- ble rendimiento logrado por los m´etodos lineales. Estos experimentos tambi´en corroboran la equivalencia entre la implementaci´on SVM que utilizamos y la publicada en [MR08a], donde lograron un 82,62 % de tasa de acierto en im´age- nes de 24×24 p´ıxeles. En nuestro experimentos logramos una tasa de acierto 81,30 % para im´agenes de 25×25 p´ıxeles.
Clasificador Base de Datos: Mak¨ınen & Raisamo SVM+RBF 81,30 % (156)
PCA+LDA 85,98 % (48)
PCA-M+LDA 85,04 % (56)
ICA+LDA 85,98 % (48)
Tabla 2.1: Tasas de acierto para el conjunto de im´agenes seleccionadas por M¨akinen y Raisamo [MR08a]. En la filaSVM+RBF, se muestra la tasa de acierto obtenida y entre par´entesis los vectores de soporte utilizados por el clasificador. Para los resulta- dos PCA/ICA, se muestra la tasa de acierto obtenida y el n´umero de caracter´ısticas retenidas antes de aplicar LDA entre par´entesis.
Finalmente, los resultados mostrados en la Tabla 2.1 muestran, de nuevo, el buen rendimiento de los m´etodos lineales (ver fila PCA+LDA,PCA-M+LDA e ICA+LDA en la tabla) y una mejor capacidad de generalizaci´on de estos m´etodos sobre SVM+RBF, en el caso de clasificaci´on de g´enero.
Un ´ultimo asunto a considerar es la sensibilidad de los clasificadores frente a los giros de la cara fuera del plano de rotaci´on . En este experimento, entrenamos los diferentes clasificadores con las 304 im´agenes de caras frontales del subconjunto seleccionado por M¨akinen and Raisamo [MR08a] de la base de datosGray FERET. Para las pruebas se utilizaron 1008 im´agenes tomadas en diferentes orientaciones horizontales de la cara de la misma base de datos. A diferencia de la mayor´ıa de los experimentos desarrollados en este cap´ıtulo, se alinearon las caras manualmente debido a que para ´angulos extremos el detector de caras perd´ıa la mayor´ıa de ´estas. En la Figura 2.13 se muestran los resultados de ´estas pruebas. Las asimetr´ıas vistas en el gr´afico son causadas por que algunas im´agenes de entrenamiento que han sido rotadas levemente hacia ´angulos negativos. En promedio, todos los m´etodos tienen un rendimiento similar, mostrando un mejor rendimiento en los ´angulos de rotaci´on negativos m´as extremos con respecto a los ´angulos positivos. Para los algoritmos basados en Boosting observamos un rendimiento levemente mejor para los rangos negativos, mientras que los m´etodos lineales son marginalmente superiores en los rangos positivos.
44 Clasificador Unidimensional de Atributos Faciales Demogr´aficos
Clasificador Base de Datos
FERET FERET Alineada PAL UCN
SVM+RBF 93,95±2,60 % (247) C=100;γ= 0,001 93,46±1,65 % (314) C=10;γ= 0,003 89,81±1,55 % (320) C=20;γ= 0,01 95,39±0,21 % (1891) C=100;γ= 0,002 PCA+LDA 93,33±2,33 % (130) 93,57±1,39 % (120) 85,52±3,01 % (180) 92,86±0,64 % (460) PCA-M+LDA 92,83±0,75 % (100) 93,57±1,25 % (60) 84,83±1,98 % (140) 92,86±0,77 % (300) ICA+LDA 93,33±2,33 % (130) 93,57±1,39 % (120) 85,52±3,01 % (180) 92,86±0,64 % (460) LDA 77,68±2,61 % 77,09±2,26 % —— 92,65±0,65 % Baluja625 92,12±1,36 % 93,17±1,65 % 85,86±2,48 % 93,87±0,64 % Baluja1000 93,33±1,06 % 93,07±1,99 % 87,24±1,27 % 94,67±0,30 % Tabla 2.2: Tasas de clasificaci´on y desviaci´on est´andar sobre una ´unica base de datos para entrenamiento y pruebas utilizando validaci´on cruzada5-fold. En las filas SVM y LDA, respectivamente, se muestra entre par´entesis el n´umero de vectores de soporte o el n´umero de caracter´ısticas capturadas para antes de realizar elLDA. Para el caso del SVM tambi´en se muestran los mejores par´ametros C y γ.
−60 −40 −20 0 20 40 60 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 Ángulo en grados Tasa de acierto PCA+LDA PCA−M+LDA Baluja625 Baluja1000 SVM−RBF Sensibilidad de los clasi cadores fuera del plano de rotación
Figura 2.13: Sensiblidad de los clasificadores para giros de la cara fuera del plano de rotaci´on.
2.4 Experimentos 45 En general, el rendimiento de todos los experimentos con clasificadores sobre una ´
unica base de datos es muy similar a lo visto en el estado del arte. Sin embargo, en la Tabla 2.2 podemos observar una significativa diferencia de rendimiento cuando empleamos un gran conjunto de im´agenes para el entrenamiento de un clasificador, como es el caso de UCN. El clasificadorSVM+RBF muestra el mejor rendimiento, lo que ratifica los resultados equivalentes entrados en [MR08a,BR07].