Pruebas con cruce de base de datos - Estimación eficiente de atributos demográficos del rostro

2.4. Experimentos

2.4.2. Pruebas con cruce de base de datos

En estos experimentos efectuamos un conjunto de pruebas de clasificación cruzando bases de datos. Es decir, se utilizó una base de datos para el entrenamiento del clasificador y otra base de datos totalmente diferente para probar su rendimien- to. La idea principal de este tipo de experimentos es poder evaluar la capacidad de generalización que tienen los clasificadores al enfrentar conjuntos de imágenes nuevas con condiciones ambientales diferentes (razas, edades, iluminaciones, dispo- sitivos de captura, etc.). Para esta segunda etapa de experimentos, los algoritmos lineales usaron la mejor dimensión del subespacio previo obtenido en los entrena- mientos realizados sobre una única base de datos, Sección 2.4.1. Los resultados de estos experimentos se pueden observar en la Tabla 2.3.

Con el propósito de ilustrar de mejor manera el comportamiento obtenido en los experimentos realizados, esquematizamos un conjunto de histogramas para mostrar el comportamiento de los clasificadores basados en la proyección PCA+LDA. En la Figura 2.14(a) y Figura 2.14(b) mostramos la frecuencia obtenida a partir de las imágenes del conjunto de pruebas proyectadas sobre el espacio generadoPCA+LDA del conjunto de entrenamiento. En ambas figuras se muestra el caso extremo de proyectar el conjunto de pruebas sobre el subespacio generado PCA+LDA de la misma base de datos. Donde observamos que la distribución entre las proyecciones asociadas a hombres y mujeres tienen una clara forma Gaussiana. Igualmente, realizamos el mismo tipo de esquemas cruzando bases de datos distintas. En las Figura 2.14(c), Figura 2.14(d), Figura 2.14(e) y Figura 2.14(f) notamos que las proyecciones PCA+LDA del conjunto de pruebas muestran una clara tendencia a distribuciones Gaussianas, sin embargo, esto no es tan evidente en los casos cuando las bases de datos contienen imágenes con grandes cambios de apariencia debido a su demograf´ıa, por ejemplo PAL. Adicionalmente, advertimos en los resultados obtenidos de los conjuntos de pruebas donde hay cambios bruscos de demograf´ıa, que las distribuciones entre hombres y mujeres tienden a estar más solapadas lo que tiene un impacto directo en la capacidad discriminante del clasificador y su rendimiento. En

46 Clasificador Unidimensional de Atributos Faciales Demogr´aficos −100 −50 0 50 100 0 500 1000 1500 Hombre Mujer F recuen cia

Entrenamiento: UCN Prueba: UCN

PCA+LDA −200 −100 0 100 200 0 20 40 60 80 Hombre Mujer F recuen cia

Entrenamiento: FERET Prueba: FERET

PCA+LDA (a) (b) −1000 −50 0 50 100 50 100 150 Entrenamiento:UCN Prueba:FERET Hombre Mujer F recuen cia PCA+LDA −300 −200 −100 0 100 200 300 0 100 200 300 400 500 600 Hombre Mujer F recuen cia

Entrenamiento: FERET Prueba: UCN

PCA+LDA (c) (d) −1000 −50 0 50 100 20 40 60 80 Hombre Mujer F recuen cia

Entrenamiento: UCN Prueba: PAL

PCA+LCA − 2000 ₋100 0 100 200 10 20 30 40 Hombre Mujer F recuen cia

Entrenamiento: FERET Prueba: PAL

PCA+LDA

(e) (f)

Figura 2.14: Los histogramas muestran la frecuencia de los valores proyectados de las imágenes de pruebas dentro del subespacioPCA+LDAcalculadas desde el conjunto de imágenes de entrenamiento. Los histogramas (a) y (b) muestran el caso extremo de entrenar y proyectar el conjunto de pruebas sobre la misma base de datos. Los histogramas (c) y (d) muestran las proyecciones con un conjunto de entrenamiento y pruebas diferentes pero con un grupos demográficos similares. Finalmente, los histogramas (e) y (f) muestran las proyecciones con un conjunto de entrenamiento y pruebas diferentes con grupos demográficos diferentes.

2.4 Experimentos 47

Clasificador Entrenamiento/Pruebas

FERET/UCN UCN/FERET FERET/PAL UCN/PAL SVM+RBF 81,29 % 91,03 % 67,53 % 79,27 % PCA+LDA 80,90 % 88,72 % 70,64 % 72,88 % PCA-M+LDA 80,35 % 88,92 % 71,50 % 73,23 % LDA 72,99 % 88,72 % 63,73 % 73,75 % Baluja625 83,75 % 90,72 % 68,39 % 74,61 % Baluja1000 84,18 % 89,85 % 70,12 % 73,57 % Clasificador Entrenamiento/Pruebas

PAL/FERET PAL/UCN Mak-ba/PAL Mak-ba/UCN SVM+RBF 78,65 % 74,09 % 64,07 % 60,86 % PCA+LDA 74,32 % 76,53 % 75,47 % 72,11 % PCA-M+LDA 76,13 % 76,09 % 70,12 % 67,16 % LDA —— —— —— —— Baluja625 77,14 % 75,18 % 71,50 % 65,24 % Baluja1000 78,85 % 76,23 % 65,53 % 61,43 %

Tabla 2.3: Tasas de clasificaci´on para experimentos con cruce de base de datos (Base de datos de entrenamiento/Base de datos de pruebas).

la Tabla 2.3 observamos este hecho cuando utilizamos FERET o UCN como conjunto de entrenamiento y PAL como conjunto de pruebas, el rendimiento del clasificador cae entre un 10 % y 20 % aproximadamente en términos de tasa de acierto. A pesar de estos resultados, la aproximación que utilizaLDAlogra resultados comparables a las de un clasificador SVM+RBF cuando éste se entrena con suficientes datos y con una selección adecuada de caracter´ısticas previas. Los algoritmosLDAySVM+RBF no pueden generalizar tan bien como PCA+LDA o PCA-M+LDA en las pruebas

FERET/PAL. Esto se puede deber al sobreajuste generado al entrenar el clasificador con la base de datos FERET.

Como complemento a lo anterior, y para relacionar la información contenida en el valor de la proyecciónLDA, mostramos la imagen retroproyectada de éste cuando entrenamos el LDA utilizando las imágenes de la base de datos FERET. Se puede apreciar en la Figura 2.15 que las imágenes obtenidas a partir del LDA con valores negativos generan caras que tiene una apariencia más relacionada con el género masculino, por otro lado, las proyecciones más positivas muestran reconstrucciones de imágenes con una apariencia más femenina.

48 Clasificador Unidimensional de Atributos Faciales Demogr´aficos

LDA: ₋150 LDA: ₋137 LDA: ₋124 LDA: ₋111 LDA: ₋98 LDA: ₋85 LDA: ₋72 LDA: ₋59

LDA: ₋46 LDA: ₋33 LDA: ₋20 LDA: ₋7 LDA: 6 LDA: 19 LDA: 32 LDA: 45

LDA: 58 LDA: 71 LDA: 84 LDA: 97 LDA: 110 LDA: 123 LDA: 136 LDA: 149

Figura 2.15: Reconstrucci´on de la imagen de una cara a partir de su proyecci´on LDA.

observamos que, al igual que los resultados encontrados en los experimentos para una ´unica base de datos, el rendimiento de los clasificadores es diferente dependiendo del tipo de base de datos que utilicemos para el entrenamiento y las pruebas. A continuaci´on se discuten los resultados:

Cruces con grupos demogr´aficos similares. Las bases de datos FERET y UCN

tienen similar demograf´ıa pero con diferentes condiciones de adquisición. Las pruebas entre las bases de datosFERETyUCNnos muestran resultados similares a los discutidos en las pruebas sobre una única base de datos, Sección 2.4.1. Sin embargo, existe una notoria disminución en el rendimiento cuando entrenamos un clasificador usando la base de datos FERET y luego probamos con la base de datos UCN(FERET/UCN), quizás causado por las condiciones más generales de adquisición de las imágenes que se encuentran en la base de datos UCN. También, observamos que los resultados obtenidos enFERET/UCNson bastante malos, en comparación con el resto, utilizando el clasificador LDA. Sin embargo, cuando en el entrenamiento utilizamos las imágenes de la base de datos

UCN y luego la probamos empleando la base de datos FERET (UCN/FERET), la aproximaci´on LDA puede competir con otros procedimientos de clasificaci´on. Este resultado confirma los experimentos previos que realizamos sobre una ´

unica base de datos.

Cruces con grupos demogr´aficos diferentes. El cruce de base de datos entre

2.4 Experimentos 49 de generalizaci´on del clasificador. Por ejemplo, cuando utilizamos PAL observamos que la demograf´ıa es muy diferente a la que encontrar´ıamos enFERET y

UCN.PALes una base de datos que incluye diferentes grupos étnicos y un amplio rango de edades, ver Figura 2.5. TantoFERETcomoUCNson demográficamente hablando un subconjunto de PAL. Estas diferencias en las condiciones de ad- quisición entre las diferentes bases de datos nos permite destacar el impacto que tienen éstas al entrenar un clasificador. Si el entrenamiento se hace sobre una base de datos grande, el clasificadorSVM+RBF claramente logra el mejor rendimiento (UCN/PAL). Cuando el entrenamiento es sobre bases de datos más pequeñas (PALyFERET), la diferencia entre rendimientos llega a ser más estre- cha. En los casos más complicados, como el cruce FERET/PAL, dado que base de datosFERETcuenta con una variedad demográfica de caras y condiciones de iluminación muy homogéneas; y el cruce PAL/UCN, donde la base de pruebas

UCNcontiene imágenes con condiciones de adquisición variables, el desempeño del clasificadorSVM+RBF está ligeramente por detrás de las aproximaciones de boosting y clasificadores lineales, siendo este último clasificador el que ob- tuvo el mejor rendimiento. En las pruebas PAL/FERET las aproximaciones de SVMs y boosting son marginalmente mejores, a pesar de que PAL es una base de datos pequeña. Ésto quizás se deba a que PALofrece una amplia demograf´ıa en caras, especialmente en lo que se refiere a tipos de razas y rango de edades.

Tamaño de la base de datos. Los experimentos, junto con el análisis de sensibi- lidad de la Sección 2.4.1, parecen sugerir que los clasificadores lineales tienden a ser mejores en situaciones donde los datos son muy escasos y con baja variabilidad (p. ej. con demograf´ıa restringida). Para confirmar esta hipótesis hemos desarrollado un último experimento entrenando los clasificadores con la galer´ıa

FERETpropuesta por Mäkinen and Raisamo [MR08b],pose-ba, la cual contiene 112 imágenes de caras frontales (56 de hombres y 56 de mujeres) y donde la mayor´ıa de éstas son caucásicos. Las bases de pruebas que seleccionamos sonPAL

y UCNdebido a su variabilidad demográfica y/o de condiciones de adquisición. Para el entrenamiento de los clasificadores empleamos el mismo procedimien- to de la Sección 2.4.1. Los parámetros utilizados para el entrenamiento de los clasificadores son: 1) C=10 y γ = 0,007 para SVM+RBF, 2) 37 caracter´ısti- cas para PCA+LDAy 3) 80 caracter´ısticas para PCA-M+LDA. En este caso, ver las columnasMak-ba/PAL y Mak-ba/UCN en la Tabla 2.3, las diferencias de rendimientos entre los clasificadores es bastante grande. SVM+RBF tiene un rendimiento más bajo en comparación al clasificador PCA+LDA que está claramente por delante del resto.

50 Clasificador Unidimensional de Atributos Faciales Demográficos Análisis de los errores de clasificación

Como es evidente, los clasificadores presentan errores en su estimación. En esta sección, analizaremos algunos de los errores de clasificación encontrados en los ex- perimentosFERET/PALporque son posiblemente el conjunto de datos más desafiante en términos de generalización requerida para un clasificador (ver Figura 2.16). Los errores encontrados son causados principalmente por los cambios de apariencia entre las diferentes edades o razas que no se encuentran presentes en los conjuntos de entrenamiento. Por ejemplo, en el caso de FERET tenemos muy pocas imágenes de mujeres ancianas, esto presenta una gran desventaja cuando probamos el clasificador con la base de datos PAL. En este experimento, gran parte de las imágenes son clasificadas como hombres (ver las primeras dos imágenes en la segunda fila de la Figura 2.16).

De igual manera, la mayor´ıa de las imágenes en FERET son caucásicos (de raza blanca). Por consiguiente es más probable que las muestras enPALque pertenezcan a otras razas sean más dif´ıciles de clasificar. Finalmente, incluso con razas y diferentes rangos de edades en el conjunto de entrenamiento hay caras que son dif´ıciles de clasificar (ver las primeras dos imágenes en la primera fila o la tercera imagen en la segunda fila de la Figura 2.16).

Figura 2.16: Algunos ejemplos de imágenes clasificadas erróneamente cuando se entrena con FERET y se prueba con las imágenes de PAL. La primera fila, muestra imágenes hombres clasificadas como mujeres. La segunda fila, muestra las imágenes de mujeres clasificadas como hombres.

In document Estimación eficiente de atributos demográficos del rostro humano en imágenes (página 75-80)