2.4. Experimentos
2.4.2. Pruebas con cruce de base de datos
En estos experimentos efectuamos un conjunto de pruebas de clasificaci´on cru- zando bases de datos. Es decir, se utiliz´o una base de datos para el entrenamiento del clasificador y otra base de datos totalmente diferente para probar su rendimien- to. La idea principal de este tipo de experimentos es poder evaluar la capacidad de generalizaci´on que tienen los clasificadores al enfrentar conjuntos de im´agenes nuevas con condiciones ambientales diferentes (razas, edades, iluminaciones, dispo- sitivos de captura, etc.). Para esta segunda etapa de experimentos, los algoritmos lineales usaron la mejor dimensi´on del subespacio previo obtenido en los entrena- mientos realizados sobre una ´unica base de datos, Secci´on 2.4.1. Los resultados de estos experimentos se pueden observar en la Tabla 2.3.
Con el prop´osito de ilustrar de mejor manera el comportamiento obtenido en los experimentos realizados, esquematizamos un conjunto de histogramas para mostrar el comportamiento de los clasificadores basados en la proyecci´on PCA+LDA. En la Figura 2.14(a) y Figura 2.14(b) mostramos la frecuencia obtenida a partir de las im´agenes del conjunto de pruebas proyectadas sobre el espacio generadoPCA+LDA del conjunto de entrenamiento. En ambas figuras se muestra el caso extremo de proyectar el conjunto de pruebas sobre el subespacio generado PCA+LDA de la misma base de datos. Donde observamos que la distribuci´on entre las proyeccio- nes asociadas a hombres y mujeres tienen una clara forma Gaussiana. Igualmente, realizamos el mismo tipo de esquemas cruzando bases de datos distintas. En las Figura 2.14(c), Figura 2.14(d), Figura 2.14(e) y Figura 2.14(f) notamos que las proyecciones PCA+LDA del conjunto de pruebas muestran una clara tendencia a distribuciones Gaussianas, sin embargo, esto no es tan evidente en los casos cuando las bases de datos contienen im´agenes con grandes cambios de apariencia debido a su demograf´ıa, por ejemplo PAL. Adicionalmente, advertimos en los resultados obte- nidos de los conjuntos de pruebas donde hay cambios bruscos de demograf´ıa, que las distribuciones entre hombres y mujeres tienden a estar m´as solapadas lo que tiene un impacto directo en la capacidad discriminante del clasificador y su rendimiento. En
46 Clasificador Unidimensional de Atributos Faciales Demogr´aficos −100 −50 0 50 100 0 500 1000 1500 Hombre Mujer F recuen cia
Entrenamiento: UCN Prueba: UCN
PCA+LDA −200 −100 0 100 200 0 20 40 60 80 Hombre Mujer F recuen cia
Entrenamiento: FERET Prueba: FERET
PCA+LDA (a) (b) −1000 −50 0 50 100 50 100 150 Entrenamiento:UCN Prueba:FERET Hombre Mujer F recuen cia PCA+LDA −300 −200 −100 0 100 200 300 0 100 200 300 400 500 600 Hombre Mujer F recuen cia
Entrenamiento: FERET Prueba: UCN
PCA+LDA (c) (d) −1000 −50 0 50 100 20 40 60 80 Hombre Mujer F recuen cia
Entrenamiento: UCN Prueba: PAL
PCA+LCA − 2000 −100 0 100 200 10 20 30 40 Hombre Mujer F recuen cia
Entrenamiento: FERET Prueba: PAL
PCA+LDA
(e) (f)
Figura 2.14: Los histogramas muestran la frecuencia de los valores proyectados de las im´agenes de pruebas dentro del subespacioPCA+LDAcalculadas desde el conjunto de im´agenes de entrenamiento. Los histogramas (a) y (b) muestran el caso extremo de entrenar y proyectar el conjunto de pruebas sobre la misma base de datos. Los histogramas (c) y (d) muestran las proyecciones con un conjunto de entrenamiento y pruebas diferentes pero con un grupos demogr´aficos similares. Finalmente, los histogramas (e) y (f) muestran las proyecciones con un conjunto de entrenamiento y pruebas diferentes con grupos demogr´aficos diferentes.
2.4 Experimentos 47
Clasificador Entrenamiento/Pruebas
FERET/UCN UCN/FERET FERET/PAL UCN/PAL SVM+RBF 81,29 % 91,03 % 67,53 % 79,27 % PCA+LDA 80,90 % 88,72 % 70,64 % 72,88 % PCA-M+LDA 80,35 % 88,92 % 71,50 % 73,23 % LDA 72,99 % 88,72 % 63,73 % 73,75 % Baluja625 83,75 % 90,72 % 68,39 % 74,61 % Baluja1000 84,18 % 89,85 % 70,12 % 73,57 % Clasificador Entrenamiento/Pruebas
PAL/FERET PAL/UCN Mak-ba/PAL Mak-ba/UCN SVM+RBF 78,65 % 74,09 % 64,07 % 60,86 % PCA+LDA 74,32 % 76,53 % 75,47 % 72,11 % PCA-M+LDA 76,13 % 76,09 % 70,12 % 67,16 % LDA —— —— —— —— Baluja625 77,14 % 75,18 % 71,50 % 65,24 % Baluja1000 78,85 % 76,23 % 65,53 % 61,43 %
Tabla 2.3: Tasas de clasificaci´on para experimentos con cruce de base de datos (Base de datos de entrenamiento/Base de datos de pruebas).
la Tabla 2.3 observamos este hecho cuando utilizamos FERET o UCN como conjunto de entrenamiento y PAL como conjunto de pruebas, el rendimiento del clasificador cae entre un 10 % y 20 % aproximadamente en t´erminos de tasa de acierto. A pesar de estos resultados, la aproximaci´on que utilizaLDAlogra resultados comparables a las de un clasificador SVM+RBF cuando ´este se entrena con suficientes datos y con una selecci´on adecuada de caracter´ısticas previas. Los algoritmosLDAySVM+RBF no pueden generalizar tan bien como PCA+LDA o PCA-M+LDA en las pruebas
FERET/PAL. Esto se puede deber al sobreajuste generado al entrenar el clasificador con la base de datos FERET.
Como complemento a lo anterior, y para relacionar la informaci´on contenida en el valor de la proyecci´onLDA, mostramos la imagen retroproyectada de ´este cuando entrenamos el LDA utilizando las im´agenes de la base de datos FERET. Se puede apreciar en la Figura 2.15 que las im´agenes obtenidas a partir del LDA con valores negativos generan caras que tiene una apariencia m´as relacionada con el g´enero masculino, por otro lado, las proyecciones m´as positivas muestran reconstrucciones de im´agenes con una apariencia m´as femenina.
48 Clasificador Unidimensional de Atributos Faciales Demogr´aficos
LDA: −150 LDA: −137 LDA: −124 LDA: −111 LDA: −98 LDA: −85 LDA: −72 LDA: −59
LDA: −46 LDA: −33 LDA: −20 LDA: −7 LDA: 6 LDA: 19 LDA: 32 LDA: 45
LDA: 58 LDA: 71 LDA: 84 LDA: 97 LDA: 110 LDA: 123 LDA: 136 LDA: 149
Figura 2.15: Reconstrucci´on de la imagen de una cara a partir de su proyecci´on LDA.
observamos que, al igual que los resultados encontrados en los experimentos para una ´unica base de datos, el rendimiento de los clasificadores es diferente dependiendo del tipo de base de datos que utilicemos para el entrenamiento y las pruebas. A continuaci´on se discuten los resultados:
Cruces con grupos demogr´aficos similares. Las bases de datos FERET y UCN
tienen similar demograf´ıa pero con diferentes condiciones de adquisici´on. Las pruebas entre las bases de datosFERETyUCNnos muestran resultados similares a los discutidos en las pruebas sobre una ´unica base de datos, Secci´on 2.4.1. Sin embargo, existe una notoria disminuci´on en el rendimiento cuando entrenamos un clasificador usando la base de datos FERET y luego probamos con la base de datos UCN(FERET/UCN), quiz´as causado por las condiciones m´as generales de adquisici´on de las im´agenes que se encuentran en la base de datos UCN. Tambi´en, observamos que los resultados obtenidos enFERET/UCNson bastante malos, en comparaci´on con el resto, utilizando el clasificador LDA. Sin embar- go, cuando en el entrenamiento utilizamos las im´agenes de la base de datos
UCN y luego la probamos empleando la base de datos FERET (UCN/FERET), la aproximaci´on LDA puede competir con otros procedimientos de clasificaci´on. Este resultado confirma los experimentos previos que realizamos sobre una ´
unica base de datos.
Cruces con grupos demogr´aficos diferentes. El cruce de base de datos entre
2.4 Experimentos 49 de generalizaci´on del clasificador. Por ejemplo, cuando utilizamos PAL obser- vamos que la demograf´ıa es muy diferente a la que encontrar´ıamos enFERET y
UCN.PALes una base de datos que incluye diferentes grupos ´etnicos y un amplio rango de edades, ver Figura 2.5. TantoFERETcomoUCNson demogr´aficamente hablando un subconjunto de PAL. Estas diferencias en las condiciones de ad- quisici´on entre las diferentes bases de datos nos permite destacar el impacto que tienen ´estas al entrenar un clasificador. Si el entrenamiento se hace sobre una base de datos grande, el clasificadorSVM+RBF claramente logra el mejor rendimiento (UCN/PAL). Cuando el entrenamiento es sobre bases de datos m´as peque˜nas (PALyFERET), la diferencia entre rendimientos llega a ser m´as estre- cha. En los casos m´as complicados, como el cruce FERET/PAL, dado que base de datosFERETcuenta con una variedad demogr´afica de caras y condiciones de iluminaci´on muy homog´eneas; y el cruce PAL/UCN, donde la base de pruebas
UCNcontiene im´agenes con condiciones de adquisici´on variables, el desempe˜no del clasificadorSVM+RBF est´a ligeramente por detr´as de las aproximaciones de boosting y clasificadores lineales, siendo este ´ultimo clasificador el que ob- tuvo el mejor rendimiento. En las pruebas PAL/FERET las aproximaciones de SVMs y boosting son marginalmente mejores, a pesar de que PAL es una base de datos peque˜na. ´Esto quiz´as se deba a que PALofrece una amplia demograf´ıa en caras, especialmente en lo que se refiere a tipos de razas y rango de edades.
Tama˜no de la base de datos. Los experimentos, junto con el an´alisis de sensibi- lidad de la Secci´on 2.4.1, parecen sugerir que los clasificadores lineales tienden a ser mejores en situaciones donde los datos son muy escasos y con baja varia- bilidad (p. ej. con demograf´ıa restringida). Para confirmar esta hip´otesis hemos desarrollado un ´ultimo experimento entrenando los clasificadores con la galer´ıa
FERETpropuesta por M¨akinen and Raisamo [MR08b],pose-ba, la cual contiene 112 im´agenes de caras frontales (56 de hombres y 56 de mujeres) y donde la ma- yor´ıa de ´estas son cauc´asicos. Las bases de pruebas que seleccionamos sonPAL
y UCNdebido a su variabilidad demogr´afica y/o de condiciones de adquisici´on. Para el entrenamiento de los clasificadores empleamos el mismo procedimien- to de la Secci´on 2.4.1. Los par´ametros utilizados para el entrenamiento de los clasificadores son: 1) C=10 y γ = 0,007 para SVM+RBF, 2) 37 caracter´ısti- cas para PCA+LDAy 3) 80 caracter´ısticas para PCA-M+LDA. En este caso, ver las columnasMak-ba/PAL y Mak-ba/UCN en la Tabla 2.3, las diferencias de rendimientos entre los clasificadores es bastante grande. SVM+RBF tie- ne un rendimiento m´as bajo en comparaci´on al clasificador PCA+LDA que est´a claramente por delante del resto.
50 Clasificador Unidimensional de Atributos Faciales Demogr´aficos An´alisis de los errores de clasificaci´on
Como es evidente, los clasificadores presentan errores en su estimaci´on. En esta secci´on, analizaremos algunos de los errores de clasificaci´on encontrados en los ex- perimentosFERET/PALporque son posiblemente el conjunto de datos m´as desafiante en t´erminos de generalizaci´on requerida para un clasificador (ver Figura 2.16). Los errores encontrados son causados principalmente por los cambios de apariencia en- tre las diferentes edades o razas que no se encuentran presentes en los conjuntos de entrenamiento. Por ejemplo, en el caso de FERET tenemos muy pocas im´agenes de mujeres ancianas, esto presenta una gran desventaja cuando probamos el clasifica- dor con la base de datos PAL. En este experimento, gran parte de las im´agenes son clasificadas como hombres (ver las primeras dos im´agenes en la segunda fila de la Figura 2.16).
De igual manera, la mayor´ıa de las im´agenes en FERET son cauc´asicos (de raza blanca). Por consiguiente es m´as probable que las muestras enPALque pertenezcan a otras razas sean m´as dif´ıciles de clasificar. Finalmente, incluso con razas y diferentes rangos de edades en el conjunto de entrenamiento hay caras que son dif´ıciles de clasificar (ver las primeras dos im´agenes en la primera fila o la tercera imagen en la segunda fila de la Figura 2.16).
Figura 2.16: Algunos ejemplos de im´agenes clasificadas err´oneamente cuando se entrena con FERET y se prueba con las im´agenes de PAL. La primera fila, muestra im´agenes hombres clasificadas como mujeres. La segunda fila, muestra las im´agenes de mujeres clasificadas como hombres.