Estimación eficiente de atributos demográficos del rostro humano en imágenes
Texto completo
(2)
(3) A mi familia. i.
(4)
(5) “No entiendes algo hasta que lo aprendes a hacer de más de una forma” Marvin Minsky. iii.
(6)
(7) Agradecimientos Cuando entré por primera vez al laboratorio de Percepción Computacional y Robótica (PCR) una de las cosas que más me llamó la atención fue la calidez y el apoyo con el que fui recibido. En el grupo PCR aprendı́, entre muchas cosas, la importancia del trabajo duro y riguroso que debe ser invertido para producir investigación seria. Agradezco a Luis Baumela y a José Miguel Buenaposada por tener la paciencia y el compromiso de mostrarme este camino y el apasionante mundo de la visión por computador. Además, de tutelar esta tesis. Sin embargo, este gran esfuerzo no lo hice solo. Agradezco enormemente a Ximena por acompañarme en este desafı́o y a mis hijos Nikolás y Constantino por entender que todo lo que vivimos involucró una gran cuota de sacrificio pero que a su vez fue un proceso interesante y digno de vivir. También agradezco a mis padres Juan y Elena, mis hermanas Elena y Ana Marı́a, quienes siempre confiaron en el buen término de este trabajo. Finalmente, quisiera expresar mi gratitud a todas las personas que colaboraron de alguna u otra forma. A mis amigos del “lab” como Antonio, Yadira, Pablo, Kike, Fede y Gonzalo ya que siempre me tendieron una mano cuando lo necesitaba y por las grandes conversaciones que tenı́amos a la hora del almuerzo. Agradezco especialmente a Antonio y Yadira por los cafés y dı́as de “patatus” (entre otros lugares) para conversar sobre el rock, el punk o cualquier tema que se nos cruzara por la cabeza. A Julio Garcı́a del Real por sus apasionadas conversaciones sobre la música clásica. También, quisiera agradecer a las personas que me apoyaron con diferentes becas cómo es el caso de Pedro Larrañaga, Jesús Cardeñosa y Jesús Barbero. A mis amigos de Visión Artificial Desarrollos I+D en especial a Jesús, Aday, Ángel y Santiago por su amistad y profesionalismo. Quisiera poder nombrar a todas las personas que fueron parte importante en el desarrollo de esta tesis pero que faltarı́an hojas para poder agregarlos a todos, a pesar de esto, mis más infinitas gracias.. v.
(8)
(9) Índice general. Agradecimientos. V. Resumen. XXI. Abstract. XXIII. Glosario. XXV. I. Introducción. 1. 1. Introducción y objetivos. 3. 1.1. Motivación de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.1.1. Aplicaciones y sistemas automáticos de análisis facial . . . . .. 7. 1.2. Problema a resolver . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3. Hipótesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5. Contribución y estructura de la tesis . . . . . . . . . . . . . . . . . . 11 vii.
(10) II. Predicción de Atributos Faciales. 2. Clasificador Unidimensional de Atributos Faciales Demográficos 2.1. Clasificador de género. 13. 15. . . . . . . . . . . . . . . . . . . . . . . . . . . 17. 2.2. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3. Análisis Discriminante Lineal (LDA) . . . . . . . . . . . . . . . . . . 23 2.3.1. LDA en el subespacio transformado PCA (I), PCA+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3.2. LDA en el subespacio transformado PCA (II), PCA-M+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.3. LDA en el espacio transformado ICA (ICA+LDA) . . . . . . 28 2.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4.1. Pruebas con una única base de datos . . . . . . . . . . . . . . 34 2.4.2. Pruebas con cruce de base de datos . . . . . . . . . . . . . . . 45 2.4.3. Análisis del coste computacional . . . . . . . . . . . . . . . . . 50 2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51. 3. Regresores Demográficos Unidimensionales. 55. 3.1. Regresor de Edad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.3. Regresión de edad desde imágenes de caras . . . . . . . . . . . . . . . 62 3.3.1. Proyección PCA+LDA como una matriz métrica para la edad 3.3.2. Regresión K-NN. 62. . . . . . . . . . . . . . . . . . . . . . . . . . 64 viii.
(11) 3.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.4.1. Pruebas con una única base de datos . . . . . . . . . . . . . . 67 3.4.2. Pruebas con cruce de base de datos . . . . . . . . . . . . . . . 70 3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72. 4. Dependencias entre atributos faciales. 75. 4.1. Powerset de atributos faciales para la clasificación . . . . . . . . . . . 78 4.2. Reconocimiento de género robusto . . . . . . . . . . . . . . . . . . . . 80 4.2.1. Sobre la dependencia entre los atributos de edad y género . . . 81 4.2.2. Sobre la dependencias entre los atributos género y pose . . . . 84 4.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.3.1. Base de datos de caras . . . . . . . . . . . . . . . . . . . . . . 89 4.3.2. Estimación de género y edad . . . . . . . . . . . . . . . . . . . 90 4.3.3. Clasificación de género no alineado . . . . . . . . . . . . . . . 91 4.3.4. Cabeza fuera del plano de rotación para la estimación de género 93 4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95. III. Conclusiones. 97. 5. Conclusiones. 99. 5.1. Lı́neas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102. A. Bases de datos. 105 ix.
(12) A.1. Base de datos en condiciones ideales . . . . . . . . . . . . . . . . . . . 105 A.1.1. Base de datos Gray FERET . . . . . . . . . . . . . . . . . . . 106 A.1.2. Base de datos Color FERET . . . . . . . . . . . . . . . . . . . 106 A.1.3. Base de datos PAL . . . . . . . . . . . . . . . . . . . . . . . . 107 A.1.4. Bade de datos MULTI-PIE . . . . . . . . . . . . . . . . . . . . 108 A.2. Base de datos en condiciones semi-reales . . . . . . . . . . . . . . . . 108 A.2.1. Base de datos UCN . . . . . . . . . . . . . . . . . . . . . . . . 110 A.2.2. Base de datos MORPH-II . . . . . . . . . . . . . . . . . . . . 110 A.3. Base de datos en condiciones reales . . . . . . . . . . . . . . . . . . . 111 A.3.1. Base de datos FG-NET . . . . . . . . . . . . . . . . . . . . . . 112 A.3.2. Base de datos GROUPS . . . . . . . . . . . . . . . . . . . . . 112 A.3.3. Base de datos LFW . . . . . . . . . . . . . . . . . . . . . . . . 113. B. Caracterı́sticas visuales para caras. 115. B.1. Descriptores Globales . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 B.1.1. PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 B.1.2. ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 B.1.3. LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 B.2. Descriptores Locales . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 B.2.1. Bancos de filtros de Gabor . . . . . . . . . . . . . . . . . . . . 118 B.2.2. Haar-Like . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 B.2.3. LBP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 x.
(13) B.2.4. SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 B.2.5. HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123. C. Resultados de la tesis. 125. C.1. Publicaciones Indexadas . . . . . . . . . . . . . . . . . . . . . . . . . 125 C.2. Congresos Indexados . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 C.3. Patente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126. Bibliografı́a. 139. Índice alfabético. 142. xi.
(14)
(15) Índice de figuras 1.1. Tres métodos de la visión por computador. . . . . . . . . . . . . . . .. 5. 1.2. Diferentes apariencias de la cara de una misma persona . . . . . . . .. 7. 1.3. Ejemplo simplificado de un sistema de análisis facial . . . . . . . . . .. 8. 1.4. Caricatura de futuros usos de indexación y búsqueda de contenidos por medio de análisis facial . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.1. Etapas para la clasificación automática de la cara utilizando atributos faciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2. Esquema que representa una aproximación basada en la apariencia . . 19 2.3. Ejemplo de una aproximación basada en caracterı́sticas . . . . . . . . 19 2.4. La información discriminante no está relacionada con la magnitud de los valores propios de la matriz Sm . En (a) los datos tienen una gran varianza sobre el eje Z . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.5. Algunas imágenes recortadas y redimensionadas, después de la detección: (a) Base de datos UCN, (b) Base de datos PAL y (c) base de datos Color FERET. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.6. La figura muestra imágenes de la base de datos UCN: La primera fila muestra las imágenes originales recortadas desde el detector de caras [VJ04] y la segunda fila muestra las imágenes ecualizadas y con la máscara ovalada que ayuda a eliminar el fondo. . . . . . . . . . . . 33 2.7. Los experimentos basados en LDA utilizan un clasificador Bayesiano. xiii. 34.
(16) 2.8. Pruebas sobre un clasificador SVM+RBF utilizando diferentes parámetros C y γ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.9. Coordenadas de ojos manualmente etiquetados utilizando FERET, Face Recognition Technology, fa y OpenCV . . . . . . . . . . . . . . . 36 2.10. Rendimiento de la clasificación a medida que el subespacio intermedio PCA incrementa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.11. Rendimiento de la clasificación (variable Rj en el Algoritmo 2.3) a medida que el subespacio intermedio ICA incrementa para ICA+LDA. 40 2.12. Comparación entre PCA+LDA y ICA+LDA utilizando las bases de datos FERET (a) y UCN (b). . . . . . . . . . . . . . . . . . . . . . . . . 42 2.13. Sensiblidad de los clasificadores para giros de la cara fuera del plano de rotación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.14. Los histogramas muestran la frecuencia de los valores proyectados de las imágenes de pruebas dentro del subespacio PCA+LDA calculadas desde el conjunto de imágenes de entrenamiento . . . . . . . . . . . . 46 2.15. Reconstrucción de la imagen de una cara a partir de su proyección LDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.16. Algunos ejemplos de imágenes clasificadas erróneamente cuando se entrena con FERET y se prueba con las imágenes de PAL, (Productive Aging Lab Face) [MP04] . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.1. Imágenes que muestran el cambio en la apariencia de la edad cuando se utilizan drogas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2. AAM aplicados a dos distintos planos de rotación [Mar08]. En ambas figuras se puede observar que el modelo de textura (Texture Model ) muestra una cara alineada a una pose canónica a pesar de los cambios de orientación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3. Comparación de distancias euclı́deas entre diferentes individuos y edades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.4. Estimación de la edad por medio de un regresor K-NN . . . . . . . . 64 xiv.
(17) 3.5. Curvas de valores de porcentajes acumulados para experimentos sobre FG-NET, Face and Gesture Recognition Research Network, base de datos de imágenes de 1002 individuos con un promedio de 12 imágenes de diferentes edades por cada uno utilizando validación cruzada con imágenes de 25 × 25 pixeles de tamaño . . . . . . . . . . . . . . . . . 68 3.6. Curvas de valores de porcentajes acumulados para experimentos de cruce de base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . 71. 4.1. Powerset de Atributos es una extensión a la aproximación multilabel LP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.2. Experimentos previos que demuestran la dependencia del género y la edad dada la apariencia . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.3. Distribución de probabilidades de la apariencia dada la edad y el género sobre la base de datos GROUPS [GC09] . . . . . . . . . . . . 83 4.4. Ejemplo de imágenes capturadas desde PAL, GROUPS y LFW . . . . . . 84 4.5. Imagen canónica de 60 × 60 pixeles con la posición de todos los pares de ojos(Pl e, Pr e) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.6. Los clusters muestran las posiciones de los ojos dentro de una ventana canónica de detección de caras . . . . . . . . . . . . . . . . . . . . . . 87 4.7. Ejemplos de caras de la base de datos Multi-PIE después de la detección 94. A.1. Selección de imágenes obtenidas desde la base de datos Gray FERET. . 106 A.2. Selección de imágenes obtenidas desde la base de datos color FERET gallerı́a f a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 A.3. Imágenes obtenidas desde la base de datos color PAL con diferentes expresiones faciales, poses, etnias y género. . . . . . . . . . . . . . . . 108 A.4. La imagen muestra la posición de cada una de las cámaras. (Fuente: http://www.multipie.org/) . . . . . . . . . . . . . . . . . . . . . . 109 xv.
(18) A.5. Las imágenes muestran las vistas obtenidas de las 15 cámaras capturas con iluminación frontal. (Fuente: http://www.multipie.org/) . . 109 A.6. Imágenes obtenidas de la base de datos UCN. . . . . . . . . . . . . . . 110 A.7. Imágenes obtenidas de la base de datos MORPH-II. . . . . . . . . . . . 111 A.8. Imágenes obtenidas desde la base de datos FG-NET. Las imágenes son capturadas en diferentes condiciones ambientales y de adquisición. Por cada individuo se almacenan un grupo de imágenes de diferentes edades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 A.9. Imágenes obtenidas desde la base de datos color GROUPS. Las imágenes muestran que las condiciones de adquisición son diferentes para cada imagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 A.10.Imágenes obtenidas desde la base de datos LFW. Las imágenes corresponden a diferentes personajes públicos obtenidos desde la Web. . . . 113 B.1. Representación gráfica de los nuevos ejes generados por PCA e ICA. (Fuente: http://meg.aalip.jp/ICA/) . . . . . . . . . . . . . . . . . 117 B.2. Ejemplos de diferentes filtros de Gabor aplicados a tres tipos de imágenes diferentes. (Fuente: http://scikit-image.org/docs/dev/ auto_examples/plot_gabor.html#example-plot-gabor-py) . . . . 119 B.3. Haar Wavelet: a) Representa la función Haar Wavelet b) Representa tres tipos de Haar wavelets no estándares: vertical, horizontal y diagonal [PP00]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 B.4. Cálculo del descriptor Locally Binary Patterns, LBP en la versión propuesta en [OPH96]. . . . . . . . . . . . . . . . . . . . . . . . . . . 121 B.5. Cálculo del descriptor LBP [MRH07]. . . . . . . . . . . . . . . . . . . 122 B.6. Diagrama que muestra como se obtiene un descriptor SIFT . . . . . . 123 B.7. Diagrama de bloque que muestra como calcular un descriptor basado en Histogram of Oriented Gradients, HoG [KKN12]. . . . . . . . . . . 124. xvi.
(19) Índice de tablas 2.1. Tasas de acierto para el conjunto de imágenes seleccionadas por Mäkinen y Raisamo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2. Tasas de acierto y desviación estándar sobre una única base de datos para entrenamiento y pruebas utilizando validación cruzada 5-fold . . 44 2.3. Tasas de clasificación para experimentos con cruce de base de datos . 47. 3.1. Grupos discretos para entrenamiendo del subespacio PCA+LDA para las bases de datos FG-NET y PAL. . . . . . . . . . . . . . . . . . . . 67 3.2. Grupos y rangos de edad etiquetadas en la base de datos GROUPS. . 68 3.3. Se comparan los resultados de edad sobre FG-NET utilizando validación cruzada Leave-One-Person-Out: Técnica de validación cruzada que realiza una prueba por cada sujeto (persona) que existe en la base de datos para luego calcular una estimación global del clasificador. Para cada prueba se seleccionan todas las observaciones (imágenes) de un individuo como conjunto de pruebas y el resto de los individuos son utilizados para el entrenamiento del estimador . . . . . . . . . . . 69 3.4. MAE sobre cada rango de edad para experimentos realizados en cruce de base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70. 4.1. Dependencia entre género y edad . . . . . . . . . . . . . . . . . . . . 82 4.2. Número de imágenes por género y grupos de pose . . . . . . . . . . . 86 4.3. Dependencia entre el género y la pose . . . . . . . . . . . . . . . . . . 88 xvii.
(20) 4.4. Tasa de acierto para de los AP de Género × Edad para el experimento GROUPS/PAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.5. Tasa de acierto de los AP para Género×Pose con validación cruzada 5-fold y base de datos GROUPS . . . . . . . . . . . . . . . . . . . . . . 92 4.6. Experimentos de cruce de bases de datos sobre género y pose, entrenado sobre GROUPS y probado sobre LFW . . . . . . . . . . . . . . . . 92 4.7. Tasa de acierto para género utilizando validación cruzada 5-fold en experimentos sobre GROUPS sin niños con imágenes detectadas sin alinear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.8. Experimentos para género y pose 3D. La primera fila muestra los resultados para un clasificador de género y la segunda fila despliega los resultados para un clasificador AP que considera los atributos Género × 3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95. xviii.
(21) Lista de algoritmos 2.1. Entrenamiento utilizado para seleccionar el mejor parámetro d para el clasificador basado en PCA+LDA. . . . . . . . . . . . . . . . . . 2.2. Entrenamiento utilizado para seleccionar el mejor parámetro d para el clasificador basado en PCA-M+LDA. . . . . . . . . . . . . . . . . 2.3. Entrenamiento utilizado para seleccionar el mejor parámetro d para el clasificador basado en ICA+LDA. . . . . . . . . . . . . . . . . . . 3.1. Entrenamiento utilizado para seleccionar el mejor parámetro d y k para el regresor de edad basado en PCA+LDA. . . . . . . . . . . .. xix. . 26 . 29 . 31 . 65.
(22)
(23) Resumen Sin duda, el rostro humano ofrece mucha más información de la que pensamos. La cara transmite sin nuestro consentimiento señales no verbales, a partir de las interacciones faciales, que dejan al descubierto nuestro estado afectivo, actividad cognitiva, personalidad y enfermedades. Estudios recientes [OFT14, TODMS15] demuestran que muchas de nuestras decisiones sociales e interpersonales derivan de un previo análisis facial de la cara que nos permite establecer si esa persona es confiable, trabajadora, inteligente, etc. Esta interpretación, propensa a errores, deriva de la capacidad innata de los seres humanas de encontrar estas señales e interpretarlas. Esta capacidad es motivo de estudio, con un especial interés en desarrollar métodos que tengan la habilidad de calcular de manera automática estas señales o atributos asociados a la cara. Ası́, el interés por la estimación de atributos faciales ha crecido rápidamente en los últimos años por las diversas aplicaciones en que estos métodos pueden ser utilizados: marketing dirigido, sistemas de seguridad, interacción hombre-máquina, etc. Sin embargo, éstos están lejos de ser perfectos y robustos en cualquier dominio de problemas. La principal dificultad encontrada es causada por la alta variabilidad intra-clase debida a los cambios en la condición de la imagen: cambios de iluminación, oclusiones, expresiones faciales, edad, género, etnia, etc.; encontradas frecuentemente en imágenes adquiridas en entornos no controlados. Este de trabajo de investigación estudia técnicas de análisis de imágenes para estimar atributos faciales como el género, la edad y la postura, empleando métodos lineales y explotando las dependencias estadı́sticas entre estos atributos. Adicionalmente, nuestra propuesta se centrará en la construcción de estimadores que tengan una fuerte relación entre rendimiento y coste computacional. Con respecto a éste último punto, estudiamos un conjunto de estrategias para la clasificación de género y las comparamos con una propuesta basada en un clasificador Bayesiano y una adecuada extracción de caracterı́sticas. Analizamos en profundidad el motivo de porqué las técnicas lineales no han logrado resultados competitivos hasta la fecha y xxi.
(24) mostramos cómo obtener rendimientos similares a las mejores técnicas no-lineales. Se propone un segundo algoritmo para la estimación de edad, basado en un regresor K-NN y una adecuada selección de caracterı́sticas tal como se propuso para la clasificación de género. A partir de los experimentos desarrollados, observamos que el rendimiento de los clasificadores se reduce significativamente si los éstos han sido entrenados y probados sobre diferentes bases de datos. Hemos encontrado que una de las causas es la existencia de dependencias entre atributos faciales que no han sido consideradas en la construcción de los clasificadores. Nuestro resultados demuestran que la variabilidad intra-clase puede ser reducida cuando se consideran las dependencias estadı́sticas entre los atributos faciales de el género, la edad y la pose; mejorando el rendimiento de nuestros clasificadores de atributos faciales con un coste computacional pequeño.. xxii.
(25) Abstract Surely the human face provides much more information than we think. The face provides without our consent nonverbal cues from facial interactions that reveal our emotional state, cognitive activity, personality and disease. Recent studies [OFT14, TODMS15] show that many of our social and interpersonal decisions derive from a previous facial analysis that allows us to establish whether that person is trustworthy, hardworking, intelligent, etc. This error-prone interpretation derives from the innate ability of human beings to find and interpret these signals. This capability is being studied, with a special interest in developing methods that have the ability to automatically calculate these signs or attributes associated with the face. Thus, the interest in the estimation of facial attributes has grown rapidly in recent years by the various applications in which these methods can be used: targeted marketing, security systems, human-computer interaction, etc. However, these are far from being perfect and robust in any domain of problems. The main difficulty encountered is caused by the high intra-class variability due to changes in the condition of the image: lighting changes, occlusions, facial expressions, age, gender, ethnicity, etc.; often found in images acquired in uncontrolled environments. This research work studies image analysis techniques to estimate facial attributes such as gender, age and pose, using linear methods, and exploiting the statistical dependencies between these attributes. In addition, our proposal will focus on the construction of classifiers that have a good balance between performance and computational cost. We studied a set of strategies for gender classification and we compare them with a proposal based on a Bayesian classifier and a suitable feature extraction based on Linear Discriminant Analysis. We study in depth why linear techniques have failed to provide competitive results to date and show how to obtain similar performances to the best non-linear techniques. A second algorithm is proposed for estimating age, which is based on a K-NN regressor and proper selection of features such as those proposed for the classification of gender. From our experiments we xxiii.
(26) note that performance estimates are significantly reduced if they have been trained and tested on different databases. We have found that one of the causes is the existence of dependencies between facial features that have not been considered in the construction of classifiers. Our results demonstrate that intra-class variability can be reduced when considering the statistical dependencies between facial attributes gender, age and pose, thus improving the performance of our classifiers with a reduced computational cost.. xxiv.
(27) Glosario C Número de clases. D Número de total de dimensiones. K Número de instancias cercanas a otra utilizada como referencia. N Número de instancias de la muestra. P Número total de pı́xeles de una imagen. R Tasa de acierto del clasificador. Ī Imagen media. T Conjunto de N atributos faciales. f Función matemática. h Clasificador representado como una función. D Matriz diagonal. M Matriz de métrica aprendida. PP CA Matriz base PCA donde los vectores propio se encuentran ordenados en orden decreciente con respecto a sus valores propios. SB Matriz de dispersión entre-clase. SW Matriz de dispersión intra-clase. Sm Matriz de dispersión total (SB +SW ). W Matriz de proyección (Matriz cuyas columnas son vectores propios). X Matriz formada por vectores columnas. xxv.
(28) Cx Producto Cartesiano de todos los conjuntos de valores Vi . L Vector de etiquetas, o valores clase, asociado a cada una de las instancias de entrada. Vi Vector con los posibles valores del atributo facial Vi . x Entrada. xi Entrada i-ésima del conjunto representado por x. z Entrada x proyecta sobre un nuevo subespacio. zi Entrada i-ésima del conjunto representado por z. {xi }N i=1 Conjunto de x con ı́ndice i. d Número de entradas (dimensionalidad de entrada). yi Salida o etiqueta asociada al vector de entrada xi . FastICA Es un popular algoritmo para Análisis de Componentes Independientes desarrollado por Aapo Hyvärinen de la Universidad Politécnica de Helsinki. (Implementación de FastICA para Matlab: http://research.ics.aalto.fi/ ica/fastica/). ICA+LDA Subespacio transformado LDA que utiliza como entrada de datos el subespacio ICA obtenido del conjunto original de datos. ICA Análisis de Componente Independiente (Independent Component Analysis, en inglés). LDA Análisis de discriminante lineal o análisis de discriminante de Fisher (Linear Discriminant Analysis, en inglés). PCA+LDA Subespacio transformado LDA que utiliza como entrada de datos el subespacio P CA obtenido del conjunto original de datos. PCA-M+LDA Subespacio transformado LDA que utiliza como entrada de datos el subespacio P CA obtenido del conjunto original de datos y cuyos vectores propios son ordenados en importancia según el criterio de Zhu y Martı́nez [ZM06a]. PCA Análisis de Componentes Principales (Principal Component Analysis, en inglés). AP Powerset de Atributos (Attributes Powerset), adaptación del método Label Powerset para el problema de atributos faciales (Capı́tulo 4). xxvi.
(29) LP Label Powerset, método de clasificación multi-label que transforma un problema de múltiples etiquetas en un problema multi-clase [TK07, AC09, TKV10]. AAM Modelos de Apariencia Activa (Active Appearance Models) [CET01]. BIF Caracterı́sticas de inspiración biológica (Bio-inspired Features, BIF) [GMFH09]. DCT Transformada discreta del coseno (Discrete Cosine Transform). FERET Base de datos de imágenes de caras con etiquetas de edad y raza principalmente. (Face Recognition Technology). FG-NET Base de datos de imágenes de caras con etiquetas de edad, género, entre otras. (Face and Gesture Recognition Research Network (FG-NET ) Aging Database). fold Término utilizado cuando se realiza validación cruzada de datos K-fold (K-fold cross-validation). Donde el conjunto de entrenamiento inicial se divide en K folds o K subconjunto de datos. Para cada subconjunto individual de datos se genera otro con el resto de los subconjuntos K − 1, el primero se utiliza como datos de prueba y el resto como datos de entrenamiento. Para cada par de subconjuntos se construye su modelo de predicción y se evalúa su rendimiento por medio de métricas. Finalmente, se hace una evaluación global de todos los resultados. GMM Modelo de mezcla de gaussianas (Gaussian Mixture Model ). GROUPS Base de datos de imágenes de caras con etiquetas de género y grupos de edad [GC09]. HoG Histograma de gradientes orientados (Histogram of Oriented Gradients). K-NN K vecinos más cercanos (K-Nearest Neighbor ), es un clasificador que utiliza un método de aprendizaje supervisado. LBP Patrones binarios locales (Locally Binary Patterns) [OPM02, OPH96]. LFW Labeled faces in the wild, es una base de datos utilizada para el estudio del reconocimiento de caras en condiciones no controladas [HRBLM07]. xxvii.
(30) LOPO Leave-One-Person-Out. Técnica de validación cruzada que realiza una prueba por cada sujeto (persona) que existe en la base de datos para luego calcular una estimación global del clasificador. Para cada prueba se seleccionan todas las observaciones (imágenes) de un individuo como conjunto de pruebas y el resto de los individuos son utilizados para el entrenamiento del estimador. MAE Error Absoluto Medio (Mean Absolute Error ). Multi-PIE CMU Multi-PIE, base de datos que contiene imágenes de caras adquiridas con diferentes condiciones de iluminación y orientacién de la cara sobre 337 individuos [GMC+ 10].. OpenCV Librerı́a libre para visión por computador. http://opencv.org/ . PAL Base de datos de imágenes de caras con etiquetas de edad, género y raza. Productive Aging Lab Face [MP04]. RBF Función de kernel de base radial (Radial Basis Function Kernel ). RPK Regression from Patch Kernel [YZL+ 08]. SVM Máquina de soporte vectorial (Support Vector Machine) [CV95]. SVM+RBF Máquina de soporte vectorial (Support Vector Machine) que utiliza una función de kernel de base radial (Radial Basis Function Kernel ) para la clasificación no lineal de datos. UCN Base de datos privada de imágenes de caras de propiedad de la Universidad Católica del Norte. Antogasta, Chile.. xxviii.
(31) Parte I Introducción. 1.
(32)
(33) Capı́tulo 1 Introducción y objetivos Si las puertas de la percepción se depurasen, todo aparecerı́a a los hombres como realmente es: infinito. Pues el hombre se ha encerrado en sı́ mismo hasta ver todas las cosas a través de las estrechas rendijas de su caverna. William Blake. RESUMEN: Una de las primeras habilidades que rápidamente aprendemos los seres humanos es la de reconocer los objetos que nos rodean. Desde que nacemos contamos con la capacidad para clasificar caras fácilmente y de manera robusta. Nuestra destreza para reconocer atributos faciales, como la edad y el género, en una persona particular es destacable. Ası́ mismo, existe un especial interés en estudiar métodos eficientes que logren automatizar estas capacidades y cuyas soluciones han surgido desde el área de la visión por computador, que es el propósito de esta tesis. El presente capı́tulo detalla el tema del trabajo de investigación.. 3.
(34) 4. Introducción y objetivos. C. onstruir máquinas inteligentes siempre ha sido un anhelo de soñadores, visionarios y cientı́ficos. El gran desafı́o consiste en construir máquinas que por una parte realicen las tareas repetitivas o peligrosas que nosotros no deseamos realizar y, por otra, que sean capaces de interactuar con nosotros tal como lo hacemos los seres humanos a diario. Es evidente que se han realizado importantes avances en este ámbito, sin embargo, falta un enorme camino por recorrer. Hoy en dı́a, la comunidad cientı́fica se ha concentrado en explotar distintos dominios del conocimiento para dar solución a tal iniciativa. Los aportes son diversos y vienen de diferentes áreas de especialización como la mecánica, la electrónica, la informática, etc. Dentro del área de la informática la inteligencia artificial cumple la labor de dotar de “inteligencia” a estas máquinas. La inteligencia artificial, al igual que cualquier rama del conocimiento, se especializa en diferentes áreas. Una de ellas es la percepción, la cual provee de información del mundo a las máquinas, o agentes, a través de la interpretación de los datos obtenidos por medio de sensores utilizados para este propósito. Los sensores simulan los cinco sentidos del ser humano: el tacto, la audición, el olfato, el gusto o la visión [RN09]. En el caso particular de la visión, visión por computador (en lengua española), el objetivo de ésta es poder entender el mundo que nos rodea por medio de imágenes. Los datos obtenidos a partir de las imágenes son excepcionalmente abundantes en comparación con otro tipo de sensores puesto que las imágenes contienen una gran cantidad implı́cita de elementos útiles [RN09] (texturas, aspectos geométricos, iluminación, color, profundidad, entre otros). Por ejemplo, una cámara web de vı́deo estándar puede capturar imágenes de 1920 × 1080 pixels a 30 frames por segundo. Si solo consideramos una imagen en escala de grises tenemos aproximadamente 1.9 Megabytes de datos por cada 0.033 segundos de vı́deo. El problema que busca resolver la visión por computador es transformar la gran cantidad de datos redundantes a un conjunto reducido de información útil. Según Russell y Norvig [RN09] el problema de visión por computador puede ser resuelto por medio de tres métodos: 1) extracción de caracterı́sticas: Técnica en la que a través de cálculos simples aplicados directamente sobre la imagen se obtiene un representación reducida de ésta, en general, su representación viene dada por un vector de caracterı́sticas compacto; 2) reconocimiento de objetos: Establece distinciones entre un conjunto de objetos, utilizando información visual u otra. En ese sentido, el reconocimiento puede ser utilizado para etiquetar imágenes, indicando si éstas poseen una cualidad particular o no; y 3) reconstrucción: A partir de una imagen o un conjunto de ellas se construye un modelo geométrico del mundo. Ver Figura 1.1..
(35) 1.1 Motivación de la tesis. 5. (a) Extracción de caracterı́sticas.. (b) Reconocimiento de objetos.. (c) Reconstrucción.. Figura 1.1: Tres métodos de la visión por computador. (Fuente: (a)SIFT aplicado a un individuo de la base de datos Multi-pie [GMC+ 10], (b)http://homes.cs.washington.edu/~bcr/ y (c)http://www.cs.cmu.edu/~hyunsoop/trajectory_reconstruction.html). 1.1.. Motivación de la tesis. Una de las primeras habilidades que rápidamente aprendemos los seres humanos es la de reconocer los objetos que nos rodean. Desde que nacemos, desarrollamos en pocos meses las habilidades necesarias para diferenciar cuales son aquellos objetos o formas que nos gustan e incluso advertimos aquéllos que pueden ser dañinos o perjudiciales. Desde el punto de vista afectivo, aprendemos a reconocer a las personas que nos dan confianza y rechazamos a las que no [EHSH93]. Al pasar los años, estas habilidades aumentan y se especializan cada vez más, lo que permite mejorar el entendimiento de los objetos, y su relación con el mundo. Dentro de las nuevas habilidades destaca la capacidad para reconocer individuos distintos, independiente de: sus cambios de apariencia generados por la edad, de oclusiones, del uso de accesorios, de enfermedades, etc. Para lograr este fin, sin duda el sentido más utilizado es el de la vista, en complemento con los otros sentidos. El ser humano utiliza toda la información que tiene disponible dentro del contexto de la observación, tal como la cara de la persona, la forma de moverse o la apariencia de todo el cuerpo.
(36) 6. Introducción y objetivos. para poder descubrir los atributos adecuados y determinar cualidades interesantes que logren deducir información sobre nosotros mismos [NTG12]. Los atributos en sı́ mismos, nos permiten caracterizar a una persona dentro de un contexto. En el caso demográfico podemos determinar el género o la edad de una persona. También estos atributos nos pueden servir para cualificar a las personas, determinando su identidad [KBBN09], o pueden ser usados para establecer contextos sociales que ayudan a complementar el desarrollo de otras tareas de predicción [GC09] o incluso para inferir nuevos patrones a través de atributos relacionados con su comportamiento psicológico [DGSA+ 10]. Algunos expertos [KCF14, EHSH93] señalan que esta habilidad nos permite conocer y entender nuestro entorno social por medio de atributos obtenidos directamente de la cara. Esta capacidad humana ha sido motivo de estudio con un especial interés en desarrollar métodos que tengan la habilidad de calcular de manera automática estos atributos y que no requieran la intervención humana o la ayuda del sujeto estudiado en cuestión [NTG12]. En los últimos años, se ha investigado mucho el problema de la percepción del rostro humano. Los atributos faciales, permiten transmitir una significativa cantidad de información y relacionan datos visuales relevantes para la estimación de la edad, la expresión facial, el género y origen étnico. Desempeñando un papel importante en el análisis automático de la cara. Sin embargo, los sistemas automáticos están lejos de contar con esta habilidad humana de funcionar correctamente en condiciones no controladas o de la vida diaria. Esto se debe principalmente a dos factores: 1) condiciones de captura que pueden afectar seriamente la estimación debido a factores ambientales, tales como, la iluminación, resolución de las imágenes, calidad de la cámara digital, oclusiones, etc; y 2) variabilidad inherente del rostro humano que considera los cambios dados por la expresión facial, pose, género, edad, etnia, entre otros factores. En la Figura 1.2, se muestra un conjunto de imágenes asociadas a una misma persona. En éstas se pueden ver distintos cambios de iluminación, pose, complexión de la cara, etc. Estas transformaciones en la apariencia de la cara, incluso, pueden confundir al ojo humano más experimentado cuando se trata de indentificar personas o estimar atributos, tales como, el género y la edad. Aún, cuando se trate de la misma persona. Las tecnologı́as aplicadas en la estimación de atributos faciales no dejan indiferentes a muchos empresarios que ven valor en su uso cotidiano. En un futuro no muy lejano, nuestro cuerpo, y en especial nuestra cara, nos ayudará a crear sistemas que se adaptarán a nuestras necesidades, dependiendo del análisis realizado a nuestros rostros de manera automática. Los profesores Brian Manneckea y Anicia Peters [MP13, HMP14], de la Universidad Estatal de Iowa, observan que las últimas.
(37) 1.1 Motivación de la tesis. 7. Figura 1.2: Diferentes apariencias de la cara de una misma persona. (Fuente: http://zombietime.com/really_truly_hillary_gallery/). tendencias en publicidad y medios de comunicación social unidas a las tecnologı́as de reconocimiento facial y corporal permitirán crear perfiles diferenciados, dependiendo de los tipos de atributos estimados. Ellos hablan de un nuevo tipo de avatar asociado a operaciones de marketing, denominados “mavatars” [MP13] y que pueden ser utilizados para la comercialización de productos y para el soporte de un sin número de nuevas aplicaciones, ver Figura 1.3.. 1.1.1.. Aplicaciones y sistemas automáticos de análisis facial. Dada la significativa expansión de las tecnologı́as y aplicaciones de análisis facial es importante delimitar y regular el uso de éstas en la vida diaria. En las publicaciones de [MP13, HMP14] se revisan las futuras implicancias del uso de estas tecnologı́as y se hace una separación entre aquéllas que utilizaremos de forma voluntaria, de otras que no. Además, de la forma como serán empleadas y distribuidas en caso de que las aplicaciones lo requieran. Esto, sin duda, cambiará la manera de comunicarnos no sólo en en el futuro, sino también en el presente inmediato. Entre las aplicaciones estudiadas, podemos listar las siguientes:.
(38) 8. Introducción y objetivos. Figura 1.3: Ejemplo simplificado de un sistema de análisis facial aplicado. Por ejemplo, en la industria de la publicidad dirigida. Biometrı́a y Vigilancia La biometrı́a es el conjunto de técnicas que nos permite reconocer personas, a través de rasgos conductuales o fı́sicos. En la actualidad, se está utilizando el término de rasgos biométricos blandos (softbiometric) [RSC+ 13] para mejorar el rendimiento de los sistemas biométricos tradicionales que sirvan para identificación de personas por medio de la descripción de atributos humanos. Los rasgos biométricos blandos incluyen caracterı́sticas, tales como, la altura, el peso, la geometrı́a del cuerpo, cicatrices, marcas y tatuajes, el género, la edad, la etnia, etc. [RSC+ 13][DGSA+ 10] Indexación y búsqueda de contenidos Desde el punto de vista de la seguridad, la estimación de atributos faciales permite buscar sujetos que cumplan ciertas caracterı́sticas fı́sicas generales para lograr ası́ un análisis más especı́fico. Estas técnicas permiten mejorar el rendimiento de sistemas de identificación o verificación de personas para dirigir la búsqueda sobre grupos de personas [NEC]. La principal idea es generar de manera automática los metadatos [Lew06, EG99] de una imagen, para poder realizar la búsqueda y/o indexación. A manera de ejemplo, Facebook utiliza esta tecnologı́a para que los usuarios puedan relacionar sus fotografı́as con los perfiles de otros usuarios. Ver Figura 1.4. Estudios demográficos Diferentes actores tanto polı́ticos como empresariales suelen combinar varias variables para definir un perfil demográfico. Un perfil demográfico, a menudo llamado “grupo demográfico”, proporciona suficiente información tı́pica para crear una imagen mental asociada a ese grupo [Wik14]. Por ejemplo, podemos asociar ciertos atributos como: hombre, clase media de 18 a 24 años a un buen comprador de vı́deo juegos o a un futuro estudiante universitario con pertenencia a una idea polı́tica, lo que se puede traducir en el futuro próximo como un potencial voto. Existen aplicaciones o sistemas que hacen esos tipos de estudios [Klo08, JH04, MR08b]..
(39) 1.1 Motivación de la tesis. 9. Figura 1.4: Caricatura de futuros usos de indexación y búsqueda de contenidos por medio de análisis facial. (Fuente: http://blogs-images.forbes.com/ kashmirhill/files/2011/10/Dating-in-the-Internet-age.png) Publicidad dirigida Una de las principales aplicaciones utilizada, a partir del análisis facial, es poder identificar los atributos necesarios para ofrecer productos o servicios ajustados al gusto de los usuarios [Sof, Qui, Tru, Mic, imr, HMP14]. Existen novedosas aplicaciones que utilizan los patrones demográficos y de conducta para mejorar el servicio de sus ofertas. La empresa Redpepper ad ha creado una aplicación llamada FaceDeals que ofrece cupones personalizados de compra, usando reconocimiento facial [ad]. SceneTap es una aplicación para teléfono móvil que permite explorar un bar con una cámara de vı́deo. Esta información es procesada para estimar atributos demográficos como: el género, la edad y la cantidad de personas detectadas en el bar. Luego, esta información es trasmitida a otros usuarios que quieran conocer el porcentaje de hombres y mujeres, su edad promedio y disponibilidad que existe en los bares de Chicago inscritos en el sistema [Sin11, Sce]. También existen máquinas que son capaces de distinguir la edad de un individuo y que suministran ciertos bocadillos gratis (Jello Temptations) sólo a adultos [Tre11] o máquinas suministradoras de bebidas que guı́an nuestra compra al estimar nuestros atributos faciales y asociarnos a un perfil demográfico [Sav10, ax314]. De todo esto se desprende que existe un mercado de explotación en expansión, donde nuevos productos, asociados al análisis facial, y de atributos faciales, serán.
(40) 10. Introducción y objetivos. desarrollados en el corto y mediano plazo lo que comprometerá un importante esfuerzo de nuevas investigaciones e innovaciones para crear productos robustos para su uso en la vida diaria. Actualmente, existen numerosas iniciativas dirigidas en ese sentido, como es el caso de [Mas13] donde podemos encontrar un extenso listado de plataformas, servicios y librerı́as para el desarrollo de aplicaciones de análisis facial que utilizan una variedad de técnicas de imágenes 2D, 3D o ambas. Dentro de estas aplicaciones se pueden encontrar algunas bastante básicas y otras para uso comercial. Cada una de ellas con sus ventajas o desventajas asociadas. Entre los sistemas ofrecidos (API) más destacados para la extracción de atributos faciales destacan Skybiometry [Sky] y Face++ [Fac].. 1.2.. Problema a resolver. El trabajo de esta tesis se concentra en analizar automáticamente el rostro humano en imágenes y descubrir atributos faciales, utilizando la apariencia completa de la cara. Existen numerosos atributos faciales interesantes que pueden obtenerse a partir de una inspección visual de la cara como el bigote, perilla, flequillo, boca (abierta, cerrada), forma de las cejas, tatuajes, pelo, expresión facial, etc. Pondremos especial atención en un subconjunto de atributos faciales que nosotros denominamos atributos faciales demográficos y que se refieren a aquellos atributos considerados, generalmente, en los estudios de tipo demográfico. Los atributos seleccionados para este estudio son el género, la edad y la orientación de la cara. Nuestro interés se concentra en diseñar y/o mejorar los modelos matemáticos que puedan predecir atributos faciales, bajo los siguientes requerimientos:. Altas tasas de acierto de los clasificadores. Clasificadores extremadamente rápidos y que funcionen en tiempo real en dispositivos de bajo coste computacional. (20/30 imágenes por segundo) Que funcionen correctamente en unas condiciones realistas de operación.. 1.3.. Hipótesis de trabajo. H1 Convenientemente entrenados, los métodos lineales proporcionan un compromiso excelente entre rendimiento y coste computacional para construir un buen.
(41) 1.4 Objetivos de la tesis. 11. clasificador de atributos faciales demográficos (género, edad, y etnia). H2 Existen dependencias entre los diferentes atributos faciales demográficos que cuando se tienen en cuenta influyen positivamente en las tasas de acierto de los estimadores.. 1.4.. Objetivos de la tesis. El objetivo general de la tesis, sobre la base de las hipótesis de trabajo planteadas, es desarrollar técnicas de análisis de imágenes para estimar atributos faciales como el género, la edad y la orientación de la cara, empleando métodos lineales, y explotando las dependencias estadı́sticas entre estos atributos. Los objetivos especı́ficos son:. Construir modelos de predicción de atributos faciales simples y de fácil cómputo. Construir modelos de predicción robustos, a cambios de iluminación, pose y condiciones de adquisición. Mejorar la predicción explotando las relaciones estadı́sticas entre las variables a predecir.. 1.5.. Contribución y estructura de la tesis. En el presente trabajo, exploraremos y probaremos diferentes técnicas de análisis del rostro con un especial énfasis en el uso de modelos de predicción lineal sobre atributos faciales, tales como el género, la edad y la raza. Para lograr este propósito la tesis ha sido dividida en seis capı́tulos. El Cápitulo I introduce al lector en el problema de visión por computador que se desea resolver. Además de motivar a valorar la importancia de la investigación desarrollada desde el punto de vista teórico y tecnológico. Al mismo tiempo, define los requisitos de la solución, hipótesis de trabajo y objetivos propuestos. En el Capı́tulo II se estudian modelos lineales y no lineales para establecer el estado del.
(42) 12. Introducción y objetivos. arte en estimación de género. Adicionalmente, se analiza en detalle la estimación del género en imágenes de caras y se propone una mejora al entrenamiento de modelos lineales sobre género, con resultados similares a los presentados en el estado del arte en términos de tasa de acierto. El Capı́tulo III se analiza el problema de estimación de la edad y se propone el estado del arte para éste. Al igual que el Capı́tulo II, se utilizan modelos lineales para construir el vector de caracterı́sticas y se propone un regresor no-lineal basado en K-NN . En el Capı́tulo IV, se estudia las dependencias entre las variables clase género, edad y pose, utilizando una aproximación similar a las usadas en la clasificación multi-label, confirmando una mejora en el rendimiento y robustez de la estimación en género. Finalmente, el Capı́tulo V, se exponen las conclusiones generales de la tesis, ası́ como también, las lı́neas de investigación abiertas y de trabajo a futuro que se generaron a partir de este tema de tesis..
(43) Parte II Predicción de Atributos Faciales. 13.
(44)
(45) Capı́tulo 2 Clasificador Unidimensional de Atributos Faciales Demográficos La cara es el espejo del alma, y los ojos son sus intérpretes. Marco Tulio Cicerón. RESUMEN: El aumento de aplicaciones de visión por computador y reconocimiento de patrones en dispositivos móviles requieren del desarrollo de algoritmos que funcionen sobre recursos computacionales limitados. Las técnicas de clasificación lineal tienen un importante papel que jugar en este contexto, debido a su simplicidad y bajos requerimientos computacionales. El presente capı́tulo revisa el estado del arte en clasificación de género, prestando especial atención en las técnicas lineales. Además, se analiza el motivo de porqué las técnicas lineales no han logrado resultados competitivos en el pasado y mostramos cómo obtener rendimientos similares a los encontrados en el estado del arte previos a la publicación de nuestros resultados. Adicionalmente, efectuamos experimentos cruzando bases de datos y probamos que aquéllos efectuados sobre una sola base de datos están sesgados de manera optimista. De los experimentos de este capı́tulo se desprende que, si contamos con un número suficiente de datos y recursos computacionales, los clasificadores de género implementados con Máquinas de Soporte Vectorial son superiores al resto. Cuando los recursos computacionales son escasos pero hay suficientes datos, las aproximaciones de boosting y lineales son las adecuadas. Finalmente, si los datos de entrenamiento y recursos computacionales son muy escasos, entonces las aproximaciones lineales son la mejor opción.. 15.
(46) 16. Clasificador Unidimensional de Atributos Faciales Demográficos. L. a facilidad con que nosotros reconocemos una cara, su expresión facial, el género, la raza y la edad, a la que pertenecen, oculta el proceso increı́blemente complejo que subyace detrás de estos actos de reconocimiento de patrones. Para nosotros, un patrón, en contraposición al caos, es una entidad, vagamente definida, a la que se le puede asignar un nombre [Wat85]. Entonces, dado un patrón, podemos reconocer y clasificar éste a través de las siguientes tareas de aprendizaje [JDM00, KR07]: 1) clasificación supervisada en la cual el patrón de entrada es identificado como un miembro de una clase predefinida, 2) clasificación no supervisada (clustering) donde el patrón se le asigna una clase hasta ese momento desconocida, y que tiene que ver con la semejanza que tienen estos. El trabajo desarrollado en este capı́tulo se orienta a la clasificación supervisada donde el patrón de entrada es un vector de caracterı́sticas obtenido a partir de una imagen de intensidades de la cara y su clase es una variable de tipo cualitativa (categórica o discreta) [HTF09] [Blu11]. En nuestro caso, y a modo de ejemplo, cada variable clase representa un atributo facial demográfico como el género, la raza y la edad. En general, un sistema automático de clasificación de caras está divido en cuatro etapas:. Detección de la cara. Dada una imagen detectamos y localizamos automáticamente una o varias caras. Usualmente, se utiliza un clasificador dicotómico que analiza diferentes subregiones de la imagen, a diferentes escalas y posiciones, para identificar o no la presencia de una cara. Procesamiento de la imagen. Se mejora el aspecto de la imagen y se hacen más evidentes los detalles que nos interesan estudiar. Extracción/Selección de caracterı́sticas. En esta etapa se utilizan técnicas de reducción de dimensionalidad con el propósito de evitar errores en la siguiente etapa de clasificación inducida por información redundante o ruido potencial que puedan contener los datos generados en el paso anterior. Clasificación. Finalmente, el nuevo espacio de caracterı́sticas se divide en regiones separadas por hiperplanos de decisión donde cada una estas representa una clase. Para cada nueva entrada es posible asignar automáticamente una categorı́a. Para esto se debe construir un modelo matemático, el clasificador, a partir de un conjunto de datos de entrenamiento utilizando un algoritmo de aprendizaje..
(47) 2.1 Clasificador de género. 17. En la Figura 2.1 se resume cada una de las etapas que involucran la fase de entrenamiento de un clasificador de atributos faciales. El proceso comienza a partir de un conjunto de imágenes obtenidas por medio de un detector automático de caras y etiquetadas con su atributo facial manualmente. A cada imagen aplicamos un pre-procesamiento para poder mejorarla. Luego, cada una de las imágenes se transforma a un vector para facilitar su empleo en la clasificación. Sin embargo, los vectores generados por cada imagen contienen información redundante debido a su alta dimensionalidad. Utilizamos algoritmos de extracción de caracterı́sticas para generar vectores más compactos que conservan la información contenida en los vectores originales. Finalmente, en la etapa de clasificación se construye el modelo matemático que ajusta una función, f , cuyo dominio son los vectores formados por el nuevo espacio de caracterı́sticas, y su recorrido es el atributo facial que deseamos estimar. Una vez entrenado el clasificador podemos utilizarlo para estimar atributos faciales a partir de una nueva imagen, donde ésta se debe transformar al nuevo espacio de caracterı́sticas antes de realizar la consulta. El presente capı́tulo centrará su estudio en las etapas de reducción de dimensionalidad y de clasificación. Se analizará particularmente el atributo facial demográfico de género con el objetivo de encontrar un marco de trabajo base para la clasificación de otros atributos faciales.. 2.1.. Clasificador de género. La clasificación demográfica, y en particular el reconocimiento de género, es un tema con alto potencial de aplicación en áreas como la vigilancia, reconocimiento de rostros, indexación de vı́deos, estudios de marketing dinámico, entre otras aplicaciones. Esto ha atraı́do el interés de investigadores en visión por computador y el reconocimiento de patrones en las últimas décadas [MY02, BR07, MR08a, MR08b, GLS90, SVM02, LMJV06] y siendo SEXNET [GLS90] uno de los primeros intentos para reconocer el género de una persona a partir de su rostro. En la literatura existen muchas soluciones propuestas a este problema [MY02, BR07, MR08a, MR08b, GLS90, SVM02, LMJV06, VRdsC06, ZY07], que pueden ser agrupadas, en general, dentro de dos aproximaciones: Basadas en apariencia global (appearance-based ). Este tipo de aproximaciones utilizan toda la imagen de una cara para la clasificación. La imagen original se obtiene por medio de un detector de caras o manualmente. Esta imagen se.
(48) 18. Clasificador Unidimensional de Atributos Faciales Demográficos. Figura 2.1: Etapas para la clasificación automática de la cara utilizando atributos faciales. Donde Ci representa una variable clase que corresponde a un atributo facial como el género (hombre, mujer). ajusta a un tamaño estándar para luego normalizar su textura en iluminación (ecualización de histograma, por ejemplo). En algunos casos, se agrega una máscara para eliminar el efecto que pueda tener el fondo que está detrás de la cara. Finalmente, se utiliza toda la información obtenida, del proceso antes descrito, como vector de entrada para la clasificación. Ver Figura 2.2. Basadas en caracterı́sticas (feature-based ). Por otro lado, esta aproximación extrae un conjunto de caracterı́sticas especı́ficas y discrimantes de la imagen de la cara que son utilizadas como entrada para el entrenamiento del clasificador, y su posterior uso. Ver Figura 2.3.. 2.2.. Estado del arte. Uno de los primeros trabajos importantes en el reconocimiento de género fue desarrollado por Moghaddam y Yang [MY02]. Adoptaron una aproximación basada en apariencia y utilizaron un clasificador para entrada de datos no lineales; denominado máquina de soporte vectorial (Support Vector Machine) con una fun-.
(49) 2.2 Estado del arte. 19. Figura 2.2: Esquema que representa una aproximación basada en la apariencia: Se detecta la cara, se reduce de tamaño y se normaliza en iluminación, finalmente se utiliza toda la información de la imagen resultante como entrada al clasificador.. Figura 2.3: La imagen muestra un ejemplo de una aproximación basada en caracterı́sticas. Para cada imagen mostrada en la figura se seleccionan diferentes regiones de ésta para la clasificación. La primera imagen a la izquierda, muestra las caracterı́sticas seleccionadas para un clasificador de género utilizando un algoritmo de boosting [ZY07]. Las imágenes siguientes, segunda, tercera y cuarta, muestran las regiones seleccionadas para estimar la etnia (Asiático/No Asiático), niñez (Niño/ No Niño) y vejez (Anciano/No Anciano). ción kernel de base radial (Radial Basis Function Kernel ), SVM+RBF [MY02]. Obtuvieron una tasa de acierto para reconocimiento de género del 96,6 % utilizando 1775 imágenes seleccionadas desde la base de datos FERET [PMRR00]. Las imágenes utilizadas fueron recortadas y alineadas automáticamente. Para las pruebas del clasificador utilizaron validación cruzada 5-fold . Baluja y Rowley [BR07], por otro lado, encontraron e informaron sobre un sesgo en el trabajo presentado por Moghaddam y Yang [MY02] causado por el uso de individuos con la misma identidad en diferentes fold s de la validación cruzada. En el.
(50) 20. Clasificador Unidimensional de Atributos Faciales Demográficos. mismo experimento Baluja y Rowley [BR07] lograron un 93,5 % de tasa de acierto utilizando SVM+RBF con alineación manual y una validación cruzada apropiada que considera diferentes sujetos para cada fold de entrenamiento y prueba. Para las aproximaciones basadas en caracterı́sticas se pueden encontrar trabajos que utilizan las diferencias de niveles de gris a partir de un par de pı́xeles [BR07], Haar-like wavelets [MR08a, SVM02], bancos de filtros multiescala (multiscale filter banks) [LMJV06] o LBP [MR08a, MR08b]. Shakhmarovich [SVM02] logró un 79 % y un 79,2 % de precisión en la clasificación de género y origen étnico respectivamente sobre un conjunto complicado de imágenes obtenidas desde la web. Utiliza caracterı́sticas Haar-like con una aproximación basada en el clasificador AdaBoost, este clasificador es varios órdenes de magnitud más rápido que el clasificador SVM . Baluja y Rowley [BR07] utilizaron comparaciones de parejas de pı́xeles en niveles de gris como clasificadores débiles (weak classifiers) sobre un esquema de aprendizaje basado en AdaBoost. Emplearon imágenes alineadas manualmente de la base de datos de Color FERET, especı́ficamente las galerı́as “fa” y “fb”, donde lograron una precisión del 94 %. Sus clasificadores son 50 veces más rápidos que la solución SVM propuesta por Moghaddam y Yang [MY02]. Mäkinen y Raisamo [MR08a] realizaron un conjunto de experimentos utilizando 411 imágenes (304 para entrenamiento y 107 para pruebas) de la base de datos FERET. Compararon las aproximaciones basadas en apariencia y caracterı́sticas, con imágenes alineadas y no alineadas. Obtuvieron resultados de rendimientos similares para las aproximaciones basadas en caracterı́sticas (AdaBoost) y las basadas en apariencia (utilizando clasificadores SVM+RBF ). El mejor resultado fue de 86 % y 82,62 % como tasas de acierto para imágenes de caras escaladas a un tamaño estándar de 36 × 36 y 24 × 24 pı́xeles respectivamente, utilizando una aproximación basada en apariencia y un clasificador SVM+RBF . En otro trabajo [MR08b], Mäkinen y Raisamo experimentaron con diferentes bases de datos, combinaciones de clasificadores y normalizaciones sobre la cara. La principal conclusión de su trabajo es que la alineación automática debe de ser muy precisa para que sea útil. Obtuvieron un 86 % de tasa acierto en imágenes de caras no alineadas utilizando SVM+RBF y una aproximación basada en apariencia. En un conjunto diferente de experimentos [MR08b] también estudiaron la importancia de considerar el pelo de la frente en su clasificación. En este trabajo, lograron un 84 % de tasa de acierto en el reconocimiento de género sobre un conjunto de 900 imágenes utilizando la base de datos FERET. Para este experimento emplearon nuevamente un clasificador SVM y una función kernel RBF , sin alineación de las imágenes. La principal conclusión de este segunda parte de experimentos es que la alineación geométrica (en este caso manual) es más importante que utilizar el pelo de la cabeza como una caracterı́stica.
(51) 2.2 Estado del arte. 21. visual. En contraste con Mäkinen [MR08a], Verschae y otros [VRdsC06] también realizaron varios experimentos con distintos tipos de caracterı́sticas y clasificadores. Obteniendo resultados similares a los encontrados por Mäkinen [MR08a] usando la base de datos de imágenes FERET, la mejor tasa de acierto corresponde a un experimento que utiliza una versión modificada de LBP y un clasificador AdaBoost [FSA99] con una tasa de acierto del 85,56 % para alineación manual y un 85,89 % de tasa de acierto para alineación automática de los ojos. También lograron tasas de reconocimiento similares utilizando SVM+RBF . Dago-Casas [DCGJYAC11] comparan la aproximación basada en apariencia con otros descriptores de la cara sobre dos conjuntos de imágenes capturadas en condiciones de adquisición no controladas (“in the wild ”), LFW [HRBLM07] y GROUPS [GC09], con imágenes escaladas a 105 × 90 y 120×105 pı́xeles. Los mejores resultados obtenidos fueron 79,16 % para la aproximación basada en apariencia y un 86,61 % utilizando otros descriptores de la cara sobre la base de datos GROUPS. En igual forma, obtienen sobre la base de datos LFW 89,24 % y 93,83 % respectivamente. Castrillón [CSLNRB13] utilizó diferentes descriptores de la cara y la fusión de diferentes clasificadores sobre las bases de datos de adquisición no controladas LFW, GROUPS y MORPH-II [RT06] con mejoras superiores al 3 % con respecto a [DCGJYAC11]. En el estudio del reconocimiento de género sobre imágenes con cambios bruscos en la pose de la cara [BCBB14] obtuvo una tasa de acierto entre el 84,31 % y el 88,04 % sobre la base de datos Multi-PIE [GMC+ 10]. Toews y Arbel [TA09] obtuvieron un 83,7 % de tasa de acierto sobre FERET, utilizando un novedoso método basado en caracterı́sticas que utiliza zonas especificas de las imágenes descritas con SIFT [Low04]. La principal conclusión obtenida de los resultados encontrados en la literatura, es que las aproximaciones basadas en apariencia que utilizan un clasificador SVM+RBF , y las basadas en caracterı́sticas locales que utilizan clasificadores basados en AdaBoost, eran los mejores clasificadores publicados para entornos contralados como en FERET y PAL . La primera aproximación es marginalmente superior en términos de tasas de aciertos en la clasificación, y la segunda es órdenes de magnitud más rápido que el primero. La mayorı́a de los resultados encontrados en la literatura se obtuvieron utilizando validación cruzada (cross-validation) sobre una única base de datos. En este capı́tulo se demuestra empı́ricamente que estas estimaciones son sesgadas y optimistas, puesto que las imágenes contenidas en una única base de datos tienden a poseer dependencias inherentes a las condiciones de adquisición y, en la mayorı́a de los casos, con condiciones similares de demografı́a. Trabajos posteriores al nuestro [BCBB11], como el de Dago-Casas [DCGJYAC11] han validado estos resultados. En resumen, de los resultados encontrados en la literatura.
(52) 22. Clasificador Unidimensional de Atributos Faciales Demográficos. se obtiene que las aproximaciones basadas en apariencia y caracterı́sticas tienen un comportamiento similar cuando se validan sobre bases de datos que fueron capturadas en condiciones controladas [BCBB11, MR08b]. Sin embargo, cuando la base de datos contiene imágenes capturadas en condiciones no controladas, o con cambios de apariencia bruscos, los rendimientos mejoran cuando se utiliza una aproximación basada en caracterı́sticas [DCGJYAC11, CSLNRB13, RBLNCS12]. Otra importante conclusión obtenida es que los resultados publicados no son fáciles de comparar debido a que en la mayorı́a de los casos los investigadores no utilizan las mismas bases de datos en sus estudios. Por el contrario, si las utilizan, no siempre seleccionan las mismas imágenes en sus experimentos. No obstante, Mäkinen y Raisamo [MR08a] desarrollaron un amplio conjunto de experimentos para el reconocimiento de género sometido a las mismas condiciones de validación. Desafortunadamente, utilizaron un conjunto reducido de imágenes (441) lo que no permite argüir conclusiones definitivas. Sin embargo, es posible deducir de su trabajo que el estado del arte en reconocimiento de género es aproximadamente un 93 % de tasa de acierto utilizando la base de datos FERET. Estos resultados también son coherentes con los obtenidos por Baluja y Rowley [BR07]. Por otro lado, el rendimiento del clasificador, aunque importante, no es sólo la única variable de nuestro interés. Con la notable excepción del trabajo de Baluja y Rowley [BR07], las aproximaciones existentes para el reconocimiento de género se han enfocado principalmente en sistemas de computación de alto rendimiento y no han considerado la eficiencia del clasificador como un factor relevante. El considerable aumento de las aplicaciones de visión por computador en dispositivos de bajas prestaciones (bajo poder de cómputo) como cámaras fotográficas digitales y móviles inteligentes (smart-phones) nos hace considerar que la eficiencia del clasificador como un aspecto importante. En este capı́tulo, y los próximos, nos concentraremos en la revisión y construcción de algoritmos cuya principal caracterı́stica sea su bajo coste computacional y un alto rendimiento en términos de tasa de acierto para la clasificación de género, entre otros atributos faciales. Hasta el momento, solo los algoritmos propuestos por Baluja et al [BR07] y Shakhmarovich et al [SVM02], ambos basados en el algoritmo de clasificación AdaBoost, cumplen con este requisito computacional. Para concluir, observamos que las propuestas estudiadas sobre clasificación de género han subestimado una de las técnicas de clasificación lineal más simples: Un clasificador Bayesiano cuyas variables de entrada son obtenidas a partir de un subespacio reducido por medio de un Análisis de Discriminante Lineal (LDA, Linear Discriminant Analysis). En la sección 2.3 revisaremos los conceptos básicos para la selección de carac-.
(53) 2.3 Análisis Discriminante Lineal (LDA). 23. terı́sticas por medio del análisis discriminante. Además se propondrá una forma sencilla, y lineal, para la selección de caracterı́sticas cuya aproximación logra resultados comparables a los mejores clasificadores de género encontrados en la literatura como los basados en SVM+RBF [MY02] y Boosting [BR07]. Finalmente, se comparan los resultados obtenidos con los encontrados en la literatura.. 2.3.. Análisis Discriminante Lineal (LDA). Dado un problema de clasificación multiclase con C clases y N número de instancias de entrada de x, {xi }N i=1 , el análisis discriminante lineal (LDA) proporciona una proyección lineal sobre los datos iniciales de la muestra dentro de un subespacio de a lo sumo d = C−1 dimensiones. Con la proyección se busca una medida que maximice la separación entre las diferentes clases (variabilidad entre-clase) y minimice variabilidad dentro de cada clase (variabilidad intra-clase). Es decir, la proyección de las instancias asociadas a una misma clase se encuentran lo más cerca posible unas de las otras, mı́nima dispersión intra-clase; de la misma manera se espera que las medias proyectadas de cada clase estén lo más lejos posible unas de las otras, máxima separación entre-clases. La base del nuevo subespacio transformado de d dimensiones, {wi }di=1 , se obtiene maximizando. d X w> i SB wi J(w) = , > wi SW wi i=1. (2.1). donde SB y SW son respectivamente las matrices de dispersión entre-clase e intraclase [Fuk90], que se definen como:. SB. c 1 X = nj (µj − µ)(µj − µ)> , N j=1. SW. c 1 X X = nj (xi − µj )(xi − µj )> , N j=1 i∈j. (2.2). Pc Siendo nj el número de elementos que pertenecen a la clase j, N = j=1 nj el número de elementos de toda la muestra, µj el promedio de los elementos de la muestra que pertenecen a la clase j, y µ el promedio de toda la muestra..
(54) 24. Clasificador Unidimensional de Atributos Faciales Demográficos. El valor máximo de J(W ) viene dado por los valores propios generalizados de SB W = SW WD, donde W es una matriz cuyas columnas son wi y D es la matriz diagonal de valores propios. El rango de la matriz SB es como máximo C−1 y será el rango de la matriz de proyección LDA, W. En el caso de que la matriz SW sea no singular, el problema de autovalores generalizados se puede convertir en un problema de autovalores:. S−1 W SB W = WD. (2.3). En las secciones 2.3.1, 2.3.2 y 2.3.3 describiremos tres técnicas de reducción de dimensiones que son utilizadas como paso previo para el cálculo del nuevo subespacio LDA. Cada uno de los resultados obtenidos son comparados en la sección de experimentos.. 2.3.1.. LDA en el subespacio transformado PCA (I), PCA+LDA. Cuando se trata con problemas de clasificación de imágenes, es común encontrar bases de datos que cuentan con un número limitado de imágenes. En algunos casos, la cantidad de imágenes puede ser menor que el espacio de caracterı́sticas (espacio d-dimensional) necesario para el buen funcionamiento del clasificador. Por ejemplo, si se trabaja bajo una aproximación basada en apariencia lo normal serı́a que las variables del vector de caracterı́sticas de entrada sean los pı́xeles de toda la imagen, si consideramos una imagen de 32×32 pı́xeles el tamaño del vector de caracterı́sticas serı́a de 1024 variables o dimensiones. En el caso en que el número de imágenes de la base de datos sea menor a la cantidad de variables de entrada, para el ejemplo serı́an menos de 1024 imágenes, la matriz de dispersión intra-clase, SW , no se puede utilizar para el cálculo de la ecuación 2.3. Sin embargo, una solución alternativa posible es utilizar la matriz de covarianza de toda la muestra, Sm :. Sm = SB + SW. (2.4). La matriz Sm , de la ecuación 2.4, reemplaza a la matriz de dispersión intra-clase, SW . La solución de valores propios de la ecuación 2.3 no cambiará si utilizamos la ma-.
(55) 2.3 Análisis Discriminante Lineal (LDA). 25. triz Sm [YY03, ZM06a]. Además, si realizamos Análisis de Componentes Principales (Pricipal Component Analysis, PCA) previo a la transformación LDA, y retenemos solo aquellos vectores propios cuyos valores propios asociados son distintos de cero, el nuevo subespacio LDA construido a partir del subespacio PCA es equivalente al calculado solo utilizando LDA, subespacio original [YY03]. No obstante, si en la construcción del subespacio PCA desechamos los vectores propios asociados a valores propios no nulos, el modelo PCA+LDA no será estrictamente equivalente al subespacio generado solo utilizando LDA. A partir de este momento denominaremos PCA+LDA al método que utiliza el subespacio transformado PCA como entrada previa para el cálculo del LDA, independiente de la forma de como sean elegidos los vectores propios en el paso PCA. Uno de los resultados más antiguos utilizando PCA+LDA aplicado a imágenes son los FisherFaces de Belhumeur [BHK97]. En el caso FisherFaces se asume que el número de imágenes de la muestra, N , es más bajo que el número de pı́xeles de la imagen, P , y el número de vectores propios PCA retenidos, antes de aplicar el método LDA, es P − C. Para el caso particular de esta tesis, la mayorı́a de los datos de entrada utilizados para el entrenamiento contarán con más imágenes que pı́xeles. Por lo tanto, gran parte de los valores propios obtenidos al transformar los datos de entrenamiento al subespacio PCA serán distintos de cero. Hemos comprobado empı́ricamente, que dependiendo de la cantidad de datos de entrenamiento el rendimiento del clasificador tiende a disminuir cuando utilizamos todos los vectores propios asociados a valores propios no nulos obtenidos al aplicar PCA (ver figuras 2.10 y 2.11). Como consecuencia de esto, y dentro de nuestras mejoras propuestas, un paso importante para obtener un rendimiento óptimo en la clasificación utilizando una aproximación lineal, es elegir de manera adecuada aquellos vectores propios PCA que contengan la mayor información discriminante posible. Para seleccionar las dimensiones adecuadas del subespacio PCA, proponemos un esquema de validación cruzada en vez de la aproximación tradicional de retener los vectores propios dependiendo de su porcentaje de varianza. Usualmente se seleccionan los vectores propios que están contenidos en la relación de valores propios con un porcentaje varianza del 95 % o 99 % [JW98]. El algoritmo de entrenamiento propuesto prueba diferentes conjuntos de vectores propios PCA. Los vectores propios PCA se ordenan de mayor a menor con respecto a su magnitud y se seleccionan secuencialmente. En el algoritmo 2.1 mostramos en detalle su funcionamiento, donde, P es el número de pı́xeles en una imagen, X es una matriz con los datos de entrenamiento donde cada imagen es un vector columna, L es el vector con las correspondientes etiquetas clase (Masculino o Femenino), PP CA es la matriz base PCA ordenada con los vectores propios en orden decreciente con respecto a su varianza, Ī es la imagen.
Outline
Documento similar
Proporcione esta nota de seguridad y las copias de la versión para pacientes junto con el documento Preguntas frecuentes sobre contraindicaciones y
[r]
Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),
Después de una descripción muy rápida de la optimización así como los problemas en los sistemas de fabricación, se presenta la integración de dos herramientas existentes
Sanz (Universidad Carlos III-IUNE): "El papel de las fuentes de datos en los ranking nacionales de universidades".. Reuniones científicas 75 Los días 12 y 13 de noviembre
(Banco de España) Mancebo, Pascual (U. de Alicante) Marco, Mariluz (U. de València) Marhuenda, Francisco (U. de Alicante) Marhuenda, Joaquín (U. de Alicante) Marquerie,
o Si dispone en su establecimiento de alguna silla de ruedas Jazz S50 o 708D cuyo nº de serie figura en el anexo 1 de esta nota informativa, consulte la nota de aviso de la
La siguiente y última ampliación en la Sala de Millones fue a finales de los años sesenta cuando Carlos III habilitó la sexta plaza para las ciudades con voto en Cortes de