• No se han encontrado resultados

Reconocimiento de rostros mediante wavelets y redes neuronales

N/A
N/A
Protected

Academic year: 2023

Share "Reconocimiento de rostros mediante wavelets y redes neuronales"

Copied!
142
0
0

Texto completo

(1)

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y  ELÉCTRICA 

SECCIÓN DE ESTUDOS DE POSGRADO E  INVESTIGACIÓN 

UNIDAD CULHUACAN 

“RECONOCIMIENTO DE ROSTROS  MEDIANTE WAVELETS Y REDES 

NEURONALES” 

ASESOR: DR. HÉCTOR MANUEL PÉREZ MEANA 

México, D.F.  Junio 2008. 

T E S

QUE  PAR A  OB TENER  EL  GR ADO  DE: 

MAESTRO EN CIENCIAS DE INGENIERÍA  E N   M I C R O E L E C T R Ó N I C A 

P R E S E N T

I N G .   G I B R A N   F U E N T E S   P I N E D A

(2)
(3)
(4)

En este trabajo se propone un m´etodo para reconocer rostros de bajo costo computacional y robusto a cambios de iluminaci´on, postura y expresi´on facial. El m´etodo propuesto se en- cuentra dividido en dos etapas fundamentales: 1) extracci´on de caracter´ısticas faciales por medio de la transformada wavelet discreta (TWD) y 2) clasificaci´on de patrones mediante la red neuronal perceptr´on multicapa a partir de los vectores caracter´ısticos extra´ıdos. La TWD es utilizada con la finalidad de construir un subespacio caracter´ıstico de bajas dimensiones expandido por medio de funciones wavelets a partir del espacio original de la imagen. La representaci´on wavelet describe las caracter´ısticas faciales de forma m´as robusta y simple que la representaci´on original de la imagen. Las variaciones entre vectores caracter´ısticos debido a los cambios de identidad son mayores que las variaciones intraclase producidas por cambios de iluminaci´on, postura y expresi´on facial. La TWD es implementada eficientemente por el algoritmo de la transformada r´apida wavelet (TRW), el cual se lleva a cabo mediante la aplicaci´on recursiva de una serie de filtros paso-bajas y paso-altas. Para la etapa de clasi- ficaci´on de patrones, se emplea la red neuronal perceptr´on multicapa por su capacidad para resolver problemas de clasificaci´on no lineal y generalizar a partir de un n´umero limitado de ejemplos. La combinaci´on de las redes neuronales y la TWD permite eliminar o al menos reducir algunos inconvenientes que presentan varios m´etodos propuestos de reconocimiento de rostros. Las pruebas usando diferentes filtros wavelet y niveles de descomposici´on as´ı como la comparaci´on con otros m´etodos son presentadas en este trabajo.

i

(5)

This work proposes a method to recognize faces with low computing cost and robust to chan- ges in illumination, pose and facial expression. Our approach is divided into two fundamental stages: 1) facial feature extraction by using the discrete wavelet transform (DWT) and 2) pattern matching from the extracted facial feature vectors based on multilayer perceptron neural network. DWT is used in order to construct a low-dimensional facial feature subspace spanned by basis wavelets functions from the original image space. The wavelet represen- tation describes facial features more robustly and simply for recognition than the original image representation. Variations between extracted feature vectors due to change in identity are larger than those intra-subject variations due to changes in illumination, facial expres- sion and pose. DWT is performed by recursively passing the face image through a series of high-pass and low-pass wavelet filters. For the pattern matching stage, we rely on multilayer perceptron neural networks because of its capability to solve nonlinear classification problems and to generalize from a small number of examples. The combination of neural networks and wavelets allows us to eliminate or at least to reduce the drawbacks of many face recognition methods. The tests realized with different wavelet filters and decomposition levels as well as a comparison against some common face recognition methods are presented in this work.

ii

(6)

Este trabajo culmina un largo camino de esfuerzos y sacrificios pero a la vez de grandes alegr´ıas y satisfacciones. A lo largo de este camino han estado muchas personas que con su ayuda han hecho posible atravesarlo exitosamente.

En primer lugar quiero agradecer al Instituto Polit´ecnico Nacional y en especial a SEPI ESIME CULHUACAN por brindarme la oportunidad de realizar mis estudios de licenciatura y maestr´ıa.

Al CONACYT por otorgarme el soporte econ´omico sin el cual hubiera sido imposible continuar mis estudios.

A los profesores Toshinori Watanabe y Hisashi Koga por recibirme cor- dialmente en su laboratorio y por todas sus atenciones y ense˜nanzas. A la Universidad de Electro-Comunicaciones de Tokyo por las facilidades y apoyo durante mis estancia en Jap´on.

A mi madre Gloria por su sacrificio para sacar adelante a su familia, por su amor y ternura, y principalmente por darme la oportunidad de ser su

iii

(7)

hijo y la bendici´on de ser mi madre. A mi padre Vicente por sus consejos, por convertirse en mi amigo y regalarme parte de su amor. A mis hermanas Rosinda y Karime por ser las compa˜neras m´as entra˜nables, por su amor, invaluable apoyo y cari˜no. A mi t´ıa Eneida y mi primo Alvaro por abrirme las puertas de su casa y cobijarme como parte de su familia.

A Mariana por traer tanta felicidad y amor, por mantenerme siempre lleno de esperanza y de f´e. Por darme la fortaleza para alcanzar mis objetivos y estar siempre a mi lado.

A mis asesor Dr. H´ector Manuel P´erez Meana por todos sus consejos, por su confianza y apoyo. A la Dra. Mariko Nakano Miyatake y el Dr.

Gabriel Sanch´ez P´erez por su ayuda y amabilidad en todo momento.

A todos mis profesores por sus ense˜nanzas y al personal de la SEPI que amablemente me ayud´o cada vez que lo necesitaba.

Gibran Fuentes Pineda

(8)

La identificaci´on personal es un tema de alta prioridad en la sociedad moder- na. Actualmente, existen numerosas situaciones en las que se requiere aunten- ticar o conocer la identidad de una persona con un alto grado de confiabilidad y eficiencia. Los sistemas biom´etricos han proporcionado una soluci´on a este tipo de problemas.

En especial, el reconocimiento de rostros ha llamado enormemente la aten- ci´on de los investigadores y compa˜n´ıas y representa uno de los biom´etricos m´as aceptados por los usuarios debido a la facilidad y discresi´on con que se pueden capturar las muestras de los rostros y a que es una las formas m´as comunes de identificaci´on entre los individuos. Sin embargo, el problema de reconocimiento de rostros a´un no ha sido completamente resuelto ya que existen muchos retos y desaf´ıos que enfrentar.

En este trabajo se propone un m´etodo para reconocer rostros de bajo costo computacional que busca sacar provecho de la capacidad de generalizaci´on y

v

(9)

para resolver problemas de clasificaci´on altamente no lineales que ofrecen las redes las redes neuronales as´ı como de la simplicidad y robustez contra variaciones de expresi´on facial, iluminaci´on y postura de la representaci´on wavelet de las im´agenes de los rostros obtenida mediante transformada wavelet discreta.

La tesis se encuentra dividida en 5 cap´ıtlos. En el cap´ıtulo 1 se plantean las motivaciones, los objetivos y los retos y desaf´ıos de la investigaci´on. Por otra parte, en el cap´ıtulo 2 se rese˜nan los m´etodos m´as sobresalientes de reconocimiento de rostro y algunas aplicaciones comerciales. El sistema pro- puesto es presentado en detalle en el cap´ıtulo 3, en el cual se realiza una breve descripci´on de la transformada wavelet discreta y la red neuronal perceptr´on multicapa. Los resultados experimentales bajo diferentes condiciones se repor- tan en el cap´ıtulo 4. Finalmente, en el cap´ıtulo 5 se presentan las conclusiones y trabajos futuros.

Gibran Fuentes Pineda

(10)

Lista de Figuras XI

Lista de Tablas XIII

1. Introducci´on 1

1.1. Motivaci´on . . . 2

1.2. Retos y Desaf´ıos . . . 3

1.3. Objetivos y Aportes de la Investigaci´on . . . 5

1.4. Metas . . . 6

1.5. Conclusiones . . . 7

2. Antecedentes 9 2.1. Tecnolog´ıa de Reconocimiento de Rostros . . . 9

2.2. T´ecnicas de preprocesamiento . . . 11

vii

(11)

2.3. Extracci´on de Caracter´ısticas Faciales . . . 12

2.3.1. M´etodos Basados en Caracter´ısticas Invariantes . . . . 13

2.3.2. M´etodos Hol´ısticos . . . 14

2.3.3. M´etodos H´ıbridos . . . 30

2.4. Evaluaciones y Bases de Datos . . . 30

2.5. Aplicaciones Comerciales . . . 31

2.6. Conclusiones . . . 34

3. Sistema Propuesto 35 3.1. Metodolog´ıa . . . 35

3.2. Transformada Wavelet . . . 38

3.2.1. Transformada Wavelet Continua . . . 38

3.2.2. Transformada Wavelet Discreta . . . 39

3.2.3. Familias de Funciones Wavelet . . . 42

3.2.4. Vectores Caracter´ısticos . . . 45

3.3. Redes Neuronales Artificiales . . . 47

3.3.1. Modelo de Neurona Artificial . . . 49

3.3.2. Topolog´ıa de las RNA . . . 51

(12)

3.3.3. Paradigmas de Aprendizaje de las RNA . . . 52

3.3.4. Red Neuronal Perceptr´on Multicapa . . . 54

3.3.5. Algoritmo Backpropagation . . . 57

3.3.6. Clasificador de rostros . . . 59

3.4. Caracter´ısticas del Sistema Propuesto . . . 63

3.5. Conclusiones . . . 65

4. Resultados Experimentales 67 4.1. Experimento . . . 67

4.2. Evaluaci´on de Distintos Filtros Wavelet . . . 69

4.3. Evaluaci´on de Distintos Niveles de Descomposici´on . . . 71

4.4. Comparaci´on con Otros M´etodos . . . 72

4.5. Conclusiones . . . 74

5. Conclusiones Generales y Trabajos Futuros 77

Referencias 79

Anexos 91

(13)

A. Glosario 91

Glosario 95

B. Rutinas de MATLAB 97

B.1. Rutina Principal . . . 97

B.2. Extracci´on de Caracter´ısticas . . . 98

B.3. Descomposici´on . . . 100

B.4. Convertidor de Matriz a Vector . . . 101

B.5. Backpropagation . . . 102

B.6. Funci´on No Lineal . . . 104

B.7. Derivada de la Funci´on No Lineal . . . 105

B.8. Evaluaci´on . . . 106

C. Base de Datos de Rostros de ORL 109

D. Publicaciones 115

(14)

2.1. Diagrama general de los sistemas de reconocimiento de rostros. 11

3.1. Diagrama a bloques del sistema propuesto. . . 37 3.2. Esquema de filtrado para calcular la TWD unidimensional. . . 40 3.3. ´Arbol de descomposici´on por wavelets en tres niveles. . . 41 3.4. Esquema de filtrado para calcular la TWD de una imagen. . . 42 3.5. Descomposici´on de la imagen de un rostro en matrices de apro-

ximaci´on y detalles. . . 43 3.6. Esquema de extracci´on de caracter´ısticas mediante la TWD . 45 3.7. Descomposici´on de la imagen de un rostro en cinco niveles. . . 46 3.8. Variaci´on entre vectores caracter´ısticos intraclase. . . 47 3.9. Variaci´on entre vectores caracter´ısticos interclase. . . 48 3.10. Modelo de neurona de McCulloch y Pitts. . . 49

xi

(15)

3.11. Ejemplos de funciones de activaci´on: (a) escal´on, (b) rampa,

(c) sigmoidal y (d) gaussiana. . . 50 3.12. Arquitectura de una red neuronal perceptr´on multicapa. . . . 56 3.13. Red neuronal perceptr´on con tres capas. . . 60 3.14. Esquema de clasificaci´on propuesto. . . 61

4.1. Ejemplos de la base de datos de rostros ORL. . . 68

(16)

2.1. Bases de datos de rostros est´andar disponibles via interntet. . 32 2.2. Aplicaciones comerciales de reconocimiento de rostros. . . 33

4.1. Evaluaci´on de diferentes filtros wavelet. . . 70 4.2. Evaluaci´on de diferentes niveles de descomposici´on . . . 72 4.3. Comparaci´on de rendimiento entre algunos m´etodos de extrac-

ci´on de caracter´ısticas faciales. . . 74

xiii

(17)
(18)

Introducci´ on

La identificaci´on personal es una funci´on vital en muchas actividades de la sociedad moderna. La necesidad de contar con mecanismos de identificaci´on m´as confiables y pr´acticos ha generado un enorme inter´es en el desarrollo de m´etodos de identificaci´on biom´etricos. Los sistemas biom´etricos utilizan ca- racter´ısticas fisiol´ogicas (iris, huella dactilar, rostro, entre otros) y del compor- tamiento de los individuos (ej. cadencia de tecleo, voz, etc) para identificarlos.

En este cap´ıtulo se plantean las motivaciones as´ı como los objetivos y aportes de la investigaci´on. Asimismo, se rese˜nan los principales retos y desaf´ıos que enfrenta el reconocimiento de rostros.

1

(19)

1.1. Motivaci´ on

El rostro es un elemento del cuerpo humano ampliamente estudiado por dis- tintas disciplinas que van desde la psicolog´ıa y sociolog´ıa al procesamiento de im´agenes y visi´on por computadora, entre otras. El rostro es rico en capaci- dad comunicativa [33], en la interacci´on social es un elemento primordial y representa el principal medio para expresar emociones y estado cognoscitivo, transmitir identidad y diseminar respuestas afectivas [31,32] e intenciones. El reconocimiento de rostros por medios computacionales ha recibido especial atenci´on en los ´ultimos a˜nos debido principalmente a la demanda de segu- ridad en sitios p´ublicos como estadios, aeropuertos, etc. y al gran potencial comercial de sus aplicaciones. Adem´as, las muestras de los rostros a diferencia de otros atributos biom´etricos pueden ser obtenidas en forma sencilla y sin la necesidad de solicitar al usuario de su cooperaci´on e incluso en muchos casos sin que tenga conocimiento de estar siendo identificado. Por tales caracter´ısti- cas, el reconocimiento de rostros se encuentra entre los sistemas biom´etricos m´as aceptados por los usuarios [11, 12, 34].

Hasta ahora, escasas aplicaciones comerciales han podido ofrecer solucio- nes apenas adecuadas para la identificaci´on personal por medio de rostros. Sin embargo, gracias al desarrollo de computadoras personales de alto rendimien- to y al gran auge de las tecnolog´ıas digitales, la implementaci´on comercial

(20)

masiva de sistemas de reconocimiento de rostros confiables y eficientes ofrece prometedoras expectativas. Las aplicaciones del reconocimiento de rostros in- cluyen el control de acceso, vigilancia, interacci´on hombre-m´aquina, indexado basado en contenido, etc.

1.2. Retos y Desaf´ıos

A pesar que para el sistema visual humano reconocer rostros es una tarea ru- tinaria y sencilla, el dise˜no de un modelo computacional de reconocimiento de rostros representa un problema de grandes desaf´ıos. En los ultimos a˜nos se han alcanzado grandes avances, sin embargo, a pesar de los esfuerzos realizados, el problema del reconocimiento de rostros por medios computacionales est´a a´un lejos de ser completamente resuelto. Reportes de evaluaciones y estudios sobre reconocimiento de rostros indican que el rendimiento de muchos algoritmos es deteriorado debido a cambios de iluminaci´on, expresi´on facial, entre otros fac- tores [1, 14, 47, 61, 67]. Los principales desaf´ıos del reconocimiento autom´atico de rostros se detallan a continuaci´on.

Variabilidad en la apariencia facial. La apariencia de un rostro est´a sujeta a muchos factores, entre los m´as importantes se encuentran los cambios de iluminaci´on, expresi´on facial y postura. Tambi´en producen variaciones importantes en la apariencia los cambios debido a la edad,

(21)

la aplicaci´on de maquillaje, el uso de anteojos, cambios en el cabello y bello facial, el uso de disfraces, cirug´ıas y lesiones en el rostro. Moses et al. [40] advierten que las variaciones entre im´agenes del mismo rostro de- bido a cambios de iluminaci´on y postura casi siempre son mayores a las variaciones debido a cambios de identidad. Por otra parte, la similitud en la apariencia de algunas personas tambi´en dificulta la diferenciaci´on interpersonal. Por tal motivo, la extracci´on de caracter´ısticas faciales al- tamente estables a variaciones en la apariencia representa uno de los m´as grandes desaf´ıos del reconocimiento de rostros.

Geometr´ıa altamente no lineal y no convexa del rostro. La geo- metr´ıa del rostro est´a caracterizada por variaciones altamente no lineales y no convexas, estas variaciones juegan un papel importante en la diferen- ciaci´on entre individuos. Los sistemas de reconocimiento de rostros que utilizan m´etodos lineales para realizar la representaci´on de los rostros, no son capaces de preservar dicha informaci´on por lo que su capacidad para reconocer rostros es limitada [36]. Por lo tanto, es esencial para cualquier sistema de reconocimiento de rostros obtener una representaci´on que sea capaz de preservar la informaci´on m´as relevante para la diferenciaci´on entre individuos.

La maldici´on de la dimensionalidad: La imagen de un rostro se encuentra localizada en un espacio euclidiano de alta dimensionalidad.

(22)

Por ejemplo, una imagen de 128 × 128 pixeles reside en un espacio de 16384 dimensiones. Por otra parte, el n´umero de muestras requeridas para aproximar una distribuci´on con una precisi´on constante crece en forma exponencial a la dimensionalidad del espacio de entrada1[7], sin embargo, en la pr´actica la cantidad de muestras disponible es limitada, en cuyo caso los datos estar´ıan dispersos y por consecuencia la aproximaci´on ser´ıa muy pobre [8]. Por ejemplo, si entrenamos un sistema basado en redes neuronales con un n´umero reducido de patrones de entrenamiento (en la pr´actica el n´umero de patrones de entrenamiento disponible es menor a 10 e incluso solamente 1 [36]) en un espacio de alta dimensionalidad, la generalizaci´on de los patrones ser´ıa muy pobre. Por lo tanto, un desaf´ıo importante para los sistemas de reconocimiento de rostros es obtener una representaci´on de baja dimensionalidad de los rostros.

1.3. Objetivos y Aportes de la Investigaci´ on

El objetivo de este trabajo es desarrollar un nuevo m´etodo de reconocimiento de rostros de bajo costo computacional y robusto a cambios de iluminaci´on, postura y expresi´on facial. El m´etodo propuesto consiste de dos etapas fun- damentales: 1) extracci´on de caracter´ısticas faciales por medio de la trans- formada wavelet discreta (TWD) y 2) clasificaci´on de patrones mediante la

1Bellman nombr´o a este fenomeno como ”la maldici´on de la dimensionalidad”.

(23)

red neuronal perceptr´on multicapa a partir de los vectores caracter´ısticos extra´ıdos. Asimismo, se busca realizar el an´alisis de los vectores de carac- ter´ısticas faciales extra´ıdos por la TWD empleando diferentes filtros wavelets y niveles de descomposici´on.

El aporte principal de la investigaci´on consiste en la construcci´on de un subespacio caracter´ıstico de bajas dimensiones, expandido por medio de fun- ciones wavelet a partir del espacio original de la imagen. De la misma manera, la red neuronal perceptr´on multicapa aporta su capacidad para resolver pro- blemas de clasificaci´on no lineal y para generalizar a partir de un n´umero limitado de ejemplos. La combinaci´on de las redes neuronales y la TWD ofre- ce un modelo robusto y eficiente de reconocimiento de rostros.

Este trabajo se concentra ´unicamente en la tarea de reconocimiento, por lo tanto, se supone que la detecci´on y normalizaci´on han sido realizadas. Se comprueba la eficiencia del sistema comparando los resultados obtenidos con otros m´etodos propuestos.

1.4. Metas

1. Revisar y analizar el estado del arte en reconocimiento de rostros.

2. Dise˜nar un nuevo m´etodo de extracci´on de caracter´ısticas faciales robusto a cambios de iluminaci´on, expresi´on facial y postura.

(24)

3. Realizar la simulaci´on de la etapa de extracci´on de caracter´ısticas.

4. Evaluar el rendimiento del m´etodo de extracci´on de caracter´ısticas pro- puesto.

5. Dise˜nar un clasificador de caracter´ısticas faciales.

6. Realizar la simulaci´on del clasificador de caracter´ısticas faciales.

7. Evaluar el rendimiento del sistema propuesto.

1.5. Conclusiones

El rostro juega un papel primordial en la interacci´on social debido a su ca- pacidad comunicativa y representa una de las formas m´as comunes de iden- tificaci´on entre los seres humanos. El reconocimiento autom´atico de rostros es uno de los sistemas biom´etricos m´as estudiados y representa una de las mejores opciones para el aumento de seguridad en sitios p´ublicos. Adem´as, el potencial comercial de sus aplicaciones hacen atractiva su exploraci´on. La combinaci´on de las redes neuronales y la TWD ofrece un modelo prometedor para reconocer eficientemente rostros humanos.

(25)
(26)

Antecedentes

En este cap´ıtulo se analiza el estado del arte en reconocimiento de rostros. En primer lugar, se presenta el esquema general de los m´etodos de reconocimien- to de rostros. Posteriormente, se realiza un estudio de las principales t´ecnicas de preprocesamiento y m´etodos de extracci´on de caracter´ısticas faciales pro- puestos hasta la fecha. Finalmente, se muestran algunas bases de datos de rostros est´andar y aplicaciones comerciales de reconocimiento de rostros.

2.1. Tecnolog´ıa de Reconocimiento de Rostros

Los sistemas de reconocimiento de rostros operan en dos diferentes modos:

verificaci´on (autenticaci´on) e identificaci´on. En un sistema de verificaci´on, se realiza una solicitud de identidad al usuario por medio de un identificador artificial (contrase˜na, tarjeta, etc), posteriormente, la identidad es verificada

9

(27)

capturando la muestra biom´etrica del usuario y compar´andola con la muestra almacenada que corresponde a dicho identificador. Por su parte, los sistemas de identificaci´on capturan la muestra biom´etrica del usuario y determinan la identidad mediante la b´usqueda en una base de datos de una muestra biom´etrica aceptablemente aproximada.

Reconocer rostros es una tarea compuesta de varias subtareas, t´ıpicamente consiste de detecci´on, preprocesamiento, extracci´on de caracter´ısticas y clasi- ficaci´on. La detecci´on de rostros segmenta la regi´on de la imagen en la que se encuentra localizado el rostro. En el preprocesamiento se realizan la normali- zaci´on del segmento extra´ıdo para mejorar el rendimiento del sistema. En la extracci´on de caracter´ısticas se obtienen una representaci´on de baja dimen- sionalidad de los rostros mediante el mapeo del espacio original de la imagen a un subespacio caracter´ıstico m´as simple y menos sensible a variaciones no relacionadas a la identidad. La clasificaci´on es la ´ultima etapa de un sistema t´ıpico de reconocimiento de rostros, en esta etapa el subespacio caracter´ısti- co es particionado y los vectores caracter´ısticos extra´ıdos son clasificados de acuerdo a su identidad.

(28)

Figura 2.1: Diagrama general de los sistemas de reconocimiento de rostros.

2.2. T´ ecnicas de preprocesamiento

Debido a los diferentes factores que pueden afectar el rendimiento de los sistemas de reconocimiento de rostros, es com´un la utilizaci´on de t´ecnicas de preprocesamiento que permiten minimizar estos factores y por consecuencia mejorar el rendimiento. Algunas de las t´ecnicas de preprocesamiento m´as com´unmente utilizadas en sistemas de reconocimiento de rostros se describen a continuaci´on.

Conversi´on de entero a flotante. Despu´es de que la imagen de rostro es le´ıda de un archivo, todos los c´alculos realizados sobre la imagen se realizan en punto flotante de doble presici´on

Normalizaci´on geom´etrica. Este tipo de normalizaci´on ajusta la ima- gen del rostro de tal manera que todos los rostros se encuentren en la misma posici´on, tengan la misma orientaci´on e incluso el mismo tama˜no.

Enmascaramiento. El enmascaramiento se realiza para eliminar partes

(29)

de la imagen que no corresponden al rostro tales como el fondo, el cabello, vestimenta, etc.

Ecualizaci´on del histograma. Esta t´ecnica de preprocesamiento in- tenta normalizar el histograma de la imagen para reducir las variaciones producidas por cambios de iluminaci´on.

Normalizaci´on de pixel. Se realiza para compensar las variaciones de brillo y contraste.

2.3. Extracci´ on de Caracter´ısticas Faciales

Las im´agenes de los rostros, representadas por arreglos de pixeles de altas di- mensiones, generalmente pertenecen a variedades de bajas dimensiones. Las t´ecnicas de an´alisis de subespacios para el reconocimiento de rostros est´an motivadas por el hecho de que los rostros pertenecen a un subespacio del es- pacio total de la imagen [36]. Por ejemplo, una imagen de 128 × 128 consiste de 16384 pixeles con n niveles de gris que generan n16384 diferentes combi- naciones, las cuales pueden expresar una amplia gama de clases de patrones tales como automoviles, ´arboles, casas o rostros. Sin embargo, entre todas las posibles combinaciones, solamente algunas corresponden a rostros, por lo tanto, la representaci´on original de la imagen es altamente redundante pa- ra el reconocimiento de rostros y la dimensionalidad de esta representaci´on

(30)

podr´ıa ser reducida enormemente si se considera ´unicamente el subespacio de los rostros.

Idealmente, se espera que las t´ecnicas de extracci´on de caractar´ısticas fa- ciales sean capaces de: (1) reducir las dimensiones del espacio original de la imagen, (2) eliminar la influencia de las variaciones no relacionadas a cambios de identidad y (3) maximizar la diferencia entre rostros de distintas perso- nas. Con esta finalidad se han propuesto un vasto n´umero de m´etodos de extracci´on de caracter´ıstiscas faciales, los cuales pueden clasificarse en tres categor´ıas: basados en caracter´ısticas invariantes, hol´ısticos e h´ıbridos.

2.3.1. M´etodos Basados en Caracter´ısticas Invariantes

Este tipo de m´etodos buscan caracter´ısticas estructurales que existen incluso cuando la postura o condiciones de iluminaci´on var´ıan, entre los que se en- cuentran los m´etodos empleados por los primeros sistemas de reconocimiento de rostros. T´ıpicamente, caracter´ısticas locales tales como los ojos, nariz y bo- ca son extra´ıdas y su geometr´ıa y/o apariencia se emplea para alimentar un clasificador estructural. Los primeros m´etodos de reconocimiento de rostros est´an basados en la geometr´ıa de caracter´ısticas locales [29, 30], empleando el ancho de la cara, la distancia entre los ojos y de los ojos a la boca, distancias y angulos entre los bordes de los ojos, etc.

(31)

Una ventaja de los m´etodos basados en caracter´ısticas invariantes es que tienden a poseer mayor tolerancia a variaciones de postura y expresi´on facial.

Debido a que las caracter´ısticas individuales son tratadas y examinadas lo- calmente, estas t´ecnicas de extracci´on de caracter´ısticas t´ıpicamente utilizan clasificadores de tipo wire-frame tales como contornos activos o algoritmos en grafos de enlace din´amico.

La mayor desventaja de los m´etodos basados en caracter´ısticas invariantes es el alto costo computacional. Por ejemplo, el sistema propuesto por Wiskott y Von der Malsburg [63] toma de 10 a 15 minutos de un procesador SPARC 10 para reconocer un rostro de una base de datos con 111 modelos. Asimismo, estos tipos de m´etodos generalmente requieren im´agenes de mayor resoluci´on que los m´etodos hol´ısticos.

2.3.2. M´etodos Hol´ısticos

Estos m´etodos utilizan toda la regi´on de la cara como entrada al sistema de re- conocimiento. Una de las representaciones del rostro m´as ampliamente usada es la eigenfotograf´ıas propuestas por Kirby y Sirovich [57], la cual est´a basada en el an´alisis de componentes principales. A continuaci´on se describen algunos de los m´etodos hol´ısticos m´as populares.

(32)

An´alisis de Componentes Principales

El m´etodo m´as utilizado para obtener la representaci´on en bajas dimensiones de se˜nales empleando sus regularidades estad´ısticas se conoce como: an´alisis de componentes principales(PCA por sus siglas en ingl´es). PCA supone que la densidad de probabilidad del conjunto de entrada en el espacio de vectores caracter´ısticos es significativamente mayor a cero s´olo en un subespacio lineal de bajas dimensiones, el cual es parametrizado mediante la expansi´on lineal de los eigenvectores en la matriz de correlaci´on del conjunto. El poder de PCA proviene de su facilidad de computabilidad y aplicabilidad general. Hasta aho- ra, PCA ha sido utilizada en diversos problemas incluyendo el reconocimiento de rostros.

Sirovich y Kirby [57] desarrollaron una t´ecnica para representar im´age- nes de rostros eficientemente empleando PCA. A partir de un conjunto de im´agenes de rostros, calculaban el mejor sistema de coordenadas para la com- presi´on de im´agenes, en el cual cada coordenada es en realidad una imagen a la que llamaron eigenfotograf´ıa. Sirovich y Kirby [57] sostienen que al menos en teor´ıa, cualquier colecci´on de im´agenes de rostros puede ser reconstruida en forma aproximada almacenando una peque˜na colecci´on de pesos por cada rostro y un peque˜no conjunto de im´agenes est´andar (las eigenfotograf´ıas). Los pesos que describen cada rostro se obtiene proyectando la imagen del rostro

(33)

sobre cada eigenfotograf´ıa.

El trabajo de Sirovich y Kirby [57] motiv´o a Turk y Pentland [60] a sugerir el uso de las eigenfotograf´ıas para reconocer rostros. En t´erminos matem´aticos, el m´etodo propuesto por Turk y Pentland [60] busca encontrar los componen- tes principales de la distribuci´on de los rostros o de los eigenvectores de la matriz de covarianza del conjunto de im´agenes de rostros, considerando una imagen como un punto (o vector) en un espacio de alta dimensionalidad. Los eigenvectores son ordenados, cada uno representando una cantidad diferente de variaci´on entre las im´agenes de rostros.

Estos eigenvectores pueden ser considerados como un conjunto de carac- ter´ısticas que juntas describen la variaci´on entre las im´agenes de los rostros.

Cada imagen localizada contribuye m´as o menos con cada eigenvector, tal que es posible visualizar este eigenvector como un tipo de rostro fantasmal conocido como eigenface.

Cada imagen de rostro en el grupo de entrenamiento puede ser representada exactamente en t´erminos de una combinaci´on lineal de eigenfaces. Los rostros pueden tambi´en ser aproximados usando ´unicamente los mejores eigenfaces (aquellos que tienen los eigenvectores m´as grandes y que consecuentemente representan la mayor´ıa de las varianzas dentro del conjunto de im´agenes de rostros). Las M mejores eigenfaces expanden un espacio de M dimensiones

(34)

(espacio facial) de todas las posibles im´agenes.

Este m´etodo requiere de las siguientes operaciones de inicializaci´on:

1. Adquirir un conjunto inicial de im´agenes de rostros (el conjunto de en- trenamiento).

2. Calcular las eigenfaces a partir del conjunto de entrenamiento, preser- vando ´unicamente las M im´agenes que corresponden a los eigenvalores m´as altos. Estas M im´agenes definen el espacio facial. Debido a que pue- den presentarse nuevos rostros, las eigenfaces pueden ser actualizadas o recalculadas.

3. Calcular la correspondiente distribuci´on en el espacio de pesos M-dimensional para cada individuo proyectando sus im´agenes sobre el espacio facial.

Habiendo inicializado el sistema, los siguientes pasos se realizan para reco- nocer nuevas im´agenes de rostros:

1. Calcular un conjunto de pesos basado en la imagen de entrada y las M eigenfaces proyectando esta en cada una de las eigenfaces.

2. Determinar si la imagen es un rostro verificando si la imagen es lo sufi- cientemente cercana al espacio facial.

3. Si la imagen de entrada es un rostro, clasificar el patr´on de pesos como un rostro conocido o uno desconocido.

(35)

4. (Opcional) Actualizar las eigenfaces y/o patrones de pesos.

5. (Opcional) Si el mismo rostro desconocido es visto varias veces, calcu- lar patr´on de pesos caracter´ısticos e incorporarlo dentro de los rostros conocidos.

Para calcular los eigenfaces, primero se obtiene una imagen de rostro de N × N . Una imagen puede tambi´en ser considerada como un vector de dimensi´on N2, de esta forma, una imagen de tama˜no t´ıpico 256 × 256 se convierte en un vector de 65536 dimensiones , en otras palabras, un punto en un espacio de 65536 dimensiones.

La idea principal del an´alisis de componentes principales es encontrar el vector que mejor describa la distribuci´on de las im´agenes de los rostros dentro del espacio total de la imagen [60]. Estos vectores definen el subespacio de im´agenes de rostros llamado espacio facial. Cada vector es de longitud N2, el cual describe una imagen N × N y es una combinaci´on lineal de las im´agenes de los rostros originales. Debido a que estos vectores son los eigenvectores de la matriz de covarianza correspondiente a las im´agenes originales de los rostros y debido a que son similares a los rostros en apariencia, fueron llamados eigenfaces.

Sea Γ1Γ2Γ3, . . . , ΓM el conjunto de entrenamiento de im´agenes de rostros, el rostro promedio del conjunto se define como Ψ = 1

M

M

X

n=1

Γn. Cada rostro

(36)

difiere del promedio por el vector Φi = Γi − Ψ. Este conjunto de vectores extremadamente grandes es sometido al an´alisis de componentes principales, el cual busca el conjunto de M vectores ortogonales µn que mejor describe la distribuci´on de los datos. El k-´esimo vector µk es elegido tal que

λk = 1 M

M

X

n=1

(uTkΦn)2, (2.1)

es un m´aximo sujeto a

uTl uk = δlk =





1, si l = k 0, otro caso

. (2.2)

Los vectores uk y escalares λk son respectivamente los eigenvectores y ei- genvalores de la matriz de covarianza C definida como

C = 1 M

M

X

n=1

ΦnΦTn = AAT, (2.3)

donde la matriz A = [Φ1, Φ2, . . . , ΦM]. Sin embargo, la matriz C es de N2×N2, y determinar los N2 eigenvectores y eigenvalores es una tarea intratable pa- ra las dimensiones t´ıpicas de las im´agenes. Si el n´umero de puntos de datos en el espacio de imagen es menor que la dimensi´on del espacio (M < N2), habr´a ´unicamente M − 1 en lugar de N2 eigenvectores significativos (el resto de los eigenvectores tendr´an eigenvalores asociados iguales a cero). Afortuna-

(37)

damente es posible resolver este problema para los eigenvectores de dimensi´on N2, en este caso, primero se resuelve para los eigenvectores de una matriz de M × M y consecuentemente se toman combinaciones lineales apropiadas de las im´agenes del rostro Φi. Considere los eigenvectores vi de ATA tal que

ATAvi = µivi. (2.4)

Multiplicando ambos lados por A tenemos

AATAvi = µiAvi, (2.5)

de donde podemos ver que Avi son los eigenvectores de C = AAT.

Siguiendo con este an´alisis, construimos la matriz L = ATA de M × M, donde Lmn = ΦTmΦn, y se encuentran los M eigenvectores de L. Estos vectores determinan combinaciones lineales de las M im´agenes de rostros del conjunto de entrenamiento para formar las eigenfaces ul,

ul =

M

X

k=1

vlkΦk, l = 1, . . . , M. (2.6)

Con este an´alisis los c´alculos son reducidos enormemente del orden del n´umero de pixeles en las im´agenes (N2) al orden del n´umero de im´agenes en el conjunto de entrenamiento (M).

(38)

Una vez que las eigenfaces han sido calculadas, la imagen es proyectada en el espacio facial mediante una simple operaci´on definida como

ωk = uTk(Γ − Ψ), (2.7)

para k = 1 . . . , M. Los pesos forman un vector ΩT = [w1, w2, . . . , wM] que describe la contribuci´on de cada eigenface en la imagen de rostro de entrada.

Por ´ultimo, el m´etodo m´as simple para determinar cu´al de los rostros alma- cenados proporciona la mejor descripci´on de la imagen de rostro de entrada es encontrando el rostro k que minimize la distancia Euclidiana

ǫ2k = kΩ − Ωkk2, (2.8)

donde Ωk es un vector que describe la k-´esima clase de rostro.

Discriminantes Lineales de Fisher

Belhumeur et al. [6] propusieron un m´etodo basado en los Discriminantes Lineales de Fisher (DLF) conocido como fisherfaces. Para un conjunto con C clases diferentes, DLF proyecta un subespacio lineal ´optimo Φ de C − 1 dimensiones. El objetivo del m´etodo es maximizar el radio de las matrices de dispersi´on interclase e intraclase. La matriz de disperi´on interclase est´a defi-

(39)

nida como

SB =

C

X

j=1

nj( ¯Ij − ¯I)( ¯Ij − ¯I)T, (2.9) mientras que la matriz de dispersi´on intraclase se define como

SW =

C

X

j=1 nj

X

k=1

(Ik − ¯Ij)(Ik− ¯Ij)T, (2.10)

donde ¯I = 1 N

n

X

k=1

Ik es la imagen promedio del conjunto, ¯Ij = 1 nj

nj

X

k=1

Ik,j es la imagen promedio de la j-´esima clase, nj es el n´umero de ejemplos en la j-´esima clase, N =

C

X

J=1

es el n´umero de im´agenes en el conjunto R y C es el n´umero de clases en el conjunto. El subespacio ´optimo E´optimo se calcula de la siguiente manera:

Eoptimo´ = argmaxE | ETSBE |

| ETSWE | = [e1, e2, . . . , eC − 1], (2.11) donde [e1, e2, . . . , eC − 1] es el conjunto de los eigenvectores generalizados de SB y SW correspondientes a los C − 1 eigenvalores generalizados m´as altos λi, i = 1, 2, . . . , C − 1, esto es,

SBEi = λiSWEi. (2.12)

De esta manera, los vectores caracter´ısticos P para cualquier consulta de im´agenes de rostros I en el sentido mas discriminante puede ser calculado

(40)

como

P = EoptimoT´ · I. (2.13)

Debido a que en la pr´actica SW es singular, primero se reduce la dimensio- nalidad de la imagen de m2 a K empleando PCA y posteriormente se aplica FLD al subespacio PCA para reducir las dimensiones a C − 1. En todos los experimentos reportados por Belhumeur [6], Fisherfaces presenta una taza de error menor que eigenfaces. Sin embargo, muchos investigadores indican que el m´etodo FLD logra mejor rendimiento en los rostros de entrenamiento pero no generaliza adecuadamente a nuevos individuos [17].

Filtros de Gabor

Varios experimentos biol´ogicos han mostrado que el sistema visual humano descompone una imagen retinal en varias im´agenes filtradas y que cada una de ellas contiene variaciones de intensidad sobre un rango angosto de frecuencia y orientaci´on. Las funciones b´asicas de Gabor presentan una caracter´ıstica muy especial ya que tienen una estrecha relaci´on con el campo visual de los seres humanos. Motivados por estos estudios, algunos investigadores propusieron la utilizaci´on de los filtros de Gabor para la extracci´on de caracter´ısticas faciales [43, 59].

Las funciones de Gabor bidimensionales est´an determinadas por cuatro

(41)

par´ametros: dos que expresan su localizaci´on en el dominio espacial (x, y) y otros dos que expresan la frecuencia espacial de sinton´ıa (F ) y orientaci´on (φ) [18], es decir,

h(x, y) = g(x, y)e2πF x. (2.14)

La se˜nal elemental de Gabor bidimensional est´a en funci´on de la respuesta Gaussiana bidimensional g(x, y), la frecuencia espacial (F ) y la rotaci´on aplicada (φ). La respuesta Gaussiana bidimensional g(x, y) puede expresarse mediante la siguiente ecuaci´on:

g(x, y) = 1 2πλσ2e

(x/λ)2+ y22

. (2.15)

Las funciones de Gabor operan en el conjunto de los n´umeros complejos, cuya parte real es la funci´on de Gabor sim´etrica y la parte imaginaria la asim´etrica. Estas funciones se definen como

(x, y) = (xcosφ + ysenφ, −xsenφ + ycosφ), (2.16) h(x, y) = hc(x, y) − jhs(x, y), (2.17) hc(x, y) = g(x, y)cos(2πF x), (2.18) hs(x, y) = g(x, y)sen(2πF x). (2.19)

donde hc(x, y) y hs(x, y) son las se˜nales elementales de Gabor con componen-

(42)

tes reales (simetr´ıa par) y componentes imaginarios (simetr´ıa impar) respec- tivamente.

La informaci´on aportada por este par en cuadratura de fase corresponde al contraste de energ´ıa en un punto dado. El contraste de energ´ıa M(x, y) de un par en cuadratura se obtiene mediante la siguiente ecuaci´on:

M(x, y) = ph2 2c + h2x. (2.20)

Esta funci´on M(x, y) presenta gran similitud con el comportamiento de las c´elulas complejas y proporciona una medida de la respuesta del canal, que es independiente del cambio de fase local. Al promediar cada una de estas amplitudes de la se˜nal resultante, obtenemos los vectores caracter´ısticos de la respuesta de la imagen, esto es,

M =

B

X

p=1

Mp(x, y)

B , (2.21)

donde B es el n´umero de bancos de filtros de Gabor.

En el m´etodo propuesto en [43, 59], se realiza un filtrado por regiones en el dominio espacial. Primero, se divide la imagen en bloques generando una malla de I × J bloques. Cada bloque de la malla tiene un punto central de localizaci´on o c´elula de campo simple en la posici´on espacial (x, y). Las fun-

(43)

ciones Gaussianas bidimensionales se calculan en cada punto de localizaci´on.

A cada uno de los campos receptivos se les aplican las frecuencias espaciales y los canales de orientaci´on. Finalmente, mediante la Ec. 2.20 se reduce el n´umero de elementos de salida del filtro para formar los vectores caracter´ısti- cos. La clasificaci´on de los vectores caracter´ısticos se realiz´o mediante una red neuronal perceptr´on con tres capas ocultas.

Transformada Coseno Discreta

La transformada coseno discreta (TCD) es una conocida herramienta de ana- lisis de se˜nales ampliamente empleada para la extracci´on de caracter´ısticas y compresi´on de im´agenes debido a su compacta representaci´on de energ´ıa.

Adem´as, la TCD es empleada en diversos est´andares de compresi´on de im´age- nes y video tales como JPEG y MPEG.

La transformada coseno discreta bidimiensional (TCDB) de una imagen de N × N est´a definida como

C(u, v) = α(u)α(v)

N −1

X

x=0 N −1

X

y=0

f (x, y)cos π(2x + 1)u 2N



cos π(2y + 1)u 2N

 , (2.22)

(44)

para u, v = 0, 1, 2, . . . , N − 1, α(u) y α(v) est´an definidas como

α(u) =







 r 1

N para u = 0, r 2

N para u = 1, 2, . . . , N − 1

, (2.23)

α(v) =







 r 1

N para v = 0, r 2

N para v = 1, 2, . . . , N − 1

. (2.24)

La transformada inversa est´a definida como

f (x, y) =

N −1X

x=0 N −1X

y=0

α(u)α(v)C(u, v)cos π(2x + 1)u 2N



cos π(2y + 1)u 2N

 . (2.25) Ekenel et al. [19] propusieron un m´etodo de reconocimiento de rostros basado en la TCD, en el cual se divide la imagen en bloques de I × J pixe- les. Seguidamente, la TCD de cada bloque de la imagen es calculada y los coeficientes obtenidos se reducen eliminando los componentes en las bandas de frecuencia m´as altas y posteriormente son normalizados, estos valores se concatenan para formar el vector caracter´ıstico. Finalmente, los vectores ca- racter´ısticos son clasificados mediante un clasificador basado en el vecindario m´as proximo.

Por otra parte, la TCD ha sido empleada para la extracci´on de carac-

(45)

ter´ısticas en otros estudios de reconocimiento de rostros tanto en un sentido hol´ıstico [65] como para el an´alisis de caracter´ısticas locales [3, 54, 55, 66].

Transformada de Walsh Discreta

Yoshida et al. [64] propusieron un esquema de reconocimiento de rostros ba- sado en la transformada de Walsh bidimensional, la cual es empleada para reducir las dimensiones de las im´agenes de los rostros.

Una funci´on de Walsh admite ´unicamente dos valores (1 y −1) y puede ser generada mediante el producto de Kronecker (denotado por ⊗) de la matriz de Hadamard H. La matriz de Hadamard H2 de 2 × 2 se define como

H2 =

1 1 1 −1

, (2.26)

Asimismo, la matriz de Hadamard de 4 × 4 puede ser calculada mediante el producto de Kronecker de dos matrices H2 como se muestra a continuaci´on:

H4 = H2 ⊗ H2 =

H2 H2

H2 −H2

 =

1 1 1 1

1 −1 1 −1

1 1 −1 −1

1 −1 −1 1

, (2.27)

(46)

En general, la matriz de Hadamard de 2k × 2k se obtiene como sigue:

H2k = H2 ⊗ H2k−1 = H2 ⊗ H2 ⊗ · · · ⊗ H2 (2.28)

Las caracter´ısticas de frecuencia est´an expresadas por los cambios de signo en cada fila de la matriz de Hadamard. La funci´on de Walsh se encuentra expresada en cada fila de HN, donde N es el orden de la matriz de Hadamard.

As´ı, la transformada de Walsh discreta y su inversa se definen como

V = 1

NHNB, (2.29)

B = HNV, (2.30)

donde B es el vector de datos muestreados y V es la transformada de Walsh discreta de B. V se conoce como espectro de Walsh.

Por otra parte, la transformada de Walsh bidimensional y su inversa est´an definidas como

F = 1

MNHMfHN, (2.31)

f = HMFHN, (2.32)

donde f es la matriz de datos muestreados y F es la transformada bidimen- sional de f.

En el m´etodo propuesto por Yoshida et al. [64], la imagen es dividida en un

(47)

mosaico de I × I subareas, los valores de cada subarea se obtienen del prome- dio de los pixeles que la conforman. Posteriormente, el mosaico de subareas es dividido en 16 grupos constitu´ıdos por bloques de J × J subareas. La trans- formada Walsh bidimensional es aplicada a cada grupo, consecuentemente, la mayor parte de los componentes tienden a concentrarse en las secuencias m´as bajas. Finalmente, s´olo los componentes de baja frecuencia en el espectro de Walsh bidimensional de cada grupo son extra´ıdos y unidos para formar los vectores caracter´ısticos que alimentan una red neuronal perceptr´on multicapa.

2.3.3. M´etodos H´ıbridos

Los m´etodos h´ıbridos utilizan tanto caracter´ısticas hol´ısticas como locales. Tal como la percepci´on humana, los m´etodos h´ıbridos analizan tanto los atributos locales como la regi´on completa del rostro. Por ejemplo, el m´etodo eigenfaces modular [45] utiliza eigenfaces globales y eigenatributos locales.

2.4. Evaluaciones y Bases de Datos

Debido al gran n´umero de t´ecnicas y teor´ıas de reconocimiento de rostros, es clara la necesidad de contar con evaluaciones, bases de datos est´andar y par´ametros que permitan realizar comparaciones entre dichos m´etodos.

Por otra parte, la colecci´on de una base de datos de alta calidad es una tarea

(48)

muy laboriosa y larga. Adem´as, la utilizaci´on de bases de datos confeccionadas a necesidades espec´ıficas y con distintas caracter´ısticas dificulta enormemente la evaluaci´on comparativa de los algoritmos propuestos. Es por ello que se han creado diversas bases de datos est´andar (algunas de ellas se encuentran disponibles via internet). En la Tabla 2.1 se presentan algunas de las bases de datos disponibles via internet con sus respectivas direcciones web1.

Asimismo, el reconocimiento de rostros cuenta con evaluaciones indepen- dientes que proveen de procedimientos y protocolos experimentales, los cuales especifican c´omo debe ser conducida la evaluaci´on y c´omo deben ser calcu- lados los resultados. Entre la evaluaciones m´as populares se encuentran las tres FERET [47, 48, 52] y las dos FRVT [9, 46]. Estas evaluaciones han pro- porcionado una base para medir el progreso en el campo del reconocimiento de rostros, determinando los m´etodos m´as prometedores e identificando los principales problemas y posibles direcciones de investigaci´on.

2.5. Aplicaciones Comerciales

Una de las principales razones por las cuales el reconocimiento de rostros ha atra´ıdo enormemente la atenci´on es su amplia gama de aplicaciones comer- ciales. Despues de muchos a˜nos de investigaci´on y desarrollo, la tecnolog´ıa de

1Las direcciones web presentadas pueden cambiar.

(49)

Tabla 2.1: Bases de datos de rostros est´andar disponibles via interntet.

Nombre Direcci´on web

The UMIST Face Database http://images.ee.umist.ac.uk/danny/database.html

The Color FERET Database http://www.itl.nist.gov/iad/humanid/colorferet/home.html The Yale Face Database http://cvc.yale.edu/projects/yalefaces/yalefaces.html CAS-PEAL Face Database http://www.jdl.ac.cn/peal/index.html

The Yale Face Database B http://cvc.yale.edu/projects/yalefacesB/yalefacesB.html PIE Database http://www.ri.cmu.edu/projects/project 418.html The ORL Database of Faces http://www.cl.cam.ac.uk/research/dtg/attarchive/

The AR Face Database http://cobweb.ecn.purdue.edu/∼aleix/aleix face DB.html VALID Database http://ee.ucd.ie/validdb/

The XM2VTS Database http://www.ee.surrey.ac.uk/CVSSP/xm2vtsdb/

Georgia Tech face database http://www.anefian.com/face reco.htm

Caltech Faces http://www.vision.caltech.edu/html-files/archive.html

reconocimiento de rostros ha alcanzado un punto en donde la implementaci´on a gran escala de aplicaciones comerciales es posible [34]. Un ejemplo notable de esto fu´e la utilizaci´on de tecnolog´ıa de reconocimiento de rostros para es- canear los rostros en las multitudes que atendieron el Super Taz´on en Tampa, Florida, EUA en enero de 2001 (m´as ejemplos pueden encontrarse en [34,36]).

Por otra parte, algunas aplicaciones en las que las decisiones incorrectas son menos cr´ıticas ofrecen otra forma de explotaci´on comercial de los siste- mas de reconocimiento de rostros. De hecho, la mayor´ıa de las compa˜n´ıas de reconocimiento de rostros ofrecen software de autenticaci´on (o protectores de pantalla) para computadoras personales y dispositivos m´oviles.

Asimismos, la mayor´ıa de las c´amaras fotograf´ıas digitales disponibles en la actualidad utilizan t´ecnicas de reconocimiento de rostros para detectar la

(50)

Tabla 2.2: Aplicaciones comerciales de reconocimiento de rostros.

Producto Direcci´on web

L-1 Identity Solutions http://www.l1id.com/

smarti de TAB Systems http://www.tab-systems.com/

FastAccess de Sensible Vision http://www.sensiblevision.com/

Vision Access de Bioscrypst http://www.bioscrypt.com/

Animetrics90 de Animetrics http://www.animetrics.com/

MyFaceID of Betaface http://www.betaface.com/

FaceVACS de Cognitec Systems http://www.cognitec-systems.de/

Morpheus de Kee Square S.r.l. http://www.keesquare.com/

Tecnolog´ıas FRS de IITS http://www.iits.es/

Facial Recognition Solutions de Cross Match http://www.crossmatch.com/

Ex-Sight Products http://www.ex-sight.com/

FaceEnforce de Cybula http://www.cybula.com/

Affinity de OmniPerception http://www.omniperception.com/

idfend de The Covenant Consortium http://www.tcc.us.com/

Productos biom´etricos de ImageWare http://www.iwsinc.com/

BioID SDK de BioID http://www.bioid.com/

IMC Security Products http://www.imcsecurity.com/

Sistemas EntryGuard de FaceKey http://www.facekey.com/

presencia de rostros en fotos, balancear el color de la regi´on del rostro y hacer m´as vivo el tono de la piel. Posibles extensiones de esta aplicaci´on incluyen la reducci´on autom´atica de los ojos rojos y el autoenfoque avanzado.

En la Tabla 2.2 se mencionan algunas compa˜n´ıas que ofrecen soluciones de reconocimiento de rostros y las direcciones web de dichas compa˜n´ıas2.

2Las direcciones web presentadas pueden cambiar.

(51)

2.6. Conclusiones

Se han propuesto muchos m´etodos de reconocimiento de rostros, sin embargo, como lo muestran algunas evaluaciones, ninguno de ellos ha logrado resolver completamente el problema del reconocimiento de rostros. Todos los m´etodos propuestos tienes ventajas y desventajas. En general, muchos de estos m´eto- dos presentan problemas cuando existen variaciones en la apariencia facial.

Algunos m´etodos son m´as robustos a ciertas variaciones que otros pero son m´as sensibles a otras.

(52)

Sistema Propuesto

En este cap´ıtulo se plantea un nuevo m´etodo de reconocimiento de rostros ba- sado en la transformada wavelet discreta y la red neuronal perceptr´on multi- capa. La TWD es empleada como un m´etodo hol´ıstico de extracci´on de carac- ter´ısticas faciales. Se comprueba la estabilidad de los vectores caracter´ısticos extra´ıdos en presencia de variaciones debido a cambios de iluminaci´on, pos- tura y expresi´on facial as´ı como la sensibilidad de estos vectores a cambios de identidad. Al final del cap´ıtulo se exponen las diferentes familias de funciones wavelet que se utilizan para realizar la extracci´on de caracteristicas faciales.

3.1. Metodolog´ıa

Algunos estudios han probado que la informaci´on en bandas de baja frecuen- cia juega un papel dominante en el reconocimiento de rostros [22,25]. En otro

35

(53)

estudio, Sergent [56] mostr´o que los componentes de baja y alta frecuencia de la imagen de un rostro pueden jugar roles diferentes en tareas de reco- nocimiento espec´ıfica (por ej. g´enero, identidad, etc.). Por otra parte, Lai et al. [35] mencionan que la banda de baja frecuencia de la imagen de un rostro es menos sensible a las variaciones de expresiones faciales y que el espec- tro del rostro es invariante a cambios de escala, traslaci´on y rotaci´on en el plano [35]. Adem´as, se ha comprobado que los componentes de baja frecuen- cia contribuyen con la descripci´on global de una imagen mientras que los de alta frecuencia describen los detalles de la misma [67].

Motivados por lo anterior expuesto, se propone un m´etodo de reconoci- miento de rostros dividido en dos etapas:

1. Extracci´on de caracter´ısticas mediante la transformada wavelet discreta (TWD), la cual permite reducir la dimensionalidad de las im´agenes y al mismos tiempo suavizar las variaciones en la apariencia del rostro debido a cambios de iluminaci´on, expresi´on facial y postura.

2. Clasificaci´on de los vectores caracter´ısticos por medio de la red neuro- nal percetr´on multicapa (MLP, por sus siglas en ingl´es) ya que este tipo de red es capaz de resolver problemas altamente no lineales y no pa- ram´etricos como la clasificaci´on de las caracter´ısticas faciales. Por otra parte, su alta capacidad de generalizaci´on permite reducir los efectos de

(54)

la ”Maldici´on de la Dimensionalidad”.

Figura 3.1: Diagrama a bloques del sistema propuesto.

En la Fig. 3.1 se muestra el diagrama a bloques del modelo de reconoci- miento de rostros propuesto. El sistema est´a dise˜nado para ser ejecutado en dos fases, las cuales se describen a continuaci´on.

1. Entrenamiento: se realiza el entrenamiento de la red neuronal a partir de los vectores caracter´ısticos obtenidos de la aplicaci´on de la TWD a las im´agenes almacenadas en una base de datos.

2. Reconocimiento: se obtiene la muestra del rostro (t´ıpicamente con una camara digital) que se desea identificar, posteriormente, se aplica la TWD a la muestra obtenida, y finalmente, la red neuronal determina a cu´al de los rostros almacenados describe mejor la muestra obtenida.

(55)

3.2. Transformada Wavelet

La transformada wavelet es una t´ecnica de ventaneo con regiones de tama˜no variable, la cual permite descomponer una se˜nal o imagen en versiones esca- ladas y trasladadas de una wavelet madre. En este trabajo se saca provecho de las caracter´ısticas de la transformada wavelet para reducir el tama˜no de las im´agenes y obtener vectores caracter´ısticos m´as robustos a cambios de ilu- minaci´on, expresi´on facial y postura. A continuaci´on se describen brevemente los conceptos b´asicos de la transformada wavelet (un estudio m´as completo puede encontrarse en [10, 15, 16, 23, 49, 50]).

3.2.1. Transformada Wavelet Continua

La transformada wavelet continua se define como

C(a, b) = Z

−∞

f (t)ψa,b(t)dt, (3.1)

donde C es un conjunto de coeficientes wavelet y ψa,b representa un conjun- to de versiones escaladas y trasladadas de una funci´on wavelet denominada wavelet madre. Estas funciones est´an definidas por la siguiente ecuaci´on:

ψa,b(t) = 1

√aψ t − b a



, (3.2)

(56)

donde a y b son par´ametros de escala y posici´on respectivamente. El par´ametro de escala a est´a relacionado con la frecuencia de la se˜nal; valores peque˜nos de a corresponden a frecuencias altas (wavelets comprimidas) mientras que valores grandes de a corresponden a frecuencias bajas (wavelets expandidas).

Se denomina continua a la TWC debido a que opera en un conjunto con- tinuo de escalas y posiciones, esto es, cada escala y posici´on posible.

3.2.2. Transformada Wavelet Discreta

Calcular coeficientes wavelets para todas las posibles escalas requiere de una gran cantidad de c´alculos y genera una cantidad enorme de informaci´on. Si

´

unicamente elegimos un subconjunto de escalas y posiciones, por ejemplo, muestras tomadas en potencias de 2 (escalas y posiciones di´adicas), entonces nuestro an´alisis ser´a mucho m´as eficiente, esto se realiza mediante la trans- formada wavelet discreta (TWD). Matem´aticamente la TWD se define como

Cm,n(a, b) = a−m/20 Z

−∞

f (t)ψ(a−m0 t − nb0)dt, (3.3)

donde m y n toman valores enteros, a0 > 1 y b0 > 0.

Una forma eficiente de implementar la TWD usando filtros fu´e desarrollada por Mallat [37]1. Formalmente, este algoritmo se conoce como transformada

1Esquema conocido en procesamiento de se˜nales como codificador de subbanda de dos canales [58].

(57)

Figura 3.2: Esquema de filtrado para calcular la TWD unidimensional.

r´apida wavelet (TRW). El m´etodo propuesto por Mallat se lleva a cabo de la siguiente manera: en primer lugar, la se˜nal se pasa a trav´es de un filtro paso-bajas y otro paso-altas simult´aneamente, y posteriormente se realiza la operaci´on de decimaci´on (↓) a la salida de cada filtro para evitar el traslape y eliminar los datos que no son relevantes. La TWD permite descomponer una se˜nal o imagen en aproximaciones y detalles. El esquema de filtrado propuesto por Mallat [37] para implementar la TWD unidimensional se muestra en la Fig. 3.2. Los coeficientes de aproximaci´on (A) se obtienen de la salida del filtro paso-bajas, mientras que los coeficientes de detalle (D) son proporcionados por el filtro paso-altas.

El proceso de descomposici´on mediante la TWD puede ser iterativo, esto se logra filtrando los coeficientes de aproximaci´on en forma recursiva. A esto se le denomina ´arbol de descomposici´on. En cada proceso de filtrado se genera un nivel de descomposici´on. En la Fig. 3.3 se ilustra el proceso de descom- posici´on en tres niveles, en cada nivel se producen los respectivos coeficientes

(58)

Figura 3.3: ´Arbol de descomposici´on por wavelets en tres niveles.

de aproximaci´on y detalle. Conforme mayor sea el nivel de descomposici´on, el n´umero de coeficientes es menor y su espectro corresponde a bandas de frecuencia m´as bajas. En teor´ıa, la descomposici´on puede continuar indefini- damente, sin embargo, en la pr´actica es indispensable elegir un n´umero de niveles de descomposici´on adecuado a nuestras necesidades.

Para el caso bidimensional, gracias a la teor´ıa de variables separables, la TWD puede calcularse aplicando la TWD unidimensional a las filas y poste- riormente a las columnas. En la Fig. 3.4 se ilustra el esquema de filtrado para implementar la TWD de una imagen.

La aplicaci´on de la TWD a una imagen produce cuatro matrices de coefi- cientes wavelet, una de aproximaci´on y tres de detalles (horizontal, vertical y diagonal). La matriz de coeficientes de aproximaci´on contiene los componentes en bandas de baja frecuencia de la imagen original mientras que las matrices de detalles los componentes en bandas de alta frecuencia. En la Fig. 3.5 se

(59)

Figura 3.4: Esquema de filtrado para calcular la TWD de una imagen.

presenta la descomposici´on de la imagen de un rostro en sus matrices de coe- ficientes de aproximaci´on (A), detalles horizontales (DH), detalles verticales (DV) y detalles diagonales (DD).

3.2.3. Familias de Funciones Wavelet

La elecci´on de la famila wavelet m´as adecuada para la descomposici´on de un rostros juega un papel muy importante en la obtenci´on de una representa- ci´on wavelet de los rostros m´as robusta. Existen muchas familias de funciones wavelet que han mostrado su gran utilidad en diversas aplicaciones, en este trabajo se propone la evaluaci´on de los vectores caracter´ısticos extra´ıdos em-

(60)

Figura 3.5: Descomposici´on de la imagen de un rostro en matrices de aproximaci´on y detalles.

pleando cada una de estas familias. A continuaci´on se describen brevemente las caracter´ısticas de las familias wavelet propuestas para realizar la descom- posici´on de los rostros (un estudio completo puede encontrarse en [16]).

Haar: es la primera y m´as simple de todas las wavelets. Es una wavelet continua que se asemeja a una funci´on escal´on unitario.

Daubechies: Ingrid Daubechies, uno de los m´as importantes precursores de las wavelets, desarroll´o lo que se conoce como ”wavelets ortonormales de soporte compacto”, con lo cual hizo viable el an´alisis discreto de las wavelets. Los nombres de la familia de Daubechies se escriben como dbN , donde N es el orden y db el sobrenombre de la wavelet. La wavelet db1 define la misma wavelet que Haar.

Symlets: son wavelets generalmente escritas como symN , donde N es el

(61)

orden y sym es el sobrenombre. Esta familia est´a compuesta por funcio- nes wavelet casi sim´etricas propuestas por Daubechies como extensi´on de la familia db [16]. Las propiedades de la familia de Daubechies y Symlets son muy similares.

Coiflets: desarrollada por I. Daubechies a petici´on de R. Coifman. Son wavelets de soporte compacto con 2N momentos iguales a 0 mientras que su funci´on de escala tiene 2N − 1 momentos iguales a 0, ambas funciones tienen un soporte de magnitud 6N −1. Los nombres de la familia Coiflets se escriben como coif N , donde N es el orden y coif es el sobrenombre.

Discrete Meyer: esta funci´on wavelet se encuentra definida en el do- minio de la frecuencia. Es la versi´on discreta de la wavelet de Meyer, su alias es dmey [39].

Biorthogonal: wavelets spline de soporte compacto para la cual es po- sible la simetr´ıa y la reconstrucci´on con filtros FIR. Estas wavelets son de fase lineal, la cual es esencial para la reconstrucci´on de im´agenes y se˜nales. A diferencia de las dem´as familias se emplean dos wavelets dis- tintas; una para la descomposici´on y otra para la reconstrucci´on. Existen dos variantes: 1) biorthogonal, las cuales se escriben como biorN r.N d y 2) reverse biorthogonal, escritas como rbioN d.N r. N r y N d son ´ordenes para reconstrucci´on y descomposici´on respectivamente.

(62)

3.2.4. Vectores Caracter´ısticos

Los componentes en bandas de baja frecuencia contribuyen a la descripci´on global de la imagen, la cual creemos contiene la informaci´on m´as relevante para la diferenciaci´on entre clases. Por tal motivo, la extracci´on de carac- ter´ısticas se lleva a cabo mediante la descomposici´on recursiva del rostro, de donde los coeficientes en las bandas de m´as baja frecuencia son extra´ıdos para formar los vectores caracter´ısticos2.

Figura 3.6: Esquema de extracci´on de caracter´ısticas mediante la TWD

2El nivel de descomposici´on es determinado a partir de diversas pruebas.

Referencias

Documento similar

La planeaci´on y desarrollo del proyecto de investigaci´on demostr´o la importancia del esquema de metadatos estantar FGDC, como m´etodo que permite la organizaci´on e

A continuaci´ on se explican las primeras iteraciones, del algoritmo para un su- puesto problema de clasificaci´ on con 6 par´ ametros de entrada, 5 posibles clase de salida y que

Mediante este teorema es posible, a la hora de buscar un m´ etodo de resoluci´ on para el problema de Weber, restringirse al caso en que ning´ un v´ ertice es ´ optimo, ya que

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

Los contrastes de energía en tonos de gris y vectores característicos para un mismo individuo con cambios de vestuario, presentan gran similitud en la forma del vector

En la detecci ´on, el m ´etodo AdaBoost utiliza una ventana que se mueve por toda la imagen comprobando si hay un rostro en esa posici ´on y esta se va agrandando hasta el tama ˜no

Los controladores basados en predictor, en particular los obtenidos por m´etodos de asignaci´on finita de espectro (tambi´en co- nocido como m´etodo de reducci´on), permiten abordar

El origen del m´etodo se encuentra en el trabajo de Denavit y Hartenberg que permite establecer la relaci´on entre dos barras r´ıgidas consecutivas unidas por una articulaci´on de