Instituto Tecnológico y de Estudios Superiores de Monterrey Campus Monterrey
Monterrey, Nuevo León a
Lic. Arturo Azuara Flores:
Director de Asesoría Legal del Sistema
", en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto
Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que
efectúe la divulgación, publicación, comunicación pública, distribución y
reproducción, así como la digitalización de la misma, con fines académicos o
propios al objeto de EL INSTITUTO.
El Instituto se compromete a respetar en todo momento mi autoría y a
otorgarme el crédito correspondiente en todas las actividades mencionadas
anteriormente de la obra.
De la misma manera, desligo de toda responsabilidad a EL INSTITUTO
por cualquier violación a los derechos de autor y propiedad intelectual que
cometa el suscrito frente a terceros.
de 200
Por medio de la presente hago constar que soy autor y titular de la obra
titulada"
Implementación de una Normalización Esférica en un Esquema
Biométrico para la Generación de Claves Criptográficas Basadas
en Voz Utilizando SVM-Edición Única
Title Implementación de una Normalización Esférica en un Esquema Biométrico para la Generación de Claves Criptográficas Basadas en Voz Utilizando SVM-Edición Única
Authors Victor Hugo Trujillo Rodríguez Affiliation ITESM-Campus Monterrey Issue Date 2006-05-01
Item type Tesis
Rights Open Access
Downloaded 19-Jan-2017 11:15:57
INSTITUTO TECNOL ´
OGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY
Campus Monterrey
Divisi´
on de Electr´
onica, Computaci´
on, Informaci´
on, y
Comunicaciones
Programa de Graduados
Implementaci´
on de una Normalizaci´
on Esf´
erica en un Esquema
Biom´
etrico para la Generaci´
on de Claves Criptogr´
aficas basadas
en Voz utilizando SVM
Tesis
Presentada como requisito parcial para obtener el grado de
Maestr´ıa en Ciencias en Ingenier´ıa Electr´
onica
con especialidad en Telecomunicaciones.
Lic. Victor Hugo Trujillo Rodr´ıguez
c
Implementaci´
on de una Normalizaci´
on Esf´
erica en un
Esquema Biom´
etrico para la Generaci´
on de Claves
Criptogr´
aficas basadas en Voz utilizando SVM
por
Lic. Victor Hugo Trujillo Rodr´ıguez
Tesis
Presentada al Programa de Graduados de la
Escuela de Tecnolog´ıas de Informaci´on y Electr´onica
como requisito parcial para obtener el grado acad´emico de
Maestro en Ciencias
especialidad enTelecomunicaciones
Instituto Tecnol´
ogico y de Estudios Superiores de Monterrey
Campus Monterrey
Instituto Tecnol´
ogico y de Estudios Superiores de
Monterrey
Campus Monterrey
Escuela de Tecnolog´ıas de Informaci´
on y Electr´
onica
Programa de Graduados
Los miembros del comit´e de tesis recomendamos que la presente tesis de Victor Hugo Trujillo Rodr´ıguez sea aceptada como requisito parcial para obtener el grado acad´emico de
Maestro en Ciencias, especialidad en:
Telecomunicaciones
Comit´
e de tesis:
Jorge Carlos Mex Perera,Ph.D.
Asesor de la tesis
Juan Arturo Nolazco Flores,Ph.D.
Sinodal
Jos´e Ram´on Rodr´ıguez Cruz,Ph.D.
Sinodal
David Garza Salazar,Ph.D.
Director del Programa de Graduados
Este trabajo de investigaci´on esta dedicado con todo mi amor a mis padres Isabel Rodr´ıguez Morales y Gaudencio Trujillo Vera, a mis hermanos Denice Trujillo Rodr´ıguez y Ricardo Trujillo Rodr´ıguez.
Reconocimientos
A la C´atedra de Seguridad Inform´atica por el apoyo y crecimiento profesional que me ofreci´o durante mis estudios y la elaboraci´on de ´este proyecto de investigaci´on.
De manera especial a mi asesor de tesis el Dr.Jorge Carlos Mex Perera por su tiempo y dedicaci´on para la realizaci´on de ´este trabajo de tesis, a Paola Garc´ıa Perera por su magn´ıfi-ca amistad, compa˜nerismo y trabajo en equipo, al Dr. Juan Arturo Nolazco Flores por sus excelentes comentarios y aportaciones, y al Dr. Jos´e Ram´on Rodr´ıguez Cruz por su apoyo e importante participaci´on como sinodal.
A todos los profesores del Centro de Electr´onica y Telecomunicaciones por fomentar la investigaci´on como herramienta fundamental en mi desarrollo acad´emico.
A Elodia S´anchez Mendoza por su amor y apoyo incondicional a lo largo de mis estudios de posgrado. Te amo princesa.
Victor Hugo Trujillo Rodr´
ıguez
Implementaci´
on de una Normalizaci´
on Esf´
erica en un
Esquema Biom´
etrico para la Generaci´
on de Claves
Criptogr´
aficas basadas en Voz utilizando SVM
Victor Hugo Trujillo Rodr´ıguez, M.C.
Instituto Tecnol´ogico y de Estudios Superiores de Monterrey, 2006
Asesor de la tesis: Jorge Carlos Mex Perera,Ph.D.
El presente proyecto de tesis est´a dirigido al ´area de seguridad basada en caracter´ısticas Biom´etricas. La meta es mejorar el desempe˜no de un sistema de generaci´on de claves cripto-gr´aficas basadas en la se˜nal de voz y la oraciones que dicen los usuarios aplicando un m´etodo novedoso llamado Normalizaci´on Esf´erica. Trabajar con voz tiene algunas ventajas debido a que es una caracter´ıstica natural de comunicaci´on, por lo que todos estamos familiarizados con ella, y por la flexibilidad que puede ofrecer al usuario si desea cambiar su clave, ya que al cambiar la frase inevitablemente cambia la vocalizaci´on del mismo y de ´esta manera es posible generar un n´umero infinito de claves criptogr´aficas.
En el presente trabajo se analiza la implementaci´on de una t´ecnica de Reconocimiento Autom´atico de Voz y la t´ecnica de M´aquinas de Vectores de Soporte (SVM) para la genera-ci´on de claves criptogr´aficas. Posteriormente se propone la aplicagenera-ci´on de la t´ecnica llamada Normalizaci´on Esf´erica , la cual permite mejorar el desempe˜no de SVM en procesos de cla-sificaci´on.
La t´ecnica de Normalizaci´on Esf´erica propuesta consiste en mapear los datos de entrada en el espacio caract´eristico a la superficie de una hiperesfera unitaria para esparcir los da-tos y de esta manera facilitar al clasificador el trazo de los hiperplanos ´optimos de separaci´on.
´Indice general
Reconocimientos VI
Resumen VII
´Indice de cuadros X
´Indice de figuras XI
Cap´ıtulo 1. Introducci´on 1
1.1. Objetivo . . . 3
1.2. Justificaci´on . . . 3
1.3. Contribuci´on . . . 4
1.4. Organizaci´on . . . 4
Cap´ıtulo 2. Antecedentes 5 2.1. Biometr´ıa y sus Aplicaciones . . . 5
2.1.1. Ventajas y Desventajas de la Biometr´ıa . . . 6
2.1.2. Caracter´ısticas de un Sistema Biom´etrico . . . 7
2.1.3. Sistemas Biom´etricos Actuales . . . 8
2.1.4. La Voz como Rasgo Biom´etrico . . . 9
2.2. Reconocimiento Autom´atico de Voz . . . 11
2.2.1. Caracter´ısticas de un Sistema RAH . . . 13
2.2.2. Problemas Propios del RAH . . . 14
2.3. M´aquinas de Vectores de Soporte (SVM) . . . 14
2.3.1. SVM para Clasificaci´on Lineal . . . 18
2.3.2. SVM para Clasificaci´on NO Lineal . . . 18
2.3.3. Aplicaciones de SVM . . . 21
Cap´ıtulo 3. M´etodolog´ıa Utilizada para la Generaci´on de Claves Criptogr´
afi-cas Implementando una Normalizaci´on Esf´erica 24
3.1. Reconocimiento Autom´atico de Voz . . . 25
3.1.1. Preprocesamiento . . . 26
3.1.2. Modelaci´on Ac´ustica . . . 27
3.2. Generaci´on de Atributos . . . 31
3.3. Clasificaci´on con SVM . . . 32
3.3.1. Fase de Entrenamiento de la SVM . . . 34
3.3.2. Fase de Prueba de la SVM . . . 35
3.3.3. Uso de Funciones Kernel . . . 36
3.4. Normalizaci´on Esf´erica . . . 37
3.4.1. Justificaci´on de la Normalizaci´on Esf´erica . . . 44
Cap´ıtulo 4. Herramientas para la Simulaci´on, Experimentos y Resultados Num´ericos 47 4.1. Herramientas para la Simulaci´on . . . 47
4.1.1. Base de Datos YOHO . . . 47
4.1.2. HTK-Hidden Markov Model Toolkit . . . 48
4.1.3. SVMlight . . . 48
4.2. Experimentos y Resultados Num´ericos . . . 49
4.2.1. Resultados Obtenidos con Vectores de 39 Dimensiones . . . 52
4.2.2. Resultados Obtenidos con Vectores de 63 Dimensiones . . . 55
4.2.3. Comparaci´on y An´alisis de Resultados . . . 58
4.2.4. Porcentaje Promedio de Error en la Clave . . . 61
Cap´ıtulo 5. Conclusiones y Trabajo Futuro 66 5.1. Conclusiones . . . 66
5.2. Trabajo Futuro . . . 67
Ap´endice A. Modelos Ocultos de Markov-HMM 69 Ap´endice B. Herramientas de Simulaci´on 71 B.1. Base de Datos YOHO . . . 71
B.2. HTK-Hidden Markov Model Toolkit . . . 72
B.3. SVMlight . . . . 74
Glosario 78
´Indice de cuadros
2.1. Fonemas del idioma ingl´es utilizados para un sistema t´ıpico de lenguaje hablado. 11 2.2. Funciones Kernel para SVM . . . 21 4.1. Resultados para 10,20 y 30 usuarios usando kernel rbf g=0.003c=9 . . . 52 4.2. Resultados para 10,20 y 30 usuarios con kernel polinomial c=9 s=0.5 r=1 d=5 53 4.3. Resultados para 10,20 y 30 usuarios con kernel polinomial y Normalizaci´on
Esf´erica c=9 s=0.5 r=1 d=13 . . . 54 4.4. Resultados para 10,20 y 30 usuarios usando kernel rbf g=0.001c=9 . . . 55 4.5. Resultados para 10,20 y 30 usuarios con kernel polinomial c=9 s=0.5 r=1 d=3 56 4.6. Resultados para 10,20 y 30 usuarios con kernel polinomial y Normalizaci´on
´Indice de figuras
2.1. Secuencia de Voz y sus Observaciones . . . 12
2.2. Componentes de un Sistema RAH t´ıpico. . . 13
2.3. Clasificaci´on Binaria en SVM . . . 16
2.4. Clasificaci´on NO lineal en SVM . . . 19
3.1. Esquema General del Sistema . . . 25
3.2. Preprocesamiento de la se˜nal de Voz . . . 27
3.3. Principio de Modelaci´on Ac´ustica . . . 28
3.4. Etapas del HMM . . . 30
3.5. Modelo Oculto de Markov para la palabra one . . . 31
3.6. C´alculo del hiperplano ´optimo . . . 35
3.7. Normalizaci´on Esf´erica . . . 38
3.8. Proyecci´on ortogr´afica . . . 39
3.9. Proyecci´on estereogr´afica . . . 40
3.10. Proyecci´on gnom´onica . . . 41
3.11. Ejemplo de Normalizaci´on Esf´erica en 2D . . . 43
3.12. Inducci´on de la frontera de decisi´on . . . 46
4.1. Reescritura de Dtrain p y Dtestp en formato SVM . . . 50
4.2. Estructura de las Simulaciones . . . 51
4.3. Resultados para 10 usuarios utilizando el kernel rbf . . . 52
4.4. Resultados para 10 usuarios utilizando el kernel polinomial . . . 53
4.5. Resultados para 10 usuarios utilizando el kernel polinomial con Norma Esf´erica 54 4.6. Resultados para 10 usuarios con vectores de 63 dimensiones y kernel RBF . . 55
4.7. Resultados para 10 usuarios con vectores de 63 dimensiones y kernel polinomial 56 4.8. Resultados para 10 usuarios con vectores de 63 dimensiones y kernel polino-mial con Norma Esf´erica . . . 57
4.9. Comparaci´on de Resultados . . . 58
4.10. Probabilidad de Ocurrencia de los Fonemas en YOHO . . . 62
4.11. Porcentaje de error en una clave considerando 10 usuarios . . . 63
Cap´ıtulo 1
Introducci´
on
Si bien la Criptograf´ıa es una ciencia que tiene sus or´ıgenes desde los principios de la humanidad, esta no ha dejado de existir. El hombre se las ha ingeniado desde hace mucho tiempo para garantizar el secreto de sus comunicaciones privadas e informaci´on importante. La existencia de la criptograf´ıa aparece ya en las tablas cuneiformes y los papiros. Desde el Antiguo Egipto hasta el mundo actual de internet, los criptogramas han sido protagonistas de varios sucesos hist´oricos. En la actualidad, la gran influencia que las telecomunicaciones tienen en todos los aspectos de la cotidianidad ha hecho que las comunicaciones seguras cobren particular importancia.
En los procesos de almacenamiento y transmisi´on de la informaci´on normalmente apa-rece el problema de la seguridad. Todos deseamos el acceso seguro a nuestros documentos, y sistemas sensibles, pero la inconveniencia y las limitaciones t´ecnicas de las medidas de segu-ridad electr´onicas tradicionales tienen puntos d´ebiles. Las contrase˜nas, de donde se originan las claves criptogr´aficas convencionales, son la forma m´as cl´asica y sencilla para la identifica-ci´on, sin embargo relacionan la identidad con el conocimiento y memoria del usuario: Si una persona sabe la contrase˜na, puede acceder al sistema. El problema es que una contrase˜na no tiene relaci´on alguna con su identidad real. Las contrase˜nas pueden ser robadas y manipu-ladas por otras personas dando por resultado que la informaci´on quede abierta tambi´en a otras personas. Por lo tanto no hay manera infalible de hacer sistemas protegidos por con-trase˜nas totalmente seguros de la intrusi´on desautorizada, y tampoco hay manera para que los sistemas basados en contrase˜nas determinen la identidad del usuario con certeza absoluta.
En el ´area de seguridad, existen investigaciones dirigidas a la creaci´on de nuevas t´ecnicas para la generaci´on de claves criptogr´aficas confiables, desde los m´etodos convencionales ba-sados en contrase˜nas hasta los m´as complejos como los basados en caracter´ısticas biom´etricas.
parecen extra´ıdas de pel´ıculas futuristas, lo cierto es que estas tecnolog´ıas son muy reales y ahora en dia comienzan a tomar gran auge en diversas aplicaciones de seguridad. Durante los ´
ultimos a˜nos, la industria de la biometr´ıa ha madurado y la investigaci´on de las tecnolog´ıas biom´etricas orientada al mercado empresarial y de la seguridad cuenta con un aumento ex-ponencial.
Dado que todos los seres humanos tenemos caracter´ısticas fisiol´ogicas ´unicas que nos di-ferencian, la medici´on biom´etrica se puede considerar como el m´etodo ideal de identificaci´on humana. El sistema analizado en ´este proyecto de tesis trabaja con la se˜nal de voz debido a que es una caracter´ıstica f´ısica moldeable que cumple con las necesidades para la genera-ci´on de claves critograficas ya que ofrece una serie de cualidades y atributos que permiten generar una clave digital eficientemente. Las ventajas de usarla son m´ultiples, entre las m´as importantes se encuentran: la autenticaci´on de la voz es una tecnolog´ıa vers´atil, dif´ıcilmente intrusiva ya que el sistema podr´ıa proporcionar un texto aleatorio a repetir por el usuario y de ´este modo excluye cualquier posibilidad de acceso fraudulento por medio de grabaciones, es f´acil de utilizar por ser un proceso natural y por consiguiente es bien aceptada por los usuarios.
El prop´osito del presente proyecto de tesis es mejorar el desempe˜no de un sistema que genera claves criptogr´aficas teniendo la frase y la se˜nal de voz del usuario. M´as adelante se analizar´a la implementaci´on en dicho sistema de una t´ecnica dominante para el reconoci-miento autom´atico de voz basada en Modelos Ocultos de Markov, que captura el sonido de la voz as´ı como los comportamientos ling¨u´ısticos para finalmente encontrar la transcripci´on de lo que dijo cada usuario y los inicios y finales de cada fonema en la articulaci´on pronunciada por el mismo. Posteriormente las medias resultantes del modelo y los inicios y finales de cada fonema son procesados para crear conjuntos de vectores que corresponden al mismo fonema.
No obstante, los mejores resultados se obtienen usando el modelo de SVM no lineal, cuyo funcionamiento se basa en las llamadas funciones kernel, de las cuales se implementaron y analizaron las siguientes: funci´on kernel Lineal, Sigmoidal, RBF y Polinomial. Para finalizar se propone la aplicaci´on de una t´ecnica novedosa al kernel Polinomial llamada Normalizaci´on Esf´erica , la cual permite mejorar el desempe˜no de SVM en el proceso de clasificaci´on y de ´esta manera se logra rebasar los resultados obtenidos con los kernels convencionales.
1.1.
Objetivo
El objetivo principal del esquema estudiado es obtener claves criptogr´aficas a partir de los atributos intr´ınsecos de la voz de los usuarios utlizando SVM. El prop´osito es garantizar que el porcentaje de error esperado en una clave criptogr´afica generada para un usuario sea el menor posible a la hora de reproducirse. Por lo que el objetivo espec´ıfico en ´este trabajo de investigaci´on es encontrar un conjunto adecuado de planos que puedan particionar significativamente el manejo de los datos y dar como resultado la clave criptogr´afica de manera ´optima, lo cual est´a intimamente relacionado con el tipo de funci´on kernel a utilizar para entrenar las M´aquinas de Vectores de Soporte (SVM).
1.2.
Justificaci´
on
El objetivo primordial de la implementaci´on de SVM en el esquema de generaci´on de claves criptogr´aficas analizado, es la clasificaci´on binaria de vectores provenientes de la se˜nal de voz de los usuarios para generar las claves. Las M´aquinas de Vectores de Soporte (SVM) son m´aquinas lineales con una enorme riqueza de representaci´on, ya que es las soluciones no se construyen en el espacio de entrada, sino en un espacio de mayor dimensionalidad, el espacio caracter´ıstico, donde es posible que una funci´on lineal simple sea suficiente para resolver el problema de clasificaci´on. Adicionalmente, la forma de la funci´on soluci´on es tal que la transformaci´on no interviene directamente sino que se encuentra impl´ıcita a trav´es de funciones denominadas Kernels.
llamada Normalizaci´on Esf´erica, que permite mejorar el desempe˜no del sistema generador de claves criptogr´aficas utilizando una M´aquina de Vectores de Soporte entrenada con un kernel Polinomial.
1.3.
Contribuci´
on
En el esquema biom´etrico para la Generaci´on de Claves Criptogr´aficas basadas en Voz utilizando SVM se propone la implementaci´on de un t´ecnica innovadora llamada Normaliza-ci´on Esf´erica, la cual permite optimizar los resultados arrojados en la clasificaNormaliza-ci´on realizada por SVM con kernel Polinomial y de ´esta manera se logra superar la precisi´on alcanzada uti-lizando cualquiera de los kernels convencionales para la generaci´on de la clave. ´Esta t´ecnica posibilita esparcir los datos de entrada sobre la superficie de una hiperesfera unitaria y de ´esta forma se consigue que SVM mejore su desempe˜no al trazar los hiperplanos de separaci´on cuando se realiza la etapa de clasificaci´on.
1.4.
Organizaci´
on
El documento de tesis est´a organizado como sigue: en el siguiente cap´ıtulo se presentan conceptos b´asicos para entender el contenido de la tesis, los cuales incluyen principalmente conocimientos de biometr´ıa y sus aplicaciones, reconocimiento autom´atico de voz y sus ca-racter´ısticas y por ´ultimo una explicaci´on a fondo de las bases y funcionamiento de SVM, en donde se concentr´o mayor parte de atenci´on en ´este trabajo de tesis.
Los cap´ıtulos 3 y 4 son la parte fundamental de ´este documento de tesis debido a que en ellos se puede observar la contribuci´on del proyecto. En ellos presenta el trabajo de investiga-ci´on realizado, la implementainvestiga-ci´on y experimentainvestiga-ci´on, y los resultados obtenidos y analizados. En el cap´ıtulo 3 se explica a detalle el esquema de generaci´on de claves criptogr´aficas analiza-do, se hace principal `enfasis en el trabajo desarrollado con SVM y la aplicaci´on de la t´ecnica de Normalizaci´on Esf´erica propuesta para optimizar los resultados. El cap´ıtulo 4 contiene una descripci´on detallada de las herramientas utilizadas para llevar a cabo las simulaciones, el an´alisis y comparaci´on de resultados y finalmente un estudio del error esperado en una clave criptogr´afica generada.
Cap´ıtulo 2
Antecedentes
Con la evoluci´on de las tecnolog´ıas asociadas a la informaci´on, nuestra sociedad est´a ca-da d´ıa m´as conectaca-da electr´onicamente. Labores que tradicionalmente eran realizaca-das por seres humanos son, gracias a las mejoras tecnol´ogicas, realizadas por sistemas automatizados. Dentro de la amplia gama de posibles actividades que pueden automatizarse, aquella relacio-nada con la capacidad para establecer la identidad de los individuos ha cobrado importancia y como consecuencia directa, la biometr´ıa se ha transformado en un ´area emergente. La seguridad en una empresa ya no tiene que depender exclusivamente de contrase˜nas, guardias o simples candados. La investigaci´on avanzada se est´a orientando al desarrollo de sistemas automatizadas para el reconocimiento de personas a partir de sus caracter´ısticas f´ısicas.
Entenderemos por sistema biom´etrico a un sistema autom´atico que realiza labores de biometr´ıa [1]. Es decir, un sistema que fundamenta sus decisiones de reconocimiento mediante una caracter´ıstica personal que puede ser reconocida o verificada de manera automatizada. Estos sistemas incluyen un dispositivo de captaci´on que en segundos obtiene una muestra biom´etrica de la persona y la compara con una base de datos, donde se analiza si corresponde o no a la identidad de la persona en cuesti´on. En ´este capitulo son descritas algunas de las caracter´ısticas m´as importantes de estos sistemas, as´ı como conceptos b´asicos necesarios para entender el objetivo de este proyecto de tesis.
2.1.
Biometr´ıa y sus Aplicaciones
sico-log´ıas o conductuales de la persona, como por ejemplo, la huella dactilar, el iris, la mano, el sonido de la voz, la forma del rostro, entre otras.
Los or´ıgenes de la biometr´ıa se remontan a los a˜nos setenta, cuando la empresa NEC comienza a trabajar junto al Federal Bureau of Investigation (FBI) en algunos estudios de como automatizar biom´etricamente algunas caracter´ısticas del ser humano. De esa forma se comienzan a desarrollar una serie de algoritmos matem´aticos con la finalidad de represen-tar, por ejemplo, una huella dactilar. La tecnolog´ıa de identificaci´on de personas mediante impresiones dactilares tiene su origen en el estudio de la criminal´ıstica y surge como una necesidad de apoyo t´ecnico hacia las polic´ıas para resolver casos.
En cuanto a los tipos de biometr´ıas existen dos. Si se lleva a cabo una identificaci´on en base a la anatom´ıa de la persona, esto es biometr´ıa est´atica, y si es a partir de su comporta-miento, se le denomina biometr´ıa din´amica [1]. La primera, apunta a las huellas dactilares, la geometr´ıa de la mano, la termograf´ıa, el iris, las venas del dorso de la mana o el reconoci-miento facial. En el caso de la din´amica, estudia el comportareconoci-miento del individuo, por medio de la voz, la forma de caminar y el an´alisis gestual, entre otras. Una tercera variante es la biometr´ıa inform´atica, que consiste en la suma de t´ecnicas estad´ısticas y de inteligencia arti-ficial, en la autentificaci´on autom´atica de las personas en este tipo de sistemas de seguridad. Lo anterior, apunta a identificar a los individuos que operan en una red para salvaguardar la seguridad de la misma. Actualmente se est´an estudiando diferentes softwares basados en biometr´ıa desde distintas ´areas con el objetivo de llegar a utilizar el cuerpo humano como un DNI digital, midiendo su anatom´ıa y comportamiento, lo que se transformar´ıa en un salto definitivo para esta tecnolog´ıa, ya que la informaci´on biom´etrica de la persona ser´a incluida en un chip que portara el mismo para acceder, por ejemplo, a procesos inform´aticos o lugares restringidos.
2.1.1.
Ventajas y Desventajas de la Biometr´ıa
Las Biom´etricas proveen un mayor grado de seguridad que los m´etodos de autentifica-ci´on tradicionales, esto significa que el sistema es accesible solamente a usuarios autorizados y se mantiene protegido de cualquier persona no autorizada. En teor´ıa una contrase˜na es memorizado por una sola persona, es dif´ıcil de adivinar y nunca es compartido. Sin embar-go en la pr´actica la gente constantemente viola estas espectativas ya que las contrase˜nas y los PINs son a veces f´aciles de descubrir. Muchos usuarios seleccionan palabras o n´umeros obvios como contrase˜na, asi que personas no autorizadas tienen la capacidad de romper con la seguridad del sistema. En contraste, los datos bimom´etricos no pueden ser adivinados o robados de la misma forma que una contrase˜na o PIN [2].
En cuanto a las transacciones electr´onicas de todo tipo, la biometr´ıa tiene mucho para ofrecer, ya que si bien contrase˜nas, criptograf´ıa y firma digital han impulsado en buena me-dida el desarrollo del comercio electr´onico, no dejan de depender de una clave secreta que siempre puede ser robada. Como la biometr´ıa permite establecer que una persona es quien dice ser, funciona como el complemento ideal de esos tres sistemas, en un verdadero “trabajo en equipo”para garantizar la mayor seguridad posible [3].
Aunque pareciera que la biometr´ıa es la panacea para todos los problemas, tenemos que se˜nalar que existen tambi´en algunas desventajas, como por ejemplo: “darse de alta”no es siempre tan sencillo, ya que no es inmediato y hay que obtener m´as de una muestra de la biom´etrica a usar, adem´as de que depende del cambio constante de nuestra fisionom´ıa. A´un contando con estas desventajas, estos sistemas presentan importantes mejoras respecto a los sistemas tradicionales de autenticaci´on y resultan muy ventajosos para las empresas implantar sistemas de este tipo, ya que podemos decir que, gracias al empleo de la tecnolog´ıa biom´etrica, el acceso a una ´area restringida, a una Red o a un Sistema Computacional no depender´a de algo que sabemos o que tenemos y que nos pueden copiar o robar sino depender´a de lo que “somos”.
2.1.2.
Caracter´ısticas de un Sistema Biom´
etrico
Las caracter´ısticas b´asicas que un sistema biom´etrico para identificaci´on personal debe cumplir pueden expresarse mediante las restricciones que deben ser satisfechas [2]. Ellas apuntan, b´asicamente, a la obtenci´on de un sistema biom´etrico con utilidad pr´actica y son las siguientes:
1. El desempe˜no, que se refiere a la exactitud, la rapidez y la robustez alcanzada en la
2. La aceptabilidad, que indica el grado en que la gente est´a dispuesta a aceptar un sistema biom´etrico en su vida diaria. Es claro que el sistema no debe representar peligro alguno para los usuarios y debe inspirar“confianza” a los mismos. Factores psicol´ogicos pueden afectar esta ´ultima caracter´ıstica. Por ejemplo, el reconocimiento de una retina, que requiere un contacto cercano de la persona con el dispositivo de reconocimiento, puede desconcertar a ciertos individuos debido al hecho de tener su ojo sin protecci´on frente a un “aparato”.
3. La fiabilidad, que refleja cu´an dif´ıcil es burlar al sistema. El sistema biom´etrico debe
reconocer caracter´ısticas de una persona viva, pues es posible crear dedos de l´atex, grabaciones digitales de voz, pr´otesis de ojos, etc. Algunos sistemas incorporan m´etodos para determinar si la caracter´ıstica bajo estudio corresponde o no a la de una persona viva. Los m´etodos empleados son ingeniosos y usualmente m´as simples de lo que uno podr´ıa imaginar. Por ejemplo, un sistema basado en el reconocimiento del iris revisa patrones caracter´ısticos en las manchas de ´este, un sistema infrarrojo para chequear las venas de la mano detecta flujos de sangre caliente y lectores de ultrasonido para huellas dactilares revisan estructuras subcut´aneas de los dedos.
2.1.3.
Sistemas Biom´
etricos Actuales
En la actualidad existen sistemas biom´etricos que basan su acci´on en el reconocimiento de diversas caracter´ısticas. Las t´ecnicas m´as conocidas son diez y est´an basadas en los si-guientes indicadores biom´etricos: ADN, huella dactilar, iris, retina, termograma facial, venas, rostro, firma digital, geometr´ıa de la mano y voz. Cada rasgo biom´etrico posee propiedades comparativas, las cuales deben tenerse en consideraci´on al momento de decidir que t´ecnica se va a utilizar en una aplicaci´on espec´ıfica.
Existen dos modos fundamentales de funcionamiento para un sistema de reconocimien-to basado en caracter´ısticas biom´etricas: verificaci´on e identificaci´on. En el primer caso, el sistema biom´etrico pide, “es esta persona quien dice ser 2 compara este registro con el que
est´a en un medio externo, por lo general una tarjeta lectora o simplemente una contrase˜na.
La verificaci´on es conocida como 1:1 (Uno a Uno). En el segundo, el sistema biom´etrico
pregunta “qui´en es esta persona 2 establece si existe un expediente biom´etrico, y, si es as´ı la
identidad de la persona registrada que muestra es aceptada. La identificaci´on es tambi´en llamada 1:N (Uno a muchos).
Como podemos observar, un n´umero extenso de biom´etricas han sido propuestas para la
todos estamos familiarizados con ese medio de comunicaci´on, lo cual lo hace ideal para diferentes aplicaciones. En segundo lugar, trabajos recientes sobre verificaci´on de voz han demostrado que la voz es una biom´etrica efectiva en distinci´on de usuarios. Otra raz´on, es el hecho de que cuando un usuario cambia su contrase˜na hablada, inevitablemente cambia la vocalizaci´on del mismo. As´ı a diferencia de otras biom´etricas est´aticas (huellas digitales, Iris, retina, etc), es concebible que un usuario pueda tener arbitrariamente diferentes e ilimitadas llaves a claves del tiempo.
2.1.4.
La Voz como Rasgo Biom´
etrico
La voz es simplemente una onda ac´ustica que es radiada por el aparato bucal humano cuando se genera aire en los pulmones y el flujo del aire resultante es perturbado por alguna abertura del tracto vocal. Cada persona tiene caracter´ısticas bucales ´unicas, de tal manera que frecuentemente somos capaces de reconocer una persona solamente por su voz. Estas caracter´ısticas est´an relacionadas directamente con la fisiolog´ıa de cada ser humano, tales caracter´ısticas son: la edad, el sexo, la altura, el peso, la estructura de las cuerdas vocales, las cavidades oral y nasal, los dientes y labios [9].
Debido a la estructura fisiol´ogica del tracto vocal y el hecho que todos los seres humanos “sonamos”diferente, se puede afirmar que existe una cantidad significativa de informaci´on fon´etica en la se˜nal de voz [9].
Clasificaci´on de los Sonidos
La producci´on de sonidos de voz puede se clasificada en distintas clases de acuerdo a su modo de exitaci´on [9]:
1. Por la acci´on de las cuerdas vocales: Sonidos sonoros, cuando vibran Sonidos sordos, en caso contrario.
2. En funci´on de las cavidades implicadas: Sonidos orales o bucales.
Sonidos nasales.
3. Por el modo de articulaci´on, seg´un se produzca la restricci´on del flujo de aire al atra-vesar el tracto vocal.
Sonidos medio cerrados. Sonidos cerrados.
4. Por el lugar de articulaci´on, en el que atendemos al lugar de m´aximo estrechamiento del tracto vocal.
En el contexto de la producci´on de voz, las frecuencias resonantes del tracto bucal son llamadas formantes. Estas frecuancias dependen de la forma y dimensi´on del tracto bucal. El primer formante f1 es la frecuencia resonante m´as baja, la cual cae en el rango de 250 a
900 Hz. El segundo formante f2 tiene un rango m´as amplio que va desde 600 hasta 3600 Hz.
Los formantes subsiguienes f3, f4 y f5 est´an presentes en la se˜nal de voz, pero sin embargo
´
unicamente los formantesf1 y f2 (y algunas veces f3) son usualmente suficientes para
iden-tificar sonidos individuales que son representados por las letras del alfabeto, conocidos como
fonemas.
Caracter´ısticas de los Fonemas
El t´ermino fonema es usado para denotar cualquiera de las unidades m´ınimas de len-guaje hablado (articulado) en un lenlen-guaje que puede servir para distinguir una palabra de otra. Convencionalmente se usa el t´ermino fono para denotar la realizaci´on ac´ustica de un fonema [8]. Es mejor tratar cada realizaci´on como un fonema diferente.
El Cuadro 2.1 muestra una lista de algunos de los fonemas utilizados en el ingl´es ameri-cano [7]. El conjunto de fonemas podr´a diferir en la realizaci´on entre hablantes individuales. Pero los fonemas siempre funcionar´an sistem´aticamente para diferenciar significados en las palabras, asi como el fonema /p/ se˜nala la palabra del ingl´es pat (palmada), opuesto a bat (murci´elago), de sonido similar. El contraste entre este par de palabras es /p/ contra /b/ [7].
Como seleccionar la unidad m´ınima b´asica para representar informaci´on ac´ustica y fon´etica de un lenguaje es una cuesti´on importante al momento de dise˜nar un sistema de reconocimiento. En muchos idiomas, las palabras son t´ıpicamente consideradas como el prin-cipal portador de significado. Los modelos de palabras son precisos si existen suficientes datos disponibles, por lo tanto, son entrenables s´olo para tareas peque˜nas. Generalmente no son generalizables.
Cuadro 2.1: Fonemas del idioma ingl´es utilizados para un sistema t´ıpico de lenguaje hablado.
Fonema Ejemplo de Palabra
iy feel
ih fill
ae at
aa father
ah cut
ao dog
ay bite
ax ago
ey tape
eh pet
er turn
ow tone
aw our
oy coin
uh book
uw tool
b big
p put
d dig
t talk
th thin
... ...
2.2.
Reconocimiento Autom´
atico de Voz
El reconocimiento autom´atico de voz o habla (RAH) es una disciplina que se encarga de la concepci´on y realizaci´on de sistemas que convierten se˜nales ac´usticas procedentes de un locutor humano en categor´ıas ling¨u´ısticas de un universo dado. En los sistemas de reco-nocimiento de voz se intenta modular las caracter´ısticas de los usuarios y decidir si el usuario es quien dice ser.
Existen muchas ventajas de el uso del reconocimiento de voz en un sistema biom´etrico, alguna de ellas son:
Provee ojos y manos libres para su utilizaci´on. Confiabilidad.
Flexibilidad.
Ahorro de tiempo en la informaci´on de entrada.
La tecnolog´ıa RAH se ha basado primordialmente en la t´ecnica llamada “Modelos Ocul-tos de Markov” o HMM por sus siglas en ingl´es (Hidden Markov Model); se antepone la pala-bra ocultos debido a que los modelos deben inferirse o deducirse a trav´es de observaciones de la salida de voz, no de cualquier representaci´on interna de producci´on de voz [26]. La teor´ıa b´asica sobre HMMs se encuentra en forma detallada al final del documento en el Apendice A.
La t´ecnica HMM modula el habla estimando la probabilidad de cada fonema en regiones continuas, peque˜nas, dentro de la se˜nal de voz. Los estados pueden verse como correspon-diendo aproximadamente a eventos ac´usticos. En un modelo de palabra, por ejemplo, los primeros estados representan fonemas iniciales de la palabra y los ´ultimos estados los fone-mas finales.
Los Modelos Ocultos de Markov nos permiten modelar tanto la variabilidad espectral utilizando una distribuci´on de probabilidad en los vectores de salida as´ı como tambi´en la variabilidad temporal con la probabilidad de transici´on entre los estados de la cadena de Markov. La Figura 2.1 muestra una secuencia de voz con sus correspondientes observaciones, estas observaciones contienen, cada una de ellas toda la informaci´on de la se˜nal de voz como puede ser por ejemplo el ”Pitch”, el frame, etc.
O1 O2 O3 O4
...
On2.2.1.
Caracter´ısticas de un Sistema RAH
La estructura general de los sistemas de RAH tiene esencialmente tres m´odulos o etapas, Figura 2.2 [8], las cuales se describen a continuaci´on:
1. Procesamiento o an´alisis del habla (en ingl´es se conoce como front-end): en esta etapa se realiza alg´un tipo de an´alisis de la se˜nal de voz en t´erminos de la evoluci´on temporal de par´ametros espectrales (previa conversi´on anal´ogica/digital de la se˜nal). Esto tiene por funci´on hacer m´as evidentes las caracter´ısticas necesarias para la etapa siguiente y a veces tambi´en limpiar y reducir la dimensi´on de los patrones para facilitar su clasificaci´on.
2. Clasificaci´on de unidades fon´eticas o modelo ac´ustico: esta etapa clasifica o identifica los segmentos de voz ya procesados con s´ımbolos fon´eticos (fonemas, d´ıfonos o s´ılabas). A veces se puede asociar una probabilidad con este s´ımbolo fon´etico, lo que permite ampliar la informaci´on presentada al siguiente m´odulo.
3. An´alisis en funci´on de reglas del lenguaje o modelo del lenguaje: en esta ´ultima etapa se pueden aprovechar las reglas utilizadas en la codificaci´on del mensaje contenido en la se˜nal para mejorar el desempe˜no del sistema y producir una transcripci´on adecuada. Aqu´ı se utilizan otras fuentes de conocimiento como la ortogr´afica, la sint´actica, la pros´odica, la sem´antica o la pragm´atica.
Entrenamiento/Adaptación
Modelos Léxicos y de Lenguaje
S1 S2 S3 S6
a22 a33
Búsqueda de Viterbi Extracción
de Características
Datos de Entrenamiento
Adaptación de Datos
Análisis Espectral
Modelos
HMM
Búsqueda de Viterbi
[image:27.595.145.465.419.573.2]Secuencia de Palabras
Figura 2.2: Componentes de un Sistema RAH t´ıpico.
.
Losmodelos ac´usticos incluyen la representaci´on del conocimiento acerca de la ac´
usti-ca, fon´etiusti-ca, variables ambientales, diferencias de g´enero y dialecto entre los hablantes, etc.
Los modelos de lenguaje se refieren al conocimiento del sistema de lo que constituye una
funciones relacionadas a alguna operaci´on que un usuario quiera realizar tambi´en pueden ser necesarias para el modelo de lenguaje.
Existe mucha incertidumbre en el ´area dirigida al RAH, asociada con las caracter´ısticas del hablante, la velocidad y el estilo de hablar, el reconocimiento de segmentos b´asicos del habla, palabras posibles, palabras parecidas, palabras desconocidas, variaci´on gram´atica, interferencia de ruido, acento no nativo, etc.
2.2.2.
Problemas Propios del RAH
Los principales problemas que dificultan el reconocimiento autom´atico del habla son los siguientes:
No existe separador, ni silencios entre palabras, an´alogos a los espacios en el lenguaje escrito.
Un alto grado de variabilidad del individuo causado por el modo de hablar (acento regional, con resfriado, etc.) y por el g´enero del locutor.
Cada fonema es modificado por su contexto cercano, esto es; cada sonido elemental es afectado por el fonema que le antecede y por el que le sigue, este efecto es conocido como coarticulaci´on. Adem´as, se tienen modificaciones en los fonemas debido a un contexto m´as amplio, tal como el lugar que ocupa en la oraci´on.
La se˜nal de voz lleva diferentes tipos de informaci´on, tales como: el sexo e identidad de la persona, humor, etc.
No tienen reglas fijas para formalizar la informaci´on en los diferentes niveles de codifi-caci´on de voz.
2.3.
M´
aquinas de Vectores de Soporte (SVM)
que da nombre a la SVM. Las m´aquinas de vectores de soporte pertenecen a la familia de los clasificadores lineales puesto que se encargan de inducir separadores lineales o hiperplanos en espacios de caracter´ısticas de muy alta dimensionalidad [10].
A continuaci´on exponemos un ejemplo sencillo para explicar brevemente cu´al es el ob-jetivo que se pretende conseguir con la utilizaci´on de la SVM. En una f´abrica de tornillos se sabe que una pieza buena es aquella que tiene una longitud entre 4 y 6 cm y una pieza no v´alida es aquella que est´a por debajo de 4 cm o es mayor de 6 cm. Por otra parte, se tienen una serie de caracter´ısticas de las piezas, como la forma del tornillo, el peso y el color. As´ı pues, se dispone de una serie de piezas etiquetadas como ✭✭buenas✮✮ y otra serie como ✭✭malas✮✮. Estas muestras sirven para entrenar la SVM. Una vez terminado este proceso y
hallados una serie de par´ametros, lo que se pretende es que al introducir en la m´aquina un conjunto de datos nuevos (en este caso tornillos), ver c´omo generaliza; es decir, comprobar si se cometen errores o se clasifican bien las muestras dentro de su respectiva clase (2 clases: pieza v´alida o no).
Para explicar las bases del funcionamiento de SVM en primer lugar, recordemos que todo hiperplano es un espacio D-dimensional,RD, se puede expresar comoh(x) =hw, xi+b,
donde w∈RD es el vector ortgonal al hiperplano, b∈R y h·,·i expresa el producto escalar
habitual en R. Visto como un clasificador binario, la regla de clasificaci´on se puede expresar como: f(x) = signo(h(x)), donde la funci´on signo se define como:
signo(x) =
(
+1 si x >0
−1 six <0
En terminolog´ıa de de clasificaci´on, las x∈ RD son representaciones vectoriales de los
ejemplos, con una componente real por cada atributo, el vector w se suele denominar “vec-tor de pesos”. Este vec“vec-tor contiene un peso para cada atributo indicando su importancia o contribuci´on en la regla de clasificaci´on. Finalmente, b suele denominarse sesgo (bias) y define el umbral de decisi´on [11]. Dado un conjunto binario (es decir, con dos clases) de datos linealmente separables, existen diversos algoritmos para construir hiperplanos (w, b) que los clasifiquen correctamente. Podemos citar como ejemplo: Perceptron, Widrow-Hoff,
Exponentiated-Gradient, Sleeping Experts, etc. A pesar de que est´e garantizada la
conver-gencia de todos ellos hacia un hiperplano soluci´on, las particularidades de cada algoritmo de aprendizaje pueden conducirnos a soluciones ligeramente distintas, puesto que puede haber varios hiperplanos que separen correctamente el conjunto de ejemplos.
que los ejemplos m´as cercanos de cada clase. De manera equivalente, es el hiperplano que maximiza la distancia m´ınima (o margen geom´etrico) entre los ejemplares del conjunto de datos y el hiperplano. Intuitivamente, este hiperplano est´a situado en la posici´on m´as neutra posible con respecto a las clases representadas por el conjunto de datos, sin estar sesgado, por ejemplo, hacia la clase m´as n´umerosa. Adem´as, s´olo considera los puntos que estan en las fronteras de la regi´on de decisi´on, que es la zona donde puede haber dudas sobre a que clase pertenece un ejemplo (son los denominados vectores de soporte).
En la Figura 2.3 se presenta geom´etricamente este hiperplano equidistante para el caso bidimensional. Este sesgo inductivo de aprendizaje consistente en maximizar el margen se justifica dentro de la teor´ıa de aprendizaje estad´ıstico [10]. La mejor funci´on f para llevar a cabo la clasificaci´on ser´a aquella con la esperanza del error de clasificaci´on m´as baja, aquella con la que obtenga el m´ınimo riesgo real, riesgo esperado o simplemente riesgo:
R(ζ) =
Z 1
2|y−f(x, ζ)|dP(x, y), ζ = par´ametros de SVM (2.1)
+1
-1 +1
-1
Vectores de Soporte
w·x+ b=-1 w·x+
b= +1
[image:30.595.164.446.290.550.2]2 llwll
Figura 2.3: Clasificaci´on Binaria en SVM
El riesgo emp´ırico se define como la tasa de error medio en el conjunto de entrenamiento para un n´umero finito y fijo de observaciones:
Remp(ζ) =
1 2N
N X
i=1
|yi−f(xi, ζ)| (2.2)
N´otese que es este caso no aparece ninguna distribuci´on de probabilidad. Remp(ζ) es
un n´umero fijo para una opci´on determinada deζ y para un particular conjunto de entrena-miento {xi, yi}. A la cantidad
1
2N|yi−f(xi, ζ)| (2.3)
se le denomina p´erdida. El riesgo emp´ırico puede emplearse para tabular el riesgo, sobre la distribuci´on P(x, y), con una probabilidad de 1−ρ, 0≤ρ≤1:
R(ζ)≤Remp(ζ) + s
h(log(2N/h) + 1)−log(ρ/4)
N (2.4)
donde N es el n´umero de observaciones y h es un entero, no negativo, conocido como la
dimensi´on Vapnik Chervonenkis (VC) y es una medida de la idea de capacidad mencionada
al principio de la secci´on. A la parte derecha de la desigualdad se le llamacota del riesgo y al segundo t´ermino de la cota del riesgo se le llamaconfianza VC. La teor´ıa de Vapnik sobre la reducci´on del riesgo y la dimensi´on VC indica que reduciendo el riesgo emp´ırico tambi´en se reduce el riesgo sobre la distribuci´on P(x, y) [26].
Para encontrar f que minimice el riesgo el objetivo se convierte en encontrar un sub-conjunto del sub-conjunto de funciones que minimice la cota del riesgo. Para ello se divide la clase completa de funciones en subconjuntos anidados. Para cada conjunto se debe poder calcularho, al menos, establecer una cota de su valor.La minimizaci´on estructural del riesgo
consiste en encontrar el subconjunto de funciones que minimiza la cota del error actual. De esta manera se toma aquella m´aquina entrenada de la serie con menor valor para la suma del riesgo emp´ırico y la confianza VC.
2.3.1.
SVM para Clasificaci´
on Lineal
SVM lineal con m´argen m´aximo (maximal margin linear SVM) es el modelo m´as sencillo e intuitivo de SVM, aunque tambi´en el que tiene condiciones de aplicabilidad m´as restrin-gidas, puesto que parte de la hip´otesis de que el conjunto de datos es linealmente separable en el espacio de entrada [12].
Supongamos que el conjunto es de datos es linealmente separable en el espacio de entrada. Es decir, sin hacer ninguna transformaci´on de los datos, los ejemplos pueden ser separados por un hiperplano de manera que en cada lado del mismo s´olo hay ejemplos de una clase. En t´erminos matem´aticos, es equivalente a decir que existe un hiperplano h:X→R
tal que h(x) > 0 para los ejemplos de la clase +1 y h(x) <0 para los ejemplos de la clase
−1. De manera m´as concisa, h cumple que yi·h(xi) >0 para todo i entre 1 y N, es decir,
para todos los ejemplos.
Formulaci´on Original de SVM
Recordemos que la idea que hay detr´as de las SVM consiste en seleccionar el hiperplano separador que est´a a la misma distancia de los ejemplos m´as cercanos de cada clase (Ver Figura??) [10]. Es muy f´acil ver que la distancia de un vectorx a un hiperplanoh, definido por (w, b) comoh(x) =hw, bi+b, viene dada por la f´ormula dist(h, x) =|h(x)|/kwk, donde
kwk es la norma en RD asociada al producto escalar (es decir, kwk2
= hw, wi). As´ı pues, el hiperplano equidistante a dos clases es el que maximiza el valor m´ınimo de dist(h, x) en el conjunto de datos. Adem´as, dados dos puntos z1 y z2 equidistantes a un hiperplano, se
cumple queb =−(hw, z1i+hw, z2i)/2. Como el conjunto es linealmente separable, podemos
reescalar w y b de manera que la distancia de los vectores m´as cercanos al hiperplano sea 1/kwk (al multiplicar w y b por una constante, la distancia no var´ıa). Como consecuencia, los vectores z m´as cercanos tendr´an |h(z)| = 1, mientras que para el resto |h(z)| ≥ 1. De manera que el problema de encontrar el hiperplano equidistante a dos clases se reduce a encontrar la soluci´on del siguiente problema de optimizaci´on con restricciones:
Maximizar 1
kwk
sujeto a: yi(hw, xii+b)≥1 donde 1≤i≤N
2.3.2.
SVM para Clasificaci´
on NO Lineal
muchos problemas no es un modo lineal, como se muestra en forma gr´afica en la Figura 2.4. En segundo lugar, necesita que el conjunto de datos sea linealmente separable, cosa que no tiene porque ser cierta o f´acil de conseguir.
En la Figura 2.4 se puede ver un conjunto de datos que no es linealmente separable, en el que SVM lineal con margen m´aximo no es la mejor soluci´on. SVM no lineal con margen m´aximo en el espacio de caracter´ısticas se basa en la idea de hacer una transformaci´on no lineal del espacio de entrada a un espacio dotado de un producto escalar. En este espacio se pueden aplicar los mismos razonamientos que para la SVM lineal con margen m´aximo. Dicho de otro modo, supongamos que existe una transformaci´on no lineal del espacio de entrada a un cierto espacio de caracter´ısticasℑ:
φ :RD → ℑ
x→φ(x)
dotado de un producto esclar hφ(x), φ(y)i (ℑ es un espacio de Hilbert). Si el conjunto de datos es linealmente separable en ℑ (con los hiperplanos definidos a partir del producto escalar correspondiente), entonces SVM con margen m´aximo en el espacio de caracter´ısticas se puede obtener sustituyendo en el SVM lineal con margen m´aximo hx, yi porhφ(x), φ(y)i.
+1
-1 +1
-1
mape o
Kernel
[image:33.595.164.449.425.653.2]?
La dimensi´on del espacio de caracter´ısticas necesaria para poder separar el conjunto de datos puede ser arbitrariamente grande. pero al aumentar la dimensi´on de ℑtambi´en se incrementa el tiempo de c´omputo de cualquier algoritmo que calcule el producto escalar ope-rando directamente con las componentes de φ(x). Por ejemplo, supongamos que queremos transformar im´agenes de 16x16 puntos al espacio de monomios de orden 5 de los 256 puntos de la imagen. La dimensi´on de este espacio ser´ıa 1010
, lo cual ser´ıa muy costoso en cuanto a tiempo de procesamiento.
Afortunadamente, para ciertos espacios de caracter´ısticas y ciertas transformaciones existe una forma muy efectiva de calcular el producto escalar usando las denominadas
fun-ciones kernel [10]. Una funci´on kernel o simplemente kernel, es una funci´onK :X×X →
R, tal que K(x, y) = hφ(x), φ(y)i, donde φ es una transformaci´on de X en un cierto espa-cio de Hilbert ℑ. Es decir, el producto escalar se puede calcular usando la funci´on kernel, quedando impl´ıcita la transformaci´on del espacio de entrada al espacio de caracter´ısticas. Por ejemplo supongamos que definimos la siguiente transformaci´on φ deR2
en el espacio de caracter´ısticasR3
:φ(x1, x2) = (x1, x2) = (x21, √
2x1x2, x22).
Entonces, el producto escalarhφ(x), φ(y)i se puede reformular como:
hφ(x), φ(y)i= (x2 1,
√
2x1x2, x 2 2)·(y
2 1,
√
2y1y2, y 2 2)
T = ((x
1, x2)·(y1, y2)T) 2
=hx, yi2
Por tanto, la funci´on kernel K(x, y) = hx, yi2
permite calcular el producto escalar
hφ(x), φ(y)i en el espacio de caracter´ısticas sin necesidad de utilizar la transformaci´on φ.
Funciones Kernel
Como se ha visto en este secci´on, el aprendizaje de separadores no lineales con SVM se consigue mediante una transformaci´on no lineal del espacio de atributos de entrada (input space) a un espacio de caracter´ısticas (feature space) de dimensionalidad mucho mayor y donde s´ı es posible separar linealmente los ejemplos [12]. El uso de las denominadas funcio-nes kernel, que calculan el producto escalar de dos vectores en el espacio de caracter´ısticas, permite trabajar de manera eficiente en el espacio de caracter´ısticas sin necesidad de calcu-lar expl´ıcitamente las transformaciones de los ejemplos de aprendizaje. Una de las grandes ventajas de las funciones kernel es que su aplicaci´on no est´a limitada a ejemplos de tipo vec-torial sino que son aplicables a pr´acticamente cualquier tipo de representaci´on. Las funciones kernel de prop´osito general m´as com´unmente utilizadas en RD se presentan en el Cuadro
Cuadro 2.2: Funciones Kernel para SVM
Tipo de Kernel F´ormula Par´ametros
Polinomial (hx, yi+c)d c∈R, d∈ ℵ
RBF exp³−kxγ−yk2´ γ >0
Sigmoidal tanh(shx, yi+r) s, r ∈R
Multicuadr´atica inversa √ 1
kx−yk2+c2 c≥0
El aprendizaje en espacios de caracter´ısticas v´ıa transformaciones no lineales por medio de funciones kernel no es exclusiva del paradigma SVM. Aunque se suele asociar los m´etodos basados en funciones kernel con las SVM, al ser su ejemplo m´as paradigm´atico y m´as avan-zado, hay muchos otros algor´ıtmos en donde se puede hacer uso de funciones kernel para permitir el aprendizaje de funciones no lineales. ´Este es el caso, por ejemplo, del perceptr´on, de los discriminantes de Fisher, del an´alisis de componentes principales, etc.
Un requisito b´asico para aplicar con ´exito SVM a un problema real es la elecci´on de una funci´on kernel adecuada, que debe reflejar el conocimiento a priori sobre el problema. El desarrollo de funciones kernel para estructuras no vectoriales es actualmente una importante ´area de investigaci´on con aplicaci´on en dominios como el procesamiento del lenguaje natural y la biometr´ıa.
2.3.3.
Aplicaciones de SVM
Como ya se ha dicho a lo largo de esta secci´on, SVM se ha aplicado con ´exito a numerosos problemas reales pertenecientes a ´areas como la recuperaci´on de informaci´on, reconocimien-to y clasificaci´on de im´agenes, ´analisis de biosecuencias, reconocimienreconocimien-to de escritura, etc. Aparte de la solidez te´orica de los modelos, el ´exito emp´ırico ha sido tal que algunos autores sugieren que SVM podr´ıa desplazar a las redes neuronales en una gran variedad de campos.
La aplicaci´on de SVM a problemas de clasificaci´on multiclase se suele plantear median-te los esquemas habituales de binarizaci´on, en donde el problema multiclase se conviermedian-te en varios problemas binarios [12] . Sin embargo, existen tambi´en variantes m´as elegantes de SVM donde una modificaci´on de la funci´on objetivo permite obtener simult´aneamente el c´alculo de un clasificador multiclase. Estas variantes han demostrado ser experimentalmente competitivas en t´erminos de calidad con respecto a los esquemas de binarizaci´on.
cada ejemplo tiene una codificaci´on muy dispersa. En problemas donde se dispone de pocos ejemplos, SVM presenta ventajas con respecto a otros m´etodos basados en maximizaci´on del margen. Desde el punto de vista pr´actico, el hecho de enfretarnos a un problema con miles de ejemplos de aprendizaje y miles de atributos no debe detenernos a la hora de usar SVM. Este proyecto es un ejemplo del buen desempe˜no que SVM puede alcanzar en problemas reales, en donde la dimensi´on de los vectores es considerablemente grande.
2.4.
Trabajo Previo
Se ha mencionado a lo largo de este cap´ıtulo que la autentificaci´on mediante biom´etricas se refiere a la verificaci´on de individuos basada en caracter´ısiticas f´ısicas y de comportamien-to. La idea b´asica de generar claves criptogr´aficas a partir de estas caracter´ısticas es que la componente biom´etrica lleve acabo el proceso de autentificaci´on, mientras que un sistema gen´erico criptogr´afico pueda manipular otros componentes para realizar el proceso de encrip-tado. Existen hasta la fecha un n´umero relativamente reducido de investigaciones dirigidas al ´area de generaci´on de llaves criptogr´aficas a partir de biom´etricas. Algunos de los trabajos realizados ser´an mencionados a continuaci´on.
Soutar [13] propone un sistema basado en la lectura de huellas digitales. El algoritmo genera una clave criptogr´afica a partir de la im´agen de la huella dactilar del usuario. Usando en la fase de entrenamiento diversas im´agenes (por lo general 5), el sistema primero crea una funci´on filtro de correlaci´onH(u) con dos componentes importantes ( magnitud y fase). El criterio de dise˜no de esta funci´on comprende propiedades de tolerancia a la distorsi´on y discriminabilidad. El sistema produce una salidac0(x), la cual se obtiene por la convoluci´on
y correlaci´on de las huellas digitales de entrenamiento con H(u). Una clave criptogr´afica k0
de N-bits (t´ıpicamente 128 bits) es producida a partir de la salida c0(x) usando un c´odigo
corrector de errores (con el objetivo de tolerar cierta variaci´on en las muestras leidas de la biom´etrica en la fase de autentificaci´on). El principal problema de este algoritmo propuesto es que no garantiza buena seguridad. Los autores no explican en forma detallada la cantidad de entropia que es perdida en cada fase del algoritmo que proponen.
puede ocurrir al realizar diferentes lecturas de la mima biom´etrica. Juels y Wattenberg [16] proponen un concepto llamado ‘‘fuzzy comitmment”, que generaliza y mejora los m´etodos de Davida para tolerar mayor variaci´on en las caracter´ısticas biom´etricas y proveer mayor seguridad en un sistema.
Monrose [17],[18] muestra un m´etodo para generar claves criptogr´aficas a partir de la voz. Dicho m´etodo consta principalmente de dos fases. En la primera fase se analizan rasgos de la se˜nal de voz para formar lo que Monrose nombra como “Descriptor de caracter´ısticas”
Cap´ıtulo 3
M´
etodolog´ıa Utilizada para la Generaci´
on de Claves
Criptogr´
aficas Implementando una Normalizaci´
on
Esf´
erica
El prop´osito general del esquema presentado en la Figura 3.1 es la generaci´on de una clave criptogr´afica para un usuario basada en su se˜nal de voz y la oraci´on que dice, y poste-riormente poder generar repetidamente en forma exacta la clave que ha sido asignada para cada usuario cuando articule la misma frase.
Por lo tanto, si se tiene el conjunto de articulaciones de cada uno de los usuarios re-presentadas por sus rasgos caracter´ısticos y divididas en fonemas, el desaf´ıo principal del presente proyecto de tesis es encontrar un clasificador capaz de particionar los rasgos de tal manera que produzcan la misma clave para el mismo usuario y claves distintas para diferen-tes usuarios en forma precisa.
En el esquema se puede apreciar que el proceso de generaci´on de claves criptogr´aficas consta de dos etapas importantes:
Fase de Entrenamiento: consiste en tomar muestras de articulaciones correspondientes a cada uno de los usuarios para entrenar el sistema con el fin de obtener el mejor desempe˜no posible.
Fase de Prueba: es menos compleja que la anterior, en ella se evalua el sistema ana-lizando la precisi´on obtenida al generar la clave despu´es de haber sido entrenado con ciertos par´ametros.
SVM utilizada para realizar el proceso de clasificaci´on. Por ´ultimo, se tienen dos bloques intermedios, uno llamado generaci´on de atributos, el cual permite hacer una conexi´on entre las dos t´ecnicas anteriores [19], y el bloque llamado Normalizaci´on Esf´erica, el cual apunta a la aplicaci´on propuesta de una t´ecnica novedosa que permite mejorar el desempe˜no de SVM al realizar las tareas de clasificaci´on binaria de los vectores que representan a cada uno de los fonemas pronunciados por el usuario para formar la clave.
Con el prop´osito de obtener un mejor entendimiento del esquema, a continuaci´on se analizar´a en forma detallada cada uno de los bloques correspondientes al reconocimiento autom´atico de voz y a la generaci´on de atributos que conforman el sistema para poder generar la clave critogr´afica basada en la se˜nal de voz del locutor. Posteriormente se explica en forma detallada el trabajo realizado con SVM y sobre todo la implementaci´on propuesta de la Normalizaci´on Esf´erica, la cual permite mejorar el desempe˜no del sistema.
Preprocesamiento Reconocimiento Automatico Generacion de Atributos Clasificador Prueba SVM
Parametros del Modelo HMM
NORMALIZACION ESFERICA
Preprocesamiento Entrenamiento Señal de Voz
de Entrenamiento Señal de Voz
[image:39.595.80.535.320.503.2]de Prueba Clasificador Entrenamiento SVM Modelo SVM CLAVE Asignación Aleatoria KERNEL Dp prueba Dp Entrenamiento Rij u Fase de Entrenamiento Fase de Prueba
Figura 3.1: Esquema General del Sistema
3.1.
Reconocimiento Autom´
atico de Voz
3.1.1.
Preprocesamiento
La se˜nal de voz est´a compuesta de una secuencia de excitaci´on combinada con la res-puesta de impulso del modelo del sistema vocal [7]. El objetivo del preprocesamiento de la se˜nal de voz en el sistema es convertir la forma de onda de la voz a alg´un tipo de represen-taci´on param´etrica.
La voz es din´amica o variante con respecto al tiempo, pero por otro lado, durante el habla lenta, la forma del tracto vocal y el tipo de excitaci´on pueden estar sin alterarse en duraciones de hasta 200 ms [7]; sin embargo, cambian en promedio m´as r´apidamente debido a que la duraci´on promedio de los fonemas es alrededor de los 80 ms. No obstante el an´alisis de voz asume que las propiedades de la se˜nal cambian relativamente lento con el tiempo. Esto permite la examinaci´on de una ventana de voz corta en tiempo para extraer par´ametros que se mantengan fijos para la duraci´on de la ventana.
Entonces, para modelar par´ametros din´amicos, se divide la se˜nal en ventanas sucesivas o cuadros de an´alisis, de forma que los par´ametros calculados sean suficientes para seguir cambios relevantes.
Ventaneo se define como la multiplicaci´on de la se˜nal de voz s(n) por una ventana
w(n), los cuales producen un conjunto de muestras de vozx(n) ponderado por la forma de la ventana [9].w(n) puede tener duraci´on infinita, pero ventanas m´as pr´acticas tienen longitud finita para simplificar el c´omputo. La ventana m´as com´un es la ventana Hamming que tiene la forma:
w(n) = 0,54−0,46 cos( 2πn
N −1),0≤n≤N −1
Para fines pr´acticos es com´un hacerle a la se˜nal un pre-´enfasis aplic´andole la ecuaci´on en diferencias de primer orden mostrada a continuaci´on:
Sn′ =Sn−ksn−1 (3.1)
donde k es el coeficiente de pre-´enfasis que debe estar entre 0 y 1.
Una vez que la se˜nal de voz ha sido ventaneada, se aplica el m´etodo de an´alisis m´as popular para reconocimiento aut´om´atico de voz llamado “An´alisis Mel Cepstral”, el cual usa el cepstrum con un eje de frecuencia no lineal siguiendo la escala Mel o Bark. Los coeficientes cepstrales de frecuencia melcn (MFCC’s) dan una representaci´on alternativa para espectros
B´asicamente para obtener los MFCC’s, despu´es de que la se˜nal de voz es dividida en pe-que˜nos fragmentos, un espectro S de magnitud DFT de cada cuadro de voz es deformado en frecuencia (para seguir la escala bark o de banda cr´ıtica) y en amplitud (escala logar´ıtmica). Entonces se usa un banco de filtro para suavizar el espectro escalado. Finalmente, se aplica la transformada discreta de coseno DCT para eliminar la correlaci´on entre los componentes, dando como resultado un vector de 13 dimensiones, donde cada dimensi´on corresponde a un par´ametro. Despu´es se calcula la derivada en el tiempo△ y la aceleraci´on en el tiempo△△ para acentuar las caracter´ısticas din´amicas de la voz en el tiempo, dando como resultado un vector de 39 dimensiones formado por los 12 MFFC’s mas un coeficiente de energ´ıa, 13 componentes resultantes de△y 13 de△△, el esquema de este preprocesamiento se muestra en la Figura 3.2 [19].
La primera y segunda derivada con respecto al tiempo de los coeficientes cepstrales in-dican la tasa a la cual los coeficientes cepstrales cambian. Se ha demostrado que aumentando la primera y segunda derivada a los coeficientes cepstrales mejora la precisi´on en los sistemas de reconocimiento de voz.
Voz
MFCC Ventaneo
DFT Log10
.
Banco deFiltrosVentana
Trama
a1
[image:41.595.126.494.338.484.2]a39
Figura 3.2: Preprocesamiento de la se˜nal de Voz
3.1.2.
Modelaci´
on Ac´
ustica
En el reconocimiento de voz generalmente se asume que la se˜nal de voz es una realiza-ci´on de un mensaje codificado como una secuencia de s´ımbolos (ver Figura 3.3).
S
1 S2 S3
S
1 S2 S3
Parametrizar
[image:42.595.200.415.71.217.2]Reconocimiento VOZ
Figura 3.3: Principio de Modelaci´on Ac´ustica
El reconocedor de voz basado en HMM del sistema emplea dos etapas para realizar su prop´osito, el entrenamiento de los modelos y el reconocimiento de los mismos. En el caso del entrenamiento lo que se quiere es representar a trav´es del modelo m´as apropiado una palabra. Para esto se tiene un conjunto de caracter´ısticas obtenidas a partir de pronunciaciones de las frases especialmente para entrenamiento y que han sido obtenidas previamente por la etapa de pre-procesamiento explicado anteriormente. El reconocimiento resulta ser menos complejo, y el objetivo es deducir, a partir de los modelos creados previamente para cada palabra del vocabulario, cual de estos corresponde mejor o tiene la probabilidad m´as alta de correspondencia a una secuencia de observaci´on, como es el caso de la se˜nal de entrada, pasada anteriormente por la etapa de pre-procesamiento.
Reconocimiento de HMM
El objetivo principal del HMM en el reconocimiento de voz es dado un conjunto de datos ac´usticos M = m1, m2, ..., mk, encontrar un conjunto de secuencia de observaci´on de
palabras O = o1, o2, ..., on, de forma que la probabilidad P(O|M) sea m´axima. Lo que nos
da la regla de Bayes:
P(O|M) = P(M|O)·P(O)
P(M) (3.2)
donde:
P(M|O) es un modelo ac´ustico (HMMs),
P(O) es un modelo de lenguaje y
P(M) es una constante para una oraci´on completa.
HMM para modelar los fonemas. El objetivo de la etapa de decodificaci´on es encontrar una secuencia de estados S, de forma tal que la probabilidad de P(O, S|M) sea la m´as alta.
Para calcularP(O|M) existen diversas t´ecnicas como el llamadoAlgoritmo hacia
Ade-lante, el cual calcula la probabilidad de que un modelo produzca una secuencia de
observa-ciones, pero no da la secuencia de estados que ofrece la mejor aproximaci´on. Es por eso que se aplica una t´ecnica formal basada en programaci´on din´amica, conocida como algoritmo de
Viterbi, usada para encontrar la mejor secuencia de estados para una HMM. En lugar de
sumar las probabilidades de diferentes rutas llegando al mismo estado destino, el algoritmo de Viterbi escoge y recuerda la mejor ruta. Para definir la probabilidad de la mejor ruta tenemos:
Vt(i) =P(O1t, S t−1
1 , st=i|M) (3.3)
Vt(i) es la probabilidad de la secuencia de estados m´as alta en el tiempo t, que ha sido
generada por la observaci´on Ot
1 (hasta el tiempo t) y termina en el estado i. Entrenamiento de HMM
Debido a que las HMM pueden ser entrenadas, lo que se intenta es optimizar los par´ame-tros del modelo que mejor describan una secuencia de observaci´on, tambi´en llamada secuencia de entrenamiento. No existe forma conocida para resolver analiticamente el conjunto de pa-rametros del modelo que maximice la probabilidad de la secuencia de observacion en una forma cerrada. Pero se puede escoger M = (A, B, π) tal que su probabilidad, P(O|M) es localmente maximizada usando un procedimiento iterativo como el metodo Baum-Welch o tambien llamado Algoritmo adelante/atras. La probabilidad hacia adelante se define como:
αt(i) =P(O1t, st=i|M) (3.4)
Similarmente, la probabilidad hacia atr´as se define como:
βt(i) = P(OtT+1|st =i, M) (3.5)
El procedimiento Baum-Welch esta dado por: 1. Estimaci´on inicial deM.
2. CalcularQ(M,Mˆ) basado enQ, donde ˆM es un nuevo juego de parametros del modelo y
Q(M,Mˆ) =X S
P(O, S|M)
3. Calcular ˆM de acuerdo a las f´ormulas de reestimaci´on de par´ametros para maximizar la funci´onQ.
4. HacerM = ˆM y repetir desde el paso 2 hasta cumplir un criterio de convergencia.
Un esquema general y representativo de las etapas de entrenamiento y reconocimiento de un Modelo Oculto de Markov se presentan en la Figura 3.4. En este ejemplo el vocabulario est´a formado solo por tres palabras: ONE, TWO y THREE. El HMM es entrenado para cada palabra del vocabulario usando varias articulaciones de entrenamiento. Una vez que los modelos han sido construidos, en la etapa de reconocimiento se calcula la probabilidad condicional de la palabra desconocida con respecto a cada modelo y se selecciona la mayor.
one two three
M
1M
2M
3Palabra desconocida
O=
P(OIM )1 P(OIM )2 P(OIM )3
Escoger la máxima
Estimacion de modelos
ENTRENAMIENTO
[image:44.595.199.411.256.473.2]RECONOCIMIENTO
Figura 3.4: Etapas del HMM
Los modelos con los que trabaja HMM representan articulaciones de voz, como sabemos tales pronunciaciones pueden ser palabras, unidades menores a palabras o inclusive oraciones completas. En este trabajo el sistema toma como unidad b´asica a los fonemas en lugar de palabras debido a que se tiene la gran ventaja de poder generar claves de mayor longitud con frases cortas. Cada fonema es modelado por un HMM de tres estados para caracterizar el inicio, la mitad y el fin de cada fonema. Cada estado del Modelo Oculto de Markov es modelado por una mezcla de 9 densidades Gaussianas. Asumiendo que el estado intermedio es la representaci´on m´as estable de un fonema, definimos aCP ={Ci} para denotar el
con-junto de medias de las gaussianas centrales de los vectores de estados intermedios, donde P