Implementación de una Normalización Esférica en un Esquema Biométrico para la Generación de Claves Criptográficas Basadas en Voz Utilizando SVM-Edición Única

(1)

Instituto Tecnológico y de Estudios Superiores de Monterrey Campus Monterrey

Monterrey, Nuevo León a

Lic. Arturo Azuara Flores:

Director de Asesoría Legal del Sistema

", en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto

Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que

efectúe la divulgación, publicación, comunicación pública, distribución y

reproducción, así como la digitalización de la misma, con fines académicos o

propios al objeto de EL INSTITUTO.

El Instituto se compromete a respetar en todo momento mi autoría y a

otorgarme el crédito correspondiente en todas las actividades mencionadas

anteriormente de la obra.

De la misma manera, desligo de toda responsabilidad a EL INSTITUTO

por cualquier violación a los derechos de autor y propiedad intelectual que

cometa el suscrito frente a terceros.

de 200

Por medio de la presente hago constar que soy autor y titular de la obra

titulada"

(2)

Implementación de una Normalización Esférica en un Esquema

Biométrico para la Generación de Claves Criptográficas Basadas

en Voz Utilizando SVM-Edición Única

Title Implementación de una Normalización Esférica en un Esquema Biométrico para la Generación de Claves Criptográficas Basadas en Voz Utilizando SVM-Edición Única

Authors Victor Hugo Trujillo Rodríguez Affiliation ITESM-Campus Monterrey Issue Date 2006-05-01

Item type Tesis

Rights Open Access

Downloaded 19-Jan-2017 11:15:57

(3)

INSTITUTO TECNOL ´

OGICO Y DE ESTUDIOS

SUPERIORES DE MONTERREY

Campus Monterrey

Divisi´

on de Electr´

onica, Computaci´

on, Informaci´

on, y

Comunicaciones

Programa de Graduados

Implementaci´

on de una Normalizaci´

on Esf´

erica en un Esquema

Biom´

etrico para la Generaci´

on de Claves Criptogr´

aﬁcas basadas

en Voz utilizando SVM

Tesis

Presentada como requisito parcial para obtener el grado de

Maestr´ıa en Ciencias en Ingenier´ıa Electr´

onica

con especialidad en Telecomunicaciones.

Lic. Victor Hugo Trujillo Rodr´ıguez

(4)

c

(5)

Implementaci´

on de una Normalizaci´

on Esf´

erica en un

Esquema Biom´

etrico para la Generaci´

on de Claves

Criptogr´

aﬁcas basadas en Voz utilizando SVM

por

Lic. Victor Hugo Trujillo Rodr´ıguez

Tesis

Presentada al Programa de Graduados de la

Escuela de Tecnolog´ıas de Informaci´on y Electr´onica

como requisito parcial para obtener el grado acad´emico de

Maestro en Ciencias

especialidad en

Telecomunicaciones

Instituto Tecnol´

ogico y de Estudios Superiores de Monterrey

Campus Monterrey

(6)

Instituto Tecnol´

ogico y de Estudios Superiores de

Monterrey

Campus Monterrey

Escuela de Tecnolog´ıas de Informaci´

on y Electr´

onica

Programa de Graduados

Los miembros del comit´e de tesis recomendamos que la presente tesis de Victor Hugo Trujillo Rodr´ıguez sea aceptada como requisito parcial para obtener el grado acad´emico de

Maestro en Ciencias, especialidad en:

Telecomunicaciones

Comit´

e de tesis:

Jorge Carlos Mex Perera,Ph.D.

Asesor de la tesis

Juan Arturo Nolazco Flores,Ph.D.

Sinodal

Jos´e Ram´on Rodr´ıguez Cruz,Ph.D.

Sinodal

David Garza Salazar,Ph.D.

Director del Programa de Graduados

(7)

Este trabajo de investigaci´on esta dedicado con todo mi amor a mis padres Isabel Rodr´ıguez Morales y Gaudencio Trujillo Vera, a mis hermanos Denice Trujillo Rodr´ıguez y Ricardo Trujillo Rodr´ıguez.

(8)

Reconocimientos

A la Cátedra de Seguridad Informática por el apoyo y crecimiento profesional que me ofreció durante mis estudios y la elaboración de éste proyecto de investigación.

De manera especial a mi asesor de tesis el Dr.Jorge Carlos Mex Perera por su tiempo y dedicación para la realización de éste trabajo de tesis, a Paola Garc´ıa Perera por su magn´ıfi-ca amistad, compañerismo y trabajo en equipo, al Dr. Juan Arturo Nolazco Flores por sus excelentes comentarios y aportaciones, y al Dr. José Ramón Rodr´ıguez Cruz por su apoyo e importante participación como sinodal.

A todos los profesores del Centro de Electrónica y Telecomunicaciones por fomentar la investigación como herramienta fundamental en mi desarrollo académico.

A Elodia S´anchez Mendoza por su amor y apoyo incondicional a lo largo de mis estudios de posgrado. Te amo princesa.

Victor Hugo Trujillo Rodr´

ıguez

(9)

Implementaci´

on de una Normalizaci´

on Esf´

erica en un

Esquema Biom´

etrico para la Generaci´

on de Claves

Criptogr´

aﬁcas basadas en Voz utilizando SVM

Victor Hugo Trujillo Rodr´ıguez, M.C.

Instituto Tecnol´ogico y de Estudios Superiores de Monterrey, 2006

Asesor de la tesis: Jorge Carlos Mex Perera,Ph.D.

El presente proyecto de tesis está dirigido al área de seguridad basada en caracter´ısticas Biométricas. La meta es mejorar el desempeño de un sistema de generación de claves cripto-gráficas basadas en la señal de voz y la oraciones que dicen los usuarios aplicando un método novedoso llamado Normalización Esférica. Trabajar con voz tiene algunas ventajas debido a que es una caracter´ıstica natural de comunicación, por lo que todos estamos familiarizados con ella, y por la flexibilidad que puede ofrecer al usuario si desea cambiar su clave, ya que al cambiar la frase inevitablemente cambia la vocalización del mismo y de ésta manera es posible generar un número infinito de claves criptográficas.

En el presente trabajo se analiza la implementación de una técnica de Reconocimiento Automático de Voz y la técnica de Máquinas de Vectores de Soporte (SVM) para la genera-ción de claves criptográficas. Posteriormente se propone la aplicagenera-ción de la técnica llamada Normalización Esférica , la cual permite mejorar el desempeño de SVM en procesos de cla-sificación.

La técnica de Normalización Esférica propuesta consiste en mapear los datos de entrada en el espacio caractéristico a la superficie de una hiperesfera unitaria para esparcir los da-tos y de esta manera facilitar al clasificador el trazo de los hiperplanos óptimos de separación.

(10)

´Indice general

Reconocimientos VI

Resumen VII

´Indice de cuadros X

´Indice de ﬁguras XI

Cap´ıtulo 1. Introducci´on 1

1.1. Objetivo . . . 3

1.2. Justiﬁcaci´on . . . 3

1.3. Contribuci´on . . . 4

1.4. Organizaci´on . . . 4

Cap´ıtulo 2. Antecedentes 5 2.1. Biometr´ıa y sus Aplicaciones . . . 5

2.1.1. Ventajas y Desventajas de la Biometr´ıa . . . 6

2.1.2. Caracter´ısticas de un Sistema Biom´etrico . . . 7

2.1.3. Sistemas Biom´etricos Actuales . . . 8

2.1.4. La Voz como Rasgo Biom´etrico . . . 9

2.2. Reconocimiento Autom´atico de Voz . . . 11

2.2.1. Caracter´ısticas de un Sistema RAH . . . 13

2.2.2. Problemas Propios del RAH . . . 14

2.3. M´aquinas de Vectores de Soporte (SVM) . . . 14

2.3.1. SVM para Clasiﬁcaci´on Lineal . . . 18

2.3.2. SVM para Clasiﬁcaci´on NO Lineal . . . 18

2.3.3. Aplicaciones de SVM . . . 21

(11)

Cap´ıtulo 3. M´etodolog´ıa Utilizada para la Generaci´on de Claves Criptogr´

afi-cas Implementando una Normalización Esférica 24

3.1. Reconocimiento Autom´atico de Voz . . . 25

3.1.1. Preprocesamiento . . . 26

3.1.2. Modelaci´on Ac´ustica . . . 27

3.2. Generaci´on de Atributos . . . 31

3.3. Clasiﬁcaci´on con SVM . . . 32

3.3.1. Fase de Entrenamiento de la SVM . . . 34

3.3.2. Fase de Prueba de la SVM . . . 35

3.3.3. Uso de Funciones Kernel . . . 36

3.4. Normalizaci´on Esf´erica . . . 37

3.4.1. Justificación de la Normalización Esférica . . . 44

Cap´ıtulo 4. Herramientas para la Simulación, Experimentos y Resultados Numéricos 47 4.1. Herramientas para la Simulación . . . 47

4.1.1. Base de Datos YOHO . . . 47

4.1.2. HTK-Hidden Markov Model Toolkit . . . 48

4.1.3. SVMlight . . . 48

4.2. Experimentos y Resultados Num´ericos . . . 49

4.2.1. Resultados Obtenidos con Vectores de 39 Dimensiones . . . 52

4.2.2. Resultados Obtenidos con Vectores de 63 Dimensiones . . . 55

4.2.3. Comparaci´on y An´alisis de Resultados . . . 58

4.2.4. Porcentaje Promedio de Error en la Clave . . . 61

Cap´ıtulo 5. Conclusiones y Trabajo Futuro 66 5.1. Conclusiones . . . 66

5.2. Trabajo Futuro . . . 67

Apéndice A. Modelos Ocultos de Markov-HMM 69 Apéndice B. Herramientas de Simulación 71 B.1. Base de Datos YOHO . . . 71

B.2. HTK-Hidden Markov Model Toolkit . . . 72

B.3. SVMlight _{. . . .} ₇₄

Glosario 78

(12)

´Indice de cuadros

2.1. Fonemas del idioma ingl´es utilizados para un sistema t´ıpico de lenguaje hablado. 11 2.2. Funciones Kernel para SVM . . . 21 4.1. Resultados para 10,20 y 30 usuarios usando kernel rbf g=0.003c=9 . . . 52 4.2. Resultados para 10,20 y 30 usuarios con kernel polinomial c=9 s=0.5 r=1 d=5 53 4.3. Resultados para 10,20 y 30 usuarios con kernel polinomial y Normalizaci´on

Esf´erica c=9 s=0.5 r=1 d=13 . . . 54 4.4. Resultados para 10,20 y 30 usuarios usando kernel rbf g=0.001c=9 . . . 55 4.5. Resultados para 10,20 y 30 usuarios con kernel polinomial c=9 s=0.5 r=1 d=3 56 4.6. Resultados para 10,20 y 30 usuarios con kernel polinomial y Normalizaci´on

(13)

´Indice de ﬁguras

2.1. Secuencia de Voz y sus Observaciones . . . 12

2.2. Componentes de un Sistema RAH t´ıpico. . . 13

2.3. Clasiﬁcaci´on Binaria en SVM . . . 16

2.4. Clasiﬁcaci´on NO lineal en SVM . . . 19

3.1. Esquema General del Sistema . . . 25

3.2. Preprocesamiento de la se˜nal de Voz . . . 27

3.3. Principio de Modelaci´on Ac´ustica . . . 28

3.4. Etapas del HMM . . . 30

3.5. Modelo Oculto de Markov para la palabra one . . . 31

3.6. C´alculo del hiperplano ´optimo . . . 35

3.7. Normalizaci´on Esf´erica . . . 38

3.8. Proyección ortográfica . . . 39

3.9. Proyección estereográfica . . . 40

3.10. Proyecci´on gnom´onica . . . 41

3.11. Ejemplo de Normalizaci´on Esf´erica en 2D . . . 43

3.12. Inducci´on de la frontera de decisi´on . . . 46

4.1. Reescritura de Dtrain p y Dtestp en formato SVM . . . 50

4.2. Estructura de las Simulaciones . . . 51

4.3. Resultados para 10 usuarios utilizando el kernel rbf . . . 52

4.4. Resultados para 10 usuarios utilizando el kernel polinomial . . . 53

4.5. Resultados para 10 usuarios utilizando el kernel polinomial con Norma Esf´erica 54 4.6. Resultados para 10 usuarios con vectores de 63 dimensiones y kernel RBF . . 55

4.7. Resultados para 10 usuarios con vectores de 63 dimensiones y kernel polinomial 56 4.8. Resultados para 10 usuarios con vectores de 63 dimensiones y kernel polino-mial con Norma Esf´erica . . . 57

4.9. Comparaci´on de Resultados . . . 58

4.10. Probabilidad de Ocurrencia de los Fonemas en YOHO . . . 62

4.11. Porcentaje de error en una clave considerando 10 usuarios . . . 63

(14)

(15)

Cap´ıtulo 1

Introducci´

on

Si bien la Criptograf´ıa es una ciencia que tiene sus or´ıgenes desde los principios de la humanidad, esta no ha dejado de existir. El hombre se las ha ingeniado desde hace mucho tiempo para garantizar el secreto de sus comunicaciones privadas e información importante. La existencia de la criptograf´ıa aparece ya en las tablas cuneiformes y los papiros. Desde el Antiguo Egipto hasta el mundo actual de internet, los criptogramas han sido protagonistas de varios sucesos históricos. En la actualidad, la gran influencia que las telecomunicaciones tienen en todos los aspectos de la cotidianidad ha hecho que las comunicaciones seguras cobren particular importancia.

En los procesos de almacenamiento y transmisión de la información normalmente apa-rece el problema de la seguridad. Todos deseamos el acceso seguro a nuestros documentos, y sistemas sensibles, pero la inconveniencia y las limitaciones técnicas de las medidas de segu-ridad electrónicas tradicionales tienen puntos débiles. Las contraseñas, de donde se originan las claves criptográficas convencionales, son la forma más clásica y sencilla para la identifica-ción, sin embargo relacionan la identidad con el conocimiento y memoria del usuario: Si una persona sabe la contraseña, puede acceder al sistema. El problema es que una contraseña no tiene relación alguna con su identidad real. Las contraseñas pueden ser robadas y manipu-ladas por otras personas dando por resultado que la información quede abierta también a otras personas. Por lo tanto no hay manera infalible de hacer sistemas protegidos por con-traseñas totalmente seguros de la intrusión desautorizada, y tampoco hay manera para que los sistemas basados en contraseñas determinen la identidad del usuario con certeza absoluta.

En el área de seguridad, existen investigaciones dirigidas a la creación de nuevas técnicas para la generación de claves criptográficas confiables, desde los métodos convencionales ba-sados en contraseñas hasta los más complejos como los basados en caracter´ısticas biométricas.

(16)

parecen extra´ıdas de pel´ıculas futuristas, lo cierto es que estas tecnolog´ıas son muy reales y ahora en dia comienzan a tomar gran auge en diversas aplicaciones de seguridad. Durante los ´

ultimos años, la industria de la biometr´ıa ha madurado y la investigación de las tecnolog´ıas biométricas orientada al mercado empresarial y de la seguridad cuenta con un aumento ex-ponencial.

Dado que todos los seres humanos tenemos caracter´ısticas fisiológicas únicas que nos di-ferencian, la medición biométrica se puede considerar como el método ideal de identificación humana. El sistema analizado en éste proyecto de tesis trabaja con la señal de voz debido a que es una caracter´ıstica f´ısica moldeable que cumple con las necesidades para la genera-ción de claves critograficas ya que ofrece una serie de cualidades y atributos que permiten generar una clave digital eficientemente. Las ventajas de usarla son múltiples, entre las más importantes se encuentran: la autenticación de la voz es una tecnolog´ıa versátil, dif´ıcilmente intrusiva ya que el sistema podr´ıa proporcionar un texto aleatorio a repetir por el usuario y de éste modo excluye cualquier posibilidad de acceso fraudulento por medio de grabaciones, es fácil de utilizar por ser un proceso natural y por consiguiente es bien aceptada por los usuarios.

El propósito del presente proyecto de tesis es mejorar el desempeño de un sistema que genera claves criptográficas teniendo la frase y la señal de voz del usuario. Más adelante se analizará la implementación en dicho sistema de una técnica dominante para el reconoci-miento automático de voz basada en Modelos Ocultos de Markov, que captura el sonido de la voz as´ı como los comportamientos lingü´ısticos para finalmente encontrar la transcripción de lo que dijo cada usuario y los inicios y finales de cada fonema en la articulación pronunciada por el mismo. Posteriormente las medias resultantes del modelo y los inicios y finales de cada fonema son procesados para crear conjuntos de vectores que corresponden al mismo fonema.

(17)

No obstante, los mejores resultados se obtienen usando el modelo de SVM no lineal, cuyo funcionamiento se basa en las llamadas funciones kernel, de las cuales se implementaron y analizaron las siguientes: función kernel Lineal, Sigmoidal, RBF y Polinomial. Para finalizar se propone la aplicación de una técnica novedosa al kernel Polinomial llamada Normalización Esférica , la cual permite mejorar el desempeño de SVM en el proceso de clasificación y de ésta manera se logra rebasar los resultados obtenidos con los kernels convencionales.

1.1. Objetivo

El objetivo principal del esquema estudiado es obtener claves criptográficas a partir de los atributos intr´ınsecos de la voz de los usuarios utlizando SVM. El propósito es garantizar que el porcentaje de error esperado en una clave criptográfica generada para un usuario sea el menor posible a la hora de reproducirse. Por lo que el objetivo espec´ıfico en éste trabajo de investigación es encontrar un conjunto adecuado de planos que puedan particionar significativamente el manejo de los datos y dar como resultado la clave criptográfica de manera óptima, lo cual está intimamente relacionado con el tipo de función kernel a utilizar para entrenar las Máquinas de Vectores de Soporte (SVM).

1.2. Justiﬁcaci´

on

El objetivo primordial de la implementación de SVM en el esquema de generación de claves criptográficas analizado, es la clasificación binaria de vectores provenientes de la señal de voz de los usuarios para generar las claves. Las Máquinas de Vectores de Soporte (SVM) son máquinas lineales con una enorme riqueza de representación, ya que es las soluciones no se construyen en el espacio de entrada, sino en un espacio de mayor dimensionalidad, el espacio caracter´ıstico, donde es posible que una función lineal simple sea suficiente para resolver el problema de clasificación. Adicionalmente, la forma de la función solución es tal que la transformación no interviene directamente sino que se encuentra impl´ıcita a través de funciones denominadas Kernels.

(18)

llamada Normalización Esférica, que permite mejorar el desempeño del sistema generador de claves criptográficas utilizando una Máquina de Vectores de Soporte entrenada con un kernel Polinomial.

1.3. Contribuci´

on

En el esquema biométrico para la Generación de Claves Criptográficas basadas en Voz utilizando SVM se propone la implementación de un técnica innovadora llamada Normaliza-ción Esférica, la cual permite optimizar los resultados arrojados en la clasificaNormaliza-ción realizada por SVM con kernel Polinomial y de ésta manera se logra superar la precisión alcanzada uti-lizando cualquiera de los kernels convencionales para la generación de la clave. Ésta técnica posibilita esparcir los datos de entrada sobre la superficie de una hiperesfera unitaria y de ésta forma se consigue que SVM mejore su desempeño al trazar los hiperplanos de separación cuando se realiza la etapa de clasificación.

1.4. Organizaci´

on

El documento de tesis está organizado como sigue: en el siguiente cap´ıtulo se presentan conceptos básicos para entender el contenido de la tesis, los cuales incluyen principalmente conocimientos de biometr´ıa y sus aplicaciones, reconocimiento automático de voz y sus ca-racter´ısticas y por último una explicación a fondo de las bases y funcionamiento de SVM, en donde se concentró mayor parte de atención en éste trabajo de tesis.

Los cap´ıtulos 3 y 4 son la parte fundamental de éste documento de tesis debido a que en ellos se puede observar la contribución del proyecto. En ellos presenta el trabajo de investiga-ción realizado, la implementainvestiga-ción y experimentainvestiga-ción, y los resultados obtenidos y analizados. En el cap´ıtulo 3 se explica a detalle el esquema de generación de claves criptográficas analiza-do, se hace principal ènfasis en el trabajo desarrollado con SVM y la aplicación de la técnica de Normalización Esférica propuesta para optimizar los resultados. El cap´ıtulo 4 contiene una descripción detallada de las herramientas utilizadas para llevar a cabo las simulaciones, el análisis y comparación de resultados y finalmente un estudio del error esperado en una clave criptográfica generada.

(19)

Cap´ıtulo 2

Antecedentes

Con la evolución de las tecnolog´ıas asociadas a la información, nuestra sociedad está ca-da d´ıa más conectaca-da electrónicamente. Labores que tradicionalmente eran realizaca-das por seres humanos son, gracias a las mejoras tecnológicas, realizadas por sistemas automatizados. Dentro de la amplia gama de posibles actividades que pueden automatizarse, aquella relacio-nada con la capacidad para establecer la identidad de los individuos ha cobrado importancia y como consecuencia directa, la biometr´ıa se ha transformado en un área emergente. La seguridad en una empresa ya no tiene que depender exclusivamente de contraseñas, guardias o simples candados. La investigación avanzada se está orientando al desarrollo de sistemas automatizadas para el reconocimiento de personas a partir de sus caracter´ısticas f´ısicas.

Entenderemos por sistema biométrico a un sistema automático que realiza labores de biometr´ıa [1]. Es decir, un sistema que fundamenta sus decisiones de reconocimiento mediante una caracter´ıstica personal que puede ser reconocida o verificada de manera automatizada. Estos sistemas incluyen un dispositivo de captación que en segundos obtiene una muestra biométrica de la persona y la compara con una base de datos, donde se analiza si corresponde o no a la identidad de la persona en cuestión. En éste capitulo son descritas algunas de las caracter´ısticas más importantes de estos sistemas, as´ı como conceptos básicos necesarios para entender el objetivo de este proyecto de tesis.

2.1. Biometr´ıa y sus Aplicaciones

(20)

sico-log´ıas o conductuales de la persona, como por ejemplo, la huella dactilar, el iris, la mano, el sonido de la voz, la forma del rostro, entre otras.

Los or´ıgenes de la biometr´ıa se remontan a los años setenta, cuando la empresa NEC comienza a trabajar junto al Federal Bureau of Investigation (FBI) en algunos estudios de como automatizar biométricamente algunas caracter´ısticas del ser humano. De esa forma se comienzan a desarrollar una serie de algoritmos matemáticos con la finalidad de represen-tar, por ejemplo, una huella dactilar. La tecnolog´ıa de identificación de personas mediante impresiones dactilares tiene su origen en el estudio de la criminal´ıstica y surge como una necesidad de apoyo técnico hacia las polic´ıas para resolver casos.

En cuanto a los tipos de biometr´ıas existen dos. Si se lleva a cabo una identificación en base a la anatom´ıa de la persona, esto es biometr´ıa estática, y si es a partir de su comporta-miento, se le denomina biometr´ıa dinámica [1]. La primera, apunta a las huellas dactilares, la geometr´ıa de la mano, la termograf´ıa, el iris, las venas del dorso de la mana o el reconoci-miento facial. En el caso de la dinámica, estudia el comportareconoci-miento del individuo, por medio de la voz, la forma de caminar y el análisis gestual, entre otras. Una tercera variante es la biometr´ıa informática, que consiste en la suma de técnicas estad´ısticas y de inteligencia arti-ficial, en la autentificación automática de las personas en este tipo de sistemas de seguridad. Lo anterior, apunta a identificar a los individuos que operan en una red para salvaguardar la seguridad de la misma. Actualmente se están estudiando diferentes softwares basados en biometr´ıa desde distintas áreas con el objetivo de llegar a utilizar el cuerpo humano como un DNI digital, midiendo su anatom´ıa y comportamiento, lo que se transformar´ıa en un salto definitivo para esta tecnolog´ıa, ya que la información biométrica de la persona será incluida en un chip que portara el mismo para acceder, por ejemplo, a procesos informáticos o lugares restringidos.

2.1.1. Ventajas y Desventajas de la Biometr´ıa

(21)

Las Biométricas proveen un mayor grado de seguridad que los métodos de autentifica-ción tradicionales, esto significa que el sistema es accesible solamente a usuarios autorizados y se mantiene protegido de cualquier persona no autorizada. En teor´ıa una contraseña es memorizado por una sola persona, es dif´ıcil de adivinar y nunca es compartido. Sin embar-go en la práctica la gente constantemente viola estas espectativas ya que las contraseñas y los PINs son a veces fáciles de descubrir. Muchos usuarios seleccionan palabras o números obvios como contraseña, asi que personas no autorizadas tienen la capacidad de romper con la seguridad del sistema. En contraste, los datos bimométricos no pueden ser adivinados o robados de la misma forma que una contraseña o PIN [2].

En cuanto a las transacciones electrónicas de todo tipo, la biometr´ıa tiene mucho para ofrecer, ya que si bien contraseñas, criptograf´ıa y firma digital han impulsado en buena me-dida el desarrollo del comercio electrónico, no dejan de depender de una clave secreta que siempre puede ser robada. Como la biometr´ıa permite establecer que una persona es quien dice ser, funciona como el complemento ideal de esos tres sistemas, en un verdadero “trabajo en equipo”para garantizar la mayor seguridad posible [3].

Aunque pareciera que la biometr´ıa es la panacea para todos los problemas, tenemos que señalar que existen también algunas desventajas, como por ejemplo: “darse de alta”no es siempre tan sencillo, ya que no es inmediato y hay que obtener más de una muestra de la biométrica a usar, además de que depende del cambio constante de nuestra fisionom´ıa. Aún contando con estas desventajas, estos sistemas presentan importantes mejoras respecto a los sistemas tradicionales de autenticación y resultan muy ventajosos para las empresas implantar sistemas de este tipo, ya que podemos decir que, gracias al empleo de la tecnolog´ıa biométrica, el acceso a una área restringida, a una Red o a un Sistema Computacional no dependerá de algo que sabemos o que tenemos y que nos pueden copiar o robar sino dependerá de lo que “somos”.

2.1.2. Caracter´ısticas de un Sistema Biom´

etrico

Las caracter´ısticas básicas que un sistema biométrico para identificación personal debe cumplir pueden expresarse mediante las restricciones que deben ser satisfechas [2]. Ellas apuntan, básicamente, a la obtención de un sistema biométrico con utilidad práctica y son las siguientes:

1. El desempe˜no, que se reﬁere a la exactitud, la rapidez y la robustez alcanzada en la

(22)

2. La aceptabilidad, que indica el grado en que la gente está dispuesta a aceptar un sistema biométrico en su vida diaria. Es claro que el sistema no debe representar peligro alguno para los usuarios y debe inspirar“confianza” a los mismos. Factores psicológicos pueden afectar esta última caracter´ıstica. Por ejemplo, el reconocimiento de una retina, que requiere un contacto cercano de la persona con el dispositivo de reconocimiento, puede desconcertar a ciertos individuos debido al hecho de tener su ojo sin protección frente a un “aparato”.

3. La fiabilidad, que refleja cuán dif´ıcil es burlar al sistema. El sistema biométrico debe

reconocer caracter´ısticas de una persona viva, pues es posible crear dedos de látex, grabaciones digitales de voz, prótesis de ojos, etc. Algunos sistemas incorporan métodos para determinar si la caracter´ıstica bajo estudio corresponde o no a la de una persona viva. Los métodos empleados son ingeniosos y usualmente más simples de lo que uno podr´ıa imaginar. Por ejemplo, un sistema basado en el reconocimiento del iris revisa patrones caracter´ısticos en las manchas de éste, un sistema infrarrojo para chequear las venas de la mano detecta flujos de sangre caliente y lectores de ultrasonido para huellas dactilares revisan estructuras subcutáneas de los dedos.

2.1.3. Sistemas Biom´

etricos Actuales

En la actualidad existen sistemas biométricos que basan su acción en el reconocimiento de diversas caracter´ısticas. Las técnicas más conocidas son diez y están basadas en los si-guientes indicadores biométricos: ADN, huella dactilar, iris, retina, termograma facial, venas, rostro, firma digital, geometr´ıa de la mano y voz. Cada rasgo biométrico posee propiedades comparativas, las cuales deben tenerse en consideración al momento de decidir que técnica se va a utilizar en una aplicación espec´ıfica.

Existen dos modos fundamentales de funcionamiento para un sistema de reconocimien-to basado en caracter´ısticas biométricas: verificación e identificación. En el primer caso, el sistema biométrico pide, “es esta persona quien dice ser 2 compara este registro con el que

est´a en un medio externo, por lo general una tarjeta lectora o simplemente una contrase˜na.

La verificación es conocida como 1:1 (Uno a Uno). En el segundo, el sistema biométrico

pregunta “qui´en es esta persona 2 establece si existe un expediente biom´etrico, y, si es as´ı la

identidad de la persona registrada que muestra es aceptada. La identificación es también llamada 1:N (Uno a muchos).

Como podemos observar, un n´umero extenso de biom´etricas han sido propuestas para la

(23)

todos estamos familiarizados con ese medio de comunicación, lo cual lo hace ideal para diferentes aplicaciones. En segundo lugar, trabajos recientes sobre verificación de voz han demostrado que la voz es una biométrica efectiva en distinción de usuarios. Otra razón, es el hecho de que cuando un usuario cambia su contraseña hablada, inevitablemente cambia la vocalización del mismo. As´ı a diferencia de otras biométricas estáticas (huellas digitales, Iris, retina, etc), es concebible que un usuario pueda tener arbitrariamente diferentes e ilimitadas llaves a claves del tiempo.

2.1.4. La Voz como Rasgo Biom´

etrico

La voz es simplemente una onda acústica que es radiada por el aparato bucal humano cuando se genera aire en los pulmones y el flujo del aire resultante es perturbado por alguna abertura del tracto vocal. Cada persona tiene caracter´ısticas bucales únicas, de tal manera que frecuentemente somos capaces de reconocer una persona solamente por su voz. Estas caracter´ısticas están relacionadas directamente con la fisiolog´ıa de cada ser humano, tales caracter´ısticas son: la edad, el sexo, la altura, el peso, la estructura de las cuerdas vocales, las cavidades oral y nasal, los dientes y labios [9].

Debido a la estructura fisiológica del tracto vocal y el hecho que todos los seres humanos “sonamos”diferente, se puede afirmar que existe una cantidad significativa de información fonética en la señal de voz [9].

Clasiﬁcaci´on de los Sonidos

La producción de sonidos de voz puede se clasificada en distintas clases de acuerdo a su modo de exitación [9]:

1. Por la acci´on de las cuerdas vocales: Sonidos sonoros, cuando vibran Sonidos sordos, en caso contrario.

2. En funci´on de las cavidades implicadas: Sonidos orales o bucales.

Sonidos nasales.

3. Por el modo de articulación, según se produzca la restricción del flujo de aire al atra-vesar el tracto vocal.

(24)

Sonidos medio cerrados. Sonidos cerrados.

4. Por el lugar de articulaci´on, en el que atendemos al lugar de m´aximo estrechamiento del tracto vocal.

En el contexto de la producción de voz, las frecuencias resonantes del tracto bucal son llamadas formantes. Estas frecuancias dependen de la forma y dimensión del tracto bucal. El primer formante f1 es la frecuencia resonante más baja, la cual cae en el rango de 250 a

900 Hz. El segundo formante f2 tiene un rango m´as amplio que va desde 600 hasta 3600 Hz.

Los formantes subsiguienes f3, f4 y f5 est´an presentes en la se˜nal de voz, pero sin embargo

´

unicamente los formantesf1 y f2 (y algunas veces f3) son usualmente suﬁcientes para

iden-tiﬁcar sonidos individuales que son representados por las letras del alfabeto, conocidos como

fonemas.

Caracter´ısticas de los Fonemas

El término fonema es usado para denotar cualquiera de las unidades m´ınimas de len-guaje hablado (articulado) en un lenlen-guaje que puede servir para distinguir una palabra de otra. Convencionalmente se usa el término fono para denotar la realización acústica de un fonema [8]. Es mejor tratar cada realización como un fonema diferente.

El Cuadro 2.1 muestra una lista de algunos de los fonemas utilizados en el inglés ameri-cano [7]. El conjunto de fonemas podrá diferir en la realización entre hablantes individuales. Pero los fonemas siempre funcionarán sistemáticamente para diferenciar significados en las palabras, asi como el fonema /p/ señala la palabra del inglés pat (palmada), opuesto a bat (murciélago), de sonido similar. El contraste entre este par de palabras es /p/ contra /b/ [7].

Como seleccionar la unidad m´ınima básica para representar información acústica y fonética de un lenguaje es una cuestión importante al momento de diseñar un sistema de reconocimiento. En muchos idiomas, las palabras son t´ıpicamente consideradas como el prin-cipal portador de significado. Los modelos de palabras son precisos si existen suficientes datos disponibles, por lo tanto, son entrenables sólo para tareas pequeñas. Generalmente no son generalizables.

(25)

[image:25.595.215.399.117.482.2]

Cuadro 2.1: Fonemas del idioma ingl´es utilizados para un sistema t´ıpico de lenguaje hablado.

Fonema Ejemplo de Palabra

iy feel

ih ﬁll

ae at

aa father

ah cut

ao dog

ay bite

ax ago

ey tape

eh pet

er turn

ow tone

aw our

oy coin

uh book

uw tool

b big

p put

d dig

t talk

th thin

... ...

2.2. Reconocimiento Autom´

atico de Voz

El reconocimiento automático de voz o habla (RAH) es una disciplina que se encarga de la concepción y realización de sistemas que convierten señales acústicas procedentes de un locutor humano en categor´ıas lingü´ısticas de un universo dado. En los sistemas de reco-nocimiento de voz se intenta modular las caracter´ısticas de los usuarios y decidir si el usuario es quien dice ser.

Existen muchas ventajas de el uso del reconocimiento de voz en un sistema biom´etrico, alguna de ellas son:

(26)

Provee ojos y manos libres para su utilizaci´on. Conﬁabilidad.

Flexibilidad.

Ahorro de tiempo en la informaci´on de entrada.

La tecnolog´ıa RAH se ha basado primordialmente en la técnica llamada “Modelos Ocul-tos de Markov” o HMM por sus siglas en inglés (Hidden Markov Model); se antepone la pala-bra ocultos debido a que los modelos deben inferirse o deducirse a través de observaciones de la salida de voz, no de cualquier representación interna de producción de voz [26]. La teor´ıa básica sobre HMMs se encuentra en forma detallada al final del documento en el Apendice A.

La técnica HMM modula el habla estimando la probabilidad de cada fonema en regiones continuas, pequeñas, dentro de la señal de voz. Los estados pueden verse como correspon-diendo aproximadamente a eventos acústicos. En un modelo de palabra, por ejemplo, los primeros estados representan fonemas iniciales de la palabra y los últimos estados los fone-mas finales.

Los Modelos Ocultos de Markov nos permiten modelar tanto la variabilidad espectral utilizando una distribución de probabilidad en los vectores de salida as´ı como también la variabilidad temporal con la probabilidad de transición entre los estados de la cadena de Markov. La Figura 2.1 muestra una secuencia de voz con sus correspondientes observaciones, estas observaciones contienen, cada una de ellas toda la información de la señal de voz como puede ser por ejemplo el ”Pitch”, el frame, etc.

O₁ O₂ O₃ O₄

...

O_n

(27)

2.2.1. Caracter´ısticas de un Sistema RAH

La estructura general de los sistemas de RAH tiene esencialmente tres m´odulos o etapas, Figura 2.2 [8], las cuales se describen a continuaci´on:

1. Procesamiento o análisis del habla (en inglés se conoce como front-end): en esta etapa se realiza algún tipo de análisis de la señal de voz en términos de la evolución temporal de parámetros espectrales (previa conversión analógica/digital de la señal). Esto tiene por función hacer más evidentes las caracter´ısticas necesarias para la etapa siguiente y a veces también limpiar y reducir la dimensión de los patrones para facilitar su clasificación.

2. Clasificación de unidades fonéticas o modelo acústico: esta etapa clasifica o identifica los segmentos de voz ya procesados con s´ımbolos fonéticos (fonemas, d´ıfonos o s´ılabas). A veces se puede asociar una probabilidad con este s´ımbolo fonético, lo que permite ampliar la información presentada al siguiente módulo.

3. Análisis en función de reglas del lenguaje o modelo del lenguaje: en esta última etapa se pueden aprovechar las reglas utilizadas en la codificación del mensaje contenido en la señal para mejorar el desempeño del sistema y producir una transcripción adecuada. Aqu´ı se utilizan otras fuentes de conocimiento como la ortográfica, la sintáctica, la prosódica, la semántica o la pragmática.

Entrenamiento/Adaptación

Modelos Léxicos y de Lenguaje

S1 S2 S3 S6

a22 a33

Búsqueda de Viterbi Extracción

de Características

Datos de Entrenamiento

Adaptación de Datos

Análisis Espectral

Modelos

HMM

Búsqueda de Viterbi

[image:27.595.145.465.419.573.2]

Secuencia de Palabras

Figura 2.2: Componentes de un Sistema RAH t´ıpico.

.

Losmodelos ac´usticos incluyen la representaci´on del conocimiento acerca de la ac´

usti-ca, fon´etiusti-ca, variables ambientales, diferencias de g´enero y dialecto entre los hablantes, etc.

Los modelos de lenguaje se reﬁeren al conocimiento del sistema de lo que constituye una

(28)

funciones relacionadas a alguna operaci´on que un usuario quiera realizar tambi´en pueden ser necesarias para el modelo de lenguaje.

Existe mucha incertidumbre en el área dirigida al RAH, asociada con las caracter´ısticas del hablante, la velocidad y el estilo de hablar, el reconocimiento de segmentos básicos del habla, palabras posibles, palabras parecidas, palabras desconocidas, variación gramática, interferencia de ruido, acento no nativo, etc.

2.2.2. Problemas Propios del RAH

Los principales problemas que diﬁcultan el reconocimiento autom´atico del habla son los siguientes:

No existe separador, ni silencios entre palabras, an´alogos a los espacios en el lenguaje escrito.

Un alto grado de variabilidad del individuo causado por el modo de hablar (acento regional, con resfriado, etc.) y por el g´enero del locutor.

Cada fonema es modificado por su contexto cercano, esto es; cada sonido elemental es afectado por el fonema que le antecede y por el que le sigue, este efecto es conocido como coarticulación. Además, se tienen modificaciones en los fonemas debido a un contexto más amplio, tal como el lugar que ocupa en la oración.

La se˜nal de voz lleva diferentes tipos de informaci´on, tales como: el sexo e identidad de la persona, humor, etc.

No tienen reglas fijas para formalizar la información en los diferentes niveles de codifi-cación de voz.

2.3. M´

aquinas de Vectores de Soporte (SVM)

(29)

que da nombre a la SVM. Las m´aquinas de vectores de soporte pertenecen a la familia de los clasiﬁcadores lineales puesto que se encargan de inducir separadores lineales o hiperplanos en espacios de caracter´ısticas de muy alta dimensionalidad [10].

A continuación exponemos un ejemplo sencillo para explicar brevemente cuál es el ob-jetivo que se pretende conseguir con la utilización de la SVM. En una fábrica de tornillos se sabe que una pieza buena es aquella que tiene una longitud entre 4 y 6 cm y una pieza no válida es aquella que está por debajo de 4 cm o es mayor de 6 cm. Por otra parte, se tienen una serie de caracter´ısticas de las piezas, como la forma del tornillo, el peso y el color. As´ı pues, se dispone de una serie de piezas etiquetadas como ✭✭buenas✮✮ y otra serie como ✭✭malas✮✮. Estas muestras sirven para entrenar la SVM. Una vez terminado este proceso y

hallados una serie de parámetros, lo que se pretende es que al introducir en la máquina un conjunto de datos nuevos (en este caso tornillos), ver cómo generaliza; es decir, comprobar si se cometen errores o se clasifican bien las muestras dentro de su respectiva clase (2 clases: pieza válida o no).

Para explicar las bases del funcionamiento de SVM en primer lugar, recordemos que todo hiperplano es un espacio D-dimensional,RD_{, se puede expresar como}_h₍_x_{) =}_h_{w, x}_i₊_b_,

donde w_∈RD _{es el vector ortgonal al hiperplano,} _b_∈_R _y _h·_,_·i _{expresa el producto escalar}

habitual en R. Visto como un clasificador binario, la regla de clasificación se puede expresar como: f(x) = signo(h(x)), donde la función signo se define como:

signo(x) =

(

+1 si x >0

−1 six <0

En terminolog´ıa de de clasiﬁcaci´on, las x_∈ RD _{son representaciones vectoriales de los}

ejemplos, con una componente real por cada atributo, el vector w se suele denominar “vec-tor de pesos”. Este vec“vec-tor contiene un peso para cada atributo indicando su importancia o contribución en la regla de clasificación. Finalmente, b suele denominarse sesgo (bias) y define el umbral de decisión [11]. Dado un conjunto binario (es decir, con dos clases) de datos linealmente separables, existen diversos algoritmos para construir hiperplanos (w, b) que los clasifiquen correctamente. Podemos citar como ejemplo: Perceptron, Widrow-Hoff,

Exponentiated-Gradient, Sleeping Experts, etc. A pesar de que est´e garantizada la

conver-gencia de todos ellos hacia un hiperplano soluci´on, las particularidades de cada algoritmo de aprendizaje pueden conducirnos a soluciones ligeramente distintas, puesto que puede haber varios hiperplanos que separen correctamente el conjunto de ejemplos.

(30)

que los ejemplos más cercanos de cada clase. De manera equivalente, es el hiperplano que maximiza la distancia m´ınima (o margen geométrico) entre los ejemplares del conjunto de datos y el hiperplano. Intuitivamente, este hiperplano está situado en la posición más neutra posible con respecto a las clases representadas por el conjunto de datos, sin estar sesgado, por ejemplo, hacia la clase más númerosa. Además, sólo considera los puntos que estan en las fronteras de la región de decisión, que es la zona donde puede haber dudas sobre a que clase pertenece un ejemplo (son los denominados vectores de soporte).

En la Figura 2.3 se presenta geométricamente este hiperplano equidistante para el caso bidimensional. Este sesgo inductivo de aprendizaje consistente en maximizar el margen se justifica dentro de la teor´ıa de aprendizaje estad´ıstico [10]. La mejor función f para llevar a cabo la clasificación será aquella con la esperanza del error de clasificación más baja, aquella con la que obtenga el m´ınimo riesgo real, riesgo esperado o simplemente riesgo:

R(ζ) =

Z 1

2|y−f(x, ζ)|dP(x, y), ζ = par´ametros de SVM (2.1)

+1

-1 +1

-1

Vectores de Soporte

w·x+ b=-1 w·x+

b= +1

[image:30.595.164.446.290.550.2]

2 llwll

Figura 2.3: Clasiﬁcaci´on Binaria en SVM

(31)

El riesgo emp´ırico se define como la tasa de error medio en el conjunto de entrenamiento para un número finito y fijo de observaciones:

Remp(ζ) =

1 2N

N X

i=1

|yi−f(xi, ζ)| (2.2)

N´otese que es este caso no aparece ninguna distribuci´on de probabilidad. Remp(ζ) es

un número fijo para una opción determinada deζ y para un particular conjunto de entrena-miento _{xi, yi}. A la cantidad

1

2N|yi−f(xi, ζ)| (2.3)

se le denomina p´erdida. El riesgo emp´ırico puede emplearse para tabular el riesgo, sobre la distribuci´on P(x, y), con una probabilidad de 1₋ρ, 0_≤ρ_≤1:

R(ζ)_≤Remp(ζ) + s

h(log(2N/h) + 1)₋log(ρ/4)

N (2.4)

donde N es el n´umero de observaciones y h es un entero, no negativo, conocido como la

dimensi´on Vapnik Chervonenkis (VC) y es una medida de la idea de capacidad mencionada

al principio de la sección. A la parte derecha de la desigualdad se le llamacota del riesgo y al segundo término de la cota del riesgo se le llamaconfianza VC. La teor´ıa de Vapnik sobre la reducción del riesgo y la dimensión VC indica que reduciendo el riesgo emp´ırico también se reduce el riesgo sobre la distribución P(x, y) [26].

Para encontrar f que minimice el riesgo el objetivo se convierte en encontrar un sub-conjunto del sub-conjunto de funciones que minimice la cota del riesgo. Para ello se divide la clase completa de funciones en subconjuntos anidados. Para cada conjunto se debe poder calcularho, al menos, establecer una cota de su valor.La minimizaci´on estructural del riesgo

consiste en encontrar el subconjunto de funciones que minimiza la cota del error actual. De esta manera se toma aquella m´aquina entrenada de la serie con menor valor para la suma del riesgo emp´ırico y la conﬁanza VC.

(32)

2.3.1. SVM para Clasiﬁcaci´

on Lineal

SVM lineal con márgen máximo (maximal margin linear SVM) es el modelo más sencillo e intuitivo de SVM, aunque también el que tiene condiciones de aplicabilidad más restrin-gidas, puesto que parte de la hipótesis de que el conjunto de datos es linealmente separable en el espacio de entrada [12].

Supongamos que el conjunto es de datos es linealmente separable en el espacio de entrada. Es decir, sin hacer ninguna transformación de los datos, los ejemplos pueden ser separados por un hiperplano de manera que en cada lado del mismo sólo hay ejemplos de una clase. En términos matemáticos, es equivalente a decir que existe un hiperplano h:X_→R

tal que h(x) > 0 para los ejemplos de la clase +1 y h(x) <0 para los ejemplos de la clase

−1. De manera m´as concisa, h cumple que yi·h(xi) >0 para todo i entre 1 y N, es decir,

para todos los ejemplos.

Formulaci´on Original de SVM

Recordemos que la idea que hay detrás de las SVM consiste en seleccionar el hiperplano separador que está a la misma distancia de los ejemplos más cercanos de cada clase (Ver Figura??) [10]. Es muy fácil ver que la distancia de un vectorx a un hiperplanoh, definido por (w, b) comoh(x) =_hw, b_i+b, viene dada por la fórmula dist(h, x) =_|h(x)_|/_kw_k, donde

kw_k es la norma en RD _{asociada al producto escalar (es decir,} _k_w_k2

= _hw, w_i). As´ı pues, el hiperplano equidistante a dos clases es el que maximiza el valor m´ınimo de dist(h, x) en el conjunto de datos. Adem´as, dados dos puntos z1 y z2 equidistantes a un hiperplano, se

cumple queb =₋(_hw, z1i+hw, z2i)/2. Como el conjunto es linealmente separable, podemos

reescalar w y b de manera que la distancia de los vectores más cercanos al hiperplano sea 1/_kw_k (al multiplicar w y b por una constante, la distancia no var´ıa). Como consecuencia, los vectores z más cercanos tendrán _|h(z)_| = 1, mientras que para el resto _|h(z)_{| ≥} 1. De manera que el problema de encontrar el hiperplano equidistante a dos clases se reduce a encontrar la solución del siguiente problema de optimización con restricciones:

Maximizar 1

kw_k

sujeto a: yi(hw, xii+b)≥1 donde 1≤i≤N

2.3.2. SVM para Clasiﬁcaci´

on NO Lineal

(33)

muchos problemas no es un modo lineal, como se muestra en forma gráfica en la Figura 2.4. En segundo lugar, necesita que el conjunto de datos sea linealmente separable, cosa que no tiene porque ser cierta o fácil de conseguir.

En la Figura 2.4 se puede ver un conjunto de datos que no es linealmente separable, en el que SVM lineal con margen máximo no es la mejor solución. SVM no lineal con margen máximo en el espacio de caracter´ısticas se basa en la idea de hacer una transformación no lineal del espacio de entrada a un espacio dotado de un producto escalar. En este espacio se pueden aplicar los mismos razonamientos que para la SVM lineal con margen máximo. Dicho de otro modo, supongamos que existe una transformación no lineal del espacio de entrada a un cierto espacio de caracter´ısticas_ℑ:

φ :RD _{→ ℑ}

x_→φ(x)

dotado de un producto esclar _hφ(x), φ(y)_i (_ℑ es un espacio de Hilbert). Si el conjunto de datos es linealmente separable en _ℑ (con los hiperplanos definidos a partir del producto escalar correspondiente), entonces SVM con margen máximo en el espacio de caracter´ısticas se puede obtener sustituyendo en el SVM lineal con margen máximo _hx, y_i por_hφ(x), φ(y)_i.

+1

-1 +1

-1

mape o

Kernel

[image:33.595.164.449.425.653.2]

?

(34)

La dimensión del espacio de caracter´ısticas necesaria para poder separar el conjunto de datos puede ser arbitrariamente grande. pero al aumentar la dimensión de _ℑtambién se incrementa el tiempo de cómputo de cualquier algoritmo que calcule el producto escalar ope-rando directamente con las componentes de φ(x). Por ejemplo, supongamos que queremos transformar imágenes de 16x16 puntos al espacio de monomios de orden 5 de los 256 puntos de la imagen. La dimensión de este espacio ser´ıa 1010

, lo cual ser´ıa muy costoso en cuanto a tiempo de procesamiento.

Afortunadamente, para ciertos espacios de caracter´ısticas y ciertas transformaciones existe una forma muy efectiva de calcular el producto escalar usando las denominadas

fun-ciones kernel [10]. Una funci´on kernel o simplemente kernel, es una funci´onK :X_×X _→

R, tal que K(x, y) = _hφ(x), φ(y)_i, donde φ es una transformación de X en un cierto espa-cio de Hilbert _ℑ. Es decir, el producto escalar se puede calcular usando la función kernel, quedando impl´ıcita la transformación del espacio de entrada al espacio de caracter´ısticas. Por ejemplo supongamos que definimos la siguiente transformación φ deR2

en el espacio de caracter´ısticasR3

:φ(x1, x2) = (x1, x2) = (x21, √

2x1x2, x22).

Entonces, el producto escalar_hφ(x), φ(y)_i se puede reformular como:

hφ(x), φ(y)_i= (x2 1,

√

2x1x2, x 2 2)·(y

2 1,

√

2y1y2, y 2 2)

T _{= ((}_x

1, x2)·(y1, y2)T) 2

=_hx, y_i2

Por tanto, la funci´on kernel K(x, y) = _hx, y_i2

permite calcular el producto escalar

hφ(x), φ(y)_i en el espacio de caracter´ısticas sin necesidad de utilizar la transformaci´on φ.

Funciones Kernel

Como se ha visto en este sección, el aprendizaje de separadores no lineales con SVM se consigue mediante una transformación no lineal del espacio de atributos de entrada (input space) a un espacio de caracter´ısticas (feature space) de dimensionalidad mucho mayor y donde s´ı es posible separar linealmente los ejemplos [12]. El uso de las denominadas funcio-nes kernel, que calculan el producto escalar de dos vectores en el espacio de caracter´ısticas, permite trabajar de manera eficiente en el espacio de caracter´ısticas sin necesidad de calcu-lar expl´ıcitamente las transformaciones de los ejemplos de aprendizaje. Una de las grandes ventajas de las funciones kernel es que su aplicación no está limitada a ejemplos de tipo vec-torial sino que son aplicables a prácticamente cualquier tipo de representación. Las funciones kernel de propósito general más comúnmente utilizadas en RD _{se presentan en el Cuadro}

(35)

[image:35.595.147.466.112.204.2]

Cuadro 2.2: Funciones Kernel para SVM

Tipo de Kernel F´ormula Par´ametros

Polinomial (_hx, y_i+c)d _c_∈_R_, _d_{∈ ℵ}

RBF exp³−kx_γ−yk2´ γ >0

Sigmoidal tanh(s_hx, y_i+r) s, r _∈R

Multicuadr´atica inversa _√ 1

kx−yk2+c2 c≥0

El aprendizaje en espacios de caracter´ısticas v´ıa transformaciones no lineales por medio de funciones kernel no es exclusiva del paradigma SVM. Aunque se suele asociar los métodos basados en funciones kernel con las SVM, al ser su ejemplo más paradigmático y más avan-zado, hay muchos otros algor´ıtmos en donde se puede hacer uso de funciones kernel para permitir el aprendizaje de funciones no lineales. Éste es el caso, por ejemplo, del perceptrón, de los discriminantes de Fisher, del análisis de componentes principales, etc.

Un requisito básico para aplicar con éxito SVM a un problema real es la elección de una función kernel adecuada, que debe reflejar el conocimiento a priori sobre el problema. El desarrollo de funciones kernel para estructuras no vectoriales es actualmente una importante área de investigación con aplicación en dominios como el procesamiento del lenguaje natural y la biometr´ıa.

2.3.3. Aplicaciones de SVM

Como ya se ha dicho a lo largo de esta sección, SVM se ha aplicado con éxito a numerosos problemas reales pertenecientes a áreas como la recuperación de información, reconocimien-to y clasificación de imágenes, ánalisis de biosecuencias, reconocimienreconocimien-to de escritura, etc. Aparte de la solidez teórica de los modelos, el éxito emp´ırico ha sido tal que algunos autores sugieren que SVM podr´ıa desplazar a las redes neuronales en una gran variedad de campos.

La aplicación de SVM a problemas de clasificación multiclase se suele plantear median-te los esquemas habituales de binarización, en donde el problema multiclase se conviermedian-te en varios problemas binarios [12] . Sin embargo, existen también variantes más elegantes de SVM donde una modificación de la función objetivo permite obtener simultáneamente el cálculo de un clasificador multiclase. Estas variantes han demostrado ser experimentalmente competitivas en términos de calidad con respecto a los esquemas de binarización.

(36)

cada ejemplo tiene una codificación muy dispersa. En problemas donde se dispone de pocos ejemplos, SVM presenta ventajas con respecto a otros métodos basados en maximización del margen. Desde el punto de vista práctico, el hecho de enfretarnos a un problema con miles de ejemplos de aprendizaje y miles de atributos no debe detenernos a la hora de usar SVM. Este proyecto es un ejemplo del buen desempeño que SVM puede alcanzar en problemas reales, en donde la dimensión de los vectores es considerablemente grande.

2.4. Trabajo Previo

Se ha mencionado a lo largo de este cap´ıtulo que la autentificación mediante biométricas se refiere a la verificación de individuos basada en caracter´ısiticas f´ısicas y de comportamien-to. La idea básica de generar claves criptográficas a partir de estas caracter´ısticas es que la componente biométrica lleve acabo el proceso de autentificación, mientras que un sistema genérico criptográfico pueda manipular otros componentes para realizar el proceso de encrip-tado. Existen hasta la fecha un número relativamente reducido de investigaciones dirigidas al área de generación de llaves criptográficas a partir de biométricas. Algunos de los trabajos realizados serán mencionados a continuación.

Soutar [13] propone un sistema basado en la lectura de huellas digitales. El algoritmo genera una clave criptográfica a partir de la imágen de la huella dactilar del usuario. Usando en la fase de entrenamiento diversas imágenes (por lo general 5), el sistema primero crea una función filtro de correlaciónH(u) con dos componentes importantes ( magnitud y fase). El criterio de diseño de esta función comprende propiedades de tolerancia a la distorsión y discriminabilidad. El sistema produce una salidac0(x), la cual se obtiene por la convolución

y correlación de las huellas digitales de entrenamiento con H(u). Una clave criptográfica k0

de N-bits (t´ıpicamente 128 bits) es producida a partir de la salida c0(x) usando un c´odigo

corrector de errores (con el objetivo de tolerar cierta variación en las muestras leidas de la biométrica en la fase de autentificación). El principal problema de este algoritmo propuesto es que no garantiza buena seguridad. Los autores no explican en forma detallada la cantidad de entropia que es perdida en cada fase del algoritmo que proponen.

(37)

puede ocurrir al realizar diferentes lecturas de la mima biométrica. Juels y Wattenberg [16] proponen un concepto llamado ‘‘fuzzy comitmment”, que generaliza y mejora los métodos de Davida para tolerar mayor variación en las caracter´ısticas biométricas y proveer mayor seguridad en un sistema.

Monrose [17],[18] muestra un método para generar claves criptográficas a partir de la voz. Dicho método consta principalmente de dos fases. En la primera fase se analizan rasgos de la señal de voz para formar lo que Monrose nombra como “Descriptor de caracter´ısticas”

(38)

Cap´ıtulo 3

M´

etodolog´ıa Utilizada para la Generaci´

on de Claves

Criptogr´

aﬁcas Implementando una Normalizaci´

on

Esf´

erica

El propósito general del esquema presentado en la Figura 3.1 es la generación de una clave criptográfica para un usuario basada en su señal de voz y la oración que dice, y poste-riormente poder generar repetidamente en forma exacta la clave que ha sido asignada para cada usuario cuando articule la misma frase.

Por lo tanto, si se tiene el conjunto de articulaciones de cada uno de los usuarios re-presentadas por sus rasgos caracter´ısticos y divididas en fonemas, el desaf´ıo principal del presente proyecto de tesis es encontrar un clasiﬁcador capaz de particionar los rasgos de tal manera que produzcan la misma clave para el mismo usuario y claves distintas para diferen-tes usuarios en forma precisa.

En el esquema se puede apreciar que el proceso de generación de claves criptográficas consta de dos etapas importantes:

Fase de Entrenamiento: consiste en tomar muestras de articulaciones correspondientes a cada uno de los usuarios para entrenar el sistema con el ﬁn de obtener el mejor desempe˜no posible.

Fase de Prueba: es menos compleja que la anterior, en ella se evalua el sistema ana-lizando la precisión obtenida al generar la clave después de haber sido entrenado con ciertos parámetros.

(39)

SVM utilizada para realizar el proceso de clasificación. Por último, se tienen dos bloques intermedios, uno llamado generación de atributos, el cual permite hacer una conexión entre las dos técnicas anteriores [19], y el bloque llamado Normalización Esférica, el cual apunta a la aplicación propuesta de una técnica novedosa que permite mejorar el desempeño de SVM al realizar las tareas de clasificación binaria de los vectores que representan a cada uno de los fonemas pronunciados por el usuario para formar la clave.

Con el propósito de obtener un mejor entendimiento del esquema, a continuación se analizará en forma detallada cada uno de los bloques correspondientes al reconocimiento automático de voz y a la generación de atributos que conforman el sistema para poder generar la clave critográfica basada en la señal de voz del locutor. Posteriormente se explica en forma detallada el trabajo realizado con SVM y sobre todo la implementación propuesta de la Normalización Esférica, la cual permite mejorar el desempeño del sistema.

Preprocesamiento Reconocimiento Automatico Generacion de Atributos Clasificador Prueba SVM

Parametros del Modelo HMM

NORMALIZACION ESFERICA

Preprocesamiento Entrenamiento Señal de Voz

de Entrenamiento Señal de Voz

[image:39.595.80.535.320.503.2]

de Prueba Clasificador Entrenamiento SVM Modelo SVM CLAVE Asignación Aleatoria KERNEL Dp prueba Dp Entrenamiento Rij u Fase de Entrenamiento Fase de Prueba

Figura 3.1: Esquema General del Sistema

3.1. Reconocimiento Autom´

atico de Voz

(40)

3.1.1. Preprocesamiento

La señal de voz está compuesta de una secuencia de excitación combinada con la res-puesta de impulso del modelo del sistema vocal [7]. El objetivo del preprocesamiento de la señal de voz en el sistema es convertir la forma de onda de la voz a algún tipo de represen-tación paramétrica.

La voz es dinámica o variante con respecto al tiempo, pero por otro lado, durante el habla lenta, la forma del tracto vocal y el tipo de excitación pueden estar sin alterarse en duraciones de hasta 200 ms [7]; sin embargo, cambian en promedio más rápidamente debido a que la duración promedio de los fonemas es alrededor de los 80 ms. No obstante el análisis de voz asume que las propiedades de la señal cambian relativamente lento con el tiempo. Esto permite la examinación de una ventana de voz corta en tiempo para extraer parámetros que se mantengan fijos para la duración de la ventana.

Entonces, para modelar parámetros dinámicos, se divide la señal en ventanas sucesivas o cuadros de análisis, de forma que los parámetros calculados sean suficientes para seguir cambios relevantes.

Ventaneo se define como la multiplicación de la señal de voz s(n) por una ventana

w(n), los cuales producen un conjunto de muestras de vozx(n) ponderado por la forma de la ventana [9].w(n) puede tener duración infinita, pero ventanas más prácticas tienen longitud finita para simplificar el cómputo. La ventana más común es la ventana Hamming que tiene la forma:

w(n) = 0,54₋0,46 cos( 2πn

N ₋1),0≤n≤N −1

Para fines prácticos es común hacerle a la señal un pre-énfasis aplicándole la ecuación en diferencias de primer orden mostrada a continuación:

Sn′ =Sn−ksn−1 (3.1)

donde k es el coeﬁciente de pre-´enfasis que debe estar entre 0 y 1.

Una vez que la señal de voz ha sido ventaneada, se aplica el método de análisis más popular para reconocimiento autómático de voz llamado “Análisis Mel Cepstral”, el cual usa el cepstrum con un eje de frecuencia no lineal siguiendo la escala Mel o Bark. Los coeficientes cepstrales de frecuencia melcn (MFCC’s) dan una representación alternativa para espectros

(41)

Básicamente para obtener los MFCC’s, después de que la señal de voz es dividida en pe-queños fragmentos, un espectro S de magnitud DFT de cada cuadro de voz es deformado en frecuencia (para seguir la escala bark o de banda cr´ıtica) y en amplitud (escala logar´ıtmica). Entonces se usa un banco de filtro para suavizar el espectro escalado. Finalmente, se aplica la transformada discreta de coseno DCT para eliminar la correlación entre los componentes, dando como resultado un vector de 13 dimensiones, donde cada dimensión corresponde a un parámetro. Después se calcula la derivada en el tiempo_△ y la aceleración en el tiempo_△△ para acentuar las caracter´ısticas dinámicas de la voz en el tiempo, dando como resultado un vector de 39 dimensiones formado por los 12 MFFC’s mas un coeficiente de energ´ıa, 13 componentes resultantes de_△y 13 de_△△, el esquema de este preprocesamiento se muestra en la Figura 3.2 [19].

La primera y segunda derivada con respecto al tiempo de los coeficientes cepstrales in-dican la tasa a la cual los coeficientes cepstrales cambian. Se ha demostrado que aumentando la primera y segunda derivada a los coeficientes cepstrales mejora la precisión en los sistemas de reconocimiento de voz.

Voz

MFCC Ventaneo

DFT Log10

.

Banco de_Filtros

Ventana

Trama

a1

[image:41.595.126.494.338.484.2]

a39

Figura 3.2: Preprocesamiento de la se˜nal de Voz

3.1.2. Modelaci´

on Ac´

ustica

En el reconocimiento de voz generalmente se asume que la señal de voz es una realiza-ción de un mensaje codificado como una secuencia de s´ımbolos (ver Figura 3.3).

(42)

S

1 S2 S3

S

1 S2 S3

Parametrizar

[image:42.595.200.415.71.217.2]

Reconocimiento VOZ

Figura 3.3: Principio de Modelaci´on Ac´ustica

El reconocedor de voz basado en HMM del sistema emplea dos etapas para realizar su propósito, el entrenamiento de los modelos y el reconocimiento de los mismos. En el caso del entrenamiento lo que se quiere es representar a través del modelo más apropiado una palabra. Para esto se tiene un conjunto de caracter´ısticas obtenidas a partir de pronunciaciones de las frases especialmente para entrenamiento y que han sido obtenidas previamente por la etapa de pre-procesamiento explicado anteriormente. El reconocimiento resulta ser menos complejo, y el objetivo es deducir, a partir de los modelos creados previamente para cada palabra del vocabulario, cual de estos corresponde mejor o tiene la probabilidad más alta de correspondencia a una secuencia de observación, como es el caso de la señal de entrada, pasada anteriormente por la etapa de pre-procesamiento.

Reconocimiento de HMM

El objetivo principal del HMM en el reconocimiento de voz es dado un conjunto de datos ac´usticos M = m1, m2, ..., mk, encontrar un conjunto de secuencia de observaci´on de

palabras O = o1, o2, ..., on, de forma que la probabilidad P(O|M) sea m´axima. Lo que nos

da la regla de Bayes:

P(O_|M) = P(M|O)·P(O)

P(M) (3.2)

donde:

P(M_|O) es un modelo ac´ustico (HMMs),

P(O) es un modelo de lenguaje y

P(M) es una constante para una oraci´on completa.

(43)

HMM para modelar los fonemas. El objetivo de la etapa de decodificación es encontrar una secuencia de estados S, de forma tal que la probabilidad de P(O, S_|M) sea la más alta.

Para calcularP(O_|M) existen diversas t´ecnicas como el llamadoAlgoritmo hacia

Ade-lante, el cual calcula la probabilidad de que un modelo produzca una secuencia de

observa-ciones, pero no da la secuencia de estados que ofrece la mejor aproximación. Es por eso que se aplica una técnica formal basada en programación dinámica, conocida como algoritmo de

Viterbi, usada para encontrar la mejor secuencia de estados para una HMM. En lugar de

sumar las probabilidades de diferentes rutas llegando al mismo estado destino, el algoritmo de Viterbi escoge y recuerda la mejor ruta. Para deﬁnir la probabilidad de la mejor ruta tenemos:

Vt(i) =P(O1t, S t−1

1 , st=i|M) (3.3)

Vt(i) es la probabilidad de la secuencia de estados m´as alta en el tiempo t, que ha sido

generada por la observaci´on Ot

1 (hasta el tiempo t) y termina en el estado i. Entrenamiento de HMM

Debido a que las HMM pueden ser entrenadas, lo que se intenta es optimizar los paráme-tros del modelo que mejor describan una secuencia de observación, también llamada secuencia de entrenamiento. No existe forma conocida para resolver analiticamente el conjunto de pa-rametros del modelo que maximice la probabilidad de la secuencia de observacion en una forma cerrada. Pero se puede escoger M = (A, B, π) tal que su probabilidad, P(O_|M) es localmente maximizada usando un procedimiento iterativo como el metodo Baum-Welch o tambien llamado Algoritmo adelante/atras. La probabilidad hacia adelante se define como:

αt(i) =P(O1t, st=i|M) (3.4)

Similarmente, la probabilidad hacia atr´as se deﬁne como:

βt(i) = P(OtT+1|st =i, M) (3.5)

El procedimiento Baum-Welch esta dado por: 1. Estimaci´on inicial deM.

2. CalcularQ(M,Mˆ) basado enQ, donde ˆM es un nuevo juego de parametros del modelo y

Q(M,Mˆ) =X S

P(O, S_|M)

(44)

3. Calcular ˆM de acuerdo a las fórmulas de reestimación de parámetros para maximizar la funciónQ.

4. HacerM = ˆM y repetir desde el paso 2 hasta cumplir un criterio de convergencia.

Un esquema general y representativo de las etapas de entrenamiento y reconocimiento de un Modelo Oculto de Markov se presentan en la Figura 3.4. En este ejemplo el vocabulario est´a formado solo por tres palabras: ONE, TWO y THREE. El HMM es entrenado para cada palabra del vocabulario usando varias articulaciones de entrenamiento. Una vez que los modelos han sido construidos, en la etapa de reconocimiento se calcula la probabilidad condicional de la palabra desconocida con respecto a cada modelo y se selecciona la mayor.

one two three

M

1

M

2

M

3

Palabra desconocida

O=

P(OIM )1 P(OIM )2 P(OIM )3

Escoger la máxima

Estimacion de modelos

ENTRENAMIENTO

[image:44.595.199.411.256.473.2]

RECONOCIMIENTO

Figura 3.4: Etapas del HMM

Los modelos con los que trabaja HMM representan articulaciones de voz, como sabemos tales pronunciaciones pueden ser palabras, unidades menores a palabras o inclusive oraciones completas. En este trabajo el sistema toma como unidad básica a los fonemas en lugar de palabras debido a que se tiene la gran ventaja de poder generar claves de mayor longitud con frases cortas. Cada fonema es modelado por un HMM de tres estados para caracterizar el inicio, la mitad y el fin de cada fonema. Cada estado del Modelo Oculto de Markov es modelado por una mezcla de 9 densidades Gaussianas. Asumiendo que el estado intermedio es la representación más estable de un fonema, definimos aCP ={Ci} para denotar el

con-junto de medias de las gaussianas centrales de los vectores de estados intermedios, donde P