EL reconocimiento biométrico consiste en el uso de características

(1)

Verificador de locutores implementado en un dsPIC

Maximiliano Lizondo^∗, Pablo Ag ¨uero^∗, Alejandro J. Uriz^∗, Juan C. Tulli^∗ and Esteban Gonz´alez^∗

∗Laboratorio de Comunicaciones - Facultad de Ingenier´ıa - Universidad Nacional de Mar del Plata Mar del Plata, Argentina

Email: (mlizondo, pdaguero, ajuriz, jctulli)@fi.mdp.edu.ar

Resumen—El reconocimiento automático de locutor es el uso de una máquina para identificar o verificar la identidad de un individuo a través de su voz. Esta publicación describe la implementación de un sistema embebido de verificación de locutores que puede ser usado en una cerradura electrónica, asi como también en otras aplicaciones similares. El sistema está im- plementado en un dsPIC de bajo costo de Microchip, el cual combina las mejores caracter´ısticas de los microcontroladores y DSP en un mismo n úcleo de alto rendimiento de 16 bits.

Varias técnicas especiales de programación fueron empleadas en la implementación descripta. El objetivo fue optimizar el código de verificación desarrollado de acuerdo a la velocidad de procesamiento y la memoria disponible del dsPIC. Las pruebas experimentales desarrolladas en Matlab, para el sistema embebi- do de verificación de locutor, muestran resultados prometedores;

obteni´endose una tasa de falsos positivos de 8 % y una tasa de falsos negativos de 12 %.

Palabras clave—Verificaci´on de locutor, sistemas embebidos, dsPIC.

I. INTRODUCCI_ON´

E

L reconocimiento biométrico consiste en el uso de caracter´ısticas o atributos distintivos para identificar individuos [1], [2]. Dichos atributos, también conocidos como identificadores biométricos, usualmente son clasificados en fisiológicos o conductuales.

Los identificadores fisiológicos, como las huellas dactilares, rostro, geometr´ıa de la mano, iris o retina, son caracter´ısticas f´ısicas medibles en el tiempo. Por otro lado, los identificadores conductuales como la firma, voz o forma de caminar, consisten en acciones que se modifican a lo largo del tiempo. De manera opuesta a lo que sucede con los identificadores fisiológicos, los identificadores conductuales pueden aprenderse o adquirirse a lo largo del tiempo y pueden modificarse de manera fácil y deliberada [2].

El habla es una de las modalidades más naturales de la interacción humana, un hecho que está corroborado a través de muchos años de investigación y desarrollo en el campo del procesamiento del habla. Los desarrollos recientes en las tecnolog´ıas del habla, finalmente han entregado aplicaciones realmente utilizables. Una de estas aplicaciones es el uso de la voz como identificador biométrico para el reconocimiento automático de locutores.

El reconocimiento automático de locutores consiste en el uso de una máquina para identificar a un individuo a través de su voz. Recientemente, esta tecnolog´ıa ha tenido un uso cada vez mayor en aplicaciones como el control de acceso, auten- ticación en transacciones, medicina forense y personalización de sistemas, entre otras.

Una de las cuestiones centrales dentro de este campo de investigación, es qué tipo de información acerca de la identidad del locutor está presente en la señal de voz. Tradicionalmente, los sistemas de reconocimiento automático de locutor han basado su funcionamiento en las denominadas short-term features [5] que están relacionadas con el espectro de la señal de voz. Sin embargo, el reconocimiento de locutor que tiene lugar entre personas, se basa en fuentes adicionales de información. Por lo tanto, dichas fuentes pueden también jugar un rol importante en la tarea del reconocimiento automáti- co de locutor, agregando información complementaria a los sistemas tradicionales basados en parámetros espectrales. De esta manera, el rendimiento de los sistemas automáticos de reconocimiento se ver´ıa incrementado.

No es esperable que la voz presente un alto nivel de robustez que permita el reconocimiento de individuos a partir de una base de datos amplia. Razones de ello son la degradación en la calidad de la señal de voz debido al tipo de micrófono o al canal de transmisión, el hecho que la voz de un individuo esté fuertemente relacionada por su estado emocional o de salud y, por último, la habilidad de algunas personas para imitar voces de otras personas con extraordinaria facilidad [1], [2].

Sin embargo, la voz es un indicador biométrico no invasivo y presenta un alto nivel de aceptabilidad. De hecho, es el único capaz de ser utilizado, de manera efectiva, en aplicaciones que requieran el reconocimiento de personas sobre una l´ınea telefónica [1], [3].

Esta publicación describe la implementación de un sistema embebido de verificación de locutor que puede ser usado en una cerradura electrónica, asi como también en otras aplicaciones posibles. Este sistema esta implementado en un dsPIC de bajo costo de Microchip, el cual combina las mejores caracter´ısticas de los microcontroladores y DSP en un mismo n úcleo de alto rendimiento de 16 bits.

Esta publicación está organizada de la siguiente manera. La Sección II describe brevemente los sistemas de verificación de locutor, su arquitectura, la extracción de parámetros y los modelos estad´ısticos. La Sección III describe el sistema embebido de verificación propuesto, con especial detalle en su implementación. Finalmente, en la Sección IV se presentan las conclusiones de este trabajo y los lineamientos a seguir en el futuro.

(2)

II. SISTEMA DE VERIFICACION DE LOCUTORES´ Dependiendo del tipo de aplicación, un sistema de reconocimiento biométrico puede funcionar de dos modos: identifi- cación y verificación [4].

En el modo de identificación, el objetivo es, a partir de un conjunto de usuarios cuyos modelos estad´ısticos están almacenados en una base de datos, determinar cuál de todos ellos coincide con el usuario desconocido. En el modo de ve- rificación, el objetivo es determinar si el usuario desconocido es quien dice ser. Las aplicaciones de este modo de reconocimiento están relacionadas principalmente con el control de acceso en áreas restringidas. El sistema propuesto se basa en este tipo de aplicación.

En los sistemas de verificación, un usuario asegura tener una determinada identidad. Un modelo correspondiente a dicha identidad debe estar almacenado en la base de datos del sistema, la cual debe contener también los modelos de los usuarios no autorizados o impostores. Luego, las caracter´ısti- cas biométricas del usuario desconocido son comparadas con el modelo de la identidad que dicho usuario dice tener, y con los modelos de los impostores.

Si el usuario se parece lo suficiente a la identidad que reclama como propia, el sistema lo aceptará como válido. De lo contrario, el sistema lo rechazará.

Luego de determinar el grado de similitud entre el usuario desconocido y aquellos cuyos modelos estad´ısticos est´an almacenados en la base de datos, el sistema toma la decisi´on de aceptar o rechazar al locutor cuya identidad se desconoce.

Sin embargo, la decisi´on puede ser correcta o incorrecta. Si la decisi´on es incorrecta, dos tipos diferentes de error pueden ocurrir [1], [3]:

Falsos negativos (o no detecci´on): el sistema rechaza a un usuario v´alido.

Falsos positivos (o falsa alarma): el sistema acepta a un usuario impostor.

Ambos tipos de error dan lugar a sendas tasas de error, las cuales son a menudo utilizadas para medir el rendimiento de un sistema:

Tasa de falsos negativos o FRR (False Rejection Rate):

porcentaje de usuarios rechazados de manera err´onea.

Tasa de falsos positivos o FAR (False Acceptance Rate):

porcentaje de usuarios impostores aceptados de manera err´onea.

Por lo tanto, al diseñar un sistema de verificación biométri- co, el umbral de decisión debe ser elegido de manera que ambos tipos de error alcancen el m´ınimo valor posible, o bien, que uno de ellos esté ubicado siempre por debajo de un cierto umbral, si la aplicación as´ı lo requiere. La Figura 1 muestra un ejemplo de las curvas t´ıpicas para FRR y FAR; se observa además el punto EER (Equal Error Rate) en el que ambas tasas de error alcanzan su valor m´ınimo.

II-A. Arquitectura de un sistema de reconocimiento de locu- tor

Un sistema de reconocimiento biom´etrico presenta dos etapas b´asicas: entrenamiento (training) y prueba (testing). En

Figura 1. Tasa de falsos negativos y positivos en funci´on del umbral.

la etapa de entrenamiento se toman medidas biométricas de los usuarios mediante sensores o lectores biométricos. Luego, se extrae la información relevante para construir un modelo estad´ıstico para cada usuario, el cual es almacenado en la base de datos del sistema.

Figura 2. Arquitectura de un sistema de reconocimiento biom´etrico t´ıpico.

En la etapa de prueba, los sensores son utilizados para obtener información biométrica del usuario a reconocer y, de manera similar a la etapa de entrenamiento, se extrae la infor- mación relevante. Luego, esta información es comparada con los modelos almacenados en la base de datos y se calcula el grado de similitud (el término score es igualmente empleado), que deberá ser normalizado. Con dicho valor, y teniendo en cuenta un umbral de decisión adecuado, el sistema tomará una decisión basándose en las probabilidades calculadas.

II-B. Extracci´on de par´ametros caracter´ısticos

La extracción de parámetros (o parametrización del habla) en el campo de la verificación de locutor, consiste en transfor- mar la señal de voz en un conjunto de vectores de caracter´ısti- cas acústicas[3]. El objetivo de esta transformación es obtener una representación más adecuada para el modelado estad´ıstico, la obtención de una distancia u otro tipo de cálculo (con el objetivo de posibilitar las comparaciones usando medidas simples de similitud), a la vez que se preserva la información relacionada con la identidad del locutor.

Los parámetros más usados en el estado de la cuestión del reconocimiento, tanto de locutor como del habla, son los coeficientes cepstrales de Mel (MFCC: Mel-frecuency

(3)

Cepstral Coefficients) [5]. Los mismos son una representación del espectro de potencia de un sonido (señal segmentada y enventanada) y están basados en la transformada coseno de un espectro de potencia logar´ıtmico, representado en la escala no lineal de frecuencias de Mel.

Generalmente, la tarea de la verificación de locutor comien- za con el empleo de un filtro pasabanda de primer orden. El objetivo de usar éste filtro es enfatizar las componentes espectrales de interés presentes en la señal de voz. A continuación, se divide dicha señal en tramas temporales (o frames) y se le aplica una ventana, generalmente de tipo Hamming, con el objetivo de reducir las discontinuidades en los l´ımites de la segmentación. Este procedimiento se usa generalmente para el denominado análisis short-term de la señal de voz.

El primer paso para el cálculo de los MFCC es realizar la transformada discreta de Fourier (DFT: Discrete Fourier Transform) de cada frame. Generalmente, el algoritmo de la transformada rápida de Fourier (FFT: Fast Fourier Transform) es empleado para reducir el tiempo de cómputo.

El resultado ingresa a un conjunto de filtros distribuidos en frecuencia seg ´un la escala de Mel. Finalizado este paso, se obtiene un vector que contiene la energ´ıa para cada banda de frecuencias del conjunto de filtros. Dicho vector se identifica con las siglas FBE: Filter Bank Energies. La escala de Mel, propuesta por Stevens [6], se basa en el modo en que la percepci´on del sonido tiene lugar en el oido humano. El sistema auditivo humano manipula las frecuencias de manera alineal a lo largo de todo el espectro auditivo. Evidencias emp´ıricas sugieren que un sistema cuyo funcionamiento sea similar, logrando as´ı la resolucion alineal en frecuencia, posee un mejor rendimiento en la tarea de reconocimiento.

El conjunto de filtros de la escala de Mel consiste en una se- rie de Q filtros triangulares pasobanda. La distribución de estos filtros pretende simular la resolución del o´ıdo humano, el cual es capaz de discriminar mejor las bajas frecuencias. Los filtros triangulares, de ancho de banda constante, están superpuestos en un 50 % y ubicados sobre una escala de frecuencias de Mel.

Dicha escala, se aproxima como una escala lineal entre 0 y 1000Hz y una escala logar´ıtmica para frecuencias superiores.

Los filtros triangulares est´an normalizados, de manera que sus

´areas sean unitarias.

Al aplicar el banco de filtros se compacta la información debido a que se reduce el n úmero de coeficientes y la varianza, al promediar las muestras de la DFT en cada filtro. Finalmente, al vector de energ´ıas (FBE) se le aplica una compresión logar´ıtmica y la Transformada Discreta Coseno (DCT: Discrete Cosine Transform) para obtener los coeficientes cepstrales (MFCC).

La Transformada Discreta Coseno tiene dos prop ´ositos.

En primer lugar, realiza la parte final de una transformación cepstral; la cual separa la información relativa a la envolvente espectral de variación lenta (tracto vocal) de aquella que corresponde a la excitación de rápida variacion producida por el habla. Los MFCC sólo retienen los coeficientes de bajo orden que están relacionados con el tracto vocal.

El segundo prop ´osito de la DCT es decorrelacionar los ele-

mentos del vector de parámetros. Los elementos que resultan de aplicar el logaritmo al vector de energ´ıas (FBE), presentan correlación debido tanto a las caracter´ısticas espectrales del habla como a la superposición del conjunto de filtros. La de- correlación facilita el uso de matrices de covarianza diagonales cuando se utilizan clasificadores estad´ısticos.

La investigación en el campo del reconocimiento de locutor se ha enfocado principalmente en el uso de la frecuencia fundamental. Uno de los motivos es que parece ofrecer mayor robustez, frente a las degradaciones acústicas propias de los efectos del ruido y del canal [7], [8]. Arcienega et al. [9], por ejemplo, propone usar modelos de los locutores dependientes de la frecuencia fundamental. En Sömmez et al [10] y Adami et al. [11], se modela la variación de la frecuencia fundamental a lo largo del tiempo para ser usada en la tarea de reconocimiento de locutor, en conjunto con la variación de la energ´ıa de la señal.

II-C. Modelos estad´ısticos

Los modelos de mezcla de gaussianas (GMM: Gaussian Mixture Models) [12] son habitualmente empleados como t´ecnica de modelado en los sistemas de verificaci´on de locutor.

Un GMM consiste en una suma ponderada de funciones de densidad gaussianas que modelan la distribución de los vectores de parámetros, obtenidos a partir de la señal de voz.

Dado un vector de parámetros x de dimensión D, el modelo de mezcla de gaussianas λ_i correspondiente al locutor S_i, se define a través de la Ecuación 1, donde M representa el n úmero de componentes gaussianas (mezclas) y ω_m el peso de cada una de ellas.

P(x|λi) =

M

X

m=1

ω_mN(x, µⁱ_m,Σⁱ_m) (1)

N(x, µ, Σ) es una función gaussiana definida como en la Ecuación 2, donde µ es el vector de medias y Σ la matriz de covarianzas. Un GMM es, de hecho, un modelo oculto de Markov (HMM: Hidden Markov Model) de un único estado.

D es el n´umero de elementos del vector de par´ametros x.

N(x, µ, Σ) = 1

(2π)^D²p|Σ|e⁻¹²^(x−µ)^T^Σ⁻¹^(x−µ) (2) Empleando el algoritmo de Baum-Welch, se puede calcular la probabilidad que una secuencia de frames de la se˜nal de voz haya sido generada por el modelo anteriormente descripto.

Esta probabilidad es empleada como grado de similitud para los L frames de la señal de voz de entrada, seg ún el modelo [4]. En la etapa de prueba, dada una secuencia de vectores de parámetros X = [x1, x2, ..., xT] extra´ıdos de la señal de voz de un usuario desconocido, la probabilidad que el locutor desconocido sea el locutor S_i(suponiendo que los vectores x_i son independientes) esta determinada por la expresión de la Ecuación 3, la cual será utilizada para determinar el grado de similitud o score.

(4)

P(X|λi) =

T

Y

t=1

P(xt|λi) (3)

II-D. Implementación del sistema de verificación de locutor El sistema implementado en esta publicación se basa en los enfoques comúnmente abordados en el estado del arte.

Para la toma de la decisión acerca de la identidad del locutor, se utilizan dos parámetros principales de la señal de voz:

los coeficientes cepstrales en la escala de Mel (MFCC) y la frecuencia fundamental (F0).

El sistema propuesto emplea la técnica denominada Ceps- tral Mean Substraction (CMS) con el objetivo de remover los efectos del canal en los parámetros MFCC. La frecuencia fundamental y dos parámetros derivados de la misma, jitter y shimmer relativos, son también utilizados en el cálculo probabil´ıstico del locutor bajo análisis.

Por lo tanto, se extraen cuatro par´ametros de cada segmento de la se˜nal de audio para evaluar la identidad del locutor:

frecuencia fundamental, jitter relativo, shimmer relativo y el logaritmo de la probabilidad (LP). Esta ´ultima se calcula como la diferencia entre la LP del modelo correspondiente a la identidad reclamada y la LP del modelo universal (UBM:

Universal Background Model). El UBM es el que corresponde a los usuarios no autorizados o impostores. Dicho modelo debe contener todas las alternativas posibles para el locutor S_i.

En el sistema de verificación propuesto se empleó la técnica que consiste en entrenar el modelo de impostores como si fuera un modelo único, utilizando para ello a varios locutores [14].

Este modelo se denomina com´unmente UBM y al utilizar los modelos de mezcla de gaussianas, el m´etodo es conocido como GMM-UBM.

El grado de similitud entre el locutor desconocido y la identidad que dicho individuo reclama como propia, se obtiene comparando el vector que contiene la media de los parámetros utilizados (frecuencia fundamental (F0), jitter relativo (JR), shimmer relativo (SR) y logaritmo de la probabilidad o log- likelihood (LL)) para todos los frames de la señal de voz. El grado de similitud entre el vector de parámetros de entrada µ y el vector µSi, correspondiente a la identidad reclamada, está dada por la distancia d(µ, µSi). La distancia entre estos dos vectores puede ser expresada como d(µ, µSi) = (µ − µSi)Σ(µ − µSi)^T. La matriz Σ es la matriz inversa de covarianzas, correspondiente al vector de medias µ_Si. Esta distancia es conocida como distancia de Mahalanobis. Se utiliza un valor de umbral θ (ver Figura 1), el cual corresponde al máximo valor permitido para la distancia d(µ, µSi), para tomar la decisión acerca de la identidad del locutor desconocido:

usuario autorizado o impostor.

III. IMPLEMENTACION DE UN SISTEMA EMBEBIDO DE´

VERIFICACI_ON´

El diagrama de la Figura 3 muestra los diferentes componentes del sistema embebido de verificaci´on de locutor propuesto en esta publicaci´on.

El sensor biométrico del sistema es un micrófono. La señal eléctrica del mismo es amplificada y luego filtrada con el objetivo de incrementar la relación señal/ruido y, además, evitar el efecto de solapamiento (aliasing) durante el muestreo de la señal.

La señal eléctrica es muestreada por el conversor analógico- digital (ADC) incluido en el microcontrolador (dsPIC- 33FJ128GP802). La frecuencia de muestreo es 16KHz y la resolución del conversor es de 12 bits. La señal es dividida en segmentos de 256 muestras, los cuales se obtienen utilizando una técnica de doble buffer en el DMA.

Figura 3. Sistema embebido de verificaci´on de locutor.

Cada segmento es procesado por el dsPIC con el objetivo de obtener diferentes par´ametros ac´usticos, tales como energ´ıa, espectro, MFCC, frecuencia fundamental, jitter y shimmer.

Estos par´ametros son analizados usando los modelos estad´ısticos de referencia, los cuales son entrenados previamente y almacenados en el dsPIC a trav´es de la memoria SD.

Estos modelos pueden ser modificados y cargados nuevamente en dicho dispositivo de almacenamiento. Para ello, se usa un software de entrenamiento previamente desarrollado, el cual construye un modelo estad´ıstico adaptado a un locutor espec´ıfico.

El sistema propuesto en esta publicaci´on est´a implementado en un dispositivo dsPIC-33FJ128GP802 de Microchip. Las principales caracter´ısticas de este dispositivo son:

128KB de memoria programable. Esta caracter´ıstica facilita el uso de compiladores.

16KB de RAM. De los cuales 2KB son compartidos con el buffer dedicado al acceso directo a memoria (DMA:

Direct Memory Access), conformando una RAM de doble puerto.

Permite una velocidad de procesamiento m´axima de 40 MIPS (Mega Instrucciones Por Segundo.

Bajo costo.

Bus de datos de 16 bits.

M´odulo conversor anal´ogico/digital (ADC) de 12 bits y 500 Ksps.

Registros de entrada/salida de doble buffer. Esto permite mayor velocidad en las operaciones sobre los puertos (lectura-escritura) y mayor flexibilidad en el manejo de los mismos.

Programación y depuración in-circuit. El dispositivo pue- de ser programado y configurado en el mismo circuito en el que esté aplicado.

(5)

Cuadro I

CONSUMO DE MEMORIA SIN OPTIMIZACION´

Variable N^ode elementos Tipo de datos Memoria (bytes)

Buf f er 256 int 512

Data 256 f loat 1024

HammingW indow 256 f loat 1024

Sinus 256 f loat 1024

Cosinus 256 f loat 1024

Butterf ly 256 char 256

RealF F T 256 f loat 1024

ImagF F T 256 f loat 1024

M F CCF ilters 24x53 f loat 5088

DCT 24x13 f loat 1248

Autocorr 256 f loat 1024

M F CCCoef s 13 f loat 52

InvCovars 13x2x16 f loat 3328

M eans 13x2x16 f loat 3328

P riors 2x16 f loat 256

Determinants 2x16 f loat 256

Total 21492> 16 KB

Cuadro II

CONSUMO DE MEMORIA LUEGO DE LA OPTIMIZACION´

Variable N^ode elementos Tipo de datos Memoria (bytes)

Buf f er 256 int 512

Data 256 f loat 1024

HammingW indow − memoria 0

sigReal 256 long 1024

twdlF ctr32b 768 long 3072

pwrspect/Autocorr 256 long 1024

M F CCF ilters − memoria 0

DCT − memoria 0

M F CCCoef s 13 f loat 52

InvCovars 13x2x16 f loat 3328

M eans 13x2x16 f loat 3328

P riors 2x16 f loat 256

Determinants 2x16 f loat 256

Total 13876< 16 KB

Disponible en su versi´on de encapsulado SOIC de 28 pines. Esto permite mayores niveles de integraci´on.

III-A. Limitaciones en la memoria RAM del dsPIC

Una de las principales limitaciones para implementar la verificaci´on de locutor en el dsPIC, es la cantidad limitada de memoria RAM disponible. Para minimizar el impacto de tal restricci´on, se tomaron en cuenta varios aspectos para optimizar el uso de la memoria.

Sin ninguna optimizaci´on en el uso de las variables presentes en la memoria RAM, la cantidad total de memoria utilizada se muestra en la Tabla I.

Las variables Buffer y Data son las representaciones en tipo de datos enteros (integer) y punto flotante (float), del frame bajo an´alisis. El arreglo HammingWindow contiene los valores precalculados de una ventana de Hamming de 256 muestras.

Las variables Sinus y Cosinus contienen los valores precal- culados de 256 muestras de las funciones trigonométricas seno y coseno, mientras que Butterfly contiene la información necesaria para el correcto cálculo de la transformada Rápida de Fourier (FFT: Fast Fourier Transform). El resultado de la FFT se almacena en las variables RealFFT e ImagFFT.

Los coeficientes cepstrales de Mel (MFCC: Mel-frequency Cepstral Coefficients) se calculan con el espectro resultante de la FFT. El conjunto de filtros en la escala de Mel se encuentra

almacenado en la variable MFCCFilters y la transformada discreta coseno se calcula utilizando la variable DCT.

Los modelos de mezcla de gaussianas son cargados en la memoria RAM del dsPIC a trav´es de la memoria SD, y se almacenan en las variables InvCovars (inversa de las matrices de covarianza), Means (vectores de medias), Priors (valores iniciales de cada mezcla gaussiana) y Determinants (determinante de cada matriz de covarianza).

Como se observa en la ´ultima fila de la Tabla I, la cantidad total de memoria necesaria para nuestra aplicaci´on es mayor que la memoria disponible.

Un an´alisis cuidadoso de las variables muestra que Ham- mingWindow, MFCCFilters, DCT y las rutinas que las utilizan, pueden ser almacenadas en la memoria de programa del dsPIC.

Esta acci´on libera 7360 bytes de memoria que pueden ser usados para lograr mejores modelos de mezcla de gaussianas, un hecho que afecta notoriamente el rendimiento de la tarea de verificaci´on de locutor.

La FFT se puede calcular utilizando la subrutina FF- TReal32bIP de Microchip. Dicha subrutina necesita una mayor cantidad de memoria, pero el beneficio real se obtiene en la velocidad de procesamiento.

La variable Autocorr s´olo se utiliza para calcular la frecuen- cia fundamental, con la cual se estiman los par´ametros jitter y shimmer. Por lo tanto, el puntero de la variable Autocorr puede apuntar al mismo espacio de memoria que la variable pwrspect (espectro de potencia), liberando memoria RAM adicional.

Luego de estas modificaciones, el uso de memoria del sistema se muestra en la Tabla II.

III-B. Limitaciones en la velocidad de procesamiento del dsPIC

Otra limitación importante en la implementación de un sistema embebido de verificación de locutor, es el n úmero de instrucciones por segundo ejecutadas por el dsPIC. El clock de 40 MHz sólo permite una velocidad de procesamiento máxima de 40 MIPS (mega instrucciones por segundo). Por lo tanto, es esencial una selección cuidadosa de las diferentes rutinas utilizadas.

La subrutina original para la ventana de Hamming contiene el siguiente c´odigo:

int i;

for (i=0;i<bfrsize;i++) data[i]=data[i]*win[i];

La nueva subrutina para la ventana de Hamming posee todos sus valores programados en la memoria de programa del dsPIC, logrando as´ı un aumento importante en la velocidad de procesamiento y una reducci´on el uso de la memoria RAM disponible:

data[0]*=0.08f;

data[1]*=0.0801396318543067f;

...

El mismo enfoque fue utilizado para implementar las subru- tinas que calculan los coeficientes cepstrales de Mel (MFCC),

(6)

logrando un aumento en la velocidad de procesamiento. Las rutinas originales demoraban 18.7 ms para calcular los MFCC para un ´unico frame, mientras que la nueva subrutina s´olo demora 5.36 ms.

El uso de la subrutina de Microchip para la FFT (FF- TReal32bIP) logra un aumento importante en la velocidad de procesamiento. La subrutina original, programada en C, demoraba 64 ms para obtener el espectro de potencia de un ´unico frame, mientras que la subrutina propuesta por Microchip s´olo demora 5.36 ms.

La implementación de la autocorrelación a través del tipo de datos enteros (integer), fue la última mejora realizada en el código para procesar un frame y calcular todos los parámetros necesarios para la tarea de verificación de locutor. El tiempo total para procesar un segmento (frame) es 59 ms.

III-C. Resultados de la verificaci´on de locutor

Se llevaron a cabo distintos experimentos en Matlab con el objetivo de analizar las diferentes configuraciones de los sistemas de verificación de locutor. La arquitectura seleccionada fue probada utilizando el método de validación cruzada para obtener la curva ROC.

La curva ROC (Receiver Operating Characteristic) es una representación gráfica de la sensibilidad de un sistema de clasificación binario, que tiene como parámetro de variación al umbral de decisión.

La curva ROC para el sistema propuesto se muestra en la Figura 4. Como se explicó en la Sección II, al diseñar un sistema de verificación biométrico, el umbral de decisión debe ajustarse para minimizar tanto los falsos positivos como los falsos negativos. En este sistema, los falsos positivos deberán permanecer por debajo del umbral para evitar la autorización de un usuario impostor.

Figura 4. Curva ROC para el sistema de verificaci´on propuesto.

IV. CONCLUSIONES

En esta publicación se describió un sistema embebido de verificación de locutor. El sistema está implementado en un dsPIC de bajo costo de Microchip, el cual combina las mejores caracter´ısticas de los microcontroladores y DSP en

un mismo n úcleo de alto rendimiento de 16 bits. El sistema de verificación de locutor esta diseñado para controlar una cerradura electrónica, a través de un circuito que funciona como interfaz entre ambos dispositivos.

Se realizaron experimentos en Matlab para hallar la curva ROC del sistema propuesto, y poder as´ı obtener una aproximación del rendimiento del sistema. Los resultados obtenidos muestran que el sistema puede llegar a rechazar ocasionalmente a alg ún usuario autorizado. Por ejemplo, el sistema de verificación de locutor posee una tasa de falsos positivos de 8 % y una tasa de falsos negativos de 12 %.

La investigación futura se centrará en dos aspectos principales: el tiempo de respuesta del sistema y su rendimiento en la tarea de identificación. El tiempo de respuesta es de vital importancia en este sistema de verificación de locutor, pudiendo lograrse mejoras sustanciales a través del uso de código ensamblador dentro del lenguaje C.

Se buscará lograr un mejor rendimiento en la identifica- ción a través de la implementación de nuevas técnicas de verificación de locutor, las cuales pueden involucrar el uso de parámetros adicionales, diferentes técnicas de modelado y algoritmos que acondicionen la señal de voz.

REFERENCIAS

[1] D. Maltoni, D. Maio, A. Jain, and S. Prabhakar, Handbook of Fingerprint Recognition. Springer, New York, 2003.

[2] R. Bolle, J. Connell, S. Pankanti, N. Ratha, and A. Senior,Guide to Biometrics. Springer, New York, 2004.

[3] F. Bimbot, J. Bonastre, C. Fredouille, G. Gravier, I. Magrin-Chagnolleau, S. Meignier, T. Merlin, J. Ortega-Garcia, D. Petrovska-Delacretaz, and D.

Reynolds, A tutorial on text-independent speaker verification in EURASIP Journal on Applied Signal Processing, pp. 430-451, 2004.

[4] J. Campbell, Speaker recognition: A tutorial, Proceedings of the IEEE, vol. 85, pp. 1437-1462, 1997.

[5] S. Davis and P. Mermelstein, Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences, IEEE Transactions on Acoustic, Speech and Signal Processing, vol. 28, pp. 357-366, 1980.

[6] S. Stevens, The mel scale equates the magnitude of perceived differences in pitch at different frequencies, Journal of the Acoustical Society of America, vol. 8, pp. 185-190, 1937.

[7] B. Atal, Automatic speaker recognition based on pitch contours, Journal of the Acoustical Society of America, vol. 52, pp. 1687-1697, 1972.

[8] M. Carey, E. Parris, H. Lloyd-Thomas, and S. Bennett, Robust prosodic features for speaker identification, in Proceedings of the ICSLP, pp. 1800- 1803, 1996.

[9] M. Arcienega and A. Drygaljo, Pitch-dependent GMMs for text- independent speaker recognition systems, in Proceedings of the Euros- peech, pp. 2821-2825, 2001.

[10] K. S ¨onmez, E. Shriberg, L. Heck, and M. Weintraub, Modeling dynamic prosodic variation for speaker verification, in Proceedings of the ICSLP, pp. 3189-3192, 1998.

[11] A. Adami and H. Hermansky, Segmentation of speech for speaker and language recognition, in Proceedings of the Eurospeech, pp. 841-844, 2003.

[12] D. Reynolds, Speaker identification and verification using gaussian mixture speaker models, Speech Communication, vol. 17, pp. 91-108, 1995.

[13] D. Reynolds and R. Rose, Robust text-independent speaker identification using gaussian mixture speaker models, IEEE Transactions on Speech and Audio Processing, vol. 3, pp. 72-83, 1995.

[14] T. Matsui and S. Furui, Likelihood normalization for speaker verification using a phoneme and speaker-independent model, Speech Communica- tion, vol. 17, pp. 109-116, 1995.