D ETECTORES DE ACTIVACIÓN DE VOZ - Sistema de reconocimiento del locutor basado en modelado no

En el reconocimiento del locutor es importante calcular los modelos y realizar el test sobre las partes de señal que corresponden a la voz, descartando las pausas, silencios entre palabras, etc. De otra forma, las tasas de reconocimiento y verificación se degradan.

En el cálculo de los modelos de cada locutor, la no eliminación de las tramas de silencio supone que el número de parámetros no se dedican a modelar al locutor, si no a modelar el ruido de los silencios de voz que no

lleva información de la identidad de la persona.

P a s o _ 1 : In i c i a l iz a c i ó n. Escoger un método adecuado para obtener el

vector de cuantización inicial el cual requerir ser optimizado.

P a s o _ 2 : C la s i f i c a c i ó n p o r e l m é t o d o d e l v e c i n o m á s c e r c a n o.

Clasificar cada vector de entrenamiento

{ }x

_k dentro de cada una de

las

C

celdas para escoger el más cercano codeword

(

)

( )

(

, , , para todo

)

i i i j

z x∈C si d x z ≤d x z j≠i . Esta clasificación es

llamada clasificación de mínima distancia.

P a s o _ 3 : A c t u a l i z a c i ó n d e l c o d e b o o k. Actualizar el codeword de cada

célula para calcular el centroide de los vectores de entrenamiento en cada célula de acuerdo a,

(

)

(

)

1 ˆ arg min , ,ˆ ,1 i i i i i x C zi z d x z z cent C i M T ∈ =

∑

= ≤ ≤

P a s o _ 4 : R e i t e r a c i ó n. Repetir los pasos 2 y 3 hasta que la nueva

distorsión global d en la actual iteración sea menor a un cierto

T a b l a 2 . 4 . A l g o r i t m o L B G .

Un detector de actividad de voz (VAD) es un algoritmo utilizado para detectar regiones de actividad o inactividad de voz [8]. Los VAD producen una decisión binaria para un segmento de voz dado indicando la presencia o ausencia de voz. Sin embargo esto no es un problema trivial. Resulta tanto más complicado cuanto más ruidoso sea el entorno en que se realiza la captación de voz. Dado que la complejidad computacional del módulo VAD se añade a la de los procesos de reconocimiento, interesa que el algoritmo sea sencillo y robusto. Debido a esto, se opta por utilizar un módulo VAD basado en la e n t r o p í a d e l a m a g n i t u d d e l e s p e c t r o [10].

2.6.1 R

UIDO BLANCO

.

El ruido puede ser definido como cualquier señal no deseada que interfiere con la comunicación, mediciones o procesamientos de una información producida por una señal deseada. El ruido esta presente en diversos grados en ambientes variados. El éxito de un método para procesar el ruido radica en la habilidad para caracterizarlo y modelarlo.

El ruido blanco es definido como un proceso de ruido no correlacionado con igual potencia en todas las frecuencias (Ver figura 2.8). Un ruido que

tiene la misma potencia en el rango

±∞

Hz necesariamente tiene que tener

potencia infinita, y eso es, sin embargo, un concepto solo teórico. La

definición de este proceso es del tipo estacionario gaussiano

n t( )

con

x

=0

y función de covarianza

( )

2 N

k

τ

=

δ

t

[11]. F i g u r a 2 . 8 . ( a ) R u i d o b l a n c o , ( b ) s u a u t o c o r r e l a c i ó n , y ( c ) s u p o t e n c i a e s p e c t r a l .

P a s o _ 1 : In i c i a l iz a c i ó n. Se establece M=1 (Número de particiones o

celdas). Se encuentra el centroide de todos los datos de entrenamiento de acuerdo con la siguiente ecuación

(

)

(

)

1 ˆ

arg min

,

,ˆ

,1

i i i i i x C zi

z

d x z

z

cent C

i

M

T

∈

=

∑

=

≤ ≤

P a s o _ 2 : Se g me n ta c ió n. Segmentar M en 2 particiones (2M) para

particionar cada codeword debemos encontrar dos puntos que estén lejanos uno del otro usando un método heurístico, y utilizar estos dos puntos como los nuevos centrodes para los dos nuevos

codebook. Finalmente se establecerá M=2M.

P a s o _ 3 : E t a p a k - m e a n s. Se utiliza el algoritmo interactivo k-means

descrito anteriormente para establecer los mejores centroides para el nuevo codebook.

P a s o _ 4 : T e r mi n a c i ó n. Si M es igual al tamaño del codebook

requerido, se termina el proceso, de otra manera se regresa al paso 2.

2.6.2 A

PLICACIÓN DE LA SUSTRACCIÓN ESPECTRAL PARA LA ELIMINACIÓN DE RUIDO BLANCO

.

La sustracción espectral es un método para restaurar la potencia o la magnitud del espectro de una señal en la que se observa ruido aditivo, a través de la sustracción de una estimación del promedio del espectro del ruido de la señal contaminada [11]. El espectro del ruido es usualmente estimado y actualizado, de los periodos cuando no existe señal y solo el ruido esta presente, comúnmente esta etapa es implementada con un VAD. Para restaurar la señal al dominio del tiempo, una estimación de la magnitud del espectro instantánea es combinada con la fase de la señal contaminada, y después transformada a través de la transformada discreta inversa de Fourier al dominio del tiempo.

El efecto del ruido aditivo en la magnitud del espectro de una señal es aumentar la media y la varianza del espectro. El incremento en la varianza de la señal original es el resultado de las fluctuaciones aleatorias del ruido y no puede ser eliminado. El incremento de la media en el espectro de la señal original puede ser removido por la sustracción de una estimación de la media del espectro del ruido de la señal contaminada. El modelo de la señal contaminada en el dominio del tiempo está dado por [11],

y m( )=x m( ) ( )+n m

( 2 . 2 2 )

Donde

y m( )

es la señal contaminada,

x m( )

es la señal original,

n m( )

es el

ruido aditivo, y m es el índice en tiempo discreto. En el dominio de la

frecuencia la ecuación (2.22) puede ser expresada como,

Y f( )=X f( )+N f( )

( 2 . 2 3 )

Donde

Y f( ) ( ),X f

y N f( )

son las transformadas de Fourier de la señal

contaminada

y m( )

, la señal original

x m( )

y el ruido

n m( )

respectivamente, y

f es la frecuencia. El método de la sustracción espectral es descrito a través

de [11],

X fˆ( )

=

Y f( )

−α

N f( )

b ( 2.24)

Donde

X fˆ( )

b es la estimación del espectro de la señal original

Y f( )

b y

( )

N f

es el promedio del espectro del ruido. Asumiendo que el ruido es un

proceso estacionario en su sentido más amplio. Para sustracción espectral en

magnitud el exponente b=1, y para sustracción espectral en potencia, b=2. El

parámetro

α

controla la cantidad de ruido sustraído en la señal contaminada.

Para una sustracción total

α

=1

y para una sobre-sustracción

α

>1

. El

promedio del espectro es obtenido a través de un filtro digital pasa bajos de primer orden dado como [11]:

N

( )f

=ρ

N

_i₋₁

( ) (f

+ −1

ρ)

N

_i₋₁

( )f

b (2 .25)

Donde el coeficiente

ρ

del filtro pasa bajo es establecido entre 0.85 y 0.99.

estimada

X fˆ( )

es combinada con la fase de la señal contaminada, y después transformada al dominio del tiempo a través de la transformada inversa de Fourier.

Debido a las variaciones del espectro del ruido, la sustracción espectral resulta en una estimación negativa de la potencia o magnitud del espectro. Esto provoca una distorsión conocido como “ruido de tono musical” debido a un espectro de banda estrecha y sonido metálico, lo que deteriora el rendimiento en sistemas de reconocimiento de locutores. Para evitar estos inconvenientes es mejor implementar el método de la sustracción espectral no lineal.

2.7 C

ONCLUSIONES

En este capítulo se investigaron conceptos que se utilizan en este sistema para caracterizar y modelar la señal de voz, clasificar sus características basados en algoritmos de mínima distancia, además, se investigo sobre las técnicas para discriminar entre voz y silencios y finalmente se investigaron conceptos acerca de la naturaleza del ruido blanco así como métodos para su eliminación en señales de voz.

2.8 B

IBLIOGRAFÍA

[ 1 ] Sa d a o ki Fu ru i, “ Dig it a l Sp e e c h Pro c e ssin g Sy n t h e sis a n d Re c o g n it io n ”,

Ed ito ria l Bo a rd , To ky o In stitu te o f Te c h n o lo g y , To ky o Ja p a n , 2 0 0 1 . [ 2 ] Pe tre Sto ic a , Ra n d o lp h M o se s, “ Sp e c t ra l a n a ly sis o f sig n a ls”, Pe a rso n

Ed u c a tio n In c . USA , 2 0 0 5 .

[ 3 ] Xu e d o n g Hu a n g , A le x A c e ro , Hsia o - Wu e n Ho n , “ Sp o ke n la n g u a g e

p ro c e ssin g ” , Pre n tic e - Ha ll, In c . , Ne w Je rse y , USA , 2 0 0 1

[ 4 ] L.R. Ra b in e r, Biin g - Hw a n g Ju a n g ,”Fu n d a m e n t a ls o f Sp e e c h

Re c o g n it io n ”, Pe a rso n Ed u c a tio n , 1 e d itio n , 1 9 9 3 .

[ 5 ] H. Sa to , “ A c u st ic c u e s o f m a le a n d fe m a le v o ic e q u a lit y ” , Ele c . C o m m u n . La b s Te c h J. , 1 9 7 5 , p p . 9 7 7 -9 9 3 .

[ 6 ] Ra b ie r y Ju a n g , “ Fu n d a m e n t a ls o f Sp e e c h Re c o g n it io n ”, Pre tin c e -

Ha ll, 1 9 8 3 .

[ 7 ] M o n so n H. Ha y e s, “ St a t ist ic a l Dig it a l Sig n a l Pro c e ssin g a n d Mo d e lin g ”,

Jo n h Wile y &So n g , In c , 1 9 9 6 .

[ 8 ] Be n G o ld , Ne lso n M o rg a n ,” Sp e e c h a n d A u d io Sig n a l Pro c e ssin g ”,

Jo h n Wile y &So n s, In c , 2 0 0 0 .

[ 9 ] A . M . Ko n d o z, “ Dig it a l Sp e e c h ” , Wile y ; Un iv e rsity o f Su rre y ; UK; 2 0 0 4 [ 1 0 ] Ph ilip p e Re n e v e y , A n d rze j Dry g a jlo , “ En t ro p y Ba se d V o ic e

De t e c t io n in V e ry No isy c o n d it io n s”, Sw iss C e n te r fo r Ele c tro n ic s a n d

M ic ro te c h n o lo g y , Ne u c h â te l, Sw itze rla n d , 2 0 0 0 , h ttp :/ / w w w . c se m .c h / d e ta ile d / p d f/ e _ e u sp 0 2 . p d f.

[ 1 1 ] Sa e d d V. Va se g h i, “ A d v a n c e d Dig it a l Sig n a l a n d No ise Re d u c t io n ”, Jo h n w ile y &So n s, Ltd , En g la n d , 2 0 0 0 .

C

APÍTULO 3

MÉTO DO PRO PUESTO

3.1. I

NTRODUCCIÓN

En este capítulo se muestra el esquema general del sistema propuesto, el cual consta de tres grandes bloques como son: el bloque de adquisición, el bloque de preprocesado y finalmente el bloque de clasificación, los cuales a su vez están conformados de diferentes bloques necesarios para el correcto funcionamiento del sistema.

In document Sistema de reconocimiento del locutor basado en modelado no paramétrico (página 30-34)