DE LA SEÑAL DE

Texto completo

(1)

UNIVERSIDAD AUTONOMA METROPOLITANA

UNIDAD

IZTAPALAPA

PROYECTO

DE

INGENIERÍA

ELECTR~MCA

SfNTESIS

DE VOZ

ASESOR:

(2)

CCINTENIDO

I. INTRODUCCI~N

1 . 1 La SeAal de Voz

1 . 2 . Aplicaciones del Procesamiento Digital de Voz

11.

2 . 1 . 2.2.

2 . 3 .

111.

IV

.

4.1.

4 . 2 .

4.3. 4.4.

V .

5.1.

TEORÍA A C ~ S T I C A DE

LA

PRODUCCI~N DE

voz

Anatomia de l a Producci6n de

Voz

Fonbtica

2 . 2 . 1 . C l a s i f i c a c i b n de l o s Sonidos d e l Habla Fuente, Filtrado y Radiaci6n

2 . 3 . 1 . La Fuente de Sonido 2 . 3 . 2 . F i l t r a d o d e l C a n a l B u c a l 2 . 3 . 3 . Radiaci6n en los Labios

2 . 3 . 4 . Ejemplo de un Sistema Completo

ANÁLISIS

/

SÍNTESIS DE LA SEÑAL DE

voz

MODELO DIGITAL PARA LA PRODUCCI~N DE

voz

E x c i t a c i b n

Filtrado del Canal Bucal Radiaci6n

Modelo Completo

AN~~LIsIs

m

EL DOMINIO DEL TIEMPO

(3)

5 . 3 . Concepto de A n h l i s i s en Corto Tiempo 5.4. Mediciones en Corto Tiempo

5.4.1. Amplitud P i c o 5 . 4 . 2 . Energia

5 . 4 . 3 . Magnitud Promedio 5.4.4. Tasa de Cruces por Cero

5 . 4 . 5 . Funci6n de Autocorrelación

5 . 4 . 6 . Funcibn D i f e r e n c i a de Magnitud Promedio 5 . 5 . Detecci6n de Sonoros / Sordos / S i l e n c i o s

VI. ALGORITMO SE-TADOR

/

SINTETIZADOR DE SEÑALES DE VOZ

6 . 1 . Objetivos

6.2. Desarrollo

6.2.1. Algoritmo Manual

4 . 2 . 2 . Algoritmo AutomAtico

6 . 2 . 3 . Ejemplo Segmentacibn / S i n t e t i z a d o

BIBLIOGWÍA

AP~NDICES

(4)

O. EXTRACTO

E l presente proyecto es un algoritmo para l a segmentación

( a n h l i s i s ) de s e d a l e s de voz en sus elementos mínimos. Tambibn 3 p a r t i r de estos segmentos es capaz de construir nuevas senales de

Voz, r e s u l t a d o de l a c o n c a t e n a c i b n ( s í n t e s i s ) e s t o s d e fragmentos.

En este reporte hablaremos primero de l o s fundamentos e n e l

campo d e l a n h l i s i s / s í n t e s i s de s e n a l e s de voz. Posteriormente,

e x p l i c a r e m o s c o n d e t a l l e l a i m p l a n t a c i h y funcionamiento del algoritmo antes mencionado.

I . INTRODUCCI~N

l . 1. LA SERAL DE VOZ

Puede pensarse que e l habla est& formada por elementos discretos de informacibn. Estos elementos b6sicos d e l h a b l a se

conocen como fonemas. E l lenguaje espaAol tiene alrededor de 50 fonemas, que pueden representarse con 6 b i t s . Debido a que l a mAxima v e l o c i d a d f i s i c a de a r t i c u l a c i o n e s e s d e 10 fonemas/seg, e s t o da como r e s u l t a d o una t a s a de d a t o s p a r a e l h a b l a de alrededor de 60 b i t s / s e g . S i n embargo, e s t a re p r e s e n t a c i b n d e l

h a b l a e s como s i s e p r e s e n t a r a es c r i t a en un t e x t o ; no t i e n e

ninguna i n f o r m a c i h a c e r c a d e l h a b l a n t e , l a velocidad, e l tono,

l a emotividad o amplitud de l a voz. Este tipo de informacibn requiere una tasa de datos mucho mayor, desde poco menos de 300 b i t s / s e g h a s t a m& a l l á de 60 000 bits/seg, dependiendo de l a

calidad y naturalidad de la representacibn.

1 . 2 . APLICACIONES DEL PROCESAMIENTO D I G I T A L DE VOZ

(5)

disponible con e l procesamiento analbgico. A continuacibn s e da una l i s t a de algunas de las Areas tipicas de a p l i c a c i 6 n d e l p r o c e s a m i e n t o d i g i t a l de voz:

*

Transmisidn de voz.

Esto cubre Areas como l a conmutacibn en r e d e s d i g i t a l e s , incluyendo l a conmutacibn de paquetes o p o r r 6 f a g a s ; t k c n i c a s de compresidn de ancho de banda para l a reduccidn de las velocidades de transmisibn; y s o f i s t i c a d a s t e m i c a s de encripci6n de datos.

*

Almacenamiento de voz.

En forma similar a la transmisibn de voz, l a compresión de

voz puede u t i l i z a r s e p a r a r e d u c i r l o s requerimientos de

almacenamiento; ademfis, e l almacenamiento d i g i t a l p e r m i t e m e j o r a r l a s t h c n i c a s de enrutamiento utilizadas en e l c o r r e o e l e c t r 6 n i c o de voz.

*

Reconocimiento de voz.

Este y l a si n t e s i s de voz se conocen como comunicacibn hombre-mfiquina. E l reconocimiento de voz puede dividirse en:

tecnicas dependientes o independientes del. usuario, y en t6cni.cas para palabras aisladas o para habla continua. Tiene aplicacibn

en Areas como c o n t r o l de procesos o sistemas de traduccibn voz-a- t e x t o .

*

S í n t e s i s de voz.

Actualmente con una amplia d i f u s i b n , l a s i n t e s i s de voz s e u t i l i z a en aplicaciones de sistemas de información y sistemas de traduccibn texto-a-voz. En combinaci6n con e l reconocimiento de voz s e u t i l i z a en sistemas de comunicacibn m&guina-hombre.

*

Mejoramiento de l a voz.

E s t e c u b r e v a r i a s a p l i c a c i o n e s p a r a m e j o r a r l a c a l i d a d o c a r a c t e r í s t i c a s d e l a voz; t a l e s como reduccí6n de ruido,

eliminacibn de ecos, reemplazo de paquetes perdidos de voz debido

a e r r o r e s de transmisibn, o modificaciones de l a voz en l a e s c a l a

(6)

*

A y u d a

p a r a

d i s c a p a c i t a b o s .

U n amplio número de a p l i c a c i o n e s s e encuentra en uso, incluyendo e l desplegado visual o t h c t i l de l a

voz,

sistemas de traducci6n texto-a-voz o v o z - a - t e x t o ( l i b r o s p a r l a n t e s ) , o sistemas de procesamiento de voz para u t i l i z a r s e en implantes a u d i t i v o s ( o i d o s a r t i f i c i a l e s ) .

*

Diagn6stico clinic0 d e l h a b l a .

E l procesamiento de l a voz puede ayudar en l a d e t e c c i 6 n de enfermedades o des6rdenes del habla.

11. TEO& ACÚSTICA DE LA PRODUCCI~N DE

voz

Introduciremos l o s fundamentos d e l p r o c e s o de produccibn de

voz y s u modelo, a f i n de lograr un mejor entendimiento de l a s t b c n i c a s d e p r o c e s a m i e n t o d i g i t a l u t i l i z a d a s p a r a l a s s e f i a l e s de

voz.

No se encuentra disponible un estudio acústico completo de

l a producci6n de l o s sonidos de l a voz. Es un problema muy

complejo como para poder tomar en c u e n t a to d a s la s v a r i a b l e s y grados de 1i.bertad. S i n embargo, es posible hacer algunas

s u p o s i c i o n e s p a r a s i m p l i f i c a r p r o b l e m a e l a c ú s t i c o , l o que permite separarlo en elementos bhsicos mAs entendibles. Este

tipo de a n A l i s i s desempefia un buen t r a b a j o a l d e s c r i b i r el

fen6meno f í s i c o d e l h a b l a , aunque existen evidencias de que l a

t e o r í a a c ú s t i c a tr a d i c i o n a l d e l h a b l a puede t e n e r d e f i c i e n c i a s s u b s t a n c i a l e s .

2.1. ANATOMfA DE LA PRODUCCIdN DE VOZ

E l mecanismo de producci6n de la

voz

e s t 6 formado por componentes de l a s u b g l o t i s , l a l a r i n g e , e l canal bucal, y 10s a r t i c u l a d o r e s . Los componentes de l a s u b g l o t i s son l o s pulmones,

que proveen l a e n e r g i a p a r a l a p r o d u c c i 6 n d e l s o n i d o en forma de a i r e a p r e s i 6 n ; y l a t r a q u e a , que c a n a l i z a e l a i r e h a c i a la

laringe. Dentro de l a l a r i n g e s e e n c u e n t r a n l a s cuerdas vocales,

tejidos suaves compuestos de músculos y membranas mucosas, que s e extienden a l o l a r g o d e l p a s o d e l a i r e . La abertura entre l a s cuerdas vocales s e l l a m a g l o t i s . Las cuerdas vocales ( o e q u i v a l e n t e m e n t e , l a g l o t i s ) s i r v e n p a r a modular e l flujo d e l

a i r e en l o s sonidos sonoros (por ejemplo, las vocales)

.

E l c a n a l

(7)

tubo resonante que f i l t r a e l sonido. AdemAs, cuando e l v e l o desciende, la cavidad nasal se acopla acústicamente a l c a n a l

bucal para producir l o s sonidos nasales de la voz. Los

a r t i c u l a d o r e s , que i n c l u y e n v e l o e l ( o paladar suave), .la

lengua, l a mandibula y l o s l a b i o s , c o n f i g u r a n a l c a n a l b u c a l p a r a

determinar que f r e c u e n c i a s de l a f u e n t e de sonido pasan para

producir l o s variados sonidos del habla, estos son entonces

radiados por l o s l a b i o s . La longitud promedio del canal bucal,

desde l a g l o t i s h a s t a l o s l a b i o s , e s de aproximadamente 17 cm en

l o s hombres, e l Area t r a n s v e r s a l d e l c a n a l b u c a l puede v a r i a r de c e r o h a s t a 20 cm2, dependiendo de l a p o s i c i b n de l o s

a r t i c u l a d o r e s .

E l sonido adquiere en l a l a r i n g e l a mayor p a r t e de sus

c u a l i d a d e s fi s i c a s p r i m a r i a s . El. tono depende de l a t e n s i 6 n de

l a s c u e r d a s v o c a l e s . La i n t e n s i d a d e s t 6 en r e l a c i b n con l a f u e r z a d e l i m p u l s o e s p i r a t o r i o y, en g e n e r a l , con t o d a s l a s

condiciones que aumentan o disminuyen l a amplitud de l a s

v i b r a c i o n e s y l a magnitud de l a masa v i b r a n t e . E l timbre, que depende de l a n a t u r a l e z a d e l c u e r p o s o n o r o ( l a s c u e r d a s v o c a l e s )

y de l o s resonadores, toma ya en l a l a r i n g e un m a t i z p a r t i c u l a r ,

s i bien sufre modificaciones mhs importantes en l a c a j a de resonancia formada por l o s 6rganos de l a a r t i c u l a c i b n .

2.2. F O N ~ T I C A

Los elementos de información del habla se transmiten como una secuencia de sonidos de voz. La l i n g a i s t i c a e s t u d i a l a s

r e g l a s d e l l e n g u a j e que o r g a n i z a n e s t o s s o n i d o s d e l h a b l a p a r a l a

comunicacibn humana. E l e s t u d i o y c l a s i f i c a c i b n de l o s sonidos

d e l h a b l a en s í se conoce como f o n b t i c a . Los sonidos del habla

pueden c l a s i f i c a r s e de manera general por s u forma de excitacidn, o m& detalladamente por su5 c a r a c t e r i s t i c a s in d i v i d u a l e s como

f onemas.

2.2.1. C L A S I F I C A C I ~ N DE LOS SONIDOS DEL HABLA

En e l procesamiento de sefiales de voz, generalmente es iltil

c l a s i f i c a r l o s variados sonidos por su forma de excitacibn debido

a l a s d i f e r e n t e s c a r a c t e r i s t i c a s de l a f u e n t e de sonido, i n d e p e n d i e n t e m e n t e d e l fi l t r a d o en e l c a n a l b u c a l . E x i s t e n tr e s

(8)

t L U Z

sonidcs s c ~ e r ~ s

sari

prcducidss

p o r

e>;ci-s,ei&ri

l a

g l o t i s . E s t a e x c i t a c i b n e s c a u s a d a p o r v i b r a c i 6 n l a de l a s cuerdas vocales que generan pulsaciones cuasi-peri6dicas de a i r e a t r a v e s de l a l a r i n g e . E n t r e l o s sonidos sonoros se encuentran t o d a s l a s v o c a l e s y numerosas consonantes como b , d , g , l., e t c .

*

Los sonidos sordos son producidos por una e x c i t a c i ó n

t u r b u l e n t a ( p a r e c i d a r u i d o ) . a l E s t a es causada por una

contraccibn en algún lugar del canal bucal. En l a producción de e s t o s so n i d o s no i n t e r v i e n e n la s cu e r d a s v o c a l e s , e l a i r e p a r a

e n t r e e l l a s sin h a c e r l a s v i b r a r . E n t r e los sonidos s o r d o s se

encuentran consonantes como p, t , k, S , f ,

x,

e t c .

*

Los sonidos plosivos s e producen por una rdfaga de

e n e r g i a a c ú s t i c a . E s t a s e forma por una oclusi.6n del canal

b u c a l , una acumulación de presión detr6s de e s t a o c l u s i h n , y una s ú b i t a p r e c i p i t a c i b n de e s t a p r e s i 6 n .

E l l u g a r de l a cavidad bucal donde se produce e l c o n t a c t o o

e s t r e c h a m i e n t o n e c e s a r i o p a r a a r t i c u l a r un sonido se llama punto

de a r t i c u l a c i b n . I n t e r v i e n e n e n 1.a arti culaci.ón órganos fi.jos o

p a s i v o s ( d i e n t e s , a l v b o l o s , p a l a d a r j y brganos movibles o a c t i v o s ( m a x i l a r in f e r i o r , la b i o s , le n g u a , v e l o d e l p a l a d a r )

.

Cuando l a a r t i c u l a c i d n s e forma con dos 6rganos movibles, uno de e l l o s e s a c t i v o y e l otro pasivo. La Figura 1 muestra una s e c c i b n s a g i t a 1 d e l c a n a l b u c a l .

Según s u punto de articulación, los s o n i d o s se cl a s i f i c a n d e l s i g u i e n t e modo:

B i l a b i a l e s Labiodentales I n t e r d e n t a l e s Dentales

Alveolares P a l a t a l e s V e l a r e s

(9)

FIGURA 1 . C o r t e s a g i t a 1 d e l c a n a l b u c a l

Para determinar y d e s c r i b i r l a n a t u r a l e z a de un sonido cualquiera no b a s t a con s a b e r d6nde s e a r t i c u l a , s i n o que hay que t e n e r tambibn en cuenta c6mo s e produce s u a r t i c u l a c i 6 n f e s

d e c i r , S U modo de articulacibn. Desde e s t e punto de v i s t a s e

e s t a b l e c e l a s i g u i e n t e c l a s i f i c a c i b n :

*

Oclusivas.

Son l a s a r t i c u l a c i o n e s en que l o s 6rganos establecen un

contacto completo que interrumpe momenthneamente 1.a s a l i d a d e l

a i r e e s p i r a d o : p , t , k, b , d , g .

*

F r i c a t i v a s .

E l c o n t a c t o de l o s tjrganos e s incompleto; se produce entre

ellos una e s t r e c h e z mayor o menor

,

por l a cual pasa e l a i r e

rozando, sin interrumpir s u s a l i d a : B, f , O , 'z, 4, -1, S , ' S , 1,

(10)

*

Africadas.

Est.hn farmadas por una

otllluden

mc3me5.nt-Aí-ie5.a qt-+e 85 f%w~t?I.vt!

gradualmente en una f r i c a c i ó n . Se distinguen de l a s consonantes

compuestas en que e l paso del c o n t a c t o o c l u s i v o a l a estrechez

f r i c a t i v a no es brusco, sino gradual, y en que J.OS hrganos que producen a ambos son l o s mismos: *y.

*

Vibrantes

En e s t a s a r t i c u l a c i o n e s l a l e n g u a r e a l i z a uno o v a r i o s movimientos rhpidos que i n t e r r u m p e n a l t e r n a t i v a m e n t e l a s a l i d a

d e l a i r e : r, e, y c i e r t a s v a r i e d a d e s e n f 6 t i c a s d e l a

x

espaliola ( j o r t o g r a f i c a )

.

*

Vocales.

Se caracterizan porque l o s 6rganos forman una abertura mayor o menor, pero siempre suficiente para q u e e l a i r e p a s e sin

obst6culo. La cavidad bucal forma entonces una c a j a de

resonancia que comunica a cada vocal s u t i m b r e c a r a c t e r í s t i c o .

Concluimos entonces que, l a d e f i n i c i 6 n de cualquier sonido

Acci6n de l a l a r i n g e ( s o r d a s y sonoras)

A c c i ó n d e l v e l o d e l p a l a d a r ( b u c a l e s y n a s a l e s ) Punto de a r t i c u l a c i b n

Modo de a r t i c u l a c i ó n

linguistica r e s u l t a de cuatro condiciones:

2 . 3 . FUENTE, FILTRADO Y RADIACIdN.

Se puede formar un modelo a c t l s t i c o de l a producci6n del

habla mediante un a n d l i s i s f í s i c o de l o s elementos del sistema

p r o d u c t o r . E x i s t e n t r e s p a r t e s en e s t e s i s t e m a : la f u e n t e de sonido, e l f i l t r o , y l a c a r g a de radiaci6n. Aún cuando s e han

hecho c i e r t a s s u p o s i c i o n e s ( p o r ejemplo, e l s i s t e m a e s li n e a l y l a f u e n t e y e l f i l t r o s o n s e p a r a b l e s ) , e l modelo tradicioIla1 a c ú s t i c o desempefia un buen t r a b a j o a l d e s c r i b i r l a producci6n d e l

habla.

2 . 3 . 1 . LA FUENTE DE SONIDO

La f u e n t e de sonido es la encargada de g e n e r a r la e n e r g í a a c ú s t i c a del habla y puede pensarse como l a e x c i t a c i 6 n a p l i c a d a

a l s i s t e m a . E l sonido de excitaci6n puede tomar dos formas:

(11)

~1 sonido sonoro se produce por l a v i b r a c i b n de l a s c u e r d a s vocales contenidas en l a l a r i n g e ( F i g u r a 2 ) . Cuando l a g l o t i s

e s t 6 c e r r a d a , e l a i r e acumula p r e s i 6 n d e t r 6 s de l a s cuerdas hasta que e s t a s s o n fo r z a d a s a separarse. E l efecto Bernoulli (debido

a l aumento de l a v e l o c i d a d d e l a i r e e n t r e l a s c u e r d a s ) d e c r e c e l a

presi6n entre las cuerdas, haciendo que vuelvan a j u n t a r s e . E s t a o s c i l a c i 6 n n a t u r a l se re p i t e a una frecuencia fundamental que depende de l a p r e s i b n d e l a i r e d e t r h s de l a s cuerdas, l a masa de

l a s c u e r d a s , y l a te n s i 6 n a p l i c a d a a e s t a s . Como r e s u l t a d o , l a c o r r i e n t e de a i r e e s modulada por l a g l o t i s y s e d e j a s a l i r como una s e r i e de pulsos (Figura 3 a ) . La frecuencia fundamental varia de 8 0 a 200 Hz en l o s hombres, 150 a 300 Hz en l a s m u j e r e s , y 200

a 500 Hz en l o s nifios. E l e s p e c t r o de l a v e l o c i d a d d e l volumen

de a i r e en l a g l o t i s muestra arm6nicas de l a f r e c u e n c i a

fundamental, con una disminuci6n en magnitud de aprox. - 1 2

dB/octava (Figura 3 b ) . La frecuencia fundamental normalmente e s

llamada tono, y las arm6nicas se llaman armbnicas del tono,

aunque, tbcnicamente hablando, e l t o n o e s r e a l m e n t e l a f r e c u e n c i a fundamental percibida.

cartílago tiroidc

falsa cuerda -cal

QlOt¡S

ligamento bucal

mlisculo bucal

cona cliistico

L-

cartílago crlcolde

primer anilio

t t a q u t a l

FIGURA 2 . C o r t e c o r o n a l d e l a l a r i n g e

E l sonido sordo o a f r i c a d o (que incluye a l o s p l o s i v o s ) s e

produce por un f l u j o t u r b u l e n t o de aire. Este es ocasionado por

(12)

Tiempo 440 rns

1

o Frecuencia 5 KHz -

FIGURA 3. Velocidad de volumen de l a g l o t i s : a ) forma de

onda en tiempo; b) e s p e c t r o en magnitud

2 . 3 . 2 . FILTRADO DEL CANAL BUCAL

E l c a n a l b u c a l f i l t r a a c ú s t i c a m e n t e l a f u e n t e de sonido permitiendo e l paso de ciertas frecuencias, mientras atenúa

o t r a s . T a l v e z e l modelo mAs s i m p l e d e l c a n a l b u c a l e s un tubo uniforme sin perdidas (Figura 4 ) . Este e s un t u b o c i l i n d r i c o de

p a r e d e s s 6 l i d a s con Area constante A y longitud

.L;

en uno de sus extremos se encuentra un pistbn, mientras que e l o t r o extremo se encuentra abierto. S i asumimos que e l p i s t b n es una f u e n t e i d e a l

de a i r e a p r e s i b n , que s o l o t i e n e v a r i a c i o n e s en l a v e l o c i d a d d e l volumen, no en l a p r e s i b n , en e l extremo abierto; que no hay

perdidas debido a v i s c o s i d a d o conducci6n termica; y que s o l o

(13)

donde :

p e s l a densidad del a i r e

c e s l a velocidad del sonido

P

e s l a p r e s i 6 n

u e s la v e l o c i d a d d e l volumen

Las dos últimas son funciones de

X l a d i s t a n c i a y

t e l tiempo

FIGURA 4. Tubo uniforme sin perdidas, de longitud 1 y Area A

E s t e s i s t e m a e s una l i n e a de t r a n s m i s i b n e l 8 c t r i . c a s i n perdidas con una f u e n t e i d e a l de c o r r i e n t e en uno de sus extremos y una terminacibn en c o r t o c i r c u i t o en e l otro extremo, donde l a

p r e s i 6 n a c ú s t i c a e s r e p r e s e n t a d a por e l v o l t a j e y l a velocidad

d e l volumen por l a c o r r i e n t e . E1 tuDo acClstico se c a r a c t e r i z a

mejor en e l dominio de l a f r e c u e n c i a , r e s o l v i e n d o l a s ecuaciones

(14)

velocidad l a f u e n t e

" u0 -

US

d e l volumen en e l v a c i o con l a v e l o c i d a d d e l volumen en U, :

Esta respuesta en f r e c u e n c i a s e i l u s t r a en l a F i g u r a 5 para

1=17.5 cm y c=35 O00 cm/seg. Los polos de V($l,l (donde e l

denominador s e h a c e c e r o ) s o n la s fr e c u e n c i a s de r e s o n a n c i a d e l tubo acústico y en este caso estAn sobre e l e j e

@.

En e l habla, l a s f r e c u e n c i a s de r e s o n a n c i a d e l c a n a l b u c a l l l a m a n s e

f ormantes.

FIGURA 5 . Respuesta en frecuencia de un tubo uniforme sin

perdidas (longitud=17.5 cm,velocidad del sonido 3 5 O00 cm/seg)

.

Puede obtenerse un modelo mhs r e a l i s t a c o n c a t e n a n d o v a r i o s t u b o s a c ú s t i c o s de d i f e r e n t e s Areas para representar e l c a n a l

bucal (Figura 6 ) . Aquí puede asumirse, sin perdida de

generalidad, que l o s t u b o s t i e n e n la misma longitud, l o que nos

ayudarA a l l e g a r a l m o d e l a j e en tiempo discreto del habla. Este

(15)

donde cada r k r e p r e s e n t a l a c a n t i d a d d e onda v i a j e r a r e f l e j a d a en cada uni6n. La funcibn de t r a n s f e r e n c i a d e l modelo e s t 6 determinada por e l conjunto Irk} y contendrA ímicamente polos.

Por l o t a n t o , la r e s p u e s t a en f r e c u e n c i a d e l modelo d e l c a n a l

bucal est& determinado ya sea por el conjunto de c o e f i c i e n t e s de r e f l e x i b n , l a f u n c i b n de Area ( e l conjunto de Areas de los tubos

concatenados), o l o s polos de l a f u n c i 6 n de tran5ferenci.a. La

respuesta en f r e c u e n c i a medida para una v o c a l /A/ sostenida s e

muestra en l a F i g u r a 7 .

FIGURA 6 . Tubos acústicos concatenados (cinco secciones)

Cuando desciende e l velo d e l p a l a d a r p a r a l a s v o c a l e s

n a s a l i z a d a s , l a rama n a s a l s e i n c l u y e en e l c a n a l b u c a l . La rama

o r a l tambibn s e c i e r r a ( p o r e j e m p l o , en l o s l a b i o s p a r a l a /M,'),

haciendo una cavidad resonante que a t r a p a l a e n e r g í a a c ú s t i c a en f r e c u e n c i a s " a n t i r e s o n a n t e s " . E s t o introduce ceros (donde e l

numerador s e hace c e r o ) en l a f u n c i b n de t r a n s f e r e n c i a

,

que s e

adicionan a l o s polos. En l a a n a l o g í a de l a l í n e a de

(16)

FIGURA 7 . Respuesta en f r e c u e n c i a d e l c a n a l b u c a l p a r a una v o c a l /A/ sostenida.

2 . 3 . 3 . RADIACI6N EN LOS LABIOS

La r e l a c i d n e n t r e l a v e l o c i d a d d e l volumen UOX2) y l a p r e s i d n

PUG) en l o s l a b i o s puede modelarse por una bocina plana con un

Area de abertura A:

(17)

t

Frecuencia

FIGURA 8 . Respuesta en f r e c u e n c i a d e l a c a r g a d e r a d i a c i h

(18)

c.

Fuente

F

Radiacidn

d

I

Radiacidn

Frecuencia Tiempo

FIGURA 9 . Ejemplo de un sistema de producci6n de V O Z Completo para un sonido sonoro sostenido (utilizando elementos de

l a s f i g u r a s 3,7, y 8 ) .

III. ANÁLISIS

/

SÍNTESIS DE LA S&L DE

voz

La Figura 10 muestra un esquema simplificado del problema de

a n 6 l i s i s / s í n t e s i s de v o z . A p a r t i r de l a s milestras d i g i t a l i z a d a s de una sedal de voz limitada en banda, s e r e q u i e r e c a l c u l a r en f o r m a r e p e t i d a l a s c a r a c t e r i s t i c a s e s p e c t r a l e s en corto tiempo de l a s e d a l . E n t o n c e s s e f i a l l a de voz es representada de manera 6nica por estos par6metros y puede s e r reproducida (sintetizada) mediante la excitacibn de un f i l t r o v a r i a n t e en e l tiempo que tenga características espectrales

i d e n t i c a s a l a s de l a sefíal de voz. E l a n h l i s i s d e l a voz es un

proceso que encuentra l o s parAmetros espectrales de l a voz a

(19)

Tren da pul606

4 Tono 1

FIltro de Andllsls

"+

Ruido Blanco

-

Flltro de Síntesis "+

--.+

I Fuente )

-+

Va z voz

Coeficientes de Rcflmiin Coeficientes de Rcflcxíin

FIGURA 10. Sistema de anAlisis de voz

La p a r t e d e a n 6 l i s i s d e l p r e s e n t e p r o y e c t o c o n s i s t e en d i s t i n g u i r e n t r e l o s s o n i d o s so n o r o s d e l h a b l a (v o c a l e s ) y l o s

sonidos sordos (consonantes) a f i n de lograr segmentar l a sefíal.

de voz en sus diferentes fonemas.

En s u p a r t e de s i n t e s i s , e s t e p r o y e c t o , c o n c a t e n a l o s

fragmentos encontrados durante e l a n A l i s i s en l a forma que decida e l usuario. E l o b j e t i v o f i n a l e s l o g r a r c r e a r un banco de

fragmentos para que a p a r t i r de e l l o s s e pueda formar pr6cticamente cualquier palabra o f r a s e que e l u s u a r i o d e s e e .

A continuacidn, veremos algunas de l a s herramientas de

(20)

IV. MODELO DIGITAL PARA LA PRODUCCI~N DE

voz

E l s i g u i e n t e modelo e s muy g e n e r a l p a r a p e r m i t i r una i n t r o d u c c i b n a l a n a l i s i s y s í n t e s i s de voz, pero a l mismo tiempo da una representaci6n adecuada de l a s s e n a l e s de voz. Debido a que e l a n a l i s i s s e r e a l i z a s o b r e m u e s t r a s en e l tiempo (y muestras en l a f r e c u e n c i a ) , l o s elementos se encuentran

necesariamente limitados en banda a l a f r e c u e n c i a de Nyquist ( l a

mitad de l a f r e c u e n c i a de muestreo). Se asume que e l s i s t e m a e s l i n e a l ( f u e n t e y f i l t r o s e p a r a b l e s ) .

4 . 1 . EXCITACIbN

La e x c i t a c i b n s e a p l i c a a l s i s t e m a de habla para producir

l o s sonidos que conforman a e s t a ú l t i m a . Los sonidos del habla

pueden modelarse de manera general con dos tipos de excitacih: sonora y sorda.

Para l o s sonidos sonoros del habla, s e n e c e s i t a una

e x c i t a c i 6 n de l a g l o t i s . E s t o s e modela por un t r e n de impulsos

separado por e l período de tono. E l t r e n de impulsos se f i l t r a

por un modelo de p u l s o s de g l o t i s G ( z ) y s e m u l t i p l i c a por un c o n t r o l de amplitud A. Idealmente, G ( z ) debe s e r un f i l t r o de r e s p u e s t a f i n i t a a l i m p u l s o ( F I R ) que contenga

solo

ceros, porque s e s a b e que l o s pulsos de l a g l o t i s son d e d u r a c i b n f i n i t a e n t r e

l o s periodos donde l a g l o t i s e s t A c e r r a d a . S i n embargo, ya que

l a e x c i t a c i 6 n de l a g l o t i s t i e n e una atenuaci6n en amplitud de

-

12 dB/octava, G ( z ) s e modela frecuentemente p o r un f i l t r o de r e s p u e s t a i n f i n i t a a l i m p u l s o ( I I R ) con dos p o l o s :

I

G(z) = (I

-

g,s”) (I

-

g,?)

(21)

E s t e e s un d i f e r e n c i a d o r d i g i t a l s i m p l e con un Único cero en DC.

4 . 4 . MODELO COMPLETO

E l modelo completo s e il u s t r a en l a Fi g u r a 11, donde un i n t e r r u p t o r d e t e r m i n a e l modo de e x c i t a c i 6 n . Ya que s e asume que

l o s elementos individuales son lineales, se puede f-ormar a p a r t i r

de e l l o s una s o l a f u n c i b n de t r a n s f e r e n c i a de parAmetros

concentrados:

H ( z ) = G ( z ) V ( z ) R ( z )

En e s t e c a s o , s e a p l i c a a l f i l t r o H ( z ) ya s e a un t r e n de tonos

escalados en amplitud o una secuencia de r u i d o al e a t o r i o p a r a p r o d u c i r l a s e n a 1 de voz s ( n )

.

Para producir diferentes sonidos d e l h a b l a , l o s parAmetros d e l modelo (período de t o n o , d e c i s i 6 n

sonoro/sordo, amplitud, y c a r a c t e r í s t i c a s d e l fi l t r o H) pueden

a c t u a l i z a r s e en c u a l q u i e r momento. De h e c h o , e s t a e s l a f o r m a en que t r a b a j a n l o s sistemas de s í n t e s i s c o m e r c i a l e s .

Aún cuando e l s i s t e m a d e s c r i t o a n t e r i o r m e n t e y a ha s i d o

implantado con bxito, l a c a l i d a d de voz que s e o b t i e n e no e s muy buena, i . e . l a s f r a s e s suenan mec6nicamente pronunciadas. La v e n t a j a de un proyecto como e l que nos concierne, e s que l a i n f o r m a c i h d e l r i t m o e i n f l e x i b n de voz empleadas por e l h a b l a n t e a l momento de g r a b a r l a s s e d a l e s de voz, se mantiene en

l o s segmentos, dando como r e s u l t a d o una voz s i n t e t i z a d a mucho m&

n a t u r a l . La desventaja de nuestro mBtodo, e s l a gran cantidad de

memoria que debe u t i l i z a r s e p a r a o b t e n e r un banco de fragmentos s u f i c i e n t e p a r a l a c r e a c i ó n de " t e x t o i l i m i t a d o " .

v .

ANÁLISIS EN EL DOMINIO DEL TIEMPO

Introduciremos algunos mbtodos de a n 6 l i s i s p a r a e l

procesamiento de l a s e d a l de voz. Estos metodos se encuentran en e l dominio del tiempo.

La s e A a l a c ú s t i c a de l a voz e x i s t e como v a r i a c i o n e s de presibn en e l a i r e . Un m i c r 6 f o n o c o n v i e r t e e s t a s v a r i a c i o n e s de presibn en c o r r i e n t e e l b c t r i c a r e l a c i o n a d a con l a p r e s i b n

(22)

una s e r i e de impulsos nerviosos que son t r a n s m i t i d o s a l c e r e b r o ) . Para procesar la sefial de voz d i g i t a l m e n t e , n e c e s a r i o e s

d i s c r e t i z a r l a f o r m a de onda a n a l b g i c a t a n t o en tiempo (muestreo) como en a m p l i t u d ( c u a n t i z a c i h )

.

I

b

FIGURA 11. Modelo de p r o d u c c i 6 n d i g i t a l de voz completo.

5 . 1 . MUESTRE0

E l teorema de muestreo establece que una s e ñ a l d e b e s e r muestreada a l menos a l doble de l a f r e c u e n c i a m6s a l t a c o n t e n i d a

en l a sefial para evitar e l traslape. Esto se logra generalmente

f i l t r a n d o l a sefial con un f i l t r o pasa bajas con una f r e c u e n c i a de c o r t e menor a l a mitad de l a f r e c u e n c i a de muestreo. La mitad de

l a f r e c u e n c i a de muestreo se conoce comc l a f r e c u e n c i a de Nyquist, y e s l a m3xima frecuencia contenida en l a sefía1 d i s c r e t i z a d a en e l tiempo. Algunas tasas de muestreo comunes

(23)

t T e l e f o n í a d i g i t a l .

E l estandar actual es muestrear l a sefial a una f r e c u e n c i a de

8 KHz, l o que r e s u l t a en una f r e c u e n c i a de Nyquist de 4

KHz.

*

P r o c e s a m i e n t o d i g i t a l g e n e r a l .

Una t a s a de muestreo común para e l procesamiento de voz ( t a l

como reconocimiento de voz) es de 10

KHz,

resultando una

f r e c u e n c i a de Nyquist de 5KHz (que f i l t r a a l g o de l a e n e r g í a a

a l t a s f r e c u e n c i a s de l a s f r i c a t i v a s ) .

*

Fricativas completas o p a t o l b g i c a .

Para e l a n d l i s i s completo de l a s f r i c a t i v a s y algunas sefiales de voz patolbgicas, que t i e n e n fr e c u e n c i a s de hasta 10

KHz,

s e u t i l i z a una t a s a de muestreo de 20

KHz.

*

Disco compacto.

Como un ejemplo de l a c a l i d a d de grabacibn a n i v e l de " e s t u d i o " , la ta s a de muestreo de l o s discos compactos es de

aproximadamente 4 4

KHz,

resultando una f r e c u e n c i a de Nyquist de

alrededor de 22

KXz,

que cubre completamente e l rango de

frecuencias captadas por e l oído humano.

Es importante entender que, para prevenir la distorsi6r-1 por

t r a s l a p e , s e f i a l l a en l a f r e c u e n c i a de Nyquist debe e s t a r idealmente entre 30 y 40 dB p o r d e b a j o d e l v a l o r medio de

energia de l a s e f i a l ( e n o t r a s p a l a b r a s , l a f r e c u e n c i a de c o r t e a -3 dB d e l f i l t r o a n t i t r a s l a p e debe f i j a r s e no a l a f r e c u e n c i a de

Nyquist, sino por debajo de & S t a ) .

Por

ejempl.0, en sefiales muestreadas para telefonía digital (tasa de muestreo de 8

KHz),

l a atenuacibn comienza en 3 . 4

KHz,

con una pendiente de

aproximadamente -60 dB/octava.

5 . 2 . CUANTIZACI~N

Es n e c e s a r i o r e p r e s e n t a r c o n t i n u o e l de las amplitudes

muestreadas de s e d a l l a p o r un número f i n i t o de v a l o r e s d i s p o n i b l e s en e l f o r m a t o d i g i t a l , dado por B b i t s . For ejemplo,

s i e l v o l t a j e de l a s e d a l ( a p a r t i r de un micr6fono amplificado), que t i e n e un rango de 2 5 V, es cuantizado a 10 b i t s , s e u t i l i z a r a n 1024 v a l o r e s d i s c r e t o s p a r a r e p r e s e n t a r e s e r a n g o : -

no es necesario mantener unidades de v o l t a j e ; l a r e p r e s e n t a c i 6 n

e n t e r a e s s u f i c i e n t e . ) E l e r r o r que r e s u l t a a l redondear el. v a l o r a n a l s g i c o a l v a l o r d i s c r e t o m&s cercano se llama e r r o r o

ruido de cuantizacibn. Para una c u a n t i z a c i b n l i n e a l ( o uniforme)

(24)

que u t i l i z a tamaños de paso i g u a l e s e n t r e v a l o r e s d i s c r e t o s

c o n t i g u o s , l a r e l a c i 6 n s e f l a l a ruido (SNR) para e l r u i d o de cuantización (en d B ) puede aproximarse por

SNR (dB) = 6 B - 7 . 2

Esta aproximación asume que e l r u i d o de cuantizaci.ón es e s t a c i o n a r i o y blanco ( l o que s i g n i f i c a que l a sefIal de entrada debe fluctuar continuamente sobre e l r a n g o ) , que e l r u i d o e s t & correlacionado con l a sena1 ( l o que s i g n i f i c a que e l tamaño d e l

paso es l o suficientemente pequeno), y q u e e l rango d e l cuantizador se acopla al rango de p i c o s de l a seAaI. Debido a 1.a

d i f e r e n c i a de energía del habla sonora y sorda, se considera n e c e s a r i o u t i l i z a r una cuantizacibn uniforme de 11 a 1 2 b i t s para una representacibn de voz de a l t a ca l i d a d (e l d i s c o compacto u t i l i z a c u a n t i z a c i ó n de 16 b i t s para un rango din6mico muy amplio t a n t o en voz como mfisica).

En la cuantización uniforme, debido a que e l tamaño del paso permanece c o n s t a n t e s o b r e e l r a n g o de l a s e ñ a l , l a SNR es mejor

para valores grandes de amplitud que para valores pequefios. S i n

embargo, no e s n e c e s a r i o u t i l i z a r una cuantizacibn unif-orme. La cuantizacibn logaritmica (algunas veces llamada compresión

i n s t a n t h e a ) u t i l i z a un paso m& grande para amplitudes mayores y mantiene una SNR c o n s t a n t e so b r e el ra n g o de amplitudes de l a

sefial. La c u a n t i z a c i ó n u t i l i z a d a en t e l e f o n i a d i g i t a l , c o d i f i c a c i ó n con l e y p (una aproximación segmental logaritmica),

u t i l i z a 8 b i t s por muestra dando una calidad de p e r c e p c i h equivalente a una codificaci6n uniforme de 12 b i t s . Existen muchos esquemas de cuantizacibn m6s complejos (y

mas

6ptimos), incluyendo l o s metodos adaptivos y de bloque, pero generalmente

empiezan con una forma de onda digital cuantizada uniformemente.

E l t i p o de c u a n t i z a c i b n u t i l i z a d o p a r a o b t e n e r l a s e n a 1 de v o z d i g i t a l i z a d a en e s t e p r o y e c t o f u e l a c o d i f i c a c i 6 n con l e y p.

Para una t a b l a de conversi6n entre cuantizaci6n lineal y l e y p

v e a s e e l Apbndice A.

5 . 3 . CONCEPTO DE ANALISIS EN CORTO TIEMPO

E l a n 6 l i s i s en corto tiempo es un concepto central en e l procesamiento digital. Generalmente se requiere en l a mayoría de los metodos de a n 6 l i s i s que las propiedades de l a sefial sean

(25)

tono de un segmento de conversación de aproximadamente cinco minutos.

jqujj

c-uaijilo

l a

s e c a l

de 1jo

es

invariante

en

el tiempo, las propiedades de la seflal varian "relativamente" lento en e l tiempo. De e s t a manera, segmentos cortos de sefíal de voz pueden s e r a i s l a d o s y procesados como s i f u e r a n i n v a r i a n t e s en e l tiempo. [ E l a n 6 l i s i s de tramas de segmentos puede t r a s l a p a r s e ) .

Es d e s e a b l e t e n e r s u f i c i e n t e s d a t o s en cada trama para

c a r a c t e r i z a r l a p r o p i e d a d de interbs, balanceado con e l deseo de no contaminar l a propiedad. Un ejemplo d e e s t o e s l a e x t r a c c i 6 n

de tono. Por d e f i n i c i ó n , e s n e c e s a r i o t e n e r por l o menos dos

periodos de tono para definir e l tono (entre más periodos mejora l a c o n f i a b i l i d a d ) , p e r o s i e l t o n o e s t 6 cambiando rápidamente, a l considerarse muchos periodos no s e l o g r a r 3 un r a s t r e o c o r r e c t o del tono. De manera muy general, un v a l o r de longitud de trama

para e l a n k l i s i s de sefiales de voz es de aproximadamente 30 mseg (aprox. 2 4 0 muestras a 8 KHz) y un corrimiento de trama d e l orden de 10 mseg.

5 . 4 . MEDICIONES EM CORTO TIEMPO

Las s i g u i e n t e s f u n c i o n e s o mediciones se denominan de c o r t o tiempo porque s e re a l i z a n en un segmento de sena1 de longitud

finita. Estas mediciones son est6ndar y s e u t i l i z a n comúnmente en e l a n 6 l i s i s de voz.

5.4.1. AMPLITUD PICO

La amplitud pico es simplemente l a amplitud de mayor v a l o r absoluto que ocurre en l a trama analizada. Generalmente es ú t i l para d i s t i n g u i r e n t r e e l h a b l a s o n o r a y sorda 0 como un mktodo de normalizaci6n de ganancia en una trama de procesamiento de punto

f i j o .

5.4.2. E N E R G ~ A

La energia en corto tiempo se define como l a suma de l o s

cuadrados de l o s v a l o r e s de l a s e n a 1 d e n t r o de l a trama analizada

(26)

E s conveniente introducir en este punto e l uso de l a s

ventanas, entonces la ecuacibn anterior puede escrilnirse

=

O

en otro caso

donde w ( n ) en e s t e c a s o e s una ventana rectangular de longitud

N

y amplitud 1 ( l a amplitud puede f i j a r s e a 1/N para

normalizaci6n). Tambien, s i se desea, pueden u t i l i z a r s e v e n t a n a s de otra forma (por ejemplo, triangular)

.

s i

N e s muy pequefia, l a f u n c i ó n de energía mostrarh

fluctuaciones rApidas debidas a l a p r e s e n c i a de p e r i o d o s individuales de tono, mientras que s i N e s mayor, l o s cambios

r6pidos en l a e n e r g i a s e promediarhn resultando una funci6n m A s suave. S i n embargo, s i M e s demasiado grande, l a f u n c i b n tendrh pequeflas v a r i a c i o n e s y no r e f l e j a r A l a s propiedades cambiantes de l a sef'íal de voz.

5.4.3. MAGNITUD PROMEDIO

La funci.6n de magnitud promedio es simi-lar a l a f u n c i ó n de

energia s o l o que sin l o s pesos elevados a l cuadrado (lo que puede

ocasionar que l a f u n c i ó n de e n e r g í a s e a s e n s i b l e a amplitudes de sella1 grandes) :

Tanto l a fu n c i ó n de energía como l a de magnitud promedio son

ú t i l e s p a r a hacer d i s t i n c i b n entre sonidos s o r d o s y sonoros, s u

implementacibn en hardware e s d i r e c t a .

5 . 4 . 4 . TASA DE CRUCES POR CERO

Otra medici6n simple es l a t a s a de cruces por cero, d e f i n i d a

(27)

La t a s a de cruces por cero provee una i n d i c a c i b n ge n e r a l d e l contenido de f r e c u e n c i a y a que l a s s e i i a l e s de a l t a s f r e c u e n c i a s

( t a l e s como l o s sonidos sordos) t i e n e una t a s a de cruces por c e r o

mayor (Figura 1 4 d ) . Por l o t a n t o , e s t a f u n c i b n e s ú t i l p a r a l a d e t e c c i 6 n de s i l e n c i o s y sonidos sonoros/sordos. Tambikn e s muy f 6 c i l de implementar en hardware.

5 . 4 . 5 . FUNCIdN DE AUTOCORRELACIdN

La f u n c i 6 n de a u t o c o r r e l a c i h g e n e r a l (ACF) s e d e f i n e como

La ACF e s grande cuando una versibn retardada de l a seAa.1 e s s i m i l a r a l a s e f í a l ( i . e . , c o r r e l a c i o n a d a ) , donde k = r e t a r d o ( l a ACF e s mdxima cuando k=O y es equivalente a l a e n e r g í a ) . De e s t a

manera la ACF e s grande cuando e l retardo e s i . g u a l 3

periodicidades contenidas en l a s e b a l . S i , por ejemplo, l a s e ñ a l

S e s p e r l b d i c a L'0I-i p e r í o d o P, entonces

N6tese que b ( 0 ) = E, ( l a e n e r g í a en corto tiempo)

.

La ACF e s m6s d i f í c i l de c a l c u l a r que l a s f u n c i o n e s anteriores. Requiere un orden de N2 m u l t i p l i c a c i o n e s y sumas.

5.4.6. FUNCIdN DIFERENCIA DE MAGNITUD PROMEDIO

Similarmente a l a ACF, l a f u n c i ó n de d i f e r e n c i a de magnitud

promedio (AMDF) s e d e f i n e como:

(28)

c a l c u l a r , y a que s e e v i t a n l a s m u l t i p l i c a c i o n e s n e c e s a r i a s p a r a c a l c u l a r l a ACF.

5 . 5 . DETECCI6M DE SONOROS/SORDOS/SI LENCIOS

Veremos de manera general como pueden u t i l i z a r s e l a s

funciones anteriores para clasificar segmentos de VOZ como

sonidos sonoros, sordos y s i l e n c i o s y p a r a d e t e c t a r e l to n o de

l o s sonidos sonoros. A continuaci6n se dan algunas formas

generales para lograr esto:

*

S i l e n c i o .

La energia ( o magnitud promedio) y l a t a s a de cruces por cero esthn por debajo de cierto umbral. Esto sirve para

"limpiar" e l habla; cuando las señales estAn contaminadas por

n i v e l e s c o n s i d e r a b l e s de ruido, es muy d i f i c i l d i s t i n g u i r e n t r e porciones no habladas y porciones de sonidos sordos.

*

Sonidos sordos.

La t a s a de c r u c e s p o r c e r o e s t 6 p o r a r r i b a de c i e r t o umbral,

ya que l o s sonidos sordos tienen altas irecuencias dominantes.

Ademfis, un segmento puede s e r c l a s i f i c a d o como sordo s i e l v a l o r

de l a m6xima ACF (en algún rango de retardos arriba ds c e r o ) e s t 6 p o r d e b a j o d e ci e r t a fr a c c i b n de l a energía del segmento (el

v a l o r d e l a ACF con r e t a r d o c e r o ) .

*

Sonidos sonoros.

La e n e r g í a e s t & p o r a r r i b a de c i e r t o umbral (y l a t a s a de c r u c e s p o r c e r o e s t 6 p o r d e b a j o ) . AdemAs, s i e l p i c o de l a ACF

(en alg6n rango de retardos arriba de c e r o ) e s t a a r r i b a de c i e r t a f r a c c i 6 n d e la en e r g í a (i n d i c a n d o una f u e r t e p e r i o d i c i d a d ) , e l

segmento puede s e r c l a s i f i c a d o como sonoro.

f Tono.

Para l o s sonidos sonoros, e l tono puede estimarse

por

e l r e t a r d o d e l v a l o r mAximo de l a ACF en cierto rango permitido (por

ejemplo, 60 - 350 H z )

o ,

similarmente, por e l r e t a r d o d e l v a l o r mínimo de l a AMDF. A v e c e s e s ú t i l remover primero algo de l a correlacibn entre muestra y muestra (que da lugar a l a c r e a c i 6 n de p i c o s e x t r a en l a ACF) mediante una operaci6n de recortamiento

d e c r e s t a s c e n t r a l . Los metodos que u t i l i z a n l a d e t e c c i 6 n de

picos tambibn tienen cierto b x i t o .

(29)

l a s t k c n i c a s de p r e d i c c i 6 n l i n e a l pueden u t i l i z a r s e p a r a e s t i m a r e l tono a p a r t i r de una f o r m a de onda r e s i d u a l f i l t r a d a

inversamente.

V I . ALGORITMO SEGMENTADOR

/

SINTETIZADOR DE SEÑALES DE VOZ

6 . 1 . O b j e t i v o s

1 . R e a l i z a r e l anA1i.si.s de sefiales de voz a partir d e s u

r e p r e s e n t a c i b n d i g i t a l i z a d a .

a ) E i s t i n q u i r e n t r a x x a l e s , cmsonantes y s i l e n c i o s .

b ) Determinar l a d u r a c i 6 n de l a s v o c a l e s , a f i n de c r e a r segmentos cuya longitud sea igual a l número de muestras entre l a

mitad de una v o c a l y l a mitad de l a s i g u i e n t e .

2. A p a r t i r de l o s segmentos de habla obtenidos por e l

procedimiento anterior, crear nuevas sefiales de v o z .

3 . Automatizar l o s procedimientos anteriores.

6 . 2 . D e s a r r o l l o

Este proyecto comen26 con l a implementaci6n de un

graficador; capaz de descomprimir datos almacenados en un archivo en f o r m a c o d i f i c a d a (l e y p), y desplegarlos e n p a n t a l l a e n una

escala conveniente. Como r e s u l t a d o podemos v i s u a l i z a r l a forma de onda de l a s sefiales de voz, grabadas digitalmente en l o s

archivos. Para descomprimir, este graficador traduce, mediante

un a r r e g l o , l o s d a t o s d e l a r c h i v o que varían entre O y 2 5 5 a sus

equivalentes en ley p que v a r í a n e n t r e - 8 0 3 1 y

+

8 0 3 1 , como l o muestra l a s i g u i e n t e t a b l a :

i n t tabla [256] =

{8031,7775,7519,7263,7007,6751,6495,6239,59~3,5727,

5471,5215,4959,4703,4447,4191,3999,3871,3743,3615,

3487,3359,3231,3103,2975,2847,2719,2591,2463,2335, 2207,2079,1983,1919,1855,1791,1727,1663,1599,1535,

1472,1407,1343,1279,2215,1151,1~~?,1023,975,943,

(30)

375,359,343,327,311,295,279,263,247.231,

219,211,203,195,187,179,171,163,155,147.

139,131,123,115,107,99,93,89,85,81,

77,73,69,65,61,57,53,49,45,41,

37,33,30,28,26,24,~2,~0,~~,~6,

1 4 , 1 2 , 1 0 , 8 , 6 , 4 , 2 , 0 ,

-8031,-7775,-7519,-7263,-7007,-6751,-6495,~6239,~5983,-5727,

-5471,-5215,-4959,-4703."447,-4191,-3999,-3871,-3743,-3615,

-3487,-3359,-3231,-3103,-2975,-2847,-27.t~,-2591,-2463,-2335,

-2207,-2079,-1993,-1919,-1955,-1791,-17~~,-1663,-1599,-1535, -1471,-1407,-1343,-1279,-1215,-1151,-1087,--1023,-975,-943, -911,-879,-947,-915,-383,-751,-751,-719,-687,-655;-623,

-591,-559,-527,-495,-471,-455,-439,-423.-$07,-~7,-391,

-375,-359,-343,-327,-311,-295,-279,-263,-247,-231,

-219,-t11,-203,-195,-187,-179,-171,-163,-155,-147,

-139,-131,-123,-115,-107.-99,-99,-93,-89,-85,-81,

-77,-73,-69,-65,-61,-57,-53,-53,-49,-45,-41,

-37,-33,-30,-2t3,-26,-~4,-20,-18,-20,-~~,-1~,

-14,-12,-10,-8,-6,-4,-2,-0 };

A p a r t i r de l a s f o r m a s de onda de las seAales de voz, podemos darncjs cuenta que:

f Las v o c a l e s t i e n e n una duracidn mucho mayor que l a s

consonantes.

f La amplitud de l a s vocales por l o general. es de 2 a 3

v e c e s mayor que l a de las consonantes.

f Algunas consonantes nasales como l a 'm* y la 'n' s e contaminan tanto por l a v o c a l q u e l e s s i g u e que no pueden

d i s t i n g u i r s e f h c i l m e n t e de b s t a .

*

Las c o n s o n a n t e s fr i c a t i v a s como l a 'S' tienen forma de

ruido.

(31)

*

La medida de l a d e l h a b l a n t e , determinar un t a l e s .

amplitud y duracibn de una v o c a l depende en gran f u e r z a con que f u e pronunciada, e l estado de Animo y de muchos o t r o s f a c t o r e s , l o que hace muy d i f í c i l patr6n constante que i d e n t i f i q u e a l a s v o c a l e s como

*

La mayoria de l a informacihn presente en l a se ñ a l de voz en e l espaAol se encuentra contenida en l a s v o c a l e s . P o r eso obtenemos l o s segmentos iniciando en l a mitad de una v o c a l y terminando en l a mitad de l a s i g u i e n t e .

6 . 2 . 1 . Algoritmo Manual

A continuacibn daremos una explicac.i6n d e l al.gorit.mo de

segmentacihn manual, describiendo a grandes rasgos cada una de sus r u t i n a s y s u r e l a c i h n con l a s bases matematicas antes

mencionadas. (Para una e x p l i c a c i h m6s d e t a l l a d a de cada comando consulte e l manual de usuario en e l Apéndice b).

*

Rutina Principal

void rain(void) {

int drive,modo;

detectgraph( (int Ear*}cdrive, (ínt Ear*)cmodo);

initgraph(adrive,modo,"");

X = getmeurx ( ) ;

Y = getmaxy1);

presentat } ;

cslbia-archivo ( ) ; m-( > i

closegraph() ;

\

I n i c i a l i z a e l modo g r d f i c o , e s t a r u t i n a l l a m a a l r e s t o d e l

programa a t r a v 4 s de menu(). A1 f i n a l se r e s t a u r a e l modo t e x t o .

*

Rutina de presentacibn

void presenta[)

p a r h a l l a ( B E A C K , X W ~ H _ ~ L , ~ ~ B ~ , ~ 6 ~ D ) ;

aarco ( ) ;

3 e t t m t s t g l e ( G O T K I C _ M Y T , H O ~ - D ~ , 3 ~ ;

o u t t e x t x g ( 5 0 , 3 0 , ' ~ ~ A m H O N A IIGIROPOLITAWA"); ~ t m t x y ( 2 2 0 . 8 0 , ~ ~ A P ~ P A " ) ;

outtextxp~170.180,"PROYECTO TZFUUNAS");

settextstyle(MTIIIC_mBr,HO~X_DIR,5); o u t t e x t x g ( 1 1 0 , 2 6 D , " ~ S I S DE VOZ");

s e t t m t s t y l e ( ~ P ~ ~ _ M I I T , H O R I Z - D D I R , 2 ) ;

(32)

1

cnter(170.450);

E l programa pasarA a l a s i g u i e n t e p a n t a l l a h a s t a que s e oprima l a t e c l a EXJTER.

*

Rutina menu

void menu( 1

char tec;

do

(

p a n t a l l a ( B L A C K , X E I * T C H _ R I G L , x ~ ~ x U E , L I ~ D ] ; marco ( ) ;

settextstyle ( T R I P I ; E x - ~ B T , H Z - D 3 R , Z ) ; OUttCXtXy(100,100,"1. GKafiCaK") f

OuttCXtXg(l00,l50,"2. C d i a r Archivo");

~uttuctxg(lO0,200.''3. xigar");

outtextxy(lOD,2S0,"4. Salir");

outtcxtxy(100.350,"

tec=getch() ;

svitch(tecI

Seleccione una opcion");

I

case ' 1' : paramctros ( ) ; break; case ' 2 ' : canbia-archivo ( ) ;

break;

case '3l: ligar();

caae '4' : tec=0;

default : outt~xtxy(100,ri00,'.Error: Seleccione 1 a 4");

break;

break;

enter(100,450); break;

)

luhile(tcc) ;

1

A p a r t i r de e s t a p a n t a l l a s e puede pasar a cuatro opciones:

parametros(), cambia archivo(), ligar(), salir. Este menú

controla el funcionamiento completo d e l programa.

*

Rutina para captura de parhmetros

void parnmetroa ( ) {

long m;

p a n t a l l a ( B L A C K , X H C H - ~ , x I ~ ~ ~ , L ~ ) ;

marco ( ) ;

9cttcxt8tglc(~LEX_mllT,XORIZ-DW,2);

outtcxtxy(100,100,"Cual es el limite izquierdo?"); iz:q.capt~long~100.150.6,14~;

outtmtxy(100.200,"CuaI es el limite dcrcchol"); der=capt_long(100,250,6,14);

íf(der==izq\

der-;

if (der<iaqJ aux=der;

(33)

La v a r i a b l e izq e s l a muestra a p a r t i r de donde s e

desplegar6 e l archivo de voz. La v a r i a b l e der e s l a ú l t i m a

muestra que se desplegarh. La v a r i a b l e pri e s e l v a l o r mlnimo

que puede tomar izq debido a l a e l i m i n a c i h n d e l ruido() en e l

archivo. N e s e l número de muestras que s a l t a r A p a r a g r a f i c a r .

*

Rutina para captura del nombre d e l a r c h i v o a g r a f i c a r

void cambia-archivo ( )

I

-E *fuente;

char h;

Aquí s e c a p t u r a e l nombre d e l a r c h i v o que s e d e s e a g r a f i c a r .

S i e l a r c h i v o o l a r u t a de acceso son i n c o r r e c t o s s e mandará un

(34)

t Rutina de l e c t u r a de datos

unsigned char lectura(offset) long offset;

unsigned char dato;

-E *fuente;

fucntc=fopcn(ruta,"rb"); fseck(fucnte,offset,SEEIC_,SET); fread[cdato,l,l,fumte);

zeturn(dato) ;

fclose [fuente) ;

1

E s t a r u t i n a l e e un dato en formato binario del archivo de voz.

*

Rutina de e1iminaci.h de ruido en e l a r c h i v o de voz

void ruido (void)

I

int k;

long i=O,punto=O;

Los datos que sean menores a 1 5 0 en valor absoluto ser6n

La v a r i a b l e pri se i n i c i a l i z a con l a posici6n del primer dato

tomados como ruido de l a sefíal y no se desplegarAn en p a n t a l l a .

que sobrepasa este umbral.

t Rutina graficadora

void dlbujelchar sig)

long i,j=O,punto; int IC;

char cad[lO]="";

pMtalla(BLACK,EliP-~,O,O~; Pazco ( ) ;

line(Z.Y/Z,X-Z,Y/Z);

line[10,2,10,Y-Z~ ;

setcolor [LIlsxfrcYAN) ;

~ c t l i n c s t y l e ( S O E ~ ~ ~ ~ , 1 , 1 ) ;

(35)

Kango=deK-izq;

if (otto)

ízqlast; der=last+rango; >

separa=x/(rango/ll);

k=lectua(irq) ;

punto=tabla[k]/escala;

aaveto(Ll,Y/Z-(int)punto);

fOr(í=ieq;i<=der;í+EN)

t

k=lectura(i);

punto=tablalk]fescala;

lineto[ll+(int) (separa*jI,Y/Z-(int)punto);

rwcto[ll+(int) (separa*j] ,Y/Z-[int)punto);

j++;

f

settextstyle(DEFAlJ%T-FLlrVr,Ho€Uz-DYR,l);

s e t C O l O K ( ~ Z 0 ~ ) ;

outtextxy(350,10,ruta) ;

0uttextxy(80,10," 1y =");

0uttmtxy(80,30,"Lir. Inf. =");

outt~xtxy(80,50.'zír. sup. = y ;

setcolor (WKFJZ) ;

ltoa(P,cad,lO); outtextxg(180.10,oad); ltoa(izq,cad,lO); outtcxtxg(l80,30,cad); ltoa(der,cad,iO); outtextxy(1~0.50,cad);

mensajes ( } ;

if ( ! s i g )

SetCOlOK ( L I B ) ;

1

C U K S O L ( ) j

E l rango determinará cuantas muestras s e mostrarhn e n

p a n t a l l a .

Separa

e s

l a

d i s t a n c i a

en p i x e l e s

q u e

e s t a r &

separada

cada muestra de s u vecina. Punto e s la magnitud e s c a l a d a d e l dato leido del archivo para poder ser desplegada en p a n t a l l a .

-k Rutina despliegue de mensajes

void mensajes ( )

setcolor (WHms) ;

outtmtxy(80,410,"<- - > y ;

outtextxy(80.420," * ");

outtext~g[e0,430,~ A ");

outte~txy(80,440,~ R ") ;

outtextxy(90.450," W " I ;

outtcxtxy(300,410, "Enter ") ;

outtaxtxg[300,420,2sc ") ;

outtextxy(300,430,"Space "); outtatxy(300,440,'~kapace'');

setCOlOK (LIGHTSREEN) ;

outtextxy[l35,410, "CUKSOL") ; outtextxy(l35,42O,"Carbia rango");

outtextxg(135,430,"~plía grafica");

(36)

OUtteXtXp(135,450,"Seg. Autoratíca");

outtextxy(375,410,"Segmenta"); outtextxy(375,420,"!tenu anterior"); outtextxg1375,430,"Pantalla siguiente"); outtextxy (375,440, "Pantalla anterior") ;

1

Estos mensajes son un submenú dentro de l a r u t i n a d i b u j a ( ) .

*

Rutina controladora de l o s movimientos d e l cursor y funciones de segmentacibn en l a r u t i n a dibuja( )

.

void w s o r ( ) (

int j=O,aux,donde;

unsigned int tecla; long awisq,auxder;

char ref=o,ref2=0,sip=O,cadena[1OJ="";

k=izq;

while( [tecla=bioskey(O)) !=0xOllb)

long p o s , L w ;

(

sultch(tec1a)

r:

ca8e 0xr1800 : /* FLECHA )rRIuBA */

bar(180,30,300,40);

auxizq=capt-long(l80,30,3,1); baK(180,50,300,60);

auxdcr=capt_long(l80,50,3,1~;

if (awizq.=auxder) auxderi+;

i f [auxiecpawder) (

k'auxieq;

auxizq=auxdcr; awder=k;

1

if (auxiee=pri)

izq=k=auxizq; der=auxder;

ref=O; t

else

iETk=pri;

der=pri+(auxder-auxlrq) ;

ref=l; 1

H=rango/ ( X - 2 2 ) +l;

separex/ ( K a n g o f w ) ; KangO=deK-iZq;

dihuja(1);

j"aip=principio=€in=atto=O;

if (ref)

outtextxg(80,m,*p m u m o * + ) ;

break;

(37)

if (atto) {

iZFla8t; der=lasthango;

1

else

iEq=dc!K; der+=rango;

1

k=ieq;

j=sip=principio=fiO; dibujs(1);

rcfz=otto=O;

break:

cane OxOeOe: /* R L ~ O C E S O */

if (ottn)

t

irvfirst; der=first*rango; >

if ((ieq-rengo)>=pri)

I

der=ieq;

kzizq;

izq-=rango;

rcf=O; 1 else

I

izq=k=pri; der=izq+raugo;

ref-1; 1

j=sip-principio=fin=otto=0;

i f ( ! r e f 2 )

i f (ref) dibuja(1);

t

setcolor (PGZLOV) ;

r e f s l ;

outtextxy(80,40," lDlJDt0 ");

1

break.:

case 0x1352: /* LETRa R */

case 0x1372:

aw=escala*Z; if ( aux<=63)

(

(38)

1 else

I

dibuja(1) ;

s e t c o l o r (YEYELEOW) ;

outtextxy(X-25.P/2-?5,~SC~II # e m u " } ;

a e r t e x t s t y l e ( ~ L E X _ ~ ~ . Y E R T _ D W , 1 J ;

1 break;

case Ox4dOO: /* FLECHA DERECHA + /

t*X;

{

If (t<=der)

sctfillstglc(SOLID_EILL,~LO~); 5 *;

bar(ll+(int)separa*j,Y/Z+1,1l+~intt)sepsra*j,Y/Z-l);

1 else

lL-=x;

break;

case OxOfO9: /* TAB DISRECHO *f

k+=. (10%) ; if (k<=der)

setfillstyle(SOLID~~L,YELLOw); 3-10;

bar(j,Y/2+l,j+lO.Y/2-1);

1 else

k-= ( 1O*Ml ;

break;

case OxlcOd: /* EWlZR */

if (!lip)

{

p r i n c i p i P t ;

ltoa(principio,cadena,lO);

o~textxy(350,70,"Princ. =") i

ou~tuttxy(450.70,cadena);

sip=l;

SCtCOlOK S I L ( '

) ;

(39)

setcolor (PELLO.) ;

linn(ll+(int)ssepara*j,Y/2+255/2,11+(int)separa*j,Y/2-255/2);

1

else (

f i w k ;

ltoaIEin,cadena,lO);

outtextxy(350.90,"Pin

sctcoloz (WmTlc) ;

= ") ;

outtextxg(450,90,cadena); setcolor(YELE0WI;

linc(11+(int)separa*~,Y/2+255/2,11+(int)sepaza*j,~/2-255/2); archivar ( ) ;

nip=principio"fin=O;

dibuja(1) ;

8CtCOlOK(LISHIIZeD);

1

b r e a k ;

case 0x1177: /* LETRA IT */

case 0x1157:

autoratico ( ) ; )r=izq;

break; 1

p o s (J*H) +irq;

donde=lcctura(k) ;

-&la[ donde];

s c t f i l l s t y l e ( E ~ ~ _ R I ; L , O ) ;

scttextstyle~DEPU'IET_M~,HORnplR,l}; 8 e t C O l O K ( L X m D ) ;

outtcxtxy(3SO,30,"Cursor = y

outtcxtxp(350,50,"luplitud ='I);

;

sctcolor (nIIilmz) ; bar(450,30,500,40);

outtextxy(450.30,cadena); ltoa(pos,cadena,lO);

bar(450,50,500,60) ;

ltoa(cmp.cadena,lO);

outtmtxy(450,5O,cadena); } /* llwILL */

1

Dependiendo d e l a t e c l a que s e presione en esta rutina, s e desarrollarhn diferentes funciones. La especificacibn de e s t a s

funciones se hace en e l manual del usuario.

*

R u t i n a que archiva los segmentos seleccionados

void archivar (void) (

unsigned char dato;

m *fuente;

long i,aux,3=0,ctc,tar;

RILL *destino;

Figure

FIGURA 4.  Tubo  uniforme  sin  perdidas,  de  longitud  1  y  Area  A

FIGURA 4.

Tubo uniforme sin perdidas, de longitud 1 y Area A p.13
FIGURA  5 .   Respuesta  en  frecuencia  de  un  tubo  uniforme  sin

FIGURA 5 .

Respuesta en frecuencia de un tubo uniforme sin p.14
FIGURA  6 .   Tubos  acústicos  concatenados  (cinco  secciones)

FIGURA 6 .

Tubos acústicos concatenados (cinco secciones) p.15
FIGURA  7 .   Respuesta  en  f r e c u e n c i a   d e l   c a n a l   b u c a l   p a r a   una  v o c a l   /A/  sostenida

FIGURA 7 .

Respuesta en f r e c u e n c i a d e l c a n a l b u c a l p a r a una v o c a l /A/ sostenida p.16
FIGURA  8 .   Respuesta  en  f r e c u e n c i a   d e   l a   c a r g a   d e   r a d i a c i h

FIGURA 8 .

Respuesta en f r e c u e n c i a d e l a c a r g a d e r a d i a c i h p.17
FIGURA  9 .   Ejemplo  de  un  sistema  de  producci6n  de  V O Z

FIGURA 9 .

Ejemplo de un sistema de producci6n de V O Z p.18
FIGURA  10.  Sistema  de  anAlisis  de  voz

FIGURA 10.

Sistema de anAlisis de voz p.19
FIGURA  11.  Modelo  de  p r o d u c c i 6 n   d i g i t a l   de  voz  completo.

FIGURA 11.

Modelo de p r o d u c c i 6 n d i g i t a l de voz completo. p.22

Referencias

Actualización...

Related subjects :