• No se han encontrado resultados

Procesamiento digital de señales de audio

N/A
N/A
Protected

Academic year: 2022

Share "Procesamiento digital de señales de audio"

Copied!
15
0
0

Texto completo

(1)

Procesamiento digital de se˜ nales de audio

Mecanismo y modelo de producci´on de voz

Instituto de Ingenier´ıa El´ectrica Facultad de Ingenier´ıa

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 1 / 32

1 Introducci´on

Comunicaci´on a trav´es de la voz

2 Mecanismo de producci´on de voz Fisiolog´ıa del aparato vocal

Mecanismo de producci´on Formantes

Clases de sonidos

3 Modelo de producci´on de voz Modelo en tiempo discreto

(2)

Niveles en la comunicaci´ on oral

sem´antico: conceptos que forman el mensaje a comunicar

sint´actico: vocabulario estructurado con reglas sint´acticas

morfol´ogico: palabras individuales de acuerdo a una gram´atica

fon´etico: secuencia de sonidos que conforman una palabra

articulatorio: relaci´on entre fonemas y estados del aparato vocal procesamiento de voz

determinar relaci´on entre secuencia de fonemas y se˜nal de voz dificultad: no hay correspondencia uno a uno entre fonema y configuraci´on del aparto vocal

semántico

sintáctico

morfológico

fonético

articulatorio mensaje

aparato vocal

E. Chilton, Speech Analysis

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 4 / 32

Comunicaci´ on a trav´ es de la voz

Percepci´ on del habla

[Basso, 2006]

no depende simplemente de las caracter´ısticas de la se˜nal ac´ustica

los patrones de una palabra se modifican en funci´on de los sonidos que la preceden y la suceden

un fonema altamente probable en un cierto contexto va a ser

“o´ıdo” a´un en ausencia de evidencia ac´ustica

el reconocimiento de voz depende de indicadores sem´anticos y sint´acticos (y su importancia aumenta al aumentar ruido)

semántico

sintáctico

morfológico

fonético

perceptivo mensaje

sistema auditivo

E. Chilton, Speech Analysis

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 5 / 32

(3)

Comunicaci´ on a trav´ es de la voz

Procesamiento digital de voz

extraer informaci´on de la se˜nal de voz

mayor conocimiento posible de la estructura de los sonidos de la voz i.e. de qu´e forma est´a codificada la informaci´on en la se˜nal

resulta ´util conocer:

mecanismo de producci´on de voz principales clases de sonidos

objetivo: modelos de tiempo discreto para se˜nales digitales de voz

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 6 / 32

Mecanismo de producci´ on de voz

Fisiolog´ıa del aparato vocal

de forma esquem´atica:

pulmones

proveen flujo de aire

conducto

pasaje de aire, que puede ser interrumpido

cavidad resonante

modifica caracter´ısticas espectrales tracto vocal:

unido a trav´es de la laringe, comprende la faringe y las cavidades bucal y nasal

(4)

Cuerdas vocales

dos membranas en la laringe, que restringen el pasaje de aire

si comienzan a cerrarse, el aire experimenta una turbulencia, y se emite un sonido de origen aerodin´amico (aspiraci´on)

al cerrarse m´as las cuerdas vocales comienzan a vibrar produciendo un sonido peri´odico frecuencia controlada por:

presi´on subgl´otica tensi´on de los m´usculos masa de las cuerdas

[Miyara, 2003]

glotis abierta (respiraci´on) y cerrada (vibraci´on)

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 9 / 32

Mecanismo de producci´ on de voz

esquema de generaci´on de pulso glotal

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 10 / 32

(5)

Mecanismo de producci´ on de voz

señal débil

señal de mediana intensidad

señal muy intensa

forma de onda y espectro en la laringe [Basso, 2006]

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 11 / 32

Mecanismo de producci´ on de voz

Formantes

tracto vocal tubos de secci´on no

uniforme, modifican contenido espectral por su selectividad en frecuencia

formantes frecuencias de resonancia, dependen de forma y dimensiones del tracto vocal

articulaci´on posici´on de partes m´oviles del aparato fonador, determina ubicaci´on de frecuencias de resonancia (lengua, mand´ıbula inferior, labios, velo del paladar)

varias configuraciones del tracto vocal y efecto de filtrado [Basso, 2006]

(6)

Formantes

cada vocal corresponde a una combinaci´on particular de formantes, y es posible distinguirlas incluso s´olo a partir de las dos primeras

var´ıa entre diferentes personas y de acuerdo a su g´enero y edad

200 400 600 800 1000 500

1000 1500 2000 2500

a aa aa a aa aa Voz femenina

Frecuencia 1era formante (Hz)

Frecuencia 2da formante (Hz)

ee ee e ee

e e e i ii i

i i i iii

oo oo

o oo

oo u o u u

uu uu u u

u

200 400 600 800 1000 a aa

aa a aa aa

Frecuencia 1era formante (Hz) Superposicion

a aa aa

a aa aa eeee

e ee

e e e eeee

e ee

e e e i ii i

i i i iiii i ii

i i i iii

oo oo

o oo

oo o oo oo

o oo

oo u o u u

uu uu u u

uu u u

uu uu u u

u

AAA AAAAAAAA AA AAAAAAA EE EEEEEEEEEE EEEEEEEE I I I II II IIII I I II II III

OOO OOOO OOOOOO OOOO OOO UUU UU U

UUU U UUU UU U

UUU U

200 400 600 800 1000 AAA

AAAAAAA Voz masculina

Frecuencia 1era formante (Hz) EE

EEEEEEEE I I I II III II

OOO OOOO OOO UUU UU U

UUU U

mapa de formantes para una voz femenina, una voz masculina y su superposici´on

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 13 / 32

Mecanismo de producci´ on de voz

Mecanismos de producci´ on de sonido

sonoros o tonales: haciendo vibrar las cuerdas vocales (voiced)

pulsos glotales aproximadamente peri´odicos, altura tonal definida

sordos o fricativos: expeler aire a trav´es de una restricci´on (unvoiced)

fuente de excitaci´on del tracto vocal es ruido de banda ancha

oclusivos o plosivos: completo bloqueo y liberaci´on repentina

Frecuencia (Hz)

Fricativa [s] y oclusiva [p] en palabra "sopa".

0 1000 2000 3000 4000 5000 6000 7000 8000 9000

0 0.510

−0.2

−0.1 0 0.1 0.2

Tiempo (s)

s o p a

frictativa [s], oclusiva [p] y vocales [o] y [a] en la palabra sopa

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 14 / 32

(7)

Mecanismo de producci´ on de voz

Clases de sonidos de la voz

fonemas: clases de sonidos de un idioma clasificaci´on seg´un diversos criterios:

tonalidad, oralidad o nasalidad, lugar y modo de articulaci´on, etc

categor´ıas m´as importantes: vocales, consonantes, diptongos, semi-vocales y semi-consonantes

[Rabiner and Schafer, 2011]

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 15 / 32

Mecanismo de producci´ on de voz

Clases de sonidos de la voz

[Rabiner and Schafer, 2011, Phonetics, 2005]

vocales/consonantes si hay restricci´on al pasaje de aire o no

continuidad de un fonema

configuraci´on fija del tracto vocal (e.g. vocales, consonantes fricativas, consonantes nasales)

configuraci´on variable del tracto vocal (e.g. diptongos, consonantes oclusivas y africadas)

sonoridad vibran cuerdas vocales (e.g. vocales, consonantes nasales)

nasalidad/oralidad el aire pasa principalmente por la nariz o boca

oral nasal

[Phonetics, 2005]

(8)

Vocales

articulaci´on fija, no hay restricci´on al pasaje de aire

fonemas sonoros (vibran las cuerdas vocales), altura definida

forma de onda aprox. peri´odica, espectro de car´acter discreto

4 o 5 formantes hasta los 4 kHz

0 0.01 0.02 0.03 0.04 0.05

−0.5 0 0.5

Forma de onda y magnitud del espectro para la vocal a

Tiempo (s)

Amplitud

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

−90

−80

−70

−60

−50

−40

−30

−20

Frequencia (Hz)

Magitud (dB)

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045

−0.5 0 0.5

Forma de onda y magnitud del espectro para la vocal i

Tiempo (s)

Amplitud

0 500 1000 1500 2000 2500 3000 3500 4000 4500

−90

−80

−70

−60

−50

−40

−30

−20

−10

Frequencia (Hz)

Magitud (dB)

vocales [a] e [i]

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 17 / 32

Mecanismo de producci´ on de voz

Diptongos

secuencias de dos vocales que pertenecen a una misma s´ılaba

articulaci´on de la primera vocal y se mueve hacia la segunda

vocal de mayor apertura es el n´ucleo de la s´ılaba

la otra es semi-consonante o semi-vocal seg´un si la precede o sigue

Frecuencia (Hz)

Diptongo [ai] como en "paisaje".

0 500 1000 1500 2000 2500 3000 3500

0 0.172

−0.2

−0.1 0 0.1 0.2

Tiempo (s)

a i

diptongo [ai] como en paisaje

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 18 / 32

(9)

Mecanismo de producci´ on de voz

Consonantes fricativa

forzando pasaje de aire a trav´es de peque˜na hendidura (e.g. [s],[f])

sonido sordo, no tiene altura definida

forma de onda parece aleatoria, espectro de banda ancha

2 ´o 3 formantes, menos pronunciadas respecto a los sonidos sonoros

0 0.01 0.02 0.03 0.04 0.05 0.06

−0.1

−0.05 0 0.05 0.1

Forma de onda y magnitud del espectro para la consonante f

Tiempo (s)

Amplitud

0 500 1000 1500 2000 2500 3000 3500 4000 4500

−90

−85

−80

−75

−70

−65

−60

−55

−50

Frequencia (Hz)

Magitud (dB)

frictativa [f]

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 19 / 32

Mecanismo de producci´ on de voz

Consonantes oclusivas

bloqueo completo del tracto vocal y apertura s´ubita

ataque impulsivo intenso seguido de vibraci´on que se extingue r´apido

el transitorio tiene un espectro de banda ancha

se dividen a su vez en sordas (e.g. [p],[k]) y sonoras (e.g. [b],[g])

Frecuencia (Hz)

Fricativa [s] y oclusiva [p] en palabra "sopa".

0 1000 2000 3000 4000 5000 6000 7000 8000 9000

0 0.510

−0.2

−0.1 0 0.1 0.2

Tiempo (s)

s o p a

frictativa [s], oclusiva [p] y vocales [o] y [a] en la palabra sopa

(10)

Consonantes africadas

bloqueo completo seguido de una fase de fricci´on del aire

comportamiento asimilable a consonante oclusiva seguida de consonante fricativa

ejemplos: la letra “y” seguida de vocal, y la letra “ch”

Frecuencia (Hz)

Africada [ch]. Secuencia [e−ch−e] como en "leche".

0 1000 2000 3000 4000 5000 6000 7000 8000 9000

0 0.390

−0.2

−0.1 0 0.1 0.2

Tiempo (s)

e ch e

africada [ch] como en la palabra leche

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 21 / 32

Mecanismo de producci´ on de voz

Consonantes nasales

cerrar pasaje de aire por la boca y descender el velo del paladar

forma de onda aproximadamente peri´odica, fonema sonoro

los varios sonidos producidos por las letras “m”, “n” y “˜n”

la boca aten´ua ciertas frecuencias (anti-resonancias)

0 0.01 0.02 0.03 0.04 0.05 0.06

−0.1 0 0.1

Forma de onda y magnitud del espectro para la consonante m

Tiempo (s)

Amplitud

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

−110

−100

−90

−80

−70

−60

−50

−40

−30

Frequencia (Hz)

Magitud (dB)

consonante nasal [m]

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 22 / 32

(11)

Modelo de producci´ on de voz

Modelo en tiempo discreto

se˜nal modelada como salida de sistema no lineal variante en el tiempo

modelo en tiempo discreto simplificado:

sistema lineal y variante en el tiempo (invariante en tiempo corto) sistema representa la funci´on de transferencia del aparto fonador

u(n)

parámetros excitación (e.g. amplitud, f0 voiced-unvoiced)

s(n)

sistema lineal generador

excitación

parámetros aparato fonador (e.g. formantes)

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 24 / 32

Modelo de producci´ on de voz

Modelo en tiempo discreto

funci´on de transferencia de estado estacionario:

H(z) = S (z) U(z) = G

1 +

q

X

l =1

blz−l

1 +

p

X

k=1

akz−k

, (1)

donde S (z) y U(z) son la transformada Z de la se˜nal de voz y de la excitaci´on respectivamente y G es un factor de ganancia del sistema.

corresponde a un modelo autorregresivo de media m´ovil (ARMA)

s(n) = −

p

X

k=1

aks(n − k) + G

q

X

l =0

blu(n − l ), con b0 = 1. (2)

(12)

Modelo en tiempo discreto

excitaci´on depende del tipo sonido

– sonoro se˜nal peri´odica (tren de impulsos) – sordo se˜nal aleatoria (ruido de banda ancha)

u(n)

generador de tren de impulsos

s(n) H(z)

generador de ruido

Av

An voiced unvoiced f0

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 26 / 32

Modelo de producci´ on de voz

Modelo en tiempo discreto

refinamiento b´asico del modelo

– modelo de pulso glotal filtro pasa bajos G (z) – modelo de radiaci´on filtro pasa altos R(z)

u(n)

generador de tren de impulsos

modelo tracto vocal

s(n) V(z)

generador de ruido

Av

An voiced

unvoiced R(z)

modelo de radiación

p(n)

modelo de pulso glotal

G(z)

f0

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 27 / 32

(13)

Modelo de producci´ on de voz

Modelo en tiempo discreto

refinamiento b´asico del modelo

– modelo de pulso glotal filtro pasa bajos G (z) – modelo de radiaci´on filtro pasa altos R(z)

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 28 / 32

Modelo de producci´ on de voz

0.98 0.985 0.99 0.995 1 1.005 1.01 1.015 1.02

0.10.2 0.30.4 0.5

Voicing source − low−pass filtered impulse train

Time(s)

Amplitude

0.98 0.985 0.99 0.995 1 1.005 1.01 1.015 1.02

−0.5 0 0.5

Source signal after formant filtering and radiation characteristic

Time(s)

Amplitude

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

−80

−60

−40

−20 0 20 40

Frequency (Hz)

Magnitude (dB)

ejemplo de s´ıntesis de vocales

(14)

ejemplo de seguimiento de formantes (wavesurfer)

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 30 / 32

Modelo de producci´ on de voz

Algunos par´ ametros

f0: voz hablada normal, mujeres 140-400 Hz, hombres 70-200 Hz estos rangos pueden extenderse una octava o m´as en el canto

espectro: m´aximo en 1000/500 Hz mujeres/hombres cae aproximadamente -8dB/oct hasta 4 ´o 5 kHz

rango din´amico: aprox. 30-40 dB, SNR > 30 dB, implica unos 12 bits

tasa de fonemas: m´as de 30 fonemas por segundo al hablar r´apido

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 31 / 32

(15)

Referencias

Basso, G. (2006).

Percepci´on auditiva.

Universidad Nacional de Quilmes.

Miyara, F. (2003).

La voz humana.

Universidad Nacional de Rosario.

www.fceia.unr.edu.ar/acustica/biblio/fonatori.pdf.

Phonetics (2005).

Sounds of speech.

The University of Iowa.

https://soundsofspeech.uiowa.edu.

Rabiner, L. R. and Schafer, R. W. (2011).

Theory and Applications of Digital Speech Processing.

Prentice Hall, 1st edition.

Chapter 3 - Fundamentals of human speech production

Chapter 5 - Sec. 5.3 Digital models for sampled speech signals.

Mecanismo y modelo de producci´on de voz Procesamiento digital de se˜nales de audio 32 / 32

Referencias

Documento similar

Debido al riesgo de producir malformaciones congénitas graves, en la Unión Europea se han establecido una serie de requisitos para su prescripción y dispensación con un Plan

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

En nuestra opinión, las cuentas anuales de la Entidad Pública Empresarial Red.es correspondientes al ejercicio 2010 representan en todos los aspectos significativos la imagen fiel

En nuestra opinión, las cuentas anuales de la Entidad Pública Empresarial Red.es correspondientes al ejercicio 2012 representan en todos los aspectos

La Intervención General de la Administración del Estado, a través de la Oficina Nacional de Auditoría, en uso de las competencias que le atribuye el artículo 168

La Intervención General de la Administración del Estado, a través de la Oficina Nacional de Auditoría, en uso de las competencias que le atribuye el artículo

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

del c´alculo de la aplicaci´on de un filtro de mediana poniendo a N y M el valor de 5, como vemos en la figura 5.9 el c´alculo ha sido hallado eficien- temente ya que aplicando