Procesamiento digital de se˜ nales de audio
Mecanismo y modelo de producci´ on de voz
Instituto de Ingenier´ıa El´ectrica, Facultad de Ingenier´ıa Universidad de la Rep´ublica, Uruguay
Grupo de Procesamiento de Audio
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 1 / 32
1
Introducci´ on
Comunicaci´ on a trav´ es de la voz
2
Mecanismo de producci´ on de voz Fisiolog´ıa del aparato vocal Mecanismo de producci´ on Formantes
Clases de sonidos
3
Modelo de producci´ on de voz
Modelo en tiempo discreto
Niveles en la comunicaci´ on oral
• sem´ antico: conceptos que forman el mensaje a comunicar
• sint´ actico: vocabulario estructurado con reglas sint´ acticas
• morfol´ ogico: palabras individuales de acuerdo a una gram´ atica
• fon´ etico: secuencia de sonidos que conforman una palabra
• articulatorio: relaci´ on entre fonemas y estados del aparato vocal
procesamiento de voz relaci´ on entre secuencia de fonemas y se˜ nal de voz (no hay correspondencia uno a uno entre fonema y configuraci´ on del aparto vocal)
semántico
sintáctico
morfológico
fonético
articulatorio mensaje
aparato vocal
E. Chilton, Speech Analysis
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 4 / 32
Comunicaci´ on a trav´ es de la voz
Percepci´ on del habla
[Basso, 2006]• no depende simplemente de las caracter´ısticas de la se˜ nal ac´ ustica
• los patrones de una palabra se
modifican en funci´ on de los sonidos que la preceden y la suceden
• un fonema altamente probable en un cierto contexto va a ser “o´ıdo” a´ un en ausencia de evidencia ac´ ustica
• el reconocimiento de voz depende de indicadores sem´ anticos y sint´ acticos (importancia aumenta al aumentar ruido)
semántico
sintáctico
morfológico
fonético
perceptivo mensaje
sistema auditivo
E. Chilton, Speech Analysis
Comunicaci´ on a trav´ es de la voz
Procesamiento digital de voz
• extraer informaci´ on de la se˜ nal de voz
• mayor conocimiento posible de la estructura de los sonidos de la voz i.e. de qu´ e forma est´ a codificada la informaci´ on en la se˜ nal
resulta ´ util conocer:
I
mecanismo de producci´ on de voz
I
principales clases de sonidos
objetivo: modelos de tiempo discreto para se˜ nales digitales de voz
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 6 / 32
Mecanismo de producci´ on de voz
Fisiolog´ıa del aparato vocal de forma esquem´ atica:
• pulmones proveen flujo de aire
• conducto pasaje de aire, que puede ser interrumpido
• cavidad resonante modifica
caracter´ısticas espectrales
tracto vocal: unido a trav´ es de la
laringe, comprende la faringe y las
cavidades bucal y nasal
Cuerdas vocales
• dos membranas en la laringe, que restringen el pasaje de aire
• si comienzan a cerrarse, el aire experimenta una turbulencia, y se emite un sonido de origen aerodin´ amico (aspiraci´ on)
• al cerrarse m´ as las cuerdas vocales comienzan a vibrar
produciendo un sonido peri´ odico frecuencia controlada por:
I
presi´ on subgl´ otica
I
tensi´ on de los m´ usculos
I
masa de las cuerdas
[Miyara, 2003]
glotis abierta (respiraci´on) y cerrada (vibraci´on)
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 9 / 32
Mecanismo de producci´ on de voz
esquema de generaci´on de pulso glotal
Mecanismo de producci´ on de voz
señal débil
señal de mediana intensidad
señal muy intensa
forma de onda y espectro en la laringe [Basso, 2006]
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 11 / 32
Mecanismo de producci´ on de voz
Formantes
• tracto vocal tubos de secci´ on no uniforme, modifican
contenido espectral por su selectividad en frecuencia
• formantes frecuencias de
resonancia, dependen de forma y dimensiones del tracto vocal
• articulaci´ on posici´ on de partes m´ oviles del aparato fonador, determina ubicaci´ on de frecuencias de resonancia
(lengua, mand´ıbula inferior, labios, velo
del paladar) varias configuraciones del tracto vocal y efecto de filtrado [Basso, 2006]
Formantes
• cada vocal corresponde a una combinaci´ on particular de formantes, y es posible distinguirlas incluso s´ olo a partir de las dos primeras
• var´ıa entre diferentes personas y de acuerdo a su g´ enero y edad
200 400 600 800 1000 500
1000 1500 2000 2500
aa a
aa a aa aa Voz femenina
Frecuencia 1era formante (Hz)
Frecuencia 2da formante (Hz)
eeee e ee
e e e i ii i
i i i iii
oo oo
o oo
oo u o u u
uu uu u u
u
200 400 600 800 1000 aa a
aa a aa aa
Frecuencia 1era formante (Hz) Superposicion
aa a
aa a aa aa eeee
e ee
e e e eeee
e ee
e e e i ii i
i i i iiii i ii
i i i iii
oo oo
o oo
oo o oo oo
o oo
oo u o u u
uu uu u u
u u u u
uu uu u u
u
AAA AAAAAAAA AA AAAAAAA EE
EEEEEEEEEE EEEEEEEE I I I II III III I I II III II
OOO O
OO O OOOOOO O
OO O OOO UUU UU U
U UU U UUU UU U
U UU U
200 400 600 800 1000 AAA
AAAAAAA Voz masculina
Frecuencia 1era formante (Hz) EE
EEEEEEEE I I I II II III
OOO O
OO O OOO UUU UU U
U UU U
mapa de formantes para una voz femenina, una voz masculina y su superposici´on
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 13 / 32
Mecanismo de producci´ on de voz
Mecanismos de producci´ on de sonido
[Rabiner and Schafer, 2011]• sonoros o tonales haciendo vibrar las cuerdas vocales (voiced) pulsos glotales aproximadamente peri´ odicos, altura tonal definida
• sordos o fricativos expeler aire a trav´ es de una restricci´ on (unvoiced) fuente de excitaci´ on del tracto vocal es ruido de banda ancha
• oclusivos o plosivos completo bloqueo y liberaci´ on repentina
Frecuencia (Hz)
Fricativa [s] y oclusiva [p] en palabra "sopa".
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
0 0.510
−0.2
−0.1 0 0.1 0.2
Tiempo (s)
s o p a
frictativa [s], oclusiva [p] y vocales [o] y [a] en la palabra sopa
Mecanismo de producci´ on de voz
Clases de sonidos de la voz
[Rabiner and Schafer, 2011, Phonetics, 2005]fonemas clases de sonidos de un idioma
(espa˜nol algo m´as de 25, ingl´es unos 40)clasificaci´ on seg´ un diversos criterios:
• tonalidad, oralidad o nasalidad, lugar y modo de articulaci´ on, etc categor´ıas m´ as importantes:
(pueden subdividirse seg´un articulaci´on, tonalidad, etc.)• vocales, consonantes, diptongos, semi-vocales y semi-consonantes
[Rabiner and Schafer, 2011]
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 15 / 32
Mecanismo de producci´ on de voz
Clases de sonidos de la voz
[Rabiner and Schafer, 2011, Phonetics, 2005]• vocales/consonantes si hay restricci´ on al pasaje de aire o no
• continuidad de un fonema
I
configuraci´ on fija del tracto vocal
(e.g. vocales, consonantes fricativas, consonantes nasales)
I
configuraci´ on variable del tracto vocal
(diptongos, semi-vocales, semi-consonantes, consonantes oclusivas y africadas)
• sonoridad vibran cuerdas vocales
(e.g. vocales, consonantes nasales)• nasalidad/oralidad el aire pasa principalmente por la nariz o boca
oral nasal
[Phonetics, 2005]
Vocales
• articulaci´ on fija, no hay restricci´ on al pasaje de aire
• fonemas sonoros (vibran las cuerdas vocales), altura definida
• forma de onda aprox. peri´ odica, espectro de car´ acter discreto
• 4 o 5 formantes hasta los 4 kHz
0 0.01 0.02 0.03 0.04 0.05
−0.5 0 0.5
Forma de onda y magnitud del espectro para la vocal a
Tiempo (s)
Amplitud
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
−90
−80
−70
−60
−50
−40
−30
−20
Frequencia (Hz)
Magitud (dB)
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045
−0.5 0 0.5
Forma de onda y magnitud del espectro para la vocal i
Tiempo (s)
Amplitud
0 500 1000 1500 2000 2500 3000 3500 4000 4500
−90
−80
−70
−60
−50
−40
−30
−20
−10
Frequencia (Hz)
Magitud (dB)
vocales [a] e [i]
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 17 / 32
Mecanismo de producci´ on de voz
Diptongos
• secuencias de dos vocales que pertenecen a una misma s´ılaba
• articulaci´ on de la primera vocal y se mueve hacia la segunda
• vocal de mayor apertura es el n´ ucleo de la s´ılaba
• la otra es semi-consonante o semi-vocal seg´ un si la precede o sigue
Frecuencia (Hz)
Diptongo [ai] como en "paisaje".
0 500 1000 1500 2000 2500 3000 3500
0 0.172
−0.2
−0.1 0 0.1 0.2
Tiempo (s)
a i
diptongo [ai] como en paisaje
Mecanismo de producci´ on de voz
Consonantes fricativa
• forzando pasaje de aire a trav´ es de peque˜ na hendidura (e.g. [s],[f])
• sonido sordo, no tiene altura definida
• forma de onda parece aleatoria, espectro de banda ancha
• 2 ´ o 3 formantes, menos pronunciadas respecto a los sonidos sonoros
0 0.01 0.02 0.03 0.04 0.05 0.06
−0.1
−0.05 0 0.05 0.1
Forma de onda y magnitud del espectro para la consonante f
Tiempo (s)
Amplitud
0 500 1000 1500 2000 2500 3000 3500 4000 4500
−90
−85
−80
−75
−70
−65
−60
−55
−50
Frequencia (Hz)
Magitud (dB)
frictativa [f]
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 19 / 32
Mecanismo de producci´ on de voz
Consonantes oclusivas
• bloqueo completo del tracto vocal y apertura s´ ubita
• ataque impulsivo intenso seguido de vibraci´ on que se extingue r´ apido
• el transitorio tiene un espectro de banda ancha
• se dividen a su vez en sordas (e.g. [p],[k]) y sonoras (e.g. [b],[g])
Frecuencia (Hz)
Fricativa [s] y oclusiva [p] en palabra "sopa".
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
0 0.510
−0.2
−0.1 0 0.1 0.2
Tiempo (s)
s o p a
frictativa [s], oclusiva [p] y vocales [o] y [a] en la palabra sopa
Consonantes africadas
• bloqueo completo seguido de una fase de fricci´ on del aire
• comportamiento asimilable a consonante oclusiva seguida de consonante fricativa
• ejemplos: la letra “y” seguida de vocal, y la letra “ch”
Frecuencia (Hz)
Africada [ch]. Secuencia [e−ch−e] como en "leche".
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
0 0.390
−0.2
−0.1 0 0.1 0.2
Tiempo (s)
e ch e
africada [ch] como en la palabra leche
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 21 / 32
Mecanismo de producci´ on de voz
Consonantes nasales
• cerrar pasaje de aire por la boca y descender el velo del paladar
• forma de onda aproximadamente peri´ odica, fonema sonoro
• los varios sonidos producidos por las letras “m”, “n” y “˜ n”
• la boca aten´ ua ciertas frecuencias (anti-resonancias)
0 0.01 0.02 0.03 0.04 0.05 0.06
−0.1 0 0.1
Forma de onda y magnitud del espectro para la consonante m
Tiempo (s)
Amplitud
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
−110
−100
−90
−80
−70
−60
−50
−40
−30
Frequencia (Hz)
Magitud (dB)
consonante nasal [m]
Modelo de producci´ on de voz
Modelo en tiempo discreto
• se˜ nal modelada como salida de sistema no lineal variante en el tiempo
• modelo en tiempo discreto simplificado:
sistema lineal y variante en el tiempo (invariante en tiempo corto) sistema representa la funci´ on de transferencia del aparto fonador
u(n)
parámetros excitación (e.g. amplitud, f0 voiced-unvoiced)
s(n)
sistema lineal generador
excitación
parámetros aparato fonador (e.g. formantes)
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 24 / 32
Modelo de producci´ on de voz
Modelo en tiempo discreto
• funci´ on de transferencia de estado estacionario:
H(z) = S (z)
U(z) = G 1 +
q
X
l =1
b
lz
−l1 +
p
X
k=1
a
kz
−k, (1)
donde S (z) y U(z) son la transformada Z de la se˜ nal de voz y de la excitaci´ on respectivamente y G es un factor de ganancia del sistema.
• corresponde a un modelo autorregresivo de media m´ ovil (ARMA) s(n) = −
p
X
k=1
a
ks(n − k) + G
q
X
l =0
b
lu(n − l ), con b
0= 1. (2)
Modelo en tiempo discreto
• excitaci´ on depende del tipo sonido
I
sonoro se˜ nal peri´ odica (tren de impulsos)
I
sordo se˜ nal aleatoria (ruido de banda ancha)
u(n)
generador de tren de impulsos
s(n) H(z)
generador de ruido
Av
An voiced unvoiced f0
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 26 / 32
Modelo de producci´ on de voz
Modelo en tiempo discreto
• refinamiento b´ asico del modelo
I
modelo de pulso glotal filtro pasa bajos G (z)
I
modelo de radiaci´ on filtro pasa altos R(z)
u(n)
generador de tren de impulsos
modelo tracto vocal
s(n) V(z)
generador de ruido
Av
An voiced
unvoiced R(z)
modelo de radiación
p(n)
modelo de pulso glotal
G(z)
f0
Modelo de producci´ on de voz
Modelo en tiempo discreto
• refinamiento b´ asico del modelo
I
modelo de pulso glotal filtro pasa bajos G (z)
I
modelo de radiaci´ on filtro pasa altos R(z)
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 28 / 32
Modelo de producci´ on de voz
0.98 0.985 0.99 0.995 1 1.005 1.01 1.015 1.02
0.10.2 0.30.4 0.5
Voicing source − low−pass filtered impulse train
Time(s)
Amplitude
0.98 0.985 0.99 0.995 1 1.005 1.01 1.015 1.02
−0.5 0 0.5
Source signal after formant filtering and radiation characteristic
Time(s)
Amplitude
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
−80
−60
−40
−20 0 20 40
Frequency (Hz)
Magnitude (dB)
ejemplo de s´ıntesis de vocales
ejemplo de seguimiento de formantes (wavesurfer)
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 30 / 32
Modelo de producci´ on de voz
Algunos par´ ametros
• f
0: voz hablada normal, mujeres 140-400 Hz, hombres 70-200 Hz estos rangos pueden extenderse una octava o m´ as en el canto
• espectro: m´ aximo en 1000/500 Hz mujeres/hombres cae aproximadamente -8dB/oct hasta 4 ´ o 5 kHz
• rango din´ amico: aprox. 30-40 dB, SNR > 30 dB, implica unos 12 bits
• tasa de fonemas: m´ as de 30 fonemas por segundo al hablar r´ apido
Referencias
Basso, G. (2006).
Percepci´ on auditiva.
Universidad Nacional de Quilmes.
Miyara, F. (2003).
La voz humana.
Universidad Nacional de Rosario.
www.fceia.unr.edu.ar/acustica/biblio/fonatori.pdf.
Phonetics (2005).
Sounds of speech.
The University of Iowa.
https://soundsofspeech.uiowa.edu.
Rabiner, L. R. and Schafer, R. W. (2011).
Theory and Applications of Digital Speech Processing.
Prentice Hall, 1st edition.
Chapter 3 - Fundamentals of human speech production
Chapter 5 - Sec. 5.3 Digital models for sampled speech signals.
Modelo de producci´on de voz (1 clase) Procesamiento digital de se˜nales de audio GPA - AudioDSP 2020 32 / 32