Procesamiento digital de se˜nales de audio

(1)

Procesamiento digital de se˜ nales de audio

Introducci´ on al procesamiento de audio

Instituto de Ingenier´ıa El´ ectrica, Facultad de Ingenier´ıa Universidad de la Rep´ ublica, Uruguay

Grupo de Procesamiento de Audio

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 1 / 37

1 Introducci´ on

Modalidad y contenido del curso Tem´ atica y aplicaciones

2 Muestreo y cuantizaci´ on Muestreo

Cuantizaci´ on

(2)

Modalidad y contenido del curso

Modalidad

• Tipo: grado y posgrado, Cr´ editos: 8

• Horario:

I lunes y mi´ ercoles de 10:00 a 12:00

I Laboratorio de Software del IIE

• Aprobaci´ on:

I entrega de ejercicios obligatorios (individual)

I proyecto final sobre un problema establecido (en parejas)

• Previas:

I Sistemas Lineales I (examen a curso)

I Muestreo y Procesamiento Digital (examen a curso)

I al menos 7 cr´ editos en Inform´ atica

• Recomendado:

I Taller de Filtros Digitales

• Pr´ actico:

I 4 repartidos, una semana luego de cada bloque tem´ atico

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 4 / 37

Modalidad y contenido del curso

Contenido

• Introducci´ on al procesamiento de audio

• Modelos para se˜ nales de voz y audio

• Percepci´ on auditiva

• Filtros digitales en audio, s´ıntesis de sonido, efectos

• An´ alisis de tiempo corto de se˜ nales de audio

• Procesamiento tiempo-frecuencia

• An´ alisis por modelado espectral

• An´ alisis Homom´ orfico y por Predicci´ on Lineal

• Codificaci´ on de voz y audio

• Recuperaci´ on de informaci´ on musical (MIR)

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 5 / 37

(3)

Tem´ atica y aplicaciones

Tem´ atica

• voz hablada: gran desarrollo en telecomunicaciones (desde 1960s)

• audio: conjunto m´ as amplio de tipos de se˜ nal de audio

I m´ usica, sonidos ambientales, de origen animal, maquinaria, etc

• algoritmos espec´ıficos permiten mejores resultados (e.g. codificaci´ on) objetivo: comprender los fundamentos de la producci´ on y percepci´ on de sonido y c´ omo las t´ ecnicas de procesamiento digital de se˜ nales pueden contribuir a resolver los diversos escenarios de aplicaci´ on

J. Flanagan, Bell Labs, 1972 Digital Audio Workstation, Ardour

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 6 / 37

Procesamiento de voz

codiﬁcación, compresión, encriptado, telefonía, VOIP

Aplicaciones del procesamiento de voz

trasmisión y

almacenamiento síntesis de voz reconocimiento del hablante

transcripción de voz a texto

asistencia a la discapacidad

mejora de calidad de señal

mensajería, call centers, interacción automática

control acceso, fonética forense, búsqueda por contenido

dictado, interacción por voz, call centers

lectura de texto, interacción por voz

reducción de ruido, eliminación de eco

[Rabiner and Schafer, 2011]

(4)

Procesamiento de voz

Fundamentos Representación Procesamiento

Aplicación

reconocimiento, codiﬁcación, síntesis

segmentación voz/silencio, estimación de pitch y formantes

temporal, espectral de tiempo corto análisis cepstral y predicción lineal

acústica, percepción auditiva, procesamiento de señales, lingüistica

[Rabiner and Schafer, 2011]

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 8 / 37

Procesamiento de voz

• detecci´ on temprana de dificultades en el aprendizaje de la lectura

audio original

• reconocimiento autom´ atico de palabras, identificaci´ on de errores

grupos: 0 1 2 3 4

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 9 / 37

(5)

Procesamiento de m´ usica

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 10 / 37

Procesamiento de m´ usica

Paul Lamere, Director of Developer Platform at The Echo Nest.

singing synthetizer - Yamaha

Xavier Serra, Director of Music Technology Group, UPF.

(6)

Procesamiento de m´ usica

Niveles del procesamiento de música

género emociones

interpretación similitud forma tensión

melodía armonía métrica tempo

segmentos notas, acordes dinámica ritmo

señal de audio características estructura

objetivo su bjetivo inn a to apr en di do

altura duración energía timbre, color

audio

contenido musical

Petri Toivanen, SBCM 2005, Belo Horizonte, Brasil

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 12 / 37

Procesamiento de m´ usica

• representaci´on de la se˜nal: temporal, espectral, tiempo-frecuencia

• descriptores de bajo nivel: transformaci´ on que captura aspecto particular

• entidades musicales: combinando y agregando descriptores de bajo nivel

• modelos sem´anticos: capturan similitudes y diferencias entre conceptos

audio original: contorno de pitch: audio original: detecci´ on de eventos:

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 13 / 37

(7)

Aplicaciones: Query by Humming

Note sequence encoding Tuning adjustment

Pitch tracking

Voice signal

Pitch time series reﬁnement

Search result

Database Segmentation

Transcription Melody matching

Pattern matching

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 14 / 37

Aplicaciones: Audio Fingerprint

• identificaci´ on de audio (voz, m´ usica) a partir de un fragmento breve

• huella digital robusta a transformaciones como compresi´ on y ruido

• funcionando en aplicaciones comerciales y dispositivos m´ oviles

Original

50 100 150 200 250

10 20 30

mp3@16kbps

50 100 150 200 250

10 20 30

Diferencia

No. Subhuella

50 100 150 200 250

10

20

30

(8)

Aplicaciones: An´ alisis de interpretaci´ on

• software de representaci´ on de contenido mel´ odico

• utilizado para an´ alisis musicol´ ogico de interpretaci´ on (afinaci´ on, rasgos expresivos, etc.)

Time (s)

23 24 25 26 27 28 29 30 31 32

C4 C#4 D4 Eb4 E4 F4 F#4 G4 Ab4 A4 Bb4 B4 C5 C#5 D5 Eb5 E5 F5 F#5

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 16 / 37

Aplicaciones: Separaci´ on de fuentes

Frequency (kHz)

Original signal

1 2 3 4 5

se˜ nal original

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 17 / 37

(9)

Aplicaciones: Separaci´ on de fuentes

Frequency (kHz)

Separated source

1 2 3 4 5

voz m´ as prominente

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 18 / 37

Aplicaciones: Separaci´ on de fuentes

Frequency (kHz)

Time (s) Residual

1 2 3 4 5 6 7 8

1 2 3 4 5

residuo

(10)

Aplicaciones: Separaci´ on de fuentes y detecci´ on de voz

F0gram and pitch contours: vocal (gray) − non vocal (black)

Frequency (Hz)

110 220 440 880

1 2 3 4 5 6 7

−1

−0.5 0 0.5 1

Time (s)

Amplitude

Manual (thin line) and automatic (thick line) classification

original: vocal: residuo:

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 20 / 37

Aplicaciones: Reconocimiento de cantantes

ejemplo

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 21 / 37

(11)

Muestreo

Frecuencia de muestreo

• teorema de muestreo: f s > 2f max

• en audio f _s de 8 a 192 kHz, dependiendo de la aplicaci´ on

• standards: CD 44.1 kHz, DVD-Audio y Blu-ray hasta 192 kHz

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6

Amplitud

Tiempo (s)

Frecuencia (kHz)

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6

0 1 2 3 4 5 6 7 8 9 10

[Pohlmann, 2000]

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 23 / 37

Muestreo

Aliasing

• se˜ nal a muestrear de banda limitada (filtro antialias)

• si esto no se cumple sobreviene aliasing

• no es un problema pr´ actico, salvo en ocasiones (e.g. s´ıntesis)

Tiempo (s)

Frecuencia (kHz)

1 2 3 4 5 6 7 8 9

0

5

10

15

20

(12)

Cuantizaci´ on

Cuantizaci´ on uniforme

• cuantizaci´ on: aproximar amplitud a precisi´ on finita (redondeo)

• cantidad de niveles: 2 ^N , con N largo de palabra

• paso de cuantizaci´ on: Q = ^2X ₂ _N ^m , con X _m amplitud de pico m´ axima

Entrada y salida del Sample and Hold

tiempo

amplitud

−a ₀ 2 ⁰ +a ₁ 2 ⁻¹ +a ₂ 2 ⁻² +...+a _N−1 2 ^−(N−1)

X

m

2 entrada

Voltaje de Codigo ´ Complemento

a dos

− 0.2

− 0.4

− 0.6 0.8

0.2 0.0 0.6 0.4

000 010 011

001 111 110 101 100

− 0.8

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 25 / 37

Cuantizaci´ on

Error de cuantizaci´ on

• error: aproximaci´ on introduce p´ erdida de informaci´ on

• amplitud del error: acotado a Q/2, var´ıa entre −Q/2 : Q/2

• decrece al aumentar N largo de palabra (e.g. 8, 16, 24 bits)

Senal analogica digitalizada

amplitud

tiempo

amplitud

Error de cuantizacion

amplitud

tiempo

amplitud

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 26 / 37

(13)

Cuantizaci´ on

Modelo de error de cuantizaci´ on

hip´ otesis: error no correlacionado con la se˜ nal ni consigo mismo modelo: ruido de distribuci´ on uniforme, U(− ^Q ₂ , ^Q ₂ )

se˜ nal compleja de gran amplitud → poco audible (enmascarado)

amplitud

tiempo

amplitud

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 27 / 37

Cuantizaci´ on

Relaci´ on se˜ nal a ruido

hip´ otesis: variaciones de gran amplitud, espectro de banda ancha sinusoide de amplitud m´ axima, ruido uniforme

SNR crece 6 dB por bit, determina rango din´ amico manejable

S _rms = S _peak

√ 2 = Q2 ⁿ⁻¹

√ 2

E _rms =

"

1 Q

Z ^Q ₂

− ^Q ₂

e ² de

# ¹ ₂

= Q ² 12

¹ ₂

S

E = S rms

E _rms

2 = 3 2 2 ²ⁿ S

E (dB) = 20 log

"r 3 2 2 ⁿ

#

= 6.0206n + 1.7609

-Q/2 Q/2

1/Q

e

P(e)

(14)

Cuantizaci´ on

Distorsi´ on

• se˜ nal compleja de gran amplitud: error asimilable a ruido blanco

• pocos pasos de cuantizaci´ on: correlaci´ on entre se˜ nal y error

• deja de percibirse como ruido, efecto de distorsi´ on m´ as nocivo

Sinusoide cuantizada de amplitud 9 niveles de cuantizacion

Error de cuantizacion

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 29 / 37

Cuantizaci´ on

Distorsi´ on y dither

• sinusoides de amplitud Q centradas en nivel y paso de cuantizaci´ on

• cuantizaci´ on introduce severa distorsi´ on (arm´ onicos y aliasing)

Sinusoide amplitud Q

Senal cuantizada

Sinusoide amplitud Q

Senal cuantizada

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 30 / 37

(15)

Cuantizaci´ on

Distorsi´ on y dither

• agregando ruido de bajo nivel se elimina la correlaci´ on

• baja la SNR, pero disminuye distorsi´ on (y aumenta resoluci´ on)

Sinusoide con dither

Sinusoide cuantizada

Sinusoide con dither

Sinusoide cuantizada

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 31 / 37

Cuantizaci´ on

Dither

• tipos de dither: pdf rectangular, triangular, gaussiana

• compromiso entre piso de ruido y eliminaci´ on de distorsi´ on

• aplicaci´ on: cuantizaci´ on, re-cuantizaci´ on (e.g. 24 a 16 bits)

−4

−2 0 2 4

sin dithering

amplitud (LSB)

tiempo

−20 0 20 40

densidad espectral (dB)

frecuencia

−4

−2 0 2 4

dithering uniforme

tiempo

−20 0 20 40

frecuencia

−4

−2 0 2 4

dithering triangular

tiempo

−20 0 20 40

frecuencia

−4

−2 0 2 4

dithering gaussiano

tiempo

−20 0 20 40

frecuencia

(16)

Cuantizaci´ on

Noise shaping

• se puede procesar el dither para hacerlo menos audible (e.g. pasaltos)

• manipular ruido de cuantizaci´ on y dither con criterios psicoac´ usticos

y (n) = [x (n)] _Q = x (n) + e(n) y (n) = [x (n) − e(n − 1)] _Q

= x (n) − e(n − 1) + e(n)

= x (n) + ˆ e e = e(n) − e(n − 1) ˆ

filtro pasa altos: H(z) = ^z−1 _z

x (n) Q y (n)

e(n)

x (n) Q y (n)

Z ^-1 _e(n)

[Z¨ olzer, 2008]

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 33 / 37

Noise shaping

x (n) y (n)

d ⁽ⁿ⁾

Q

Z ^-1 _e(n)

y (n) = [x (n) + d (n) − e(n − 1)] _Q

= x (n) + d (n) − e(n − 1) + e(n) ˆ

e = d (n) + e(n) − e(n − 1)

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 34 / 37

(17)

Noise shaping

x (n) y (n)

d ⁽ⁿ⁾

Q

e ₀ (n)

Z ^-1

y (n) = [x (n) + d (n) − e ₀ (n − 1)] _Q

= x (n) + d (n) − e ₀ (n − 1) + e(n) e ₀ (n) = y (n) − (x (n) − e ₀ (n − 1))

= d (n) + e(n)

y (n) = x (n) + d (n) − d (n − 1) + e(n) − e(n − 1)

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 35 / 37

Software

• Sonic Visualiser http://www.sonicvisualiser.org/

• Audacity http://audacity.sourceforge.net/

(18)

Referencias

Pohlmann, K. C. (2000).

Principles of Digital Audio.

McGraw-Hill Professional, 4th edition.

Chapter 2 - Fundamentals of digital audio.

Rabiner, L. R. and Schafer, R. W. (2011).

Theory and Applications of Digital Speech Processing.

Prentice Hall, 1st edition.

Chapter 1 - Introduction to digital speech processing.

Z¨ olzer, U. (2008).

Digital Audio Signal Processing.

Wiley, 2nd edition.

Chapter 2 - Quantization (Sec. 2.3 Noise Shaping).

Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 37 / 37