Procesamiento digital de se˜ nales de audio
Introducci´ on al procesamiento de audio
Instituto de Ingenier´ıa El´ ectrica, Facultad de Ingenier´ıa Universidad de la Rep´ ublica, Uruguay
Grupo de Procesamiento de Audio
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 1 / 37
1 Introducci´ on
Modalidad y contenido del curso Tem´ atica y aplicaciones
2 Muestreo y cuantizaci´ on Muestreo
Cuantizaci´ on
Modalidad y contenido del curso
Modalidad
• Tipo: grado y posgrado, Cr´ editos: 8
• Horario:
I lunes y mi´ ercoles de 10:00 a 12:00
I Laboratorio de Software del IIE
• Aprobaci´ on:
I entrega de ejercicios obligatorios (individual)
I proyecto final sobre un problema establecido (en parejas)
• Previas:
I Sistemas Lineales I (examen a curso)
I Muestreo y Procesamiento Digital (examen a curso)
I al menos 7 cr´ editos en Inform´ atica
• Recomendado:
I Taller de Filtros Digitales
• Pr´ actico:
I 4 repartidos, una semana luego de cada bloque tem´ atico
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 4 / 37
Modalidad y contenido del curso
Contenido
• Introducci´ on al procesamiento de audio
• Modelos para se˜ nales de voz y audio
• Percepci´ on auditiva
• Filtros digitales en audio, s´ıntesis de sonido, efectos
• An´ alisis de tiempo corto de se˜ nales de audio
• Procesamiento tiempo-frecuencia
• An´ alisis por modelado espectral
• An´ alisis Homom´ orfico y por Predicci´ on Lineal
• Codificaci´ on de voz y audio
• Recuperaci´ on de informaci´ on musical (MIR)
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 5 / 37
Tem´ atica y aplicaciones
Tem´ atica
• voz hablada: gran desarrollo en telecomunicaciones (desde 1960s)
• audio: conjunto m´ as amplio de tipos de se˜ nal de audio
I m´ usica, sonidos ambientales, de origen animal, maquinaria, etc
• algoritmos espec´ıficos permiten mejores resultados (e.g. codificaci´ on) objetivo: comprender los fundamentos de la producci´ on y percepci´ on de sonido y c´ omo las t´ ecnicas de procesamiento digital de se˜ nales pueden contribuir a resolver los diversos escenarios de aplicaci´ on
J. Flanagan, Bell Labs, 1972 Digital Audio Workstation, Ardour
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 6 / 37
Procesamiento de voz
codificación, compresión, encriptado, telefonía, VOIP
Aplicaciones del procesamiento de voz
trasmisión y
almacenamiento síntesis de voz reconocimiento del hablante
transcripción de voz a texto
asistencia a la discapacidad
mejora de calidad de señal
mensajería, call centers, interacción automática
control acceso, fonética forense, búsqueda por contenido
dictado, interacción por voz, call centers
lectura de texto, interacción por voz
reducción de ruido, eliminación de eco
[Rabiner and Schafer, 2011]
Procesamiento de voz
Fundamentos Representación Procesamiento
Aplicación
reconocimiento, codificación, síntesis
segmentación voz/silencio, estimación de pitch y formantes
temporal, espectral de tiempo corto análisis cepstral y predicción lineal
acústica, percepción auditiva, procesamiento de señales, lingüistica
[Rabiner and Schafer, 2011]
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 8 / 37
Procesamiento de voz
• detecci´ on temprana de dificultades en el aprendizaje de la lectura
audio original
• reconocimiento autom´ atico de palabras, identificaci´ on de errores
grupos: 0 1 2 3 4
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 9 / 37
Procesamiento de m´ usica
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 10 / 37
Procesamiento de m´ usica
Paul Lamere, Director of Developer Platform at The Echo Nest.
singing synthetizer - Yamaha
Xavier Serra, Director of Music Technology Group, UPF.
Procesamiento de m´ usica
Niveles del procesamiento de música
género emociones
interpretación similitud forma tensión
melodía armonía métrica tempo
segmentos notas, acordes dinámica ritmo
señal de audio características estructura
objetivo su bjetivo inn a to apr en di do
altura duración energía timbre, color
audio
contenido musical
Petri Toivanen, SBCM 2005, Belo Horizonte, Brasil
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 12 / 37
Procesamiento de m´ usica
• representaci´on de la se˜nal: temporal, espectral, tiempo-frecuencia
• descriptores de bajo nivel: transformaci´ on que captura aspecto particular
• entidades musicales: combinando y agregando descriptores de bajo nivel
• modelos sem´anticos: capturan similitudes y diferencias entre conceptos
audio original: contorno de pitch: audio original: detecci´ on de eventos:
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 13 / 37
Aplicaciones: Query by Humming
Note sequence encoding Tuning adjustment
Pitch tracking
Voice signal
Pitch time series refinement
Search result
Database Segmentation
Transcription Melody matching
Pattern matching
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 14 / 37
Aplicaciones: Audio Fingerprint
• identificaci´ on de audio (voz, m´ usica) a partir de un fragmento breve
• huella digital robusta a transformaciones como compresi´ on y ruido
• funcionando en aplicaciones comerciales y dispositivos m´ oviles
Original
50 100 150 200 250
10 20 30
mp3@16kbps
50 100 150 200 250
10 20 30
Diferencia
No. Subhuella
50 100 150 200 250
10
20
30
Aplicaciones: An´ alisis de interpretaci´ on
• software de representaci´ on de contenido mel´ odico
• utilizado para an´ alisis musicol´ ogico de interpretaci´ on (afinaci´ on, rasgos expresivos, etc.)
Time (s)
23 24 25 26 27 28 29 30 31 32
C4 C#4 D4 Eb4 E4 F4 F#4 G4 Ab4 A4 Bb4 B4 C5 C#5 D5 Eb5 E5 F5 F#5
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 16 / 37
Aplicaciones: Separaci´ on de fuentes
Frequency (kHz)
Original signal
1 2 3 4 5
se˜ nal original
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 17 / 37
Aplicaciones: Separaci´ on de fuentes
Frequency (kHz)
Separated source
1 2 3 4 5
voz m´ as prominente
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 18 / 37
Aplicaciones: Separaci´ on de fuentes
Frequency (kHz)
Time (s) Residual
1 2 3 4 5 6 7 8
1 2 3 4 5
residuo
Aplicaciones: Separaci´ on de fuentes y detecci´ on de voz
F0gram and pitch contours: vocal (gray) − non vocal (black)
Frequency (Hz)
110 220 440 880
1 2 3 4 5 6 7
−1
−0.5 0 0.5 1
Time (s)
Amplitude
Manual (thin line) and automatic (thick line) classification
original: vocal: residuo:
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 20 / 37
Aplicaciones: Reconocimiento de cantantes
ejemplo
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 21 / 37
Muestreo
Frecuencia de muestreo
• teorema de muestreo: f s > 2f max
• en audio f s de 8 a 192 kHz, dependiendo de la aplicaci´ on
• standards: CD 44.1 kHz, DVD-Audio y Blu-ray hasta 192 kHz
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
Amplitud
Tiempo (s)
Frecuencia (kHz)
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
0 1 2 3 4 5 6 7 8 9 10
[Pohlmann, 2000]
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 23 / 37
Muestreo
Aliasing
• se˜ nal a muestrear de banda limitada (filtro antialias)
• si esto no se cumple sobreviene aliasing
• no es un problema pr´ actico, salvo en ocasiones (e.g. s´ıntesis)
Tiempo (s)
Frecuencia (kHz)
1 2 3 4 5 6 7 8 9
0
5
10
15
20
Cuantizaci´ on
Cuantizaci´ on uniforme
• cuantizaci´ on: aproximar amplitud a precisi´ on finita (redondeo)
• cantidad de niveles: 2 N , con N largo de palabra
• paso de cuantizaci´ on: Q = 2X 2 N m , con X m amplitud de pico m´ axima
Entrada y salida del Sample and Hold
tiempo
amplitud
−a 0 2 0 +a 1 2 −1 +a 2 2 −2 +...+a N−1 2 −(N−1)
X
m2
entrada
Voltaje de Codigo ´ Complemento
a dos
− 0.2
− 0.4
− 0.6 0.8
0.2 0.0 0.6 0.4
000 010 011
001
111 110 101 100
− 0.8
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 25 / 37
Cuantizaci´ on
Error de cuantizaci´ on
• error: aproximaci´ on introduce p´ erdida de informaci´ on
• amplitud del error: acotado a Q/2, var´ıa entre −Q/2 : Q/2
• decrece al aumentar N largo de palabra (e.g. 8, 16, 24 bits)
Senal analogica digitalizada
amplitud
tiempo
amplitud
Error de cuantizacion
Senal analogica digitalizada
amplitud
tiempo
amplitud
Error de cuantizacion
Introducci´ on (1 clase) Procesamiento digital de se˜ nales de audio GPA - AudioDSP 2020 26 / 37
Cuantizaci´ on
Modelo de error de cuantizaci´ on
hip´ otesis: error no correlacionado con la se˜ nal ni consigo mismo modelo: ruido de distribuci´ on uniforme, U(− Q 2 , Q 2 )
se˜ nal compleja de gran amplitud → poco audible (enmascarado)
Senal analogica digitalizada
amplitud
tiempo
amplitud
Error de cuantizacion