Audio digital. Sonido: el fenómeno físico percibido por el oído.

(1)

Audio digital

Sonido: el fenómeno físico percibido por el oído.

Audio: el producto de la transducción del sonido a un tipo de señal almacenable y editable. Requiere tecnología especíﬁca para generarlo y reproducirlo.

Audio digital 0.7.pdf Fabrice Lengronne, 2013-16

(2)

Transducción

La transducciónes la transformación de una señal en otro tipo de señal: es la recodificación de un flujo de eventos en otro flujo de eventos, de manera a poder registrar o modificar esa señal.

El audioes el producto de la transducción del sonido a través de un micrófono (transducción de sonido a señal eléc-trica), su grabación o modiﬁcación (ampliﬁcación, por ejemplo) y almacenamiento (discos, cinta, etc.) o reproduc-ción (equipo de audio, radio, etc.) a través de una nueva transducreproduc-ción de señal eléctrica o electromagnética a sonido que se produce en el parlante.

El audio digitales el producto de la transducción del sonido en datos numéricos, su almacenamiento (CD, DVD, discos duros, red, etc.) o modificación (amplificación, filtrado, mezcla, etc.).

señal eléctrica señal eléctrica

disco radio, televisión cinta micrófono parlante procesamiento filtros oscilador eléctrico (sintetizador) Sonido Sonido

señal eléctrica señal eléctrica

CD, DVD, disco duro, red

radio, televisión micrófono parlante procesamiento filtros oscilador eléctrico (sintetizador) Sonido 0101 0101 Sonido 0101 señal eléctrica sentido de la señal

transducción de señal acústica a datos

transducción de señal eléctrica a señal acústica señal acústica (sonido)

transducción de señal eléctrica a datos 0101

transducción de señal eléctrica a magnética transducción de señal eléctrica a señal radio transducción de señal eléctrica a señal mecánica 0101 0101 transducción de datos a señal eléctrica Leyenda

(3)

Discretización de la señal continua

La transducción digital implica un cambio importante en la señal: la señal sonora es continua, mientrás cualquier señal digital es constituida de una secuencia de números discretos, necesariamente limitada, y entonces discontinua. El proceso de transformación de continuidad en discontinuidad se llama un proceso de muestreo. De hecho consiste a dividir el tiempo en micropartes iguales y a evaluar para cada microparte la amplitud de la señal, también escalo-nada según una división en partes iguales.

T_m: duración de una muestra [f_m: frecuencia de muestreo]

en negro, la señal continua (onda sonora); en rojo la amplitud de las muestras en cian (celeste), la escala de amplitud (valores discretos).

El muestreo tiene que tomar en cuenta la variedad de frecuencias de la onda para poder representar todo correc-tamente.

Ejemplo:

La frecuencia grave (puntos rojos) está correctamente representada con ese muestreo, pero la frecuencia aguda (puntos violetas) es insuﬁcientemente deﬁnida.

t Tm

(4)

Características del audio digital

Frecuencia de muestreo

La frecuencia de muestreo es la cantidad de muestras sonoras por unidad de tiempo. Esa cantidad representará la precisión de la curva discontinua en el eje del tiempo transcurrido.

Teorema de Nyqvist

Para que una señal no este perturbada por la discretización, la frecuencia de muestreo debe ser superior al doble de la frecuencia más grande contenida en la señal. Esa frecuencia límite se llama frecuencia de Nyqvist.

Normas

Para el reconocimiento y entendimiento de la voz, se necesita cubrir el rango 300-3000 Hz, más un margen de se-guridad. Para ese uso, se deﬁnió un estándar de 8 kHz de frecuencia de muestreo.

Cuando se deﬁnió la norma del CD-audio (ﬁnes de los 70), se tomaron en cuenta tres datos: el límite auditivo hu-mano (20 kHz) y la compatibilidad con las normas de video (PAL-SECAM, 25 fps, ; NTSC, 30 fps) de tal manera que un cuadro de video corresponda a una cantidad entera de muestras de sonido. El resultado de esas condiciones fue: 44,1 kHz.

Supera 2 veces 20 kHz, y es multiplo entero de 25x2x3 [x 294] y 30x2x3 [x 245]; 2 y 3 representan las 2 tramas por cuadro y las 3 muestras de color por cuadro (RGB).

Con la aparición del DAT posteriormente, se usó una frecuencia de muestreo de 48 kHz, que es también norma para el sonido de los DVD-Video. En la etapa de grabación y edición, se suele usar 96 o 192 kHz.

Rango dinámico(tasa de unidades binarias, o profundidad de bit, bit depth)

El rango dinámico de la señal digital define la cantidad de niveles de amplitud disponibles en el proceso de discre-tización. Los valores de amplitud en las muestras son valores enteros cuyos límites son definidos por ese rango di-námico o tasa de unidades binarias. Se codifican con una cantidad de unidades binarias (o bits, de valor 0 o 1)) que depende del destino de uso de la grabación. Para la telefonía digital, se usaba inicialmente 8 bits (256 valores, de 0 a 255). Uso frecuencia de muestreo rango dinámico comentarios telefonía digital inicial

8 kHz 8 bits se usa en los

dictáfonos CD 44,1 kHz 16 bts DAT, DVD 48,0 kHz 16 bits Digital 88,2 kHz 96 kHz, 192 kHz 24 bits actualmente se usan para gra-bar y editar, no

son estándares de formatos

(5)

Formatos de audio

Un formato informático de audio es una forma de codificar la señal numericamente para conservar y utilizar esos datos mediante programas informáticos (software). Puede representar el audio en forma directa, sin compresión de los datos, o hacerlo mediante la compresión de datos que limita la cantidad de datos para representar el mismo audio, a partir de un proceso a la vez de recodificación y de eliminación de los datos considerados superflúos, por ejemplo porque no percibidos.

Formatos sin compresión

Los formatos sin compresión más comunes usados son:

aiff (Audio Interchange File Format) extensión: .aiff; .aif

Formato desarrollado en 1988 por Apple Computer, e incorporado al software de tratamiento de audio profesional desde entonces. Soporta variedad de frecuencia de muestreo y de profundidad de bits, mono o estéreo.

wav (Waveform audio format) extensión: .wav

Formato desarrollado en 1991 por Microsoft e IBM, con características similares al AIFF, con un límite de tamaño de archivo de 4 GB. Soporta variedad de frecuencia de muestreo y de profundidad de bits, mono o estéreo.

au (Audio file format) extensión: .au

Formato desarrollado por Sun Microsystems y usados también por las computadoras NeXT en los años 1990, y en otros sistemas Unix o Linux.

sd (Sound Designer) extensión: .L y .R para los canales izquierdo y derecho

Formato inicial propio del software ProTools, desarrollado por DigiDesign, software profesional muy utilizado en los estudios profesionales de grabación. Soporta variedad de frecuencia de muestreo y de profundidad de bits, mono o estéreo (con 1 archivo por canal).

Formatos comprimidos

La compresión de audio procede por dos caminos: el aprovechamiento del conocimiento psicoacústico de la audi-ción humana, que permite eliminar de los archivos los datos no perceptibles del audio, y la recodiﬁcaaudi-ción que per-mite reducir la cantidad de códigos utilizados para representar el audio. El primer camino funciona de manera destructiva, eliminando información considerada como inutil a la percepción correcta del audio. El segundo puede no ser destructivo.

mp3 (MPEG 1/2-Audio Layer III) extensión: .mp3

Es la especificación audio de la codificación de video MPEG 1 y 2, utilizada en la mayoría de los formatos compri-midos de video, así como en los reproductores de audio portátiles, los celulares, etc. Es un formato que usa una compresión destructiva. Estará en el dominio público fines de 2017.

aac, m4a (Advance Audio Coding, 1997) extensiones: .m4a; .aac; .m4p

Es un formato desarrollado para mejorar la calidad del mp3 (y remplazarlo), que se adoptó en particular para muchos formatos de video, así como para la aplicación de Apple iTunes (que soporta también otros formatos). La relación calidad/compresión es mejor que en el mp3.

Vorbis ogg extensión: .ogg

Formato de compresión desarrollado por la fundación Xiph como software libre de compresión de audio. Existen plug-ins para muchos software para implementar este formato.

flac (Free Lossless Audio Codec) extensión: .flac

Es un compresor de la fundación Xiph para comprimir sin eliminar información del audio. Funciona en base a re-codiﬁcación. Como tal es usable para archivar grabaciones sin perdida de información.

(6)

Software de audio

Editor de audio

Es un software que permite recortar, modificar en amplitud y aplicar filtros y efectos al audio, de manera destructiva (el efecto o el filtro afecta de manera definitiva el audio). Se usa en general en una primera etapa de un trabajo de audio, antes de la mezcla, para limpiar las tomas grabadas.

Ejemplos: Audacity(software libre, Linux, Mac, Win), Amadeux Pro(Mac), Peak(Bias, Mac).

Estación de audio digital (DAW, digital audio workstation)

Además de las funciones de edición de audio, la estación de audio digital permite trabajar en edición no destructiva, manejar una consola propia que habilita ruteos de audio (lo que permite manejar ﬁltros en paralelo o en serie, re-alizar mezcla, etc.), aplicación de numerosos plug-ins de audio, y sincronización de audio e imagen video.

Ejemplos: Ardour(libre, Linux, Mac, Win), Digital Performer(Mac, Win), ProTools(Mac, Win), Nuendo(Mac, Win), Logic Pro(Mac)

Muestreador, sampler

Existió primero como hardware (equipamiento externo al ordenador), luego, con el crecimiento de la potencia de la informática, pasó a usarse como software para gestionar colecciones de sonidos muestreados, representando ins-trumentos musicales, nota por nota, y otras fuentes sonoras, de manera apoder reproducir esos sonidos mediante sistema MIDI, desde el ordenador mismo o a través de un instrumento MIDI acoplado al ordenador (teclado y otros).

Ejemplos: Kontakt(Mac, Win), GigaSampler(Win), Reason(Mac, Win),

Reproductor de audio

Se dedican a reproducir archivos de audio, y eventualmente a convertirlos entre diversos formatos. Usualmente permiten armar listas de escucha para automatizar la reproducción.

Ejemplos: iTunes(Mac, Win), Windows Media Player(Win), VLC(libre, Linux, Mac, Win), etc.

Lenguajes de programación de audio

Permiten desarrollar procesos y algoritmos aplicables a una cadena de sonido, así como generar audio de la nada (síntesis).

Ejemplos: CSound(libre, Linux, Mac, Win), PureData(libre, Linux, Mac, Win), SuperCollider(libre, Linux, Mac, Win), Max MSP(Mac, Win).

(7)

Interferencias y audio

Relación señal/ruido

La relación señal /ruido traduce la presencia de interferencias en el sistema, que esten provocadas por el micrófono, las conexiones, o cualquier otro elemento de la cadena audio. El ruido es lo que queda cuando no hay señal entrando por el micrófono.

Audio balanceado

La señal está mandada mediante dos cables idénticos, uno en fase, el otro en contrafase (u oposición de fase); el ruido producido por las interferencias eléctricas o magnéticas es el mismo en los dos cables; a la recepción, se vuelve a invertir la señal en uno de los cables y se suma a la señal del otro: la interferencia se anula y la señal captada duplica su amplitud.

señal captada señal recibida

transporte de la señal (cable balanceado)

duplicación con inversión de fase inversión de fase y suma interferencia (ruido eléctrico)

(8)

Microfonía

Micrófono

Un micrófono es un transductor que transforma la variación de presión sonora en variación de tensión eléctrica. Esta transducción ocurre en dos etapas simultáneas: la transducción de la vibración sonora en vibración mecánica (la membrana del micrófono entra en vibración) y la transducción de esa vibración mecánica en variación de tensión eléctrica alterna. Ese doble proceso puede tomar distintas formas tecnológicas. Todos los micrófonos, con la ex-cepción de los micrófonos de contacto, parten de la transmisión del sonido por el aire.

Clasificaciones (desarrollar en próxima versión)

Acústica

Micrófono a presión

Micrófono a zona de presión Micrófono a gradiente de presión Eléctrica

Microfonía electrodinámica Microfonía electroestática

Tecnologías de microfonía

Las tecnologías microfónicas se clasiﬁcan según los dos procesos: según la transducción mecánica o según la trans-ducción eléctrica. En el primer caso, se privilegia la transformación de la señal sonora en vibración mecánica, en el segundo, se centra en el resultado eléctrico de la transducción. El segundo caso es el más usado.

Microfonía electrodinámica

Su forma más común es una bobina electromagnética sujetada a una membrana suspendida y móvil. Es muy robusto, pero de sensibilidad baja. El movimiento de la membrana genera movimiento de la bobina, que genera una variación de tensión función de la velocidad de desplazamiento. Esta variación de tensión se registra (o se transmite en el caso de sonorización).

Una variante es el micrófono de cinta, en el cual una cinta arrugada de aluminio reemplaza la membrana en medio de un imán. Esa tecnología es más fragil que la bobina.

Esquema de funcionamiento 1. Señal acústica 2. Membrana 3. Bobina móvil 4. Imán 5. Señal eléctrica

Microfonía electroestática (condensador o electret)

En esta tecnología, la membrana es recubierta de una superﬁcie conductora de electricidad, y constituye una de los dos electrodos de un condensador. Sus movimientos hacen variar la tensión continua que tiene que alimentar el micrófono (a la diferencia del micrófono dinámico), y esa variación de tensión se registra o se transmite.

En el caso del electret, el condensador se construye a partir del material del micrófono mismo, utilizando un ma-terial con propiedad de conservación de carga electroestática. De esa manera, no hay necesidad de alimentar el mi-crófono, aunque sigue necesitando ampliﬁcación de la señal mediante potencia fantasma (ver abajo)

(9)

Esquema de funcionamiento 1. Señal acústica 2. Membrana delantera 3. Placa trasera 4. Generador 5. Resistencia 6. Señal eléctrica

Microfonía piezoeléctrica (microfonía de contacto)

Es un micrófono hecho a base de material piezoeléctrico. Un material piezoeléctrico se carga electricamente y hace variar su tensión en función de la presión que recibe: se contrae y se expande en función de esa presión, y ese movimiento genera variación de tensión eléctrica. No funciona en el aire: la presión que puede ejercer el aire sobre el micrófono es insuﬁciente (o muy limitada) para hacer variar su tensión, pero no es así en el caso de materia sólida. Los micrófonos de contacto piezoeléctricos utilizan entonces la transmisión sonora de materiales sólidos, mediante contacto mecánico directo.

Características

Direccionalidad - Patrón polar

El patrón polar caracteriza la direccionalidad del micrófono, o sea su capacidad de registro en función del espacio. Se representa en forma de diagrama con una ﬁgura que indica un mismo nivel de salida del micrófono para una señal dada: la misma señal tendrá el mismo nivel de salida en los punto representados en el diagrama.

Los distintos patrones polares usados

omnidireccional ﬁgura ocho direccional

cardioide subcardioide, infracardioide supercardioide hipercardioide

Sensibilidad

La sensibilidad del micrófono es la relación entre el nivel eléctrico de salida del micrófono y la presión sonora in-cidente. Se mide en general en mV/Pa. Para obtener una señal util grande, esa relación tiene que ser grande. De manera general, los micrófonos electroestáticos tienen más sensibilidad que los micrófonos electrodinámicos.

Relación señal-ruido

(10)

Rango dinámico

El nivel máximo aceptable para un micrófono se deﬁne para una distorsión armónica de la señal eléctrica de 0,5 % a 1 kHz. Ese nivel varía usualmente entre 120 y 140 dB.

El rango dinámico será la diferencia entre el nivel máximo y el nivel de ruido de fondo. Ese rango dinámico deﬁne el rango util de niveles dinámicos que podrá captar el micrófono.

Curva de respuesta

La curva de respuesta del micrófono es la sensibilidad del mismo en el rango de 20 a 20 000 Hz, para una fuente sonora ubicada en el eje de la capsula (el elemento sensor: membrana, condensador, cinta, etc.)) del micrófono. La curva está en general testeada por el fabricante y adjuntada a la documentación del micrófono.

Pre-amplificación (potencia fantasma, Phantom power)

Según el rango de variación de tensión que genera la tecnología del micrófono, o si necesita corriente continua, se puede necesitar ampliﬁcar la señal para que la transducción sea efectiva. Para eso, se usa una preampliﬁcación fan-tasma (phantom poweren inglés) que agrega 48 V (en general) a la señal.

De manera general, los micrófonos electrodinámicos no requieren preampliﬁcación, mientrás los electroestáticos la requieren.

Cuidado: los micrófonos utilizados con potencia fantasma tienen que conectarse y desconectarse

con la preampliﬁcación apagada, ya que de lo contrario está en riesgo el micrófono y el aparato al cual se conecta (consola, grabador). Conviene entonces encender la potencia fantasma des pués de conectar todo y antes de desconectar todo.

Mono/estéreo

En general, los micrófonos son monofónicos, pero existen también modelos estereofónico que unen dos micrófonos en uno de manera a registrar la espacialidad frontal de las fuentes sonoras registradas.

(11)

Cableado - conectores

Cables de audio

Conectores XLR

Conector de audio balanceado, mono o estéreo. También existen variantes usadas para luces o electricidad, con más o menos pins.

Se lo llama a veces Cannon, del nombre de su inventor. Se usa en general para micrófonos, o para parlantes pro-fesionales.

XLR mono, hembra y macho (3 pins) XLR estéreo, hembra y macho (5 pins)

combo XLR-TSR mono

Conectores Jack

Conectores de audio no balanceado o balanceado, según el cableado, mono (TS) o estéreo (TRS), a veces llamados “plug” (= ¡conector!). Existen en varios formatos, usados particularmente en todo lo que es auriculares, desde los profesionales hasta los de celulares o reproductores de sonido. Algunos incluyen también una conexión de micró-fono (TRRS).

Tamaños:

Ø: 2,5 mm, 3,5 mm, 3,5 mm, 6,35 mm (1/4”) microjack, minijack (2x), jack

TRS estéreo*, TS mono, macho, ø 6,3 mm TRRS estéreo con micrófono, ø 3,5 mm

*El conector TSR se puede usar como conector mono balanceado.

Conector hembra 1: (sleeve, S) 2: (ring, R) 3: (tip, T) 4: separadores de goma 1: S - tierra

2: R - canal derecho o mi-crófono

3: T - canal izquierdo o mi-crófono

(12)

Conectores RCA

Conectores de audio y de video, usados en conexión de reproductores principalmente, incluso para lectores de CD o de DVD, y para parlantes domesticos.

RCA estéreo + video compuesto, macho RCA de video por componentes, hembra

canal derecho (rojo), izquierdo (blanco) y video (amarillo)

RCA mono, cable hembra

Conectores DIN 2

Conectores de parlantes, de uso principalmente domestico. DIN 2, hembra y macho

(13)

Cables informáticos Conectores DIN 5

Este conector se usó en equipos domesticos de audio en un primer tiempo. Cuando cayó en desuso, se recicló como cable de datos para el estándar MIDI, para conectar los aparatos MIDI entre sí (teclados, sintetizadores, muestre-adores, material informático).

DIN 5 macho DIN 5 hembra

Conectores USB

Usos múltiples: conexión de teclado y ratón, de pen-drive o de discos duros, de cámaras digitales, escáneres, im-presoras, interfaces de audio, celulares. Existen 3 generaciones: USB 1.1, 2.0 y 3.0, con diferentes velocidades de transmisión, y diferentes formatos de conectores para cada generación.

Tipo A

USB 1.1/2.0 USB 3.0

Tipo B

B: 1.1/2.0 3.0 Mini B 1.1/2.0 Micro B; 1.1/2.0 3.0

(14)

Conectores FireWire

Otra conexión de alta velocidad, que se uso para discos duros, cámaras de video, escáners, interfaces de audio y hasta red.

Firewire 4-pin, macho (FW 400)

Conectores de pantalla o proyector Conector VGA

Conector analógico de los monitores de tubo catódico color, desde ﬁnes de los 80. Se usa también en proyectores. VGA, macho

Conector DVI

Conector de video digital de pantallas planas LCD o LED. DVI, macho

Conector HDMI