CODIFICACIÓN DE LA SEÑAL DE VOZ
MÉTODOS DE CODIFICACIÓN
Los distintos métodos de codificación tratan de eliminar la redundancia de la señal y así poder reducir al mínimo el número de bits usados para codificar cada muestra. Un método de codificación se evalúa con las siguientes características:
• Velocidad de transmisión ("Bit rate")
• Complejidad de la implementación
• Retardo introducido
• Robustez ante la aparición de errores en el canal e interferencia acústicas
• Los codificadores se pueden clasificar en tres grupos:
CODIFICADORES DE LA FORMA DE ONDA:
Tratan de reproducir la forma de onda de la señal de entrada en el dominio del tiempo o en el de la frecuencia. Presentan una degradación aceptable en presencia de ruido y errores de transmisión y resultan efectivos para velocidades medias. Hay dos tipos que son:
• Codificación en el dominio del tiempo. Existen distintas técnicas de codificación según la forma de transmisión de la información de la señal digital. Se puede transmitir en la amplitud de los pulsos (PAM, "Pulse Amplitude Modulation"), en la posición (PPM, "Pulse Position Modulation"), en la anchura (PWM, "Pulse Width Modulation"), etc. La técnica más ampliamente utilizada es la conocida como PCM ("Pulse Code Modulation"), que consiste en representar cada cuanto mediante una secuencia de N bits. Otras técnicas muy usadas se basan en que existe una considerable correlación entre muestras adyacentes y lo que se transmite es la diferencia respecto a la muestra anterior. Pueden ser DPCM ("Differential Pulse Code Modulation") y ADPCM ("Adaptative Differential Pulse Code Modulation").
• Codificación en el dominio de la frecuencia. Esta puede ser a su vez por sub- banda y por transformada. Para el caso de sub-banda se divide la señal en un número de componentes en frecuencias separadas y se codifican independientemente. El número de bits asignados a cada banda depende de su importancia espectral. Generalmente en el caso de la voz, se usan más bits para las frecuencias bajas con el fin de preservar el pitch y la información de los formantes.
Por otra parte, la codificación de la forma de onda en el dominio de la frecuencia por transformada consiste en una transformación por bloques, de forma que se realiza una transformación a un dominio diferente y se codifican los coeficientes de la transformación. Esta forma de codificación es muy compleja, y como ejemplos se tienen las técnicas DCT ("Discrete Cosine Transform") y DFT ("Discrete Fourier Transform").
VOCODERS.
Los Voice CODERS intentan generar una señal de voz que suene igual que la original, independientemente de sí la forma de onda se parece o no. En el emisor se analiza la señal de voz y se extraen los parámetros del modelo y la excitación; esta información se envía al receptor, el cual sintetiza la voz.
El vocoder más utilizado es el de predicción lineal LPC("Linear Predictive Code"), que supone que cada muestra puede obtenerse a partir de una combinación lineal de las anteriores, aceptándose un filtro todo polos para modelar el tracto vocal. La expresión para realizar la decodificación sería la siguiente:
Donde sn es la muestra actual, sn-i son las muestras precedentes, ai son los coeficientes
del filtro, que se calculan para minimizar el error entre la muestra actual y su predicción, y p es el orden del filtro. Este método permite generar una señal inteligible con un bajo bit rate (del orden de 2.4 Kbps.), aunque su naturalidad es baja.
LOS HÍBRIDOS O PARAMÉTRICOS
Son una mezcla de los dos tipos anteriores. Utilizan un modelo paramétrico de producción de voz y tratan de preservar las partes más importantes, perceptualmente hablando, de la forma de onda de la señal de entrada. Existen varios tipos:
• RELP ("Residual Excited Linear Prediction"). Cuando la señal de voz se pasa a través de un predictor lineal se elimina la correlación entre tramas. Si la predicción es bastante buena, la salida del predictor será aproximadamente ruido blanco, espectralmente plano. El residuo contiene toda la información de excitación y cualquier información que el filtro LPC no considera (fase, información de pitch, nasalidad, etc.). La idea de RELP es que una pequeña parte del residuo se transmite y a partir de él se reconstruye el residuo completo en el receptor.
Aunque el concepto de codificación residual se usa también en ADPCM, RELP es diferente en el hecho de que la codificación del residuo se basa en el espectro en lugar de en la forma de onda. RELP opera en el rango de 6 a 9.6 Kbps.
MPLP ("Multi_Pulse Linear Prediction"). Los vocoders clasifican los sonidos en sonoros y no-sonoros, pero no consideran una mezcla de ambos, por lo que su calidad es baja. Para solucionar este problema se utiliza el codificador multipulso.
El período de pitch produce una correlación de retardo largo que no se elimina con el filtro LPC. Esta correlación puede hacerse desaparecer usando un segundo predictor lineal, llamado predictor de pitch o filtro de pitch, cuya expresión es la siguiente:
Donde i son los coeficientes del filtro, M es el factor que tiene en cuenta el retardo de
término largo e i varía entre uno y el orden del filtro. La salida de este predictor es aproximadamente ruido gaussiano.
En este codificador se pasa a los dos filtros una serie de impulsos (entre cuatro y seis) como excitación. La posición y amplitudes se determinan usando un procedimiento de análisis por síntesis, consistente en elegir el conjunto de impulsos que produce el menor error entre la señal original y la reconstruida a partir de ellos. La calidad de los codificadores MPLP es muy buena a partir de bit rates de 9.6 Kbps.
Una variación del codificador MPLP consiste en elegir como secuencia de excitación patrones de pulsos regularmente espaciados. Es el codificador llamado RPE ("Regular Pulse Excitación"), que es usado en GSM. Un factor típico de espaciado de los pulsos es 3-4, siendo actualizada la posición del primer pulso cada 5 ms. El número de pulsos existentes cada 5 ms
es del orden de 10-13, obteniéndose sus amplitudes mediante la resolución de un conjunto de ecuaciones lineales.
• CELP ("Code Excited Linear Prediction"). En este codificador la secuencia de excitación del filtro de pitch se elige de lo que se conoce como "diccionario". El diccionario está formado por un conjunto de secuencias de ruido blanco gaussiano, cada una identificada por un índice dentro del mismo. Se realiza un proceso de análisis por síntesis para determinar la secuencia de ruido y las ganancias óptimas. Al receptor por tanto, sólo se le envía el índice del diccionario y la ganancia. Este tipo de codificadores consigue buena calidad de