Evaluación de desempeño del códec de banda ancha EVS

Texto completo

(1)Departamento de Telecomunicaciones y Electrónica. Título del Trabajo: “Evaluación de desempeño del códec de banda ancha EVS”. Autor: Adriel Rodríguez Rodríguez Tutor: Msc. Carlos Alberto Rodríguez López. , Junio de 2018 Año.

(2) Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos estudios. Se autoriza su utilización bajo la licencia siguiente: Atribución- No Comercial- Compartir Igual. Para cualquier información contacte con: Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830 Teléfonos.: +53 01 42281503-1419.

(3) Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería en Telecomunicaciones y Electrónica, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad.. Firma del Autor Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. Firma del Tutor. Firma del Jefe de Departamento donde se defiende el trabajo. Firma del Responsable de Información Científico-Técnica.

(4) i. PENSAMIENTO. “Intenta no volverte un hombre de éxito, sino un hombre de valor.” Albert Einstein..

(5) ii. DEDICATORIA.  A Dios por estar conmigo en todo momento, en los buenos y en los malos, dándome fuerza para seguir adelante y no abandonar.  A mis padres y hermano por brindarme su apoyo, su amor y todo lo que estuvo a su alcance para hacer posible el final de esta intensa jornada de estudios. Por todos sus consejos certeros, por regalarme la felicidad una convivir en una familia especial y por estar a mi lado siempre, les dedico todos mis logros.  Al resto de mi familia que estuvo pendiente de mí todo este tiempo y apoyándome también desde la distancia. Por su afecto con valor incalculable también les dedico todos mis logros.  También a todos mis amigos, con los que pude compartir durante estos años. desánimos, luchas y pruebas, pero también alegrías y momentos que marcaron mi vida; y a aquellos que, aunque no pudieron estar tan cerca, su mano siempre estuvo extendida para animar y aconsejar..

(6) iii. AGRADECIMIENTOS.  En primer lugar, quisiera agradecer a Dios por permitirme estudiar esta carrera y salir airoso a pesar de los tropiezos. Si hoy he llegado hasta aquí ha sido porque él es fiel.  A mis padres por su ejemplo a seguir y todo lo que me han enseñado, por guiarme por el camino correcto y regalarme todo su amor. A ellos mis profundos agradecimientos por su esfuerzo y dedicación.  A mi hermano por ser un patrón a seguir, por ser mi compañero de milicia, mi amigo, y sobre todo por sus consejos y su cariño.  También quisiera agradecer a mi tutor, el profesor Carlitos, como cariñosamente le decimos, por su buen ánimo, siempre dispuesto a ayudar y a aportar para nuestra preparación profesional, entregando su mayor esfuerzo para que pudiera culminar con éxito este trabajo de diploma; y a todos aquellos que hicieron posible, de una forma u otra la realización de esta investigación.  A todos los profesores que han contribuido a mi formación académica en esta universidad.  A mis familiares y amigos por estar siempre para mí. A todos ustedes llegue todo mi agradecimiento, con gran afecto y sinceridad. Sigan siendo especiales..

(7) iv. TAREA TÉCNICA Para el desarrollo del presente trabajo de diploma se realizaron un conjunto de tareas, haciendo posible lograr los objetivos propuestos en eta investigación. Estas son: 1. Realizar una revisión bibliográfica del estado de desarrollo del códec Enhanced Voice Services (EVS). 2. Analizar los métodos de evaluación existentes para los códecs conversacionales disponibles y la elección del método apropiado para llegar a los resultados deseados. 3. Desarrollar la evaluación del desempeño de las distintas relaciones de codificación del códec a investigar ante diferentes condiciones de señales. 4. Analizar los resultados obtenidos. 5. Conformar el informe del Trabajo de Diploma.. Firma del Autor. Firma del Tutor.

(8) v. RESUMEN. Esta investigación contribuye al estudio del códec de banda ancha Enhanced Voice Services (EVS). Varios artículos han desarrollado valoraciones subjetivas de las características de este códec, siendo escasas las evaluaciones objetivas del mismo. De ahí el aporte fundamental de este trabajo de diploma: evaluación objetiva y exhaustiva de algunas de las opciones del códec EVS, a través de experimentos, mediante la utilización de herramientas computaciones. Los resultados son analizados reflejando el comportamiento de este novedoso códec ante diferentes condiciones de señales, en cada una de las razones de bits a las que trabaja, con algunas de las opciones que brinda. Los resultados son presentados en términos de Mean Opinion Score (MOS), evidenciando una tendencia de comportamiento similar a las obtenidas mediante pruebas que siguen métodos subjetivos..

(9) vi TABLA DE CONTENIDOS. PENSAMIENTO .....................................................................................................................i DEDICATORIA .................................................................................................................... ii AGRADECIMIENTOS ........................................................................................................ iii TAREA TÉCNICA ................................................................................................................iv RESUMEN ............................................................................................................................. v INTRODUCCIÓN .................................................................................................................. 1 Organización del informe ................................................................................................... 5 CAPÍTULO 1.. DESCRIPCIÓN DEL CÓDEC EVS. ........................................................ 6. 1.1.. Visión general del codificador. ............................................................................... 7. 1.2.. Visión general del decodificador ............................................................................ 9. 1.3.. Principales funcionalidades del códec EVS.......................................................... 10. 1.3.1. Conmutación de la codificación de voz / audio a bajo retardo. ...................... 10. 1.3.2. Codificación de súper-banda ancha. ............................................................... 11. 1.3.3. Rango y conmutación de puntos de funcionamiento ...................................... 11. 1.3.4. Resiliencia avanzada ante el error. ................................................................. 12. 1.3.5. Compatibilidad con versiones anteriores de AMR-WB. ................................ 17. 1.4.. Mejoras realizadas por EVS. ................................................................................ 17. 1.4.1. Codificación basada en LP ............................................................................. 17. 1.4.2. Codificación de velocidad de bits variable controlada por la fuente (SC-. VBR). 19 1.4.3. Preprocesamiento mejorado y VAD. .............................................................. 20. 1.4.4. Mejora de la generación de ruido de confort (CNG). ..................................... 20. 1.4.4.1 CNG basado en LP. ...................................................................................... 21.

(10) vii 1.4.4.2 CNG en el dominio de la frecuencia ......................................................... 22 1.4.5. Mejora de la codificación basada en MDCT de bajo retardo. ........................ 23. 1.4.5.1 Codificación MDCT de alta calidad y baja frecuencia (LR / HR-HQ). ....... 25 1.4.5.2 Excitación codificada de transformación (TCX). ......................................... 26 1.4.6. Alternar entre voz y codificación MDCT. ...................................................... 29. 1.4.6.1 Clasificador de voz / música. ........................................................................ 29 1.4.6.2 Clasificador de baja complejidad basado en SNR. ....................................... 30 CAPÍTULO 2.. MÉTODOS. DE. EVALUACIÓN.. DESCRIPCIÓN. DE. LA. EVALUACIÓN OBJETIVA DEL CÓDEC EVS Y ANÁLISIS DE LOS RESULTADOS. 34 2.1. Métodos de evaluación de calidad y percepción de la comunicación. ................. 34. 2.1.1. Métodos subjetivos. ........................................................................................ 35. 2.1.2. Métodos objetivos. .......................................................................................... 35. Modelo-E. ................................................................................................................. 36 Perceptual Evaluation of Speech Quality (PESQ). ................................................... 37 ITU-T P.563 .............................................................................................................. 39 2.2. Descripción general de los experimentos a realizar.............................................. 41. 2.2.1 Descripción de las herramientas empleadas en los experimentos. ...................... 42 2.2.1.1 Ejecución del códec EVS. ............................................................................. 42 2.2.1.2 Características de los archivos. ..................................................................... 46 Formato de los archivos de prueba. ...................................................................... 48 2.2.1.3 Generalidades del códec AMR-WB y ejecución del programa. ................... 49 Características de los archivos. ............................................................................. 51 2.2.2 Experimento #1. ................................................................................................... 52 2.2.3 Experimento #2. ................................................................................................... 58.

(11) viii 2.2.4 Experimento #3. ..............................................................................................60 CONCLUSIONES Y RECOMENDACIONES ................................................................... 63 Conclusiones ..................................................................................................................... 63 Recomendaciones ............................................................................................................. 64 REFERENCIAS BIBLIOGRÁFICAS ................................................................................. 65 ANEXOS .............................................................................................................................. 68 Anexo I Resultados del Experimento #1: Modo compatible del códec EVS con AMRWB. ................................................................................................................................... 68 Anexo II Resultados del Experimento #2: Modos de trabajo (Kbps) del códec EVS. ..... 76 Anexo III Resultados del Experimento #3: Modo DTX del códec EVS. ......................... 79.

(12) INTRODUCCIÓN. 1. INTRODUCCIÓN. En las últimas décadas el desarrollo de las telecomunicaciones ha adquirido gran importancia en el progreso tecnológico de la sociedad. El mundo cada vez más integrado e interconectado sostiene una alta demanda en los servicios de voz, donde la calidad del habla juega un papel transcendental en la evolución de los sistemas de comunicaciones. El avance vertiginoso de los servicios de voz sobre IP (VoIP), que brindan audio de ancho de banda extendido, hace que los usuarios también esperen alta calidad de voz en los servicios móviles. La voz de alta definición (HD) se está implementando en todo el mundo, lo que brinda una mejora sustancial en la calidad de la voz en comunicaciones móviles. Permite a las personas comunicarse de forma más clara y fácil utilizando un ancho de banda de audio (hasta 8 kHz) proporcionado por el códec adaptable de razón múltiple de banda ancha (AMR-WB) para hacer el habla más inteligible y natural, creando una sensación de comunicación transparente y haciendo el reconocimiento del hablante más fácil, incluso con la presencia de ruidos ambientales [1]. En aras de introducir y desarrollar la voz HD, ha surgido una consecuente mejora en la calidad de la voz a través del códec Enhanced Voice Services (EVS), estandarizado por 3rd Generation Partnership Project (3GPP), que lleva la calidad de la voz a un nivel "más allá de HD" [1]. El trabajo en el códec EVS se inició en 2007. El proceso de estandarización [2] duró de 2010 a 2014, completándose en diciembre de 2014 con la Versión 12 de 3GPP. El códec se desarrolló en colaboración entre fabricantes de chips, teléfonos e infraestructura, así como operadores y proveedores de tecnología. Estos incluyen Ericsson, Fraunhofer IIS, Huawei, Nokia, NTT, NTT DOCOMO, Orange, Panasonic, Qualcomm, Samsung, VoiceAge y ZTE Corporation. El proceso de estandarización estuvo precedido por un conjunto de evaluaciones realizadas por grupos independientes. Las evaluaciones se realizaron siguiendo métodos subjetivos en todos los casos [3]..

(13) INTRODUCCIÓN. 2. Al ampliar el ancho de banda de audio hasta 20 kHz, el códec EVS cubre la gama completa de audición humana. Es el primer códec conversacional 3GPP (es decir, con latencia adecuada para la comunicación) que proporciona la misma calidad para voz, audio genérico como música y contenido que mezcla voz y música [1]. De acuerdo con las especificaciones técnicas, EVS incluye interoperabilidad con el códec de audio anterior AMR-WB, un esquema de velocidad de bits variable controlado por la fuente (SC-VBR), un detector de actividad de voz / sonido (VAD), así como un sistema de generación de ruido de confort (CNG) y un mecanismo de encubrimiento de errores (CE) para neutralizar los efectos perjudiciales de los errores de transmisión que resultan en paquetes perdidos. Además, se expone que el códec también presenta un modo de detección de canales que mejora aún más la resiliencia al error de trama / paquete. Para reducir el impacto del tiempo de transmisión variable también incorpora un mecanismo de gestión de búfer de fluctuación (JBT) [4], [5]. Desde el momento en que se completó el proceso de estandarización hasta la fecha se han publicado varios artículos que evalúan el desempeño del códec EVS. En el artículo [1] se analiza las características de la calidad de la voz y del audio del códec EVS, y se presenta una evaluación comparativa con otros códecs, a través de tres pruebas subjetivas de escucha, que contienen conversaciones con ruido y libre de este, así como una mezcla de conversación y música. La métrica de evaluación es la puntuación de opinión media (Mean Opinion Score, MOS) con escala subjetiva extendida de 1-9 para todas las condiciones de pruebas. Los resultados resultan favorables en cuanto al desempeño del códec EVS. En el artículo [4] se evalúa la capacidad del códec EVS para enmascarar las pérdidas de paquetes. El método propuesto para EVS tiene la novedad de aprovechar la capacidad de reenviar información dentro de banda. Los resultados permiten comprobar que dicho método ayuda a liberar al sistema de algunos problemas como las retransmisiones frecuentes y demoras adicionales en el planificador. El costo de aplicar este mecanismo en ausencia de pérdidas es prácticamente despreciable. Por otro lado el artículo [3] evalúa el impacto del manejo dinámico de ancho de banda en este códec. La evaluación es de tipo subjetiva y la métrica de evaluación es el MOS..

(14) INTRODUCCIÓN. 3. Los trabajos anteriormente descritos tienen en común que las evaluaciones se realizaron empleando el método subjetivo que tiene el inconveniente de resultar costoso y demorado. A pesar de haber realizado una exploración profunda, se aprecian escasos trabajos publicados que usen técnicas de evaluación objetiva para medir el desempeño del códec EVS. Sin embargo, son conocidos los beneficios que resultan del uso de la evaluación objetiva en cuanto a costo, rapidez y justicia en términos de comparación de resultados cuando las pruebas subjetivas son realizadas por diferentes grupos de oyentes. Con una serie de funciones nuevas diseñadas para mejorar el funcionamiento en entornos operativos hostiles y técnicas de compresión avanzadas que aplican algoritmos personalizados para cubrir una amplia gama de entradas, el códec EVS, con una estrecha integración a LTE y los sistemas de comunicaciones móviles de próxima generación , ofrece una calidad y capacidad inigualables en comparación con cualquier sistema de telefonía multimedia actual, al tiempo que abre oportunidades para nuevos servicios y dispositivos [4]. Sin embargo, aún existen pocas evaluaciones de este códec en áreas de la telefonía móvil, ya que es novedoso y pocos dispositivos móviles disponen de este códec. Algunas pruebas han arrojado conclusiones subjetivas sobre el mismo y muy pocas lo han hecho en el campo objetivo. El desempeño en aplicaciones multimedia con diferentes razones de transmisión no ha sido debidamente explorado aún, y bajo estas condiciones puede ser que ocurran pérdidas de paquetes, por el mal comportamiento en los mecanismos de ajustes del búfer etc. Se hace necesario entonces comprobar a nivel experimental aspectos como estos, para ver si realmente bajo determinadas condiciones este códec cumple las expectativas, la riqueza de opciones que nos brinda este códec hace que sea muy difícil abarcar todas las áreas en un mismo experimento. Actualmente en el departamento de telecomunicaciones de la Facultad de Ingeniería Eléctrica de la universidad no se ha desarrollado ningún tema que abarque esta área de estudio, ni se han realizado pruebas al códec EVS, siendo esto un aspecto a favor del desarrollo de esta investigación. Todo lo expuesto anteriormente hace surgir la situación del problema y una pregunta científica: ¿Cómo contribuir a la evaluación objetiva de la calidad y eficiencia del códec EVS?.

(15) INTRODUCCIÓN. 4. A continuación, se efectúan las siguientes interrogantes científicas para lograr dar solución a la situación del problema presentado:  ¿Cuál es la situación actual que presenta el códec EVS?  ¿Qué características, y mejoras implementadas en el códec EVS permiten identificarlo como códec de alta definición en las últimas generaciones de telefonía móvil?  ¿Cuáles métodos y herramientas existen para la evaluación un códec de voz?  ¿Qué tipo de señales de audio se pueden elegir para la evaluación del códec que simulen una situación parecida a la que puede enfrentar este códec en la práctica?  ¿Cuál es el rango para el uso de las diferentes alternativas que ofrece el códec como las razones de codificación, frecuencia de muestreo, etc.? Para abarcar satisfactoriamente estas cuestiones y darles solución se plantea como objetivo general:  Evaluar de modo objetivo el códec EVS con herramientas computacionales, realizando diversas pruebas con muestras de audio y corroborar la calidad y eficiencia de este códec. Como objetivos específicos:  Presentar un estudio de las diferentes características y alternativas que brinda este códec.  Elegir el conjunto de señales de audio que representen situaciones que puede enfrentar el códec EVS.  Evaluar el desempeño de las distintas razones de codificación ante diferentes condiciones de señales. Para llegar a cumplir los objetivos propuestos, relacionados con las interrogantes científicas, se definieron varias tareas. Primeramente, realizar un estudio del estado actual del códec EVS y de los métodos de evaluación disponibles para la elección del método apropiado. Además, desarrollar la evaluación del desempeño de las distintas relaciones de codificación del códec a investigar ante diferentes condiciones de señales..

(16) INTRODUCCIÓN. 5. Organización del informe El trabajo se estructura como se presenta a continuación: Introducción, Capitulario, Conclusiones, Recomendaciones y Referencias Bibliográficas. Capítulo 1: Descripción del códec EVS. Este capítulo se dedica al estudio del códec EVS, a partir de una revisión bibliográfica, donde se exponen características, principios de funcionamiento e importantes mejoras incorporadas al códec EVS que lo hacen altamente complejo y versátil. Capítulo 2: Métodos de evaluación. Descripción de la evaluación objetiva del códec EVS y análisis de los resultados. Este capítulo se dedica al estudio de los métodos de evaluación existentes de calidad y percepción de la comunicación, haciendo un mayor acercamiento a los métodos del tipo objetivo, además de realizar una descripción de los experimentos propuestos e instrumentos a utilizar para obtener los resultados deseados. Estos son: una implementación del códec EVS y AMR-WB y PESQ como modelo de referencia para comparar las señales codificadas y decodificadas y obtener resultados. Además, se realiza un análisis de estos para comprobar el rendimiento del códec EVS en el procesamiento de señales de distintos tipos ante diferentes condiciones de señal..

(17) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 6. CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS.. En medio de un entorno de acelerado avance tecnológico y gran demanda de alta calidad en los servicios de voz por parte de los usuarios, se han desarrollado los códecs conversacionales que a lo largo de los años se han perfeccionado, abriendo nuevos horizontes y disponibilidades para el desarrollo y viabilidad de la sociedad. Este es el caso del códec EVS estandarizado por 3GPP, el cual se analiza y describe en este capítulo. Un códec es un programa o dispositivo hardware capaz de codificar o decodificar una señal o flujo de datos digitales. Códec es un acrónimo de codificador-decodificador o, menos comúnmente, compresor-descompresor. Su uso está muy extendido para la codificación de señales de audio y video dentro de un formato contenedor [6]. Describe una aplicación desarrollada en software, hadware o una combinación de ambos, capaz de transformar un archivo con un flujo de datos o una señal. Los códecs pueden codificar el flujo o la señal (a menudo para la transmisión, el almacenaje o el cifrado) y recuperarlo o descifrarlo del mismo modo para la reproducción o la manipulación en un formato más apropiado para estas operaciones. Los códecs son usados a menudo en videoconferencias y emisiones de medios de comunicación [7]. Bajo todos estos principios y funcionalidades surgió el códec Enhanced Voice Services. Su estandarización siguió el riguroso proceso 3GPP [2] que incluyó el establecimiento de requisitos estrictos y restricciones diseñadas, con fases de calificación, selección y caracterización que comprenden extensas pruebas subjetivas realizadas por laboratorios de pruebas independientes mundialmente conocidos. Los casos de uso previstos para un mejor servicio de voz incluyen la mejora de la telefonía clásica, y la comunicación multipartita de alta calidad o la comunicación audiovisual, que ofrecen una calidad de experiencia presente. Incluso la transmisión de voz y audio, así como la entrega de voz y audio fuera de línea son posibles escenarios de aplicación [6], [7]. El códec EVS emplea un esquema de codificación híbrido que combina técnicas de codificación de Predicción Lineal (LP) basadas en ACELP (Algebraic Code Excited Linear.

(18) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 7. Prediction), predominantemente para señales de voz, con un método de codificación de transformación para contenido genérico, así como codificación de señal inactiva en conjunto con VAD / DTX / CNG (detección de actividad de voz / transmisión discontinua / generación de ruido de confort). El códec EVS es capaz de cambiar entre estos diferentes modos de codificación sin artefactos [8]. Dentro de las nuevas funcionalidades del códec EVS se encuentran [9]:  Eficiencia de codificación y calidad mejorada para servicios de voz de banda estrecha (NB) y banda ancha (WB).  Mejora de la calidad mediante la introducción del habla de súper banda ancha (SWB).  Mejora de la calidad para contenido mixto y música en aplicaciones conversacionales.  Robustez a la pérdida de paquetes y al retraso del jitter.  Compatibilidad con el códec AMR-WB. Algunos de estos servicios mejorados que fueron desarrollados, así como las principales funcionalidades de códec EVS son descritas en próximas secciones de esta investigación. La descripción detallada del algoritmo de este códec se encuentra disponible en [5]. Visión general del codificador. La Figura 1. 1 representa una descripción general de alto nivel del codificador. El bloque de remuestreo de señal corrige desajustes entre la frecuencia de muestreo y el parámetro de línea de comando de ancho de banda de señal que se especifica o a través de un archivo que contiene un perfil de conmutación de ancho de banda como se explica en TS 26.442 [10] y TS 26.443 [11]. En el caso de que el ancho de banda de la señal sea inferior a la mitad de la frecuencia de muestreo de entrada, la señal se diezma a la velocidad de muestreo más baja posible del conjunto de (8, 16, 32 kHz) que es mayor que el doble del ancho de banda de la señal [5]..

(19) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. Common Processing Input Signal. Signal Resampling. Signal Analysis. Classifier Information. LP-based Coding. Classifier Decision. Command Line Parameters. 8. Frequency Domain Coding. Bitstream Multiplex. Inactive Signal Coding/CNG. Figura 1. 1. Visión general del codificador EVS [5]. El análisis de señal determina cuál de las tres posibles estrategias de codificador emplear: codificación basada en LP (ACELP), codificación de dominio de frecuencia y codificación inactiva (CNG). En algunos modos operativos, el paso de análisis de señal incluye una decisión de ciclo cerrado para determinar qué método de codificación dará como resultado la menor distorsión, como se explica más adelante. Otros parámetros derivados en el análisis de señal ayudan al funcionamiento de estos bloques de codificación y algunos de los parámetros de análisis, como la estrategia de codificación a emplear, se codifican en el flujo de bits. En cada uno de los bloques de codificación, el análisis de señal se refina adicionalmente para obtener parámetros relevantes para el bloque de codificación particular [5]. El análisis de señal y la decisión subsecuente del modo de codificación se realiza de forma independiente para cada trama de 20 ms y la conmutación entre diferentes modos es posible en una base trama por trama. En la instancia de conmutación, los parámetros se intercambian entre los modos de codificación para garantizar que la conmutación sea lo más uniforme posible, y en este caso se emplean a veces los métodos de lazo cerrado. Además, es posible cambiar entre diferentes anchos de banda y / o velocidades de bits (incluidos tanto el modo EVS Primario como el EVS-AMR-WB interoperable) en los límites de la trama [5]. El análisis de señal y todos los demás bloques tienen acceso completo a los parámetros de la línea de comandos, como velocidad de bits, frecuencia de muestreo, ancho de banda de señal, activación de DTX como información de señalización [5]..

(20) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 9. Visión general del decodificador La estructura del decodificador (Figura 1. 2) en EVS es muy similar al codificador. La información adicional proporcionada por el codificador contiene el tipo de codificación utilizada; por lo tanto, el mecanismo de conmutación solo tiene que leer el flujo de bits y seleccionar el decodificador correspondiente. El bloque de postprocesamiento compensa algunos de los efectos secundarios no deseados del procesamiento aplicado en el codificador [12]. El decodificador recibe todos los parámetros cuantificados y genera una señal sintetizada. Por lo tanto, para la mayoría de las operaciones del codificador representa el inverso del valor cuantificado para indexar las operaciones [5]. Para la operación interoperable AMR-WB, la búsqueda de índice se realiza utilizando los libros de códigos AMR-WB y el decodificador está configurado para generar una señal sintetizada mejorada del flujo de bits AMR-WB [5].. Figura 1. 2. Diagrama en bloques del decodificador EVS [12]..

(21) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 10. Principales funcionalidades del códec EVS. 1.3.1 Conmutación de la codificación de voz / audio a bajo retardo. Los códecs 3GPP anteriores tienen su base en los principios de la codificación de voz. EVS es el primer códec que implementa conmutación sobre la marcha basada en contenido entre compresión de voz y audio con bajo retardo algorítmico de 32 ms y velocidades de bits de hasta 5,9 kbps (promedio) o 7,2 kbps (constante), lo que lleva a una codificación significativamente mejorada del contenido genérico, como, por ejemplo, el contenido mixto [9]. El núcleo del habla de este códec es una variante mejorada de ACELP extendido, como se especificó anteriormente, con modos especializados basados en predicción lineal (LP) para diferentes clases de habla, mientras que para el audio utiliza la codificación basada en Modified Discrete Cosine Transform (MDCT) en diferentes variantes, lo que se ampliará más adelante. Se aumenta la eficiencia de la codificación basada en MDCT a bajo retardo / bajas velocidades de bits y se obtiene conmutación continua y confiable entre el habla y los núcleos de audio. La Figura 1. 3 muestra un diagrama de bloque de alto nivel del codificador y decodificador EVS [9].. Figura 1. 3. Diagrama en bloque del códec EVS [9]..

(22) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 11. 1.3.2 Codificación de súper-banda ancha. Los códecs conversacionales 3GPP anteriores se limitan a compresión de banda estrecha o señales de banda ancha, y es, específicamente EVS el primer códec conversacional 3GPP que ofrece codificación de súper banda ancha hasta 16 kHz de ancho de banda a partir de 9,6 kbps combinando características como transmisión discontinua (DTX) y resiliencia avanzada a la pérdida de paquetes. El códec EVS también ofrece codificación de banda completa (FB) comenzando en 16.4 kbps hasta 20 kHz de ancho de banda [9]. Los códecs anteriores utilizan una extensión de ancho de banda independiente del núcleo, mientras que el códec EVS utiliza diferentes enfoques dependiendo del núcleo utilizado. Para la codificación basada en LP, el mayor ancho de banda de audio se logra durante la conversación mediante una tecnología de extensión de ancho de banda en el dominio del tiempo (TBE), que divide la señal de entrada en señales de sub-banda de baja frecuencia (LF), que se codifican utilizando ACELP; y señales de alta frecuencia (HF), codificadas a través de un modelo basado en LPC, que combina una función no lineal y modulación de ruido para producir una señal de banda alta de sonido agradable [3]. Para los núcleos MDCT, la codificación de mayor ancho de banda se integra dentro de los algoritmos respectivos. El resultado es una mayor eficiencia en todos los tipos de contenido, en particular para el habla [9]. 1.3.3 Rango y conmutación de puntos de funcionamiento El códec EVS ofrece un rango mucho más amplio de puntos de operación comparado con otros códecs, que van desde la compresión más alta hasta la codificación transparente. Este admite:  Tasas de muestreo de 8 kHz, 16 kHz, 32 kHz y 48 kHz;  Mejora de 7.2 kbps a 24.4 kbps para NB;  Mejora de 7.2kbps a 128 kbps para WB;  Mejora de 9.6 kbps a 128 kbps para SWB;  Mejora de 16.4 kbps a 128 kbps para FB;.

(23) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 12.  DTX y Comfort Noise Generation (CNG) [9]. Además, contiene un modo de razón de bit variable controlado por fuente (SC-VBR) a una tasa de bits promedio de 5.9 kbps que es compatible con NB y WB. La codificación SCVBR se relaciona con los segmentos de voz activa con DTX / CNG utilizados siempre para codificación de voz inactiva. El códec EVS opera con una longitud de trama fija de 20 ms y un retardo algorítmico global de 32 ms. Internamente, un conjunto de filtros de baja demora/banco de filtros, en la etapa de preprocesamento común (Figura 1. 3) se usan para volver a muestrear la señal a una frecuencia de muestreo interna de 12.8 KHz, así como una tasa de muestreo potencialmente diferente para la codificación (dependiendo del modo de ancho de banda y velocidad de bits). Finalmente, el remuestreo también se realiza en el decodificador [9]. El códec EVS puede cambiar sin problemas entre los puntos de operación en cualquier límite de trama para adaptarse a las necesidades del canal de transmisión móvil. Para evitar la codificación ineficaz del contenido de banda limitada, un detector integrado de ancho de banda cambiará automáticamente a modos de codificación de ancho de banda inferior para dicho contenido, independientemente de la frecuencia de muestreo de entrada. Como resultado, el códec EVS es un códec altamente flexible y reconfigurable dinámicamente que abarca todos los rangos de calidad. EVS admite la codificación de señales estéreo mediante la codificación de dos canales mono [9]. 1.3.4 Resiliencia avanzada ante el error. El códec EVS también puede usarse en telefonía IP general, como Voz sobre IP (VoIP) y Voz sobre WiFi (VoWiFi) para comunicaciones de voz. Debido a malas condiciones de radio o congestión en la red IP, un paquete IP puede perderse o retrasarse, usando el protocolo RTP / UDP. En una transmisión de audio sobre IP de baja latencia, es preferible descartar paquetes que llegan tarde a que aumente la demora del receptor [13]. Para atenuar el impacto de la pérdida de paquetes en los sistemas móviles se han tomado múltiples medidas para proporcionar una ocultación de pérdida de trama incorporada y altamente robusta [9]. Algunas de ellas son:.

(24) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 13.  Reducción de las dependencias entre tramas en la codificación central para detener la propagación de errores y luego garantizar una recuperación rápida de los paquetes perdidos [13].  Implementación de varias tecnologías para ocultar paquetes perdidos [9], [13]. El códec EVS comprende un conjunto de tecnologías avanzadas de ocultación de pérdida de paquetes diseñadas para trabajar con clasificación de señales, computación de envolvente espectral, dominio LP como núcleo de ACELP, núcleo de MDCT y módulos de extensión de ancho de banda. Además, utiliza un esquema PLC 'guiado' para el cual el codificador proporciona datos suplementarios que guían la ocultación en caso de paquetes perdidos y mejoran la convergencia y posterior recuperación [13].  Codificación "consciente de canales" a 13.2 kbps ofrece una robustez aún mayor sobre las técnicas de ocultación descritas en [13], a través de la transmisión controlada por fuente / canal de la información redundante parcial de tramas previas [4]. El modo “canal consciente” introduce una técnica novedosa para el envío de redundancia dentro de banda como parte de la carga útil del códec en un flujo constante de velocidad de bits, y se implementa para banda amplia (WB) y banda súper ancha (SWB) a 13.2 kbps. Esta técnica contrasta con los códecs anteriores, para los cuales la redundancia se agrega normalmente como una idea de último momento al definir mecanismos para transmitir redundancia en la capa de transporte [4]. La Figura 1. 4 bosqueja el concepto de redundancia parcial en el modo consciente de canal. Consiste en codificar y transmitir la copia redundante parcial asociada con la N-ésima trama, junto con la codificación primaria de la trama (N + K). El parámetro de desplazamiento, K, que determina la separación entre las tramas primaria y parcial también se transmite junto con la copia parcial. En la red conmutada por paquetes, si se pierde el N-ésimo paquete de trama, entonces el búfer de-jitter se inspecciona para determinar la disponibilidad de los paquetes futuros. Si está disponible, el parámetro de desplazamiento transmitido se usa para identificar el paquete futuro apropiado para la extracción de copia parcial y la síntesis de la trama perdida [4]..

(25) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 14. Figura 1. 4. Concepto de redundancia parcial en el modo “canal consciente”[4]. La inserción de la redundancia en banda en el modo canal consciente permite que la transmisión de redundancia sea controlada por canal, para combatir la congestión de la red, o controlada por fuente. En este último caso, el codificador usa las características de la señal de entrada para determinar las tramas que son más críticas para la reconstrucción de alta calidad y transmitir de forma selectiva la redundancia únicamente para esas tramas; además identifica las que pueden codificarse mejor a una tasa de bits reducida para acomodar la redundancia adjunta mientras se mantiene la corriente de bits a una velocidad constante de 13.2 kbps [4]. Por otro lado, en la Figura 1. 5 se muestra una descripción general del codificador de “canal consciente”. El audio de entrada que se muestrea a 16 kHz (WB) o 32 kHz (SWB) se segmenta en tramas de 20 mseg. Se utiliza una etapa de "preprocesamiento" para volver a muestrear la trama de entrada a 12,8 kHz y realizar pasos como detección de actividad de voz (VAD) y clasificación de señal [4]..

(26) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 15. Figura 1. 5. Codificador del modo “canal consciente” [4]. Las tramas con voz fuerte y sin voz son apropiados para llevar copias parciales de una trama anterior con un impacto perceptivo insignificante a la calidad de la trama primaria. Si la trama actual puede transportar la copia parcial, se indica configurando 𝑅𝑓𝐹𝑙𝑎𝑔 en la secuencia de bits a 1, o 0 en caso contrario. Si 𝑅𝑓𝐹𝑙𝑎𝑔 se establece en 1, entonces el número de bits, Bprimary, disponible para codificar la trama primaria actual se determina al compensar el número de bits, BRF, ya utilizado por la copia parcial adjunta, es decir, Bprimary = 264- BRF a una velocidad de bits total constante de 13.2 kbps. El número de bits, BRF, puede variar de 5 a 72 bits dependiendo de la criticidad de la trama y del tipo de trama redundante (RF) [4]. La Figura 1. 6 presenta una descripción del decodificador del modo canal consciente. En el receptor, si la trama actual no se pierde, el JBM (Jitter Buffer Management) proporciona el paquete para la "decodificación de trama primaria" y descarta cualquier información de RF presente en el paquete. En caso de que la trama actual se pierda, y una trama futura esté disponible en el búfer de-jitter, entonces la JBM proporciona el paquete para la "decodificación de trama parcial". Si una trama futura no está disponible en el búfer de-jitter, se realiza una ocultación de borrado no guiada [4]..

(27) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 16. Figura 1. 6. Decodificador del modo “canal consciente” [4].  Compensación de la fluctuación de retardo de transmisión a través del JBT [14], en el decodificador del códec. De acuerdo a lo descrito anteriormente, si la trama 𝑁-ésima no está disponible (perdida o retrasada) en el tiempo de reproducción, se verifica JBM para la disponibilidad de una trama futura (𝑁 + 𝐾) que contiene la redundancia parcial de la corriente trama donde 𝐾 ∈ {2, 3, 5, 7}. La copia parcial de la trama generalmente llega después de la trama primaria. Los mecanismos de adaptación de retardo JBM se utilizan para aumentar la probabilidad de disponibilidad de copias parciales en las tramas futuras, especialmente para compensaciones FEC (Frame Erasure Concealment) superiores (5 y 7). Además JBM calcula la tasa de errores del canal y una compensación de FEC óptima, K, que maximiza la disponibilidad de la copia redundante parcial en función de las estadísticas del canal. El desplazamiento FEC óptimo calculado y la tasa de error del canal pueden transmitirse al codificador a través de un mecanismo de retroalimentación del receptor para adaptar el desfasaje FEC y la tasa de redundancia parcial se transmite para mejorar la experiencia del usuario final [4]. En las redes conmutadas por paquetes, los paquetes pueden estar sujetos a diferentes condiciones de programación y enrutamiento, lo que da como resultado un retardo de extremo a extremo que varía con el tiempo. La fluctuación de retardo, no es susceptible a la mayoría de los decodificadores de voz convencionales y algoritmos de postprocesado de voz que típicamente esperan que los paquetes se reciban a intervalos de tiempo fijos. En consecuencia, una memoria temporal supresora de fluctuación en los retardos (JBM) se utiliza normalmente en el terminal receptor para.

(28) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 17. eliminar la fluctuación de fase y los paquetes de alimentación en el orden secuencial correcto [4]. La demora de extremo a extremo es determinante en la calidad de la llamada en redes de voz conversacionales. Por lo tanto, la capacidad del JBM para absorber la fluctuación de fase sin agregar un retardo de almacenamiento excesivo es un requisito importante. Por lo tanto, existe una disyuntiva entre el retardo JBM y la pérdida de paquetes inducida por el jitter en el receptor. Los diseños de JBM han evolucionado para ofrecer niveles de rendimiento crecientes a la vez que se mantiene una demora media mínima [4]. 1.3.5 Compatibilidad con versiones anteriores de AMR-WB. El códec EVS permite la compatibilidad con las tasas de bits AMR-WB a través de un modo interoperable (IO), que se puede usar en terminales y compuertas que admiten el códec EVS. El modo AMR-WB-IO ofrece mejoras sobre el códec AMR-WB a través del procesamiento posterior mejorado, especialmente notable para canales ruidosos y contenido mixto, descrito por [15]. Se logra una mejor presencia a través de la extensión de ancho de banda de hasta 7.8 kHz. Finalmente, la escala dinámica en la implementación de punto fijo mejora el rendimiento para señales de entrada de bajo nivel (por ejemplo, -36 dBov). Los terminales que soportan el códec EVS pueden por lo tanto proporcionar una calidad mejorada incluso para llamadas restringidas a la codificación AMR-WB. Además, la implementación integrada permite una conmutación perfecta entre los modos AMR-WB IO y EVS primarios [9]. Mejoras realizadas por EVS. 1.4.1 Codificación basada en LP El códec EVS hereda los principios de codificación de la tecnología ACELP del estándar 3GPP AMR-WB, además de los bloques que lo conforman. La eficiencia del códec EVS se ha mejorado con respecto a AMR-WB gracias a importantes mejoras como son [9]:  La clasificación de diferentes señales de voz basadas en tecnologías introducidas años anteriores en la norma 3GPP2 VMR-WB [16] y perfeccionadas en la norma UIT-T.

(29) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 18. G.718 [17]; así como el uso de diferentes modos de codificación basados en LP para diferentes clases de conversaciones.  La introducción de codificación de señal genérica (GSC), un modo de tiempofrecuencia basado en LP optimizado para una codificación de bits de música muy baja y un sonido genérico [5], [18].  El desplazamiento sin interrupciones entre las frecuencias de muestreo internas soportadas de 12.8 KHz y 16 KHz, mediante una codificación basada en ACELP, donde a velocidades de bits de 5,9 Kbps – 13,2 Kbps el ACELP opera a una tasa de muestreo interna de 12.8 kHz, mientras que de 16.4 kbps - 64 kbps, opera a 16 kHz; siendo los parámetros más críticos: los coeficientes de filtro de LP y la memoria de libro de códigos adaptativo (el codificador ACELP comprende: el libro de códigos de forma glotal, el libro de códigos adaptativo y el libro de códigos algebraico) especialmente cuando se conmuta durante segmentos de voz activos. Además, el CNG basado en el dominio del tiempo opera a una frecuencia de muestreo interna de 16 kHz desde 9.6 kbps. En el códec EVS, la señal de audio de entrada se procesa en tramas de 20 ms, dividiéndose en cuatro subtramas para velocidades de bits a una frecuencia de muestreo interna de 12,8 kHz o cinco subtramas para velocidades de bits a una frecuencia de muestreo interna de 16 kHz, cuando se procesan utilizando el modelo ACELP. Para atenuar los fuertes efectos producidos por un decodificador ACELP debido a la propagación de errores después de la pérdida de las tramas de inicio se emplea la técnica de codificación de la transición (TC). Esta técnica contiene el libro de códigos de forma glótica, el cual sustituye completamente al libro códigos adaptativo para evitar la dependencia de la memoria de excitación entre tramas al cambiar entre diferentes tasas de muestreo internas. Como la memoria del libro de códigos adaptativo de la trama anterior no se emplea en esta trama debido al uso de TC, se puede simplemente restablecer a ceros. En la trama codificado por TC, el libro de códigos de forma glotal se emplea únicamente en el subtrama que contiene el primer impulso glotal de la trama con el fin de aprovechar la predicción intratrama y optimizar la asignación de bits. Las demás subtramas se codifican utilizando una combinación de un libro de códigos adaptativo estándar y un libro de códigos algebraico, o usando solo un libro de códigos algebraico si un subtrama no contiene.

(30) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 19. ninguna porción significativa de un impulso glotal. Esta técnica ayuda a proporcionar un cambio de modo de trama a trama sin inconvenientes entre los modos de ACELP que se ejecutan a diferentes frecuencias de muestreo internas y mejoran la codificación de las transiciones de voz [19].  El uso de post-filtrado de graves y mejora de formantes.  El uso de un retraso adaptativo para el análisis LP.  Búsqueda optimizada de tono en bucle abierto, retícula de múltiples etapas en múltiples escalas y cuantificación de vector en Trellis restringida por bloques e indexación de los coeficientes LP [20].  Extensión del ancho de banda para voz activa en el dominio del tiempo [3] para WB, SWB y FB; y para voz inactiva y mixta / música en conjunto con GSC una extensión del ancho de banda en el dominio de la frecuencia.  Detección no solo la actividad de la voz, sino también el nivel de ruido de fondo. Si la voz es detectada sobre el ruido de fondo, se modifica el uso del post-filtrado de graves y se realiza una mejora de formantes durante el habla activa; para codificar el ruido de fondo a velocidades de bits de 24,4 kbps e inferiores se usan núcleos especializados dependiendo el modo de operación: una variante de GSC o el núcleo Transform Coded Excitation (TCX) basado en MDCT; como otra medida adicional se añade ruido confort para una mejor representación del ruido de fondo a bajas velocidades de bits y para enmascarar las codificaciones distorsionadas en el habla activa. 1.4.2 Codificación de velocidad de bits variable controlada por la fuente (SC-VBR). El modo EVS VBR incluye tecnologías de codificación de tasa de bits variable controlada por la fuente (SC-VBR) basadas en el estándar de codificación de voz 3GPP2 EVRC-NW [21]. Según las características del audio de entrada, la codificación SC-VBR usa una tasa de bits de codificación de entre 2.8, 7.2 u 8 kbps. Se introducen dos nuevos modos de codificación de baja velocidad de bits (2,8 kbps): el período de tono del prototipo (Prototype Pitch Period, PPP) y los modos de predicción lineal excitada por ruido (NoiseExcited Linear Prediction, NELP) para codificar tramas estacionarias con voz y sin voz, respectivamente. La codificación PPP explota la naturaleza de variación lenta de las formas.

(31) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 20. de onda de ciclo de tono en los segmentos sonoros codificando una única forma de onda PPP representativa en el dominio de la frecuencia. En el decodificador, las formas de onda del ciclo de tono no transmitidas se sintetizan a través de técnicas de interpolación PPP. En la codificación NELP, el residuo de predicción se modela formando una señal de excitación dispersa generada aleatoriamente tanto en el dominio de tiempo como de frecuencia [9]. Las tramas transitorias y genéricas que representan señales débilmente correlacionadas se codifican utilizando los modos de codificación nativos de EVS a 8 y 7,2 kbps, respectivamente. Usando nuevas técnicas de aumento y selección de velocidad de bits [5], el modo EVS VBR apunta a una velocidad de bits promedio de 5.9 kbps ajustando la proporción de tramas de 2.8 kbps y 7.2 kbps, como se explicó anteriormente. La codificación SC-VBR ofrece la ventaja de una calidad de voz igual o mejor a una tasa de bits de voz activa promedio considerablemente más baja en comparación con la codificación de velocidad de bits constante [9], [2]. 1.4.3 Preprocesamiento mejorado y VAD. El preprocesamiento de señal y la detección de actividad de voz (VAD) [22] en el códec EVS tuvieron que ser avanzados para lograr un rendimiento confiable con un códec de voz / audio conmutado. El VAD necesita distinguir de manera confiable entre el habla activa, la música activa y los períodos inactivos (ruido de grabación, ruido de fondo) incluyendo una estimación confiable del nivel de ruido de fondo. Esta información es necesaria para la operación del modo DTX, descrita en [8], si está habilitada, y para la selección entre codificación basada en LP o basada en MDCT y la configuración adaptativa de la señal de estos núcleos. El VAD en el códec EVS combina una versión mejorada de un VAD derivado de G.718 que funciona en el análisis espectral de la señal de 12.8kHz muestreada con un VAD que opera en el filtro de sub-banda ejecutándose en la frecuencia de muestreo de entrada para alcanzar el máximo confiabilidad [9]. 1.4.4 Mejora de la generación de ruido de confort (CNG). La generación de ruido de confort (CNG) [23] es una tecnología comúnmente utilizada en los sistemas de comunicación de voz. El CNG, junto con un detector de actividad de voz (VAD) y el esquema DTX, se utiliza para reducir la velocidad de transmisión simulando el.

(32) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 21. ruido de fondo durante los períodos de señal inactivos. Esto se logra codificando las características del ruido de fondo utilizando características conocidas como parámetros de ruido confort (CN) y formando una trama de voz especial conocida como trama de descriptor de inserción silenciosa (SID) con una velocidad de bits mucho más baja que las tramas de voz activas. Los parámetros CN se utilizan en el decodificador para regenerar el ruido de fondo con la mayor fidelidad posible, respetando el contenido espectral y temporal del ruido de fondo presentado al codificador. Existen algunos parámetros críticos de rendimiento con respecto al GNC de gran importancia como lo son la calidad de transición de la trama de ruido confort (CN) activa, la calidad de la estimación del espectro CN, el ancho de banda más amplio y la eficiencia del DTX [24]. El funcionamiento de DTX [25] es importante para un uso eficiente del espectro y la duración de la batería en las comunicaciones móviles, ya que puede reducir el ancho de banda de transmisión en al menos la mitad[8], [24]. En el modo DTX, la transmisión del ruido de fondo se reemplaza por CNG en el decodificador. El códec EVS implementa dos tipos de CNG del VAD perfeccionado para mejorar la versatilidad del modo DTX: una versión mejorada del CNG basado en LP (LP-CNG) y un novedoso algoritmo de CNG en el dominio de la frecuencia (FD-CNG), que, en dependencia de las características del ruido de fondo, el codificador EVS selecciona qué tipo de GNC se utilizará[9],[24]. El LP-CNG utiliza la señal residual y los parámetros LP para representar el ruido de fondo, mientras que el FD-CNG utiliza energías espectrales de bandas críticas junto con una ganancia global[24]. Como resultado, el códec EVS ofrece una operación de DTX que funciona bien en todos los modos aplicables hasta el nivel de alta calidad que ofrece la codificación EVS de 24.4 kbps [9]. 1.4.4.1 CNG basado en LP. El LP-CNG opera en una banda dividida con la codificación que consiste en una etapa de codificación / síntesis de banda baja y de banda alta. El análisis de banda baja se realiza en una señal de entrada muestreada a 12.8 o 16 kHz dependiendo de la velocidad de bits operacional y el ancho de banda de la señal de entrada. Como resultado de este análisis, los parámetros CN que incluyen la energía de excitación de banda baja, el espectro LSF de banda baja y la envolvente de frecuencia de excitación de banda baja se codifican y transmiten al decodificador. El análisis de banda alta se realiza en una de dos regiones de frecuencia; 6.4 -.

(33) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 22. 14.4 kHz u 8 - 16 kHz, dependiendo de la velocidad de muestreo de banda baja, que se invierte espectralmente y se diezma a una frecuencia de muestreo de 16 kHz. A diferencia de la codificación de banda baja, no se realiza ningún modelo de parámetros del espectro de ruido de banda alta. Solo la energía de la señal de banda alta se codifica y transmite al decodificador y el espectro de ruido de banda alta se genera puramente en el lado del decodificador. Tanto el CN de banda baja como el de banda alta se sintetizan mediante el filtrado de una excitación a través de un filtro de síntesis. La excitación de banda baja se deriva de la energía de excitación de banda baja recibida y la envolvente de frecuencia de excitación de banda baja. El filtro de síntesis de banda baja se deriva de los parámetros LP recibidos en forma de coeficientes de frecuencia espectral de línea (LSF). La excitación de banda alta se obtiene usando energía que se extrapola de la energía de banda baja y el filtro de síntesis de banda alta se deriva de una interpolación LSF del lado del decodificador. La síntesis de banda alta se voltea espectralmente y se agrega a la síntesis de banda baja para formar la señal CN final [24]. 1.4.4.2 CNG en el dominio de la frecuencia En EVS, el CNG se puede lograr usando un esquema predictivo lineal (LP-CNG) o un esquema de dominio de frecuencia (FD-CNG), dependiendo de las características espectrales del ruido de fondo. El FD-CNG es elegido para los tipos de ruido que exhiben una inclinación espectral pronunciada, como el ruido de un automóvil. En contraposición a los sistemas DTX que dependen de la predicción lineal, el FD-CNG hace uso de un algoritmo de estimación de ruido en el dominio de la frecuencia seguido de una cuantificación vectorial de la envolvente espectral suavizada del ruido de fondo. La señal se refina en el decodificador ejecutando un segundo estimador de ruido en el dominio de la frecuencia. Dado que se utiliza una representación puramente paramétrica durante las tramas inactivas, la señal de ruido no está disponible en el decodificador en este caso. Por lo tanto, la estimación del ruido se realiza solo durante las fases activas, es decir, en un contenido de voz ruidoso [26]. Disímiles técnicas de estimación de ruido se han propuesto que no dependen de un detector de pausa de voz. Dichos esquemas se pueden aplicar continuamente en cada trama, independientemente de la actividad de la voz, y, por lo tanto, entregar información significativa sobre el espectro de ruido en cualquier momento. Esto es especialmente.

(34) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 23. ventajoso en el contexto de DTX en el lado del codificador, ya que esto minimiza el riesgo de transmitir información incorrecta al comienzo de una fase de CNG, lo que puede provocar perturbaciones de ruido o transiciones audibles entre tramas activas y tramas de CNG. En FD-CNG, la estimación del ruido se realiza en los lados del codificador y del decodificador en función del algoritmo estadístico mínimo [26]. Para obtener un ruido artificial parecido al ruido de fondo de entrada real en términos de características espectro-temporales, el FD-CNG utiliza un algoritmo de estimación de ruido para rastrear la energía del ruido de fondo presente en la entrada del codificador. Las estimaciones de ruido se transmiten en forma de tramas de identificación que se utilizan en el decodificador para actualizar la amplitud de las secuencias aleatorias generadas en cada banda de frecuencia durante las fases inactivas [26]. Sin embargo, el tamaño de una trama SID es muy limitado en la práctica (48 bits en el códec EVS). Por lo tanto, para reducir el número de parámetros que describen el ruido, el espectro de potencia de entrada se acumula entre hasta 24 bandas crítica, como se explica en [26]. El número limitado de parámetros transmitidos en las tramas SID no permite capturar la fina estructura espectral del ruido. A la salida de un sistema DTX, la discrepancia entre el espectro suavizado del ruido artificial y el espectro del ruido de fondo real puede volverse muy audible en las transiciones entre las tramas activas y CNG. Por lo tanto, es necesario recuperar la información sobre la estructura espectral fina del ruido en el decodificador. Esto se logra en FD-CNG ejecutando un estimador de ruido en la salida del decodificador EVS central durante las tramas activas [26]. Todo lo anteriormente planteado hace que FD-CNG se beneficie de una mejor resolución espectral en comparación con otros métodos existentes que dependen de Modelos de LP[26]. 1.4.5 Mejora de la codificación basada en MDCT de bajo retardo. Con el objetivo de proporcionar una mejor calidad de voz y música para servicios conversacionales a través de LTE el códec de servicios de voz mejorados (EVS) de 3GPP extiende los codificadores de voz a súper banda ancha (SWB) y banda completa (FB) además de mejorar la codificación de audio genérica al complementar la codificación de voz con una.

(35) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 24. codificación de transformación, como se comentaba anteriormente. El sistema cambia entre los dos esquemas de codificación dependiendo del contenido de la señal de entrada. Las señales de tipo habla se transmiten a un codificador de voz basado en ACELP mientras que la música se maneja mediante un codificador de audio genérico basado en MDCT [27]. El uso de la codificación basada en MDCT para sistemas móviles de baja tasa de bits se había visto obstaculizada hasta el momento por las restricciones de demora impuestas por los sistemas diseñados para la comunicación en tiempo real. En el códec EVS, la disponibilidad de una compresión eficiente basada en MDCT con bajo retardo y baja tasa de bits, en combinación con la conmutación de núcleo, es el habilitador clave para la codificación eficiente de contenido mixto y música [9]. Dada una longitud de trama de 20 ms, un retraso de 3.25ms para remuestrear y otras herramientas, y la restricción de diseño de 32 ms de demora general, tan solo 8.75ms están disponibles para superposición entre tramas consecutivas, un valor bajo, en comparación con los códecs como AAC, para la distribución de contenido. Para superar esta limitación, se implementan dos variantes mejoradas de codificación MDCT en el códec EVS: la codificación MDCT de alta calidad y baja frecuencia (LR / HR-HQ), una versión avanzada de G.719, y Transform Coded Excitation (TCX), una versión mejorada de bajo retardo del núcleo homónimo en el estándar MPEG USAC. Para compensar los efectos de la superposición corta se insertan nuevos filtros LTP y modelos armónicos en el algoritmo TCX, como parte de las nuevas herramientas incorporadas. Los modos HQ se benefician de la introducción de técnicas mejoradas para señales armónicas y relleno de ruido [9]. Los codificadores conmutados como AMR-WB + y USAC, sin embargo, dependen de ventanas largas para música estacionaria y su retardo algorítmico demasiado alto evita que se utilicen para aplicaciones de bajo retardo. Por otro lado, la codificación de audio de transformación de bajo retardo recibió una atención especial con el desarrollo de AAC-ELD y OPUS, con la desventaja que no fueron específicamente diseñados para un sistema conmutado y no escalan eficientemente hacia velocidades de bits bajas, sufriendo aún de artefactos de baja demora típicos [27]. El codificador EVS selecciona la variante MDCT que se utilizará dependiendo del modo de operación y las características de la señal de entrada analizadas en la etapa de.

(36) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 25. preprocesamiento. Además, a 7.2 kbps y 8.0 kbps (y raramente también a 13.2 kbps) el modo GSC también se usa para codificar contenido musical [9]. 1.4.5.1 Codificación MDCT de alta calidad y baja frecuencia (LR / HR-HQ). La gran eficiencia del códec EVS se logra gracias a los numerosos esquemas de codificación; cada uno de los cuales se adapta a una clase específica de señales de entrada sobre diferentes velocidades de bits. El modo de codificación MDCT de alta calidad de baja velocidad de bits (LR-HQ) es uno de esos modos adecuados para codificar el espectro de audio completo. Esto es aplicable a banda estrecha (NB), banda ancha (WB) y banda súper ancha (SWB) y logra una alta calidad para las razones de bit [28]. La Figura 1. 7 muestra una visión general del codificador LR-HQ que está diseñado para codificar señales predominantemente mixtas y musicales, opera a una longitud de trama fija de 20 ms para satisfacer los requisitos de bajo retardo y alta calidad a bajas tasas de bits. Cada trama de señal de entrada se codifica utilizando uno de los modos admitidos: 7.2 y 8 Kbps (NB), modos soportados: transitorio y no transitorio; 13.2 y 16.4 Kbps (NB, WB), modos soportados: transitorio y no transitorio; y 13.2 Kbps (SWB), en este caso, para las señales de entrada SWB, las señales no transitorias se clasifican además en Armónico (tonal) y Normal (no tonal). Los modos de codificación se deciden en función del ancho de banda de la señal de entrada y las características de esta. Para cada modo de operación seleccionado, los coeficientes MDCT (MDCTs) provenientes de una trama de la señal de entrada se dividen en un número limitado de bandas con ancho predefinido. Las energías de cada banda se cuantifican escalarmente, y luego los índices se codifican de manera diferencial ajustando los índices para restringirlos a un rango específico. Los índices ajustados se codifican luego de una manera más eficiente seleccionando el método Huffman de símbolo pequeño alternado o el método de codificación Huffman de símbolo grande dependiendo de un rango de índices y consumos de bits de los métodos de codificación. Seguido de esto se realiza la asignación eficiente de bits en todas las bandas, basadas en energías de banda codificadas, con el fin de lograr una optimización general para la cuantificación de espectro fino usando.

(37) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 26. la Cuantificación Codificada en Trellis (TCQ) y la Cuantificación Escalar Uniforme (USQ) [28].. Figura 1. 7. Estructura del codificador LR-HQ [28]. Cuando se codifica el espectro completo a velocidades de bits muy bajas, a menudo no es posible asignar bits a todas las bandas debido a la restricción de bits, provocando efectos audibles. Para aliviar este efecto, las bandas no codificadas (espacios) en el espectro se llenan con ruido generado, utilizando el espectro cuantificado de las bandas asignadas a los bits [28]. Los resultados arrojados en [28], resaltan la mejora en el rendimiento del códec EVS en comparación con otros códecs, gracias a la implementación del codificador MDCT LR-HQ, como uno de los modos para codificar música y contenido mixto. 1.4.5.2 Excitación codificada de transformación (TCX). El codificador de audio se deriva del modo de Excitación codificada de transformación (TCX) de AMR-WB + y USAC, adicionalmente modificado para bajo retardo hereda la capacidad de cambiar sin problemas y bajo demanda a ACELP para voz sonora y fuertes transitorios. Para otros transitorios, o cuando la calidad de ACELP se satura a altas velocidades, es posible un cambio sin demora a ventanas de baja superposición o bloques cortos. Además, la conformación del ruido se refina mediante un énfasis de baja frecuencia adaptativo (ALFE) y mediante la configuración temporal del ruido (TNS). Para la música tonal y las señales periódicas, generalmente penalizadas por la escasa selectividad de frecuencia de las ventanas de bajo retardo, se agrega un modelo armónico al modelo de probabilidad del codificador de entropía. Un filtro posterior guiado por información lateral puede mejorar aún más la estructura armónica. La cuantización está optimizada y, en el caso.

(38) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 27. de una cuantificación aproximada, los orificios espectrales se cubren mediante un ruido mejorado y un relleno de espacio [27]. El TCX basado en MDCT propuesto sigue la cadena de codificación tradicional, es decir, transformación de señal, conformación de ruido, cuantificación y codificación de entropía. Sin embargo, como se ilustra en la Figura 1. 8 el esquema de codificación se amplía mediante varias predicciones y análisis adicionales para una codificación más eficiente [15].. Figura 1. 8. Diagrama en bloque basado en MDTC del codificador TCX [27]. Un detector transitorio controla la ventana adaptable. La ventana también depende de si el modo de codificación anterior fue ACELP [27]. El análisis LP es utilizado por la configuración de ruido del dominio de frecuencia (FDNS). Tiene la ventaja de tener una representación compacta y compartir con ACELP su modelo perceptual, que es lo suficientemente genérico para una gran variedad de velocidad de bits y materiales de audio. El LPC también puede ser explotado por el codificador de entropía. Además, una predicción de dominio de frecuencia es posible para TNS. La predicción a largo plazo es utilizada tanto por el codificador de entropía como por el filtro posterior LTP del decodificador para mejorar las señales periódicas [27]. Se adjunta un MDST a la MDCT para obtener una representación de frecuencia compleja de la señal. Permite un cálculo más preciso de las energías de la banda y las mediciones de tonalidad para la optimización del cuantificador y para la parametrización de las líneas de.

(39) CAPÍTULO 1. DESCRIPCIÓN DEL CÓDEC EVS. 28. TCMD no cuantificadas restantes. En frecuencias bajas, el relleno de ruido modela las líneas MDCT puestas a cero con un solo nivel de energía. Para las frecuencias altas, donde más líneas se establecen en cero, Intelligent Gap Filling (IGF) complementa el llenado de ruido. IGF es una representación paramétrica eficiente y flexible de regiones espectrales que se actualiza más allá de la funcionalidad de extensión de ancho de banda tradicional y permite que el cuantificador se relaje en altas frecuencias poniendo a cero más líneas de MDCT [27]. El decodificador es descrito en la Figura 1. 9 y consiste en el procesamiento inverso de la ruta del codificador. Específico para el decodificador, el relleno de ruido y el relleno de hueco se agregan al espectro cuantificado de MDCT. También vale la pena señalar que se realiza una segunda MDCT inversa en la banda baja para obtener una señal de síntesis a la velocidad de muestreo de ACELP. La salida se usa para alimentar memorias ACELP, estados de filtro de síntesis LP y el libro de códigos adaptativo, en caso de cambiar a ACELP en la siguiente trama. Dicha señal decodificada también está disponible en el lado del codificador para sincronizar los estados de ACELP en ambos lados. La decodificación finaliza con un postfiltrado LTP que mejora la estructura armónica de las señales periódicas [27].. Figura 1. 9. Diagrama en bloque basado en MDTC del decodificador TCX [27]..