• No se han encontrado resultados

Criterios de distorsión de la señal de voz aplicados al reconocimiento del locutor

N/A
N/A
Protected

Academic year: 2020

Share "Criterios de distorsión de la señal de voz aplicados al reconocimiento del locutor"

Copied!
74
0
0

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Centro de Estudios de Electrónica y Tecnologías de la Información. TRABAJO DE DIPLOMA Criterios de distorsión de la señal de voz aplicados al reconocimiento del locutor Autor: Eniel Suárez Fernández. Tutor: Ing. Dayana Ribas González. Santa Clara 2013 "Año 55 de la Revolución".

(2) Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Centro de Estudios de Electrónica y Tecnologías de la Información. TRABAJO DE DIPLOMA Criterios de distorsión de la señal de voz aplicados al reconocimiento del locutor Autor: Eniel Suárez Fernández eniel@uclv.edu.cu. Tutor: Ing. Dayana Ribas González dribas@cenatav.co.cu. Santa Clara 2013 "Año 55 de la Revolución".

(3) Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería en Informática, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad.. Firma del Autor Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. Firma del Autor. Firma del Jefe de Departamento donde se defiende el trabajo. Firma del Responsable de Información Científico-Técnica.

(4) Pensamiento: Te darás cuenta que lo que hoy parece un sacrificio… …va a terminar siendo el mayor logro de tu vida. Anónimo. i.

(5) Dedicado especialmente a mi mamá y a mi papá.. ii.

(6) Agradezco a toda mi familia por la confianza que me han dado, a mis amigos por su apoyo durante esta etapa universitaria, a mi Betty por su ayuda incondicional, a mi tutora, a los profesores que me atendieron cuando los necesité y a todo el que de una forma u otra colaboró con la confección de este trabajo.. iii.

(7) Resumen En este trabajo se realiza un estudio sobre tres medidas de calidad de voz, en función del impacto de estas medidas en señales ruidosas, que serán procesadas por Sistemas Automáticos de Reconocimiento de Locutor (SARL). Al inicio se presenta un análisis sobre el estado del arte actual en medidas de calidad de voz. Luego se propone un experimento para evaluar el impacto de las medidas en el reconocimiento de locutor. Para esto se usó la base de datos AHUMADA, así como una réplica de esta distorsionada por 4 tipos de ruido, a 5 distintos valores de Relación Señal Ruido (SNR), obteniéndose un total de 1050 señales. La comparación de los resultados de un clasificador y de las medidas de calidad para cada locutor, permite realizar un análisis detallado del rendimiento de estas medidas para su utilización en SARL. Finalmente se presentan las conclusiones del experimento y se dan recomendaciones para trabajos futuros.. iv.

(8) Abstract In this work three speech quality measures are studied, related with its impact in noisy speech, that will be used in Automatic Speaker Recognition Systems (ASRS). First the speech quality measures state of the art is presented. Then an experiment for evaluating the quality measures impact in speaker recognition is proposed. Ahumada database was used and a set of noisy speech corrupted by 4 types of noises at 5 different Signal to Noise Ratio (SNR) levels, for a total of 1050 signals. The comparison of results obtained from classifier and quality measures for each speaker allows to doing a detailed analysis about the performance of measures for using in ASRS. Finally experiment conclusions are presented and some recommendations for future are given.. v.

(9) Índice Resumen .......................................................................................................................... iv Abstract ............................................................................................................................. v Índice ............................................................................................................................... vi Introducción ...................................................................................................................... 1 Objetivos del trabajo ................................................................................................. 2 Contribuciones del estudio ....................................................................................... 2 Organización del informe ......................................................................................... 3 Capítulo 1: La voz como rasgo biométrico ...................................................................... 4 1.. La voz como rasgo biométrico ................................................................................. 5 Obtención de la voz .................................................................................................. 5 Información sobre la identidad de la voz.................................................................. 6 Limitaciones de la voz como rasgo biométrico ........................................................ 8. 2.. Reconocimiento automático de locutor ................................................................... 8 Modos de funcionamiento ........................................................................................ 9 Tipos de Aplicaciones ............................................................................................ 10. 3.. Calidad en biometría .............................................................................................. 10 Factores que degradan la calidad de la muestra ..................................................... 11 Aplicaciones de la calidad ...................................................................................... 12. 4.. Medidas de calidad de voz ..................................................................................... 14 Tipos de medida de calidad de voz ......................................................................... 15. Capítulo 2: Medidas de distorsión de la señal de voz..................................................... 17 1.. Medidas de calidad estudiadas ............................................................................... 25 SNR ........................................................................................................................ 25 Kurtosis de los LPC (KLPC) .................................................................................. 26. vi.

(10) Kurtosis Cepstral .................................................................................................... 27 Distancia Itakura–Saito (ISD) ................................................................................ 28 Criterio UBML ....................................................................................................... 28 Distancia entre armónicos (HD) ............................................................................. 29 2.. Medidas de calidad utilizadas ................................................................................ 29. Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores ..................................................................................................................... 31 1.. Base de datos ......................................................................................................... 31. 2.. MATLAB............................................................................................................... 31. 3.. Resultados del SARL ............................................................................................. 32. 4.. Implementación de las medidas ............................................................................. 33 Kurtosis de los LPC (KLPC) .................................................................................. 33 Kurtosis cepstral o kurtosis de los MFCC (KCEP) ................................................ 35 Distancia entre Armónicos (HD) ............................................................................ 35 Funciones de mapeo utilizadas ............................................................................... 36. 5.. Organización de resultados .................................................................................... 37. 6.. Análisis de los resultados ....................................................................................... 39 Análisis de la verificación respecto al tipo de ruido ............................................... 39 Análisis de las medidas respecto al tipo de ruido ................................................... 40 Relación entre las medidas de calidad y la prueba de verificación ........................ 45 Valores más exactos de la medida KLPC ............................................................... 47. Conclusiones................................................................................................................... 50 Recomendaciones ........................................................................................................... 51 Referencias bibliográficas .............................................................................................. 52 Anexos ............................................................................................................................ 55 Anexo 1: Implementación de KLPC en MATLAB ................................................ 55. vii.

(11) Anexo 2: Sincronización de los resultados de KLPC con el VAD para cada señal 56 Anexo 3: Función para el cálculo de NFFT ........................................................... 57 Anexo 4: Implementación de la KCEP en MATLAB ............................................ 58 Anexo 5: Implementación de la HD en MATLAB ................................................ 61. viii.

(12) Introducción En los últimos años las tecnologías de reconocimiento biométrico han experimentado una notable mejora, propiciando una gran expansión y aceptación de las mismas en distintos tipos de aplicaciones entre las que se pueden mencionar: seguridad, domótica, comercio electrónico, sistemas forenses. Dentro de los rasgos biométricos, la voz siempre ha sido estudiada como un rasgo bien diferenciado de la mayoría. Entre otras peculiaridades esta diferenciación está dada porque, la voz destaca por estar sometida a muchas fuentes de variabilidad, tanto por las características físicas del individuo como por su comportamiento. Otros factores como el entorno o el dispositivo de registro también pueden influir en la fidelidad de una muestra. Este rasgo presenta también varias ventajas frente a otros como la fácil adquisición de la muestra biométrica y la dificultad a la hora de falsear una identidad. Los Sistemas Automáticos de Reconocimiento de Locutor (SARL) tienen dentro de sus aplicaciones más comunes los relacionados a la ciencia forense y al reconocimiento de locutor en redes telefónicas. Generalmente estas aplicaciones utilizan señales de voz adquiridas en ambientes acústicos ruidosos, como cabinas telefónicas, micrófonos ocultos y teléfonos móviles, esto afecta la utilidad de un sistema de reconocimiento de locutor, si la muestra tiene muy baja calidad se pueden obtener grandes tasas de error, perdiendo efectividad los SARL. En este marco se utilizan varios métodos para compensar el ruido. Según [1] los métodos de compensación se componen de dos pasos principales. El primero de ellos es la medición de la calidad y el segundo consiste en utilizar las mediciones para compensar el ruido de la muestra biométrica. Es importante resaltar, que la efectividad del segundo se basa totalmente en el primero: para poder gestionar la calidad, primero hay que ser capaz de medirla correctamente. Por lo tanto se requiere tener una serie de herramientas que definan la calidad de la señal, las cuales se denominan medidas de calidad [2]. Además es importante que la medida este directamente relacionada con la aplicación en la que se va a emplear, en este caso el reconocimiento de locutores. 1.

(13) Introducción También resulta de utilidad conocer la calidad de la señal para la creación y caracterización de una base de datos de señales de voces a utilizar en reconocimiento de locutores, pues de esta manera se puede seleccionar cuales utilizar y cuáles no, con el fin de evitar que degraden el proceso de reconocimiento. Hoy día se han efectuado varios estudios relacionados con el impacto de las medidas de calidad en señales ruidosas, principalmente se han basado en su utilización en SARL. El organismo estadounidense NIST (Instituto Nacional de Normas y Tecnología)[3], realiza una evaluación bianual sobre calidad [NIST QUALITY WORKSHOP] en el cual se comparten los últimos avances en cuanto a SARL.. Objetivos del trabajo Según los antecedentes presentados anteriormente, este trabajo persigue como objetivo principal:  Estudiar el impacto de las medidas de calidad de voz en señales ruidosas a procesar por SARL. Este objetivo se desglosa en los siguientes objetivos específicos: 1. Estudiar el estado del arte de medidas de calidad de voz aplicadas a reconocimiento de locutores. 2. Seleccionar e implementar las medidas de calidad. 3. Obtener los resultados de las medidas de calidad en una base de datos de voces ruidosas. 4. Analizar de los resultados en relación con la relación señal a ruido y con los resultados de reconocimiento de locutores correspondientes a la base de datos usada.. Contribuciones del estudio 1. Estudio del estado del arte de las medidas de calidad de voz en aplicaciones para SARL. 2.

(14) Introducción 2. Presentación de la implementación en MATLAB de las tres medidas de calidad de voz siguientes: . Kurtosis de los LPC (KLPC).. . Kurtosis Cepstral (KCEP).. . Distancia entre Armónicos (HD).. 3. Estudio de valores estadísticos de las medidas de calidad. 4. Caracterización de las medidas según su aplicación en SARL.. Organización del informe El capítulo 1 describe los fundamentos y características de los rasgos biométricos resaltando la voz, también se explica que es un sistema de reconocimiento de locutor, se aborda el tema de medidas de calidad, sus conceptos y definiciones. En el capítulo 2 se presenta una taxonomía sobre las medidas de calidad en la actualidad, para luego escoger las que serán implementadas. El capítulo 3 presenta la metodología usada para el desarrollo de un experimento en el que se relacionen las medidas de calidad con los resultados de reconocimiento de locutores, así como dar a conocer los materiales utilizados para la elaboración del experimento. Se muestran los resultados obtenidos en los distintos experimentos, finalmente estos resultados son discutidos y analizados.. 3.

(15) Capítulo 1: La voz como rasgo biométrico El termino biometría se deriva del griego “bios” de vida y “metron” de medida. De ahí que un sistema de reconocimiento biométrico se encargue de la clasificación e identificación de un sujeto a partir de sus características físicas o conductuales [1, 4]. El notable avance en el mundo tecnológico ha hecho posible la integración de los rasgos biométricos como elementos de autenticación personal. En la actualidad los sistemas biométricos están presentes en aplicaciones relacionadas con la seguridad, las gestiones telefónicas, la investigación forense o la ayuda a personas dependientes[5]. Un rasgo biométrico debe cumplir con los siguientes requisitos [1]: . Universalidad: debe ser un rasgo común en toda la población de interés.. . Distintividad: una muestra debe identificar de manera unívoca a un usuario.. . Estabilidad: debe ser un rasgo que varíe poco con el paso del tiempo como para poder ser identificado.. . Evaluabilidad: debe ser caracterizado de forma cuantitativa.. En aplicaciones reales se considera que un sistema basado en un rasgo biométrico determinado debe cumplir las siguientes características: . Rendimiento: hace referencia a la precisión y velocidad con las que opera el sistema.. . Aceptabilidad: los usuarios del sistema deben estar dispuestos a utilizar dichos rasgos para ser reconocidos.. . Fraude: el sistema debe ser robusto ante posibles ataques. Esta característica es especialmente importante en sistemas forenses, ya que su finalidad es proporcionar una evidencia fiable sobre la identificación de un individuo.. Los rasgos biométricos más comunes se clasifican en dos grupos [6]:. 4.

(16) Capítulo 1: La voz como rasgo biométrico . Determinados por las características físicas: huella dactilar, rostro, geometría de la mano, iris, voz, retina, venas de la mano, termografía facial, geometría de la oreja, ADN.. . Determinados por el comportamiento: voz, firma, escritura, dinámica de tecleo, forma de caminar.. La voz está presente en ambas clasificaciones, lo que significa que esta suele ser afectada por el físico del sujeto y por el comportamiento. Una de las consecuencias de esta última particularidad es que la voz tiene baja distintividad y estabilidad. Lo que hace más difícil su reconocimiento con respecto a otros rasgos [1]. A pesar de ello es un rasgo biométrico muy aceptado por la sociedad por ser poco invasiva, además de ser de fácil y barata adquisición.. 1.. La voz como rasgo biométrico. Obtención de la voz La voz humana se produce voluntariamente por medio del aparato fonador, que está compuesto por los pulmones como fuente de energía en la forma de un flujo de aire, la laringe, que contiene las cuerdas vocales, la faringe, las cavidades oral (o bucal) y nasal y una serie de elementos articulatorios: los labios, los dientes, el alvéolo, el paladar, el velo del paladar y la lengua (figura 1) [7].. Figura 1. Esquema del aparato fonador humano[8] 5.

(17) Capítulo 1: La voz como rasgo biométrico Luego de atravesar la glotis el sonido pasa a través de la cavidad supraglótica, que es la porción del aparato fonador que permite modificar el sonido dentro de márgenes muy amplios. Está conformado por tres cavidades principales: la cavidad oral, la cavidad labial y la cavidad nasal. Estas cavidades constituyen resonadores acústicos, los cuales modifican los sonidos de acuerdo a la forma que adopten; la lengua y los labios permiten efectuar esta variación de manera voluntaria [9]. Si se realiza un análisis espectral del sonido luego de haber atravesado estos resonadores, el efecto de la resonancia producirá un énfasis en determinadas frecuencias del espectro obtenido, a las que se les denomina formantes. Un formante es el pico de intensidad en el espectro de un sonido, se trata de concentración de energía que se da en una determinada frecuencia[6]. En la figura 2 se puede observar una señal de voz en el tiempo. Figura 2. Señal de voz en el tiempo.. Información sobre la identidad de la voz En el epígrafe anterior se pudo apreciar que la producción de la voz es un proceso bastante complejo, ya que está determinado por las características físicas del individuo (su tracto vocal) y otros factores aprendidos como el nivel de educación, acento o el contexto sociolingüístico. El sistema de percepción humano para reconocer personas por su voz se basa en estos mismos factores, esta idea la han tomado los sistemas automáticos extrayendo información de la señal de voz a distintos niveles [1].. 6.

(18) Capítulo 1: La voz como rasgo biométrico. Espectral Fonético Prosódico Sociolingüístico Figura 3. Niveles de información de la señal de voz. . Espectral: La información se obtiene del espectro de la señal, la cual está directamente relacionada con la configuración dinámica del tracto vocal. Para ello se toman ventanas de duración muy corta (decenas de milisegundos) en las cuales se considera que la configuración del tracto vocal no varía, y se extraen ciertos parámetros de cada una de ellas.. . Fonético: Cada persona hace un uso de los fonemas y silabas diferente. Aprovechando esta propiedad, es posible extraer parámetros que caractericen el habla de una persona basándose en la pronunciación de dichos fonemas.. . Prosódico: La prosodia analiza y representa aquellos elementos de la expresión oral como los tonos y la forma de hablar. Su manifestación concreta en la producción de la palabra se asocia a las variaciones de la frecuencia fundamental, de la duración y de la intensidad que constituyen los parámetros prosódicos.. . Sociolingüístico: Factores como el nivel de educación, el contexto sociolingüístico o el origen de un sujeto determinan el uso del lenguaje de las personas.. 7.

(19) Capítulo 1: La voz como rasgo biométrico. Limitaciones de la voz como rasgo biométrico . Ruido y distorsión en la señal de voz [6]. El ruido introduce variabilidad en la muestra de voz, haciendo que disminuya el rendimiento y la calidad de ésta. Se puede entender como el entorno en el que se encuentra la información que se desea transmitir: el ruido de la red telefónica, voz de otros usuarios en la grabación, música de fondo, el error cometido al digitalizar dicha señal mediante un conversor analógico digital o el ruido del ambiente donde fue obtenida la voz. . Variabilidad intra‐sesión de la señal de voz [6]. Es la variabilidad causada por el usuario al capturar la muestra. Se puede ejemplificar como el producto del estado de ánimo que tenga el locutor durante la obtención de la muestra. . Variabilidad inter-sesión de la voz [6]. Es típicamente causada por una interacción incorrecta con el sensor. Algunos ejemplos comunes en voz son: la grabación mediante un micrófono a diferentes distancias, hablar mediante un teléfono distinto con el que se han grabado las conversaciones anteriores, el cambio de voz con la edad, la duración de las muestras capturadas o el ruido y distorsión introducida en la señal de voz al capturarla y almacenarla.. 2.. Reconocimiento automático de locutor. Un SARL es básicamente un sistema de reconocimiento de patrones, y puede definirse de manera aproximada en cuatro bloques de la siguiente forma[10]: . Módulo de captura: adquiere muestras de un individuo a través de un sensor.. . Módulo de procesado: extrae las características relevantes del rasgo biométrico. Algunos sistemas incorporan un control de calidad que obliga a recapturar la muestra biométrica si dicha calidad es insuficiente para la posterior identificación.. . Módulo de cálculo de similitud: compara las características extraídas con el conjunto de características de otro usuario y calcula una medida de dicha similitud (puntuación o score). 8.

(20) Capítulo 1: La voz como rasgo biométrico . Módulo de cálculo de similitud Base de datos: contiene el conjunto de características de todos los usuarios registrados en el sistema. Este registro puede ser supervisado o no por una persona o por un sistema de detección de calidad.. Módulo de captura. Módulo de procesado. Módulo de cálculo de similitud. Módulo de cálculo de similitud Base de datos. Figura 4. Pasos de un sistema de reconocimiento.. Modos de funcionamiento Los SARL pueden funcionar en dos modos principales: identificación y verificación, más un modo previo denominado registro[11]. . Verificación: El sistema comprueba que el usuario posee la identidad que clama. Se realizan dos comparaciones: una de la muestra biométrica con el modelo correspondiente a la identidad que el usuario dice poseer y otra comparación con un modelo representante de una población de interés[12].. . Identificación: El objetivo de un sistema de identificación es determinar a partir de un grupo de voces conocidas cuál es la que coincide mejor con la muestra de voz suministrada[1]. En ésta puede haber dos conjuntos distintos.. . Conjunto cerrado: El individuo siempre pertenece a alguna de las clases incluidas en la base de datos.. . Conjunto abierto: El usuario puede no pertenecer a alguna de las categorías definidas anteriormente. En este proyecto para la comparación de resultados se utilizó el modo de verificación.. . Registro: Constituye una fase previa a los dos citados anteriormente, y consiste en incorporar a un nuevo usuario al sistema. Es necesario obtener una o varias muestras biométricas del mismo para generar un modelo. 9.

(21) Capítulo 1: La voz como rasgo biométrico. Tipos de Aplicaciones . Verificación: Las aplicaciones típicas de estos sistemas son el control de acceso y autenticación remota (por ejemplo, transacciones telefónicas).. . Identificación y monitorización: Entre sus diversas aplicaciones se encuentran la detección de locutores en centros telefónicos de atención, o la detección de un locutor en una secuencia de voz.. . Sistemas forenses: Tienen dos posibles aplicaciones. Por un lado pueden ser utilizados para presentar muestras de voz como evidencias en procesos legales. Por otro lado pueden ser utilizados para aportar información en investigaciones forenses.. El objetivo de un SARL es reconocer a la persona por su voz [6]. Para ello es necesario crear un modelo del locutor a partir de las características de su voz. Este se compara con la información extraída de una muestra de voz, cuya identidad se desea conocer. Como resultado se obtendrá una puntuación que se compara a un umbral establecido y en función de su valor se realizan las acciones apropiadas dependiendo del modo de funcionamiento [13]. La eficacia del resultado de este proceso es comúnmente afectado de manera considerable por la calidad de la señal. De modo que si la muestra a procesar tiene muy baja calidad el resultado obtenido del SARL no será confiable.. 3.. Calidad en biometría. Hay dos factores que determinan la precisión de una comparación: el poder discriminativo del sistema biométrico y la cantidad de información disponible[14]. Dentro de este último, existen otros dos factores determinantes: la cantidad de muestras tomadas y su fidelidad o similitud con la fuente original. Y a su vez esta fidelidad vendrá determinada por otros dos factores: el comportamiento del individuo y las distorsiones generadas durante su captura, transmisión o almacenamiento (figura 5).. 10.

(22) Capítulo 1: La voz como rasgo biométrico. Comportamiento del individuo. Cantidad de información disponible Comparación. Fidelidad con la fuente original. Cantidad de muestras tomadas. Distorsiones en su captura , transmición o almacenamiento. Poder discriminativo del sistema. Figura 5. Factores que determinan la eficacia en una comparación.. Factores que degradan la calidad de la muestra  Factores relacionados con el carácter de los sujetos Las características físicas y del comportamiento de un sujeto pueden afectar a la calidad de la muestra. Las que conciernen a los individuos se pueden clasificar en las siguientes: . Comportamiento del sujeto. Existen diferentes maneras por las que el comportamiento puede afectar a la calidad de una muestra: la cooperación del sujeto, el nivel de educación y el estado emocional. Este último en aplicaciones forenses de reconocimiento de locutor es un factor especialmente importante dado que es común que el sujeto se encuentre en un estado emocional alterado, o que intente modificar su voz para evitar ser reconocido. . Fraude. Este es muy común en la ciencia forense, ocurre si el sujeto intenta ocultar o modificar algún rasgo para no ser identificado. . Cambios en las características. Pueden producirse cambios en un rasgo por distintos motivos: enfermedades y o alteraciones emocionales. Un ejemplo sería una afonía, que cambiaría las características de la voz.. 11.

(23) Capítulo 1: La voz como rasgo biométrico  Factores relacionados con la adquisición de datos . Dispositivos de adquisición de datos. Distintos dispositivos de captura extraen información variada con disímiles grados de fidelidad. Un ejemplo es la captura de señales de voz, para lo que existen distintos tipos de sensores como son los micrófonos y los teléfonos, presentando variedad en la calidad entre uno y otro [13]. . Procesos de adquisición de datos. Factores tales como la supervisión del sujeto durante una adquisición, el tiempo de habla registrado, el número de muestras tomadas o las condiciones ambientales de la adquisición. (temperatura,. humedad,. superficies. reflectantes,. salas. con. reverberaciones) influyen en la calidad de la muestra biométrica. . Factores relacionados con el procesado y la compresión de los datos. En sistemas de reconocimiento de locutor, el ejemplo más claro de procesamiento de la señal, es la transmisión de la misma a través de la red telefónica. A menudo se almacenan las muestras de voz en formatos comprimidos, dando lugar a la pérdida de información. . Factores relacionados con la extracción de características. Los métodos de extracción de características extraen diferente información de las muestras. Dicha información vendrá caracterizada por un grado de fidelidad. Como ejemplo, se puede suponer el caso de la extracción de parámetros de voz, en el que un número inapropiado de parámetros puede producir una pobre representación de la muestra.. Aplicaciones de la calidad . Generación de modelos. Las muestras a partir de las cuales se forman los modelos, habitualmente están sujetas a una calidad variable, ya sea entre las distintas muestras, o para una misma muestra en distintas zonas de la misma. La medición de la calidad permite reducir el efecto de aquellas muestras (y porciones de muestras) con una calidad peor. Esto se consigue otorgando un menor peso en el modelo a toda información de menor calidad, ya que 12.

(24) Capítulo 1: La voz como rasgo biométrico cuanto menor es esta, menor es la información que contiene sobre un sujeto y mayor es la probabilidad de inducir errores de clasificación[15]. . Recapturación. Consiste en medir la calidad de las muestras y rechazar aquellas que no superen un determinado umbral. Se vuelve a capturar el rasgo biométrico tantas veces como sea necesario para asegurar un umbral mínimo de calidad[16]. Resulta especialmente útil en sistemas de acceso en línea y para la recolección de muestras para generar modelos. . Fusión dependiente de calidad. Los sistemas se ven afectados en diferente medida por los factores de degradación. Esta situación se puede aprovechar para hacer una fusión dependiente de la calidad, otorgando un mayor peso a los sistemas más robustos ante un descenso de la calidad [1]. . Comparación. Se basa en la misma idea que la generación de modelos, pero aplicado a la calidad de la puntuación global. Se otorga un peso mayor a aquellas secciones de la muestra biométrica con mejor calidad, cuyo fin es una mejora en los resultados si la medida de calidad es útil. . Calibración dependiente de calidad. Consiste en clasificar un grupo de puntuaciones en función de su calidad, para después aplicar transformaciones diferentes a cada uno de los grupos. Si la calidad consigue determinar grupos de puntuaciones en rangos diferentes, la calibración colocará las nuevas puntuaciones en rangos similares, de modo que mejore el rendimiento del sistema. . Normalización dependiente de calidad. Consiste en aplicar diferentes parámetros de normalización o compensación en función de la calidad de la muestra.. 13.

(25) Capítulo 1: La voz como rasgo biométrico. 4.. Medidas de calidad de voz. Un campo que ha sido ampliamente estudiado con anterioridad es la estimación de la calidad de voz. Las primeras técnicas para su estudio basaban en. observar la. calificación otorgada por personas a una serie de locuciones, lo que se conoce como calidad subjetiva. Estos métodos demostraron ser eficaces, pero con el paso del tiempo quedaron obsoletos por dos razones: son muy costosos en tiempo y dinero y las nuevas tecnologías de voz hacen necesario monitorizar la calidad constantemente y en diversos puntos de la red de comunicaciones [1]. Hoy día organismos de estandarización de las telecomunicaciones como la Unión Internacional de Telecomunicaciones (ITU-T) [17] y el Instituto Europeo de Normas de Telecomunicaciones (ETSI) [18] realizan múltiples proyectos para definir y estandarizar medidas de calidad de voz, utilizadas principalmente para la calidad en transmisión de datos. Los estándares que presentan estos organismos responden a aplicaciones para las cuales se requiere calidad e inteligibilidad fundamentalmente, por otro lado en este trabajo el objetivo es usar las medidas en aplicaciones para SARL principalmente. La calidad se define como el grado de confianza de un elemento dado un cierto criterio. Matemáticamente se considera que tiene interpretación como una probabilidad [5]. 𝑄 ℇ = 𝑝(𝑌 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 ℇ). (1). Donde, ℇ: Criterio de confianza respecto a 𝑌 𝑌: un elemento del sistema de reconocimiento de locutores, por ejemplo: la señal de voz, el modelo del locutor, la puntuación, los umbrales. La salida esperada de esta función es 0 cuando 𝑌 no establece el criterio impuesto por ℇ y es 1 cuando 𝑌 satisface totalmente el criterio de ℇ. En el caso de la voz se puede considerar 𝑌 como la energía de la señal y ℇ como un criterio de calidad basado en SNR.. 14.

(26) Capítulo 1: La voz como rasgo biométrico Para obtener una medida de calidad exitosa es muy importante la selección del criterio de confianza. Por definición, cualquier factor que afecte al comportamiento de un elemento en un sistema de reconocimiento automático de locutor puede ser empleado como criterio de confianza [1]. Existen dos tipos de criterios de confianza, aquellos que son dependientes de la identidad propuesta (necesitan información del entrenamiento del sujeto) o independientes de la identidad propuesta. Por medio de una función de mapeo Q(x) se expresa cada indicador de degradación (parámetros que indican la degradación de la voz [19]) o medida de calidad perteneciente a un intervalo comprendido entre 0 y 1. De esta forma se consigue trabajar de forma heterogénea con diferentes tipos de calidad. Para cada una de las medidas de calidad propuestas más adelante se proporcionará la función de mapeo correspondiente.. Tipos de medida de calidad de voz . Análisis del ruido. Existen distintos métodos para es estimar el nivel de ruido de una locución debido a que la mayoría de las medidas de calidad que utilizadas están ligadas al nivel de ruido. La más común es la relación señal a ruido (SNR). Para su cálculo existen distintos métodos, el más común de todos y el más simple consiste en calcular la energía del ruido en los silencios de las grabaciones y la energía de la voz en zonas de habla, para después calcular la energía media de cada uno de ellos. . Medidas de estimación de la calidad subjetiva. Su propósito es estimar la calidad de la señal de voz aproximándose lo más posible al modelo psicoacústico humano. Suelen ser medidas enfocadas a la monitorización de la calidad del servicio en redes de comunicaciones. . Análisis del tracto vocal. En este tipo de estimaciones se pretenden identificar distorsiones en las locuciones basándose en modelos del tracto vocal asociados a dichas locuciones. Dichos modelos. 15.

(27) Capítulo 1: La voz como rasgo biométrico se realizan asociando a cada cavidad del tracto vocal un tubo de diámetro X y longitud Y, que varían con el tiempo. . Estadísticas de la voz. Esta clase de mediciones consisten en obtener diferentes tipos de medidas estadísticas de la señal de voz que indiquen la degradación de la misma. Se ha utilizado por ejemplo la kurtosis la cual se aplica a los parámetros MFCC y LPC de la señal. La kurtosis tiene la función de medir la concentración de frecuencias alrededor de la zona central de una distribución. Sus características serán explicadas en mayor medida en el siguiente capítulo.. 16.

(28) Capítulo 2: Medidas de distorsión de la señal de voz En un sistema de reconocimiento de locutor las medidas de calidad se aplican con el objetivo de caracterizar las señales de voz según su grado de degradación, para tener una idea de la confiabilidad de los resultados de reconocimiento sobre dicha muestra. En este capítulo se hace un análisis taxonómico de las medidas de calidad más usadas en la actualidad, para lo que fue necesario estudiar algunos parámetros característicos de la voz, estos se presentan a continuación. Coeficientes que permiten modelar el tracto vocal El tracto vocal puede ser modelado utilizando solo una serie de coeficientes que definen las características de este. Entre los coeficientes más utilizados se encuentran los coeficientes de predicción lineal (LPC por sus siglas en inglés) [20] y los coeficientes cepstrales en frecuencia Mel o MFCC [21]. Coeficientes de predicción lineal (LPC) La predicción lineal es un procedimiento matemático que, como indica su mismo nombre, permite predecir los sucesos futuros de un sistema lineal, a partir de los acontecimientos ya pasados [22]. LPC es una herramienta, generalmente utilizada en el procesamiento de la señal de voz, para representar la envolvente espectral de una señal de habla digital de una forma comprimida, usando la información de un modelo predictivo lineal [23]. Esta es una de las técnicas de análisis del habla más potentes y uno de los métodos más útiles para codificar el habla. Los principios básicos según [20] son los siguientes: . LPC se inicia con la suposición que la señal de habla se produce por un resonador situado al final de un tubo. La glotis produce el zumbido, que queda caracterizado por su intensidad (sonía) y frecuencia (tono). El tracto vocal forma el tubo, que se caracteriza por sus resonancias (formantes).. 17.

(29) Capítulo 2: Medidas de distorsión de la señal de voz . LPC analiza la señal de habla estimando los formantes, eliminando sus efectos mediante un filtrado inverso y estimando la intensidad y frecuencia de la señal restante (residuo).. . Los valores que describen los formantes y el residuo pueden ser almacenados o transmitidos. LPC sintetiza la señal de habla mediante el proceso inverso: usa el residuo para crear una fuente de señal, los formantes para crear un filtro y hace pasar la fuente de señal por este, dando como resultado la señal de habla.. . La señal de habla varía con el tiempo, es por eso que este proceso se realiza en cortos espacios de tiempo o segmentos de voz.. El problema principal del LPC es estimar los formantes. La solución básica es una ecuación en diferencias, que expresa cada muestra de la señal como una combinación lineal de las muestras anteriores. Los coeficientes de esta ecuación en diferencias caracterizan a los formantes y su estimación se realiza minimizando el error cuadrático medio entre la señal predicha y la actual. Estos coeficientes se basan en la fuerte correlación de muestras consecutivas en el habla, por lo que una muestra se puede definir como combinación lineal de las anteriores [1]. En el dominio del tiempo la ecuación de un sistema de predicción lineal según [5] es la siguiente. 𝑋̃(𝑛) = ∑𝑝𝑘=1(𝑎𝑘 ∗ 𝑋(𝑛 − 𝑘)). (2). Dónde: 𝑎𝑘 = Coeficientes de predicción lineal. 𝑝 = Cantidad de coeficientes. 𝑋(𝑛) = Señal observada. 𝑋̃(𝑛) = Señal obtenida de la predicción.. 18.

(30) Capítulo 2: Medidas de distorsión de la señal de voz. Figura 6. Histograma 21 coeficientes LPC para un segmento de voz.. Figura 7. Histograma de coeficientes LPC para una señal completa de voz. Según [20] la distribución de los LPC tiende a aproximarse a una mezcla gaussiana, en las figuras 6 y 7 se observa dicha tendencia. Determinándose que a mejor calidad en la señal de voz, más se acerca esta distribución a una mezcla gaussiana. Coeficientes Cepstrales de Frecuencia Mel (MFCC) El dominio cepstral es un dominio temporal en el que la unidad básica es el coeficiente cepstral. Este conjunto de coeficientes representa la señal de voz [5]. La representación cepstral del habla es habitualmente usada en los sistemas de 19.

(31) Capítulo 2: Medidas de distorsión de la señal de voz reconocimiento, esta es altamente adecuada para reconocimiento robusto [24], por tanto, con ella se intenta minimizar los efectos del ruido y distorsión lineal sobre dichos parámetros. En la figura 8 se describe la obtención de estos coeficientes.. Señal de voz. Preénfasis. Segmentación. Módulo. FFT. Enventanado. Filtro Mel. Logaritmo. Transformación Cepstral. Vector de MFCC. Figura 8. Obtención de los MFCC. . Preénfasis. En el espectro de los segmentos de voz sonoros, la amplitud decae con la frecuencia, debido fundamentalmente, a la característica espectral de emisión de las cuerdas vocales [21]. Aunque este efecto se ve compensado por las características de emisión de la cavidad supraglótica, la disminución aún es significativa por lo que es necesario compensarla. El mecanismo usado para compensar este efecto se denomina. 20.

(32) Capítulo 2: Medidas de distorsión de la señal de voz preénfasis[5]. El que se aplica con el objetivo de aumentar las altas frecuencias del espectro y se obtiene después de aplicar el siguiente filtro: 𝑥(𝑡) = 𝑥(𝑡) − 𝑥(𝑡 − 1) ∗ 𝑐𝑜𝑒𝑓. (3). Donde 𝑥(𝑡) es la señal de voz en el tiempo y 𝑐𝑜𝑒𝑓 es la amplitud del filtro, cuyo valor puede variar según [24] entre 0 y 1 . Segmentación. La mayoría de las señales reales son linealmente no estacionarias en el tiempo (que no varían sus características estadísticas en el tiempo), para el caso de la voz no es estacionaria, sin embargo se puede asumir que en cortos segmentos de tiempo (1030ms) la voz tienen un comportamiento cuasi estacionario [21] y es por esto que la señal se segmenta para realizar el análisis en segmentos estacionarios. . Enventanado. El enventanado de la señal se realiza con el objetivo de eliminar las altas frecuencias. Según [25] un muestreo incorrecto de señales analógicas puede provocar que señales de alta frecuencia presenten solapamiento (en inglés: aliasing) con respecto a señales de baja frecuencia. El aliasing o Efecto Nyquist es el fenómeno de superposición periódica sucesiva, efecto que causa que señales continuas distintas se tornen indistinguibles cuando se muestrean digitalmente. Cuando esto sucede, la señal original no puede ser reconstruida de forma unívoca a partir de la señal digital. Un enventanado en el dominio temporal produce, en el dominio espectral, una convolución entre la transformada de la señal y la transformada de Fourier de la ventana [5]. Para minimizar este efecto se debe emplear una ventana con el lóbulo principal estrecho y lóbulos secundarios pequeños. Para ello se emplea una ventana tipo Hamming (ponderación tipo coseno alzado) en la que las muestras de los extremos se encuentran ponderadas quedando las muestras de la señal enventanada minimizadas en los extremos. Las ventanas se deben solapar para que las muestras en los extremos de una ventana sean las centrales en las ventanas consecutivas. La figura 9 contiene el proceso de enventanado de una trama de una señal de voz mediante la ventana tipo Hamming. 21.

(33) Capítulo 2: Medidas de distorsión de la señal de voz. Figura 9. Ejemplo de enventanado para un segmento de voz. . FFT de la señal. Una vez obtenida la señal enventanada se aplica la transformada de Fourier (FFT). La FFT (del inglés: Fast Fourier Transform) es un eficiente algoritmo que permite calcular la transformada de Fourier discreta (DFT), dicho algoritmo simplifica operaciones que realiza la DFT y por tanto su cálculo tiene menos costo computacional. Para su utilización es necesario definir un número de puntos (NFFT), el cual se fija a una potencia de dos, el NFFT determina el rango de frecuencias cubierto por el análisis, es por ello que el ideal, para facilitar su cálculo, es la potencia de dos más cercana al número de muestras por segmento de voz.. 22.

(34) Capítulo 2: Medidas de distorsión de la señal de voz . Aplicación de filtro Mel. El filtrado Mel consiste en la aplicación de un banco de filtros, definido como una serie de filtros paso banda que multiplican uno a uno el espectro para obtener un valor medio en la banda de frecuencias del filtro correspondiente [5]. El banco Mel se aplica para simular el filtro con el que el sistema auditivo –perceptual humano procesa los sonidos. De esta manera el filtro Mel simula el banco de filtro que tiene la cóclea [21]. Para construir el filtro según [5] se equipara un tono de 1000Hz y a 40 dB por encima del umbral de audición con un tono de 1000 Mels. Sobre los 500Hz, los intervalos de frecuencia espaciados exponencialmente son percibidos como si estuvieran espaciados linealmente. Como consecuencia, cuatro octavas en escala lineal se comprimen a unas dos octavas en escala Mel. 𝑓𝑀𝐸𝐿 = 1000 ∗. log(1+𝑓𝐿𝐼𝑁 /1000) log 2. (4). Dónde: 𝑓𝐿𝐼𝑁 = Frecuencia lineal. El banco de filtros se crea por medio de filtros triangulares, estos se sitúan de forma que la frecuencia central de cada filtro siga la escala Mel. A su vez los bordes de los filtros coinciden con la frecuencia central de los filtros adyacentes. En la figura 10 se muestra gráficamente un banco de filtros Mel. Luego de aplicar el banco de filtros se calcula el logaritmo de la energía de cada frecuencia Mel.. Figura 10. Banco de filtros Mel.. 23.

(35) Capítulo 2: Medidas de distorsión de la señal de voz . Transformación cepstral. La transformación cepstral consiste según [21] en tomar la Transformada inversa de coseno discreta (IDCT) de la lista logarítmica de las energías Mel, como si fuera una señal. De esta forma los MFCCs serán las amplitudes del espectro resultante, la ecuación final para la obtención de estos según [24] es la siguiente. 𝑁 −1. 𝜋. 𝑏 𝑋𝑡𝑐 (𝑖) = ∑𝑚=0 𝑋𝑡𝑙 (𝑚) cos [𝑖(𝑚 − 0.5) 𝑁 ] , 𝑏. 0 ≤ 𝑖 < 𝑁𝑐 − 1. (5). Dónde: 𝑋𝑡𝑙 (𝑚) = Logaritmo de energías de las frecuencias Mel. 𝑁𝑏 = Número de filtros triangulres usados. 𝑁𝑐 = Número de coeficientes cepstrales conciderados. 𝑋𝑡𝑐 (𝑖) = Son los parámetros MFCCs obtenidos. Generalmente el número de filtros triangulares es mayor que el número de coeficientes, pues se supone que los parámetros cepstrales de mayor orden contienen una información mínima y por tanto constituyen un incremento en la carga computacional del sistema, sin aportar ningún beneficio a la tasa de reconocimiento final. En la figura 11 muestra una representación de estos coeficientes a partir del modelado de una señal de voz. En dicha figura se aprecia que al igual que en el caso de los LPC, la distribución de los MFCC también tiende a aproximare a una mezcla gaussiana [5]. De modo que también cumplen con el requisito de a mayor ruido menor será su proximidad a una gaussiana.. 24.

(36) Capítulo 2: Medidas de distorsión de la señal de voz. Figura 11. Histograma de los coeficientes MFCC de una señal de voz.. 1.. Medidas de calidad estudiadas. SNR La SNR, en español Relación Señal a Ruido, es una medida que cuantifica en qué medida una señal (𝑥(𝑡)) ha sido afectada por un ruido 𝑛(𝑡) [26], en este caso esa señal es la voz y el ruido es ruido acústico aditivo. Señal ruidosa en función del tiempo:. 𝑦(𝑡) = 𝑥(𝑡) + 𝑛(𝑡). (6). La SNR es la razón de potencias entre la voz y el ruido de fondo, es definida por [26] como sigue: 𝑃_𝑣𝑜𝑧. 𝑆𝑁𝑅(𝑑𝑏) = 20 ∗ log10 𝑃_𝑟𝑢𝑖𝑑𝑜 1. 𝑃(𝑥) = √𝑇 ∑ 𝑥(𝑡)2. (7). (8). Dónde 𝑃(𝑥) : Potencia 𝑥(𝑡): Muestras de voz en un tiempo (𝑡). 𝑇: Cantidad de muestras de voz.. 25.

(37) Capítulo 2: Medidas de distorsión de la señal de voz Se puede ver claramente en la ecuación anterior que el valor resultante de SNR es inversamente proporcional con la potencia del ruido (𝑃_𝑟𝑢𝑖𝑑𝑜), por tanto a mayor valor de SNR menor será la variabilidad de la señal y mayor será la calidad de esta. A partir de esta definición se desprende que cuando se tiene la voz y la señal ruidosa que la afecta por separados medir la SNR es muy sencillo. El problema es que en aplicaciones reales este caso no es muy común. En ambientes reales, generalmente el único dato que se tiene es la señal de voz ya corrupta por ruido 𝑦(𝑡), por lo que se acude a métodos de estimación de ruido para poder calcular la SNR. Dado esto la eficacia del cálculo de la SNR estará en dependencia de la eficacia del método de estimación utilizado. La selección del método adecuado debe estar en correspondencia del tipo de ruido que afecte a la señal [19]. En general la SNR se define según la zona de la señal en que se mide, como: . SNR global: se calcula en toda la señal, incluida la voz, el silencio, todo.. . SNR segmental: se calcula en determinados segmentos o tramas de interés.. Por otro lado se puede definir según los datos que se usen para calcularla, como: . SNR a priori: se calcula a partir de los estimados de la señal limpia y el ruido. antes de mezclarse para formar la señal ruidosa real. . SNR a posteriori: se calcula a partir de la señal ruidosa real y un estimado del. ruido que esta tiene. . SNR instantánea: esta se corresponde con la mezcla de la SNR segmental y la. SNR a posteriori, se calcula a partir del valor de la señal ruidosa real y el estimado del ruido que la afecta en un segmento de voz específico.. Kurtosis de los LPC (KLPC) La kurtosis es el cuarto momento estadístico, esta medida estudia la concentración de frecuencias alrededor de la media y en la zona central de una distribución. Para este caso es aplicada a los Coeficientes de Predicción Lineal o LPC como se le llamará en adelante. De esta forma la KLPC se calcula según [5] como sigue: 26.

(38) Capítulo 2: Medidas de distorsión de la señal de voz. 𝑘𝐿𝑃𝐶 =. 1. 𝑎𝑝 − ∑𝑃 𝑝=1 𝑎𝑝 𝑃 ∑𝑝=1( 𝑃 ) 𝑃 𝜎 1. (9). Dónde: 𝑃 = cantidad de coeficientes LPC. 𝑎𝑝 = el valor de los LPC. 𝜎 = la desviación estándar de los LPC. Como fue señalado en el capítulo 1, es necesario implementar una función de mapeo que nos permita transformar los valores obtenidos (𝑘𝐿𝑃𝐶 ) a un rango comprendido entre 0 y 1. De modo que dicha función de mapeo se define según la base de datos utilizada como: 𝑄(𝑥) = 1 −. 𝑥−𝑚𝑖𝑛 𝑚𝑎𝑥−𝑚𝑖𝑛. (10). Donde, 𝑥: Valor de la medida de kurtosis 𝑚𝑖𝑛: Valor mínimo de la medida en la base de datos 𝑚𝑎𝑥: Valor máximo de la medida en la base de datos Esta medida estadística es utilizada para determinar en qué medida se aproxima una distribución a una gaussiana utilizando la energía de las colas y de la simetría. De modo que en una señal poco ruidosa, se espera que gran parte de las muestras estén en el valor cero o muy próximas al mismo, de manera que su distribución debería presentar un pico importante en el valor cero [19]. Además si se trata de voz poco degradada debería mostrar una distribución simétrica. La distorsión en las muestras de audio también debe alterar la kurtosis de estas.. Kurtosis Cepstral La kurtosis cepstral es una medida similar a la descrita en el apartado anterior sobre KLPC, con la salvedad de que en este caso se emplean los coeficientes MFCC.. 27.

(39) Capítulo 2: Medidas de distorsión de la señal de voz. Distancia Itakura–Saito (ISD) Es una medida de la diferencia perceptual entre el espectro original. y una. aproximación de ese espectro. Se define como sigue: 𝐷𝐼𝑆 (𝑃(𝑤), 𝑃̂ (𝑤)) =. 1 2𝜋. 𝜋. 𝑃(𝑤). 𝑃(𝑤). ∫−𝜋 [𝑃̂(𝑤) − log 𝑃̂(𝑤) − 1] 𝑑𝑤. (11). Dónde: 𝑃(𝑤) = Espectro original 𝑃̂(𝑤) = Aproximación del espectro original ISD se basa en la disimilaridad entre la señal original y la señal mejorada y se calcula en los coeficientes LPC estimados en tramas sincrónicas. Esta medida está fuertemente influenciada por la disimilaridad espectral debido a la desigualdad en la ubicación de los formantes, con pequeñas contribuciones de los errores que aporta el emparejado entre los valles[27]. Este comportamiento es deseable, ya que el sistema de audición es más sensible a los errores en las zonas de formantes y el ancho de banda, que las zonas de valles espectrales entre picos [19]. Se define en una trama como sigue [27]: 𝐼𝑆𝐷(𝑎, 𝑏) = ((𝑎 − 𝑏)𝑇 𝑅(𝑎 − 𝑏))/(𝑎𝑇 𝑅𝑎) Dónde:. (12). 𝑎 = LPC de la señal original. 𝑏 = LPC de la aproximación de la señal original. 𝑅 = matriz de auto correlación.. Criterio UBML Dado un modelo GMM 𝜆𝑡 y una señal de voz 𝑌, la correspondencia se calcula típicamente de la forma siguiente [19]: 𝑆(𝑌, 𝜆𝑡 ) = log 𝑝(𝑌, 𝜆𝑡 ) − log 𝑝(𝑌, 𝜆𝑈𝐵𝑀 ). (13). Dónde: 𝑝(𝑌, 𝜆) es la densidad de probabilidad de un modelo. En esta ecuación el último término da la probabilidad de pertenencia de cualquier señal de voz a un modelo UBM. Esta es la medida de calidad, que se obtiene utilizando 28.

(40) Capítulo 2: Medidas de distorsión de la señal de voz una función de mapeo basada en la distribución típica del UBM, según los valores que se obtengan en una base de datos. Generalmente estos valores no varían mucho entre bases de datos [19], de modo que usualmente dichos valores varían entre (-13, -5). La función de mapeo según estos datos se expresa como sigue: 𝑄𝑈𝐵𝑀𝐿 (𝑥) =. 𝑥+13. (14). 8. Dónde: 𝑥 es el valor de la medida.. Distancia entre armónicos (HD) Se usa para medir la distorsión de la estructura armónica de la voz, y para lo que se define una función de contraste de armónicos[19].. 𝐻𝐷 =. 1 𝑁𝐻∗𝑁𝐹𝑅𝐴𝑀𝐸𝑆. ∑𝑁𝐹𝑅𝐴𝑀𝐸𝑆 ∑𝑁𝐻 𝑘=1 10 ∗ log(. 𝑃𝑘 + 𝑃𝑘+1 ) 2∗𝑃𝑘,𝑘+1. (15). Dónde:. 𝑃𝑘 = Potencia en el armónico k. 𝑃𝑘+1 = Potencia del armónico siguiente. 𝑃𝑘,𝑘+1 = Potencia en la zona entre el los armónicos k y k+1. 𝑁𝐻 = Numero de los armónicos. 𝑁𝐹𝑅𝐴𝑀𝐸𝑆 = Numero de tramas de voz. Los armónicos de la voz son los que generan el timbre característico de la misma y a su vez permiten reconocer el timbre de la voz de una persona. Su frecuencia, también conocida como frecuencia dominante o pitch, es un múltiplo de la frecuencia fundamental. La frecuencia fundamental es la frecuencia más baja del espectro de frecuencias.. 2.. Medidas de calidad utilizadas. En la actualidad es necesario determinar la calidad de una señal sin conocer el ruido con el que fue afectada o si posee afectación alguna. De ahí la novedad científica de 29.

(41) Capítulo 2: Medidas de distorsión de la señal de voz este proyecto investigativo, que presenta medidas de calidad, que pueden ser aplicadas a cualquier señal sin tener conocimiento previo de sus características. Las fuentes para escoger las medidas provienen de los escasos estudios de calidad en SRLs ya existentes. Las medidas aplicadas fueron: 1.. Kurtosis de los LPC (KLPC) [5].. 2.. Kurtosis Cepstral (KCEP) [5].. 3.. Distancia entre Armónicos (HD) [28].. Para el caso de la Distancia entre Armónicos no se encontraron trabajos con antecedentes de la utilización de en SARL, por tanto su estudio, en el tema, sería un aporte del presente documento. En cambio las medidas basadas en kurtosis han sido categorizadas en varios estudios como en [1] y en [5], como medidas de un alto impacto para la compensación de variabilidad de la señal de voz, a pesar de esta afirmación se propone continuar su estudio con nuevos métodos y en distintos niveles ruidosos.. 30.

(42) Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores En el siguiente capítulo se realiza la descripción del experimento desarrollado para evaluar el impacto de las medidas de calidad, utilizando las tres medidas de calidad de voz escogidas sobra. Estas fueron implementadas y aplicadas a cada señal utilizando MATLAB [29]. Además se relacionaron con los correspondientes resultados de reconocimiento de locutor para las mismas señales, con el objetivo de evaluar su desempeño. Finalmente se presentan los resultados obtenidos.. 1.. Base de datos. Para la conformación del experimento se empleó una selección de 50 señales de locutores masculinos de AHUMADA [30], una base de datos de NIST 2001 [3] en español, con datos para la caracterización e identificación del locutor. Esta se replicó adicionándole los siguientes tipos de ruido a 0, 5, 10, 15, 20 dB de SNR. 1.. White noise: (Ruido blanco) es un ruido estacionario, con componentes de. frecuencias en toda la banda de trabajo [31]. 2.. Street noise: (Ruido de exteriores) es un ruido pseudoestacionario, integrado. por una mezcla de distintos ruidos para imitar el ruido ambiental de exteriores [32]. 3.. Music noise: (Ruido musical) segmento inicial de la canción November Rain, de. la banda Guns and Roses. Es un sonido altamente armónico y no estacionario [2]. 4.. Babble noise: (Ruido de voces) es un ruido no estacionario, correlacionado con. la voz porque consiste en la voz de otros locutores [31]. Finalmente se obtuvo un total de 1000 señales ruidosas y 50 limpias.. 2.. MATLAB. Para la implementación de la totalidad de los pasos del experimento se utilizó el MATLAB [33], un programa especializado en cálculos numéricos con vectores y matrices. Este es un lenguaje de alto nivel y de ambiente interactivo que permite 31.

(43) Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores realizar distintas tareas, el cual está construido por códigos llamados M-code que pueden ser fácilmente ejecutados en la ventana de comandos para) crear funciones. La razón principal para la elección de este lenguaje de programación son las herramientas que proporciona para el procesamiento de señales, y el conjunto de funciones para el procesamiento digital. Las funciones de MATLAB más importantes utilizadas en el experimento fueron: 1. wavread: Esta función lee archivos de sonido en formato WAVE (.wav). Específicamente se utilizó la alternativa [y, Fs] = wavread(filename), en la cual se carga el archivo wave especificado por filename, y entrega los datos cargados en y, mientras que en Fs muestra la frecuencia de muestreo. 2. hamming: Esta consiste en una ventana tipo hamming. Se usó la alternativa w = hamming(L), donde la cantidad de puntos simétricos o la cantidad de muestras para una ventana será especificado por L. 3. fft: Función que calcula la Transformada de Fourier (FFT). Para este estudio se usó la alternativa Y = fft(X,n), donde la transformada se le aplica a x y n es número de puntos para el cálculo de la FFT (NFFT). 4. abs: Calcula el valor absoluto de un número (módulo), en caso de ser un número complejo calcula la amplitud de este. 5. findpeaks: Busca los máximos locales o crestas en una matriz o vector. 6. lpc: Función para calcular los LPC de una señal.. 3.. Resultados del SARL. Los resultados del reconocimiento de locutores para la base de datos seleccionada se tomaron del trabajo previo[34], estos resultados se basan en obtener los valores de probabilidad de verificación para cada locutor, los cuales serán comparados con los de las medidas de calidad de voz, para determinar la relación entre ambos..

(44) Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores GMM-UBM-MAP A continuación se describen las tecnologías que se usaron para la verificación del locutor de los resultados tomados del trabajo [34]. Los Modelos de Mezclas Gaussianas (GMM, por sus siglas en inglés) es una técnica estadística que se utiliza para representar la información el locutor. Los GMM modelan los distintos vectores de rasgos de una locución dada, realizando una suma ponderada (mezcla) de funciones de densidad de probabilidad gaussianas. En [35] se especifica mejor la descripción de este modelo. UBM, conocido como Modelo Universal de Background, es una técnica que se utiliza para representar la hipótesis alternativa de la colección de muestras de expresiones de voz de los 50 locutores de la población esperada durante la verificación. La hipótesis alternativa son los momentos en los que se cumple que un locutor no coincide con un segmento de su propia voz [35]. El MAP (Estimación por Máximo a Posteriori) o Adaptación Bayesiana, como también se denomina, es un tipo de clasificador cuya función es obtener el modelo del locutor de los parámetros del UBM utilizando los rasgos del locutor. Para la conformación del clasificador se usaron como parámetros: 12 MFCC + 12 delta + 12 aceleración.. 4.. Implementación de las medidas. Kurtosis de los LPC (KLPC) En este caso la kurtosis se aplica a los Coeficientes de Predicción Lineal (LPC), medida estadística calculada a través de la ecuación (9). En el anexo 1 aparece la implementación de la medida en MATLAB. Se obtiene según el algoritmo descrito en la figura 12:.

(45) Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores. Lectura de la señal. Segmentación. Cálculo de LPC. Cálculo de la desviacion estandar. Valor de KLPC. Detección de zonas de voz. Cálculo de Kurtosis por segmento. Figura 12. Obtención del valor de kurtosis de los LPC. El esquema de obtención de la KLPC representado en la figura 14 se describe a continuación: Primeramente se procede a la lectura de la señal, y su posterior segmentación. La cantidad de Coeficientes de Predicción Lineal (LPC) a obtener por trama utilizada fue 21, pero el programa fue diseñado para obtener la requerida por el usuario. La segmentación se hizo cada 20 ms con un solapamiento de 10ms. Se calcularon los valores de los LPC para cada segmento con la función lpc de MATLAB, calculando también la desviación estándar de los mismos, usando la raíz cuadrada de la varianza, mediante la función std. Con este procedimiento se obtuvo la kurtosis de los LPC por segmento, finalizando con la búsqueda del promedio de las kurtosis de los segmentos de voz de la señal. Para identificar los segmentos de voz se utilizó el algoritmo de VAD (energydetector [36]). Este proceso mejora considerablemente el rendimiento de la medida, pues las zonas de silencio generalmente aportan valores indeseados que no deben ser tomados en el proceso. Se promediaron los valores de kurtosis de esas tramas de voz que sería el valor final de KLPC para esa señal..

(46) Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores. Kurtosis cepstral o kurtosis de los MFCC (KCEP) En el caso de la KCEP, por estar basada en kurtosis igual que KLPC, se utiliza para su cálculo la misma ecuación (9), con la diferencia que para la KCEP se utilizaron los MFCC en lugar de los LPC. En el anexo 4 se presenta la implementación en MATLAB de esta medida. Para la obtención de los MFCC se utilizaron los siguientes parámetros: . Un coeficiente de 0.95 para el preénfasis de la señal.. . Un tamaño de segmento de 20 milisegundos, con un solapamiento de 10 milisegundos.. . Un enventanado de los segmentos utilizando una ventana de tipo hamming. La NFFT se calculó para cada señal, agregando una función creada en MATLAB que se presenta en el anexo 3.. . El número de filtros triangulares que se utilizó para la escala Mel fue de 24.. . El número de coeficientes MFCC a obtener fue 19.. Distancia entre Armónicos (HD) Se emplea para medir la distorsión de la estructura armónica de la voz. Esta medida es similar a una medida de SNR, por la forma en que se relacionan las potencias de los armónicos ubicados en el tono fundamental de la voz (pitch) con las zonas de no pitch. En la figura 15 se muestra un esquema para la obtención de esta medida..

(47) Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores. Lectura de la señal. Búsqueda de armónicos. Segmentación. Cálculo de la potencia de dichos picos. Buscar picos. Transformada de Fourier. Aplicación de la ecuación. Figura 13. Obtención de la HD. En esta medida, al igual que en las medidas basadas en kurtosis, también se efectuó) la segmentación de la señal cada 20 milisegundos, con un solapamiento de 10 milisegundos. Con anterioridad se realizó la localización de las zonas donde había armónicos, para realizarle la medida a esos segmentos y desechar los otros. Las zonas donde hay armónicos se delimitaron con el Boersman pitch, un detector de pitch que utiliza el programa Praat [37]. Este es un programa informático que permite realizar análisis acústicos, síntesis articulatoria, edición y manipulación de señales de audio. Posteriormente se usó la función ftt para calcular la transformada de Fourier por segmentos y utilizarla para llevar la señal al dominio de la frecuencia. Consecutivamente se localizaron los picos de los segmentos con armónicos, para lo cual se usó la función de MATLAB findpeaks. Luego se calculó la potencia en estos picos para poder utilizar la ecuación (15) para el cálculo de HD. En el anexo 5 se presenta la implementación de la medida en MATLAB.. Funciones de mapeo utilizadas Luego de calcular las medidas de calidad en todas las señales, se normalizaron los valores de cada una de estas por medio de una función de mapeo, con valores.

(48) Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores comprendidos entre 0 y 1. La ecuación (10) se utilizó como función de mapeo para las medidas referidas a kurtosis. En el caso de la KCEP su variación estaba entre (1.1967) y (7.4747), como valor mínimo y máximo respectivamente. Por otro lado la KLPC variaba entre los valores (5.6748) y (16.8295). Para la HD se utilizó una función de mapeo en la cual, todos sus valores fueron divididos por el mayor valor de esta medida en las señales (6.3826), quedando estructurada: 𝑥. 𝑄(𝑥) = 𝐻𝐷𝑚𝑎𝑥. (16). Dónde, 𝐻𝐷𝑚𝑎𝑥: Es el máximo valor de HD. 5.. Organización de resultados. Verificación de locutores Para cada ruido se obtuvo una matriz de resultados de verificación (en inglés: score) por cada valor de SNR, correspondiendo para las 20 combinaciones de ruido y SNR un total de 20 matrices, más una con los resultados de la data sin ruido. Estos resultados son la probabilidad de pertenencia de un vector de parámetros (señal de test) a un modelo entrenado (train). Se compararon los modelos de 50 locutores contra una muestra de prueba por cada uno de ellos, obteniendo cada matriz con un tamaño de 50 filas por 50 columnas. La diagonal de cada matriz es la probabilidad de reconocimiento de cada locutor contra su propio modelo entrenado. Lo descrito muestra que por ejemplo, si coincide la fila 1 con la columna 1, se tendrá el resultado de la probabilidad de coincidencia del locutor 1 con respecto a su propio modelo. En la figura 14 se muestra un ejemplo de una de las matrices obtenidas, perteneciente a las señales limpias, la cual se obtuvo haciendo uso de la función imagesc de MATLAB..

(49) Capítulo 3: Evaluación de las medidas de distorsión en el contexto del reconocimiento de locutores. Figura 14. Matriz con el resultado de verificación para las señales limpias. Como ya se mencionó, la matriz pertenece a las señales limpias, entonces la probabilidad de verificación de cada locutor respecto a su modelo, debe ser mayor que la de ese locutor respecto a los demás modelos. Es por ello que en la figura 16 el color de la diagonal de la matriz resalta, ya que los valores ubicados en la diagonal son los más altos, que corresponden a la probabilidad de verificación de cada locutor respecto a su propio modelo. Se extrajeron las diagonales de las matrices de score y se insertaron en una matriz de 50 filas por 21 columnas, que representan los locutores y los distintos ruidos a distintas SNR. De manera que en cada fila se obtuvo la variación de la probabilidad de verificación de cada locutor respecto a su muestra. Esta tiene como objetivo organizar los resultados de verificación. Medidas de calidad Luego de organizar los resultados de la prueba de verificación se dio lugar a organizar los resultados de las medidas, para lo cual se utilizó la misma configuración que en la.

Figure

Figura 1. Esquema del aparato fonador humano[8]
Figura 2. Señal de voz en el tiempo.
Figura 3. Niveles de información de la señal de voz.
Figura 5. Factores que determinan la eficacia en una comparación.
+7

Referencias

Documento similar

En este ensayo de 24 semanas, las exacerbaciones del asma (definidas por el aumento temporal de la dosis administrada de corticosteroide oral durante un mínimo de 3 días) se

En un estudio clínico en niños y adolescentes de 10-24 años de edad con diabetes mellitus tipo 2, 39 pacientes fueron aleatorizados a dapagliflozina 10 mg y 33 a placebo,

• Descripción de los riesgos importantes de enfermedad pulmonar intersticial/neumonitis asociados al uso de trastuzumab deruxtecán. • Descripción de los principales signos

En junio de 1980, el Departamento de Literatura Española de la Universi- dad de Sevilla, tras consultar con diversos estudiosos del poeta, decidió propo- ner al Claustro de la

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

[r]

SVP, EXECUTIVE CREATIVE DIRECTOR JACK MORTON

Social Media, Email Marketing, Workflows, Smart CTA’s, Video Marketing. Blog, Social Media, SEO, SEM, Mobile Marketing,