RECONOCIMIENTO DE VOZ UTILIZANDO COEFICIENTES LPC MEDIANTE DISTANCIAS EUCLIDIANAS

(1)

ESCUELA SUPERIOR DE INGENIERIA MECANICA Y

ELECTRICA

UNIDAD ZACATENCO

UNIDAD PROFESIONAL ADOLFO LOPEZ MATEOS

“RECONOCIMIENTO DE VOZ

UTILIZANDO

COEFICIENTES LPC MEDIANTE DISTANCIAS

EUCLIDIANAS”

TESIS

QUE PARA OBTENER EL TITULO DE

INGENIERIA EN COMUNICACIONES Y ELECTRONICA

EN ESPECIALIDAD

COMUNICACIONES

PRESENTA

LIZBETH RAMIREZ HERNANDEZ

LIZBETH SOFIA VEGA PAZ

DIRECTOR DE TESIS

M. EN C. MARIO JIMENEZ HERNANDEZ

(2)

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELECTRICA

UNIDAD PROFESIONAL "ADOLFO LÓPEZ MATEOS"

TEMA DE TESIS

INGENIERO EN COMUNICACIONES Y ELECTRÓNICA QUE PARA OBTENER EL TITULO DE

TESIS COLECTIVA y EXAMEN ORAL INDIVIDUAL POR LA OPCIÓN DE TITULACIÓN

C. _{LIZBETH RAMIREZ HERNANDEZ}

DEBERA(N) DESARROLLAR _C._{LIZBETH SOFIA VEGA PAZ}

"RECONOCIMIENTO DE VOZ UTILIZANDO COEFICIENTES LPC MEDIANTE DISTANCIAS EUCLIDIANAS"

DISEÑAR UN SISTEMA DE RECONOCIMIENTO DE VOZ AISLADA PARA DOS LOCUTORES Y DOS COMANDOS UTILIZANDO COEFICIENTES LPC y ALINEAMIENTO TEMPORAL DINÁMICO DTW EMPLEANDO EL SOFTWARE MATLAB.

• RESUMEN. • OBJETIVO. • mSTIFICACIÓN. • INTRODUCCIÓN.

• CAPITULO 1 PROCESAMIENTO DE VOZ DIGITAL PARA LA COMUNICACIÓN HOMBRE-MAQUINA.

• CAPITULO 2 FUNDAMENTOS TEÓRICOS.

.

• CA.PITULO 3 PROYECTO.

' . ' CAPITULO 4 RESULTADOS. • CONCLUSIONES.

• BIBLIOGRAFÍA.

• APENDICE A. CÓDIGO DE ENTRENAR.

• APÉNDICE B. MANUAL DE RECONOCIMIENTO DE VOZ.

MÉXICO D.F. A 05 DE NOVIEMBRE DE 2012.

ASESORES

ｩｖｉＩｑ｜ｲｾｚ｜￁ｌｖ AREZ A ADÉMICODE

(3)

Este trabajo está dedicado a toda mi familia, por su cariño y porque siempre me han apoyado.

Gracias principalmente a mis padres; éste trabajo es solo una pequeña muestra de lo mucho

que les agradezco por la educación que me han brindado, esperando que mis hermanos y

primos aprendan algo de él, que les sirva como ejemplo para seguir adelante con sus

proyectos de vida.

Gracias a todos y cada uno de los profesores del Instituto Politécnico que han contribuido a mi

formación profesional, por entregar parte de su vida para nuestro desarrollo. En particular a

nuestros asesores: Mario Jiménez Hernández, Javier Muedano Meneses.

Gracias a todos y cada uno de mis amigos del Instituto de Ingeniería: gracias a todos por

depositar su confianza en mí, por el buen ejemplo y porque, tal vez sin que lo sepan, me han

inspirado para ser cada día mejor, a todos gracias por su amistad.

Gracias a todos y cada uno de los que lean y han leído este trabajo porque, por ese simple

hecho, ya forman parte de él.

A Dios por permitirme estar en esta etapa de mi vida y obtener una búsqueda constante de

conocimiento para mejores logros.

(4)

Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas ii RESUMEN

En el trabajo desarrollado se presenta un sistema de reconocimiento de voz, se utilizan los coeficientes LPCs y al alineamiento temporal dinámico DTW utilizando distancias euclidianas, con lo cual se hace la comparación de los patrones de referencia almacenados en un corpus de voz. Una aplicación del sistema desarrollado es su implementación a un equipo de comunicaciones por voz o el desarrollo de vocoders, siendo este tipo de metodología mas eficiente que la técnica de análisis de señales de voz de transformada de Fourier. Este sistema se desarrolla para el reconocimiento de voz aislado de dos comandos y dos hablantes, siendo su objetivo determinar qué frase u oración se habla y por quien.

Las etapas en forma general del proceso de reconocimiento de voz son: segmentación de la señal, preénfasis y enventaneado, a continuación se procede a parametrizar la señal con un algoritmo que puedes estar dado a partir de un análisis cepstral o los modelos de generación de la voz. En este trabajo de tesis se elige la segunda opción empleando los coeficientes de predicción lineal LPC a partir de las técnicas de Autocorrelación y Covarianza. Técnicas que hacen uso de los métodos matemáticos como Matriz Asimétrica, Matriz Toeplitz, algoritmo LevisonDurbi implementado con Coeficientes PARCOR y descomposición de Cholesky.

(5)

Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas iii OBJETIVO GENERAL

Diseñar un Reconocimiento de Voz que determina entre los comandos (izquierda/derecha) para las integrantes, mediante coeficientes LPCs y Alineamiento Temporal Dinámico WDT; utilizando la interfaz de usuario de Matlab.

OBJETIVOS PARTICULARES

 Generación de un corpus de voz para dos usuarios y dos comandos.

 Diseño de la Interfaz de Usuario en Matlab.

 Normalización de la base de datos del corpus elaborado.

 Extracción de los Coeficientes LPCs, programación del algoritmo del Alineamiento Temporal Dinámico DTW, y los parámetros de Cruces por Cero y Energía.

 Desarrollo del sistema de reconocimiento de voz utilizando Distancias Euclidianas para la toma de decisiones.

JUSTIFICACIÓN

En los últimos años el aumento de la capacidad de cómputo y los circuitos integrados cada vez más pequeños, han permitido que la implementación de los sistemas de reconocimiento de voz en robots con grandes funcionalidades en la industria, además de estar presentes en áreas de seguridad, de apoyo en la atención personalizada de usuarios y de entretenimiento.

El presente trabajo demuestra una solución basada en el lenguaje oral para situaciones complicadas en actividades cotidianas como el trabajo en grúas donde los actuadores requieren de todos los elementos de manipulación del cuerpo humano quedando solamente como recurso disponible la voz, sirviendo también en ambientes donde no se tiene la visibilidad adecuada del entorno, o el trabajo requiere la utilización de la visión del usuario en otras direcciones; este tipo de sistemas también se pueden implementar cuando una persona ha sufrido de algún accidente quedando inmóvil de sus extremidades o en sistemas demóticos, siendo posible en todos los casos mencionados utilizar la aplicación para dar la orden con un éxito a un sistema actuador externo facilitando sus tareas..

(6)

Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas iv INDICE GENERAL

Resumen ii

Objetivo iii

Justificación iii

Índice General iv

Índice de Tablas vi

Índice de Figuras vi

INTRODUCCION 8

CAPITULO 1 Procesamiento de voz digital para la comunicación hombre-maquina

1. Procesamiento de voz digital para la comunicación hombremáquina por voz. 11

1.1Características Acústicas 12

1.2Consideraciones generales en el diseño de los sistemas de respuesta de voz. 14 1.2.1 Síntesis de voz por concatenación de los formantes con código de

palabras.

16

1.3. Sistemas de reconocimiento de orador. 17 1.3.1 Sistema Verificación de Oradores. 19 1.3.2 Sistemas de Identificación de Oradores. 26 1.4. Sistemas de reconocimiento de voz. 28 1.4.1 Sistema de Reconocimiento de Dígitos Aislados. 30 1.4.2 Sistema de Reconocimiento de Palabra para un Gran Vocabulario. 36 CAPITULO 2 Fundamentos Teóricos

2. Fundamentos Teóricos. 38

2.1. Principios Básicos del Análisis Predictivo Lineal 38 2.1.1. Método de Autocorrelación. 41 2.2 Solución de las ecuaciones de LPC. 43 2.2.1 Solución para la descomposición del Método de Covarianza Cholesky. 43 2.2.2 Solución recursiva de Durbin para las ecuaciones de Autocorrelación. 46

2.3. Señal de error de predicción. 48

2.4. Interpretaciones del dominio de la frecuencia de análisis predictivo lineal. 49 2.4.1 Interpretación del dominio de frecuencia del error de predicción

cuadrático. 50

2.4.2 Cepstrum. 55

2.4.3 Respuesta al impulso del sistema en todos los polos. 56 2.4.4 Autocorrelación de la respuesta impulso. 56 2.4.5 Coeficientes de auto correlación del polinomio indicador. 56 2.5. Síntesis de la voz de los parámetros de predicción lineal. 56 CAPITULO 3 Proyecto

3.Diseño y Desarrollo del sistema 59

3.1 Diseño del software. 59

(7)

Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas v CAPITULO 4 Resultados

4. Resultados. 70

4.1 Pruebas. 77

4.1.1 Pruebas en un ambiente libre de ruido. 77

4.1.2 Pruebas en ambiente con ruido. 79

4.2 Estudio Económico. 82

Conclusiones 83

Bibliografía 85

Apéndice A. Código de entrenar 86

(8)

Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas vi INDICE DE TABLAS

Tabla 4.1. Muestra como el sistema de programación MATLAB desglosa los LPC´s para procesarlos.

71

Tabla 4.2 Resultados de las ecuaciones 4.7 a 4.10. 73 Tabla 4.3 Resultados de las ecuaciones 4.11 a 4.14. 73 Tabla 4.4. Promedios de los resultados de 10 pruebas realizadas a cada usuario, para

cada comando.

77

Tabla 4.5 Muestra de coeficientes obtenidos usando el reconocedor de voz por

Lizbeth Ramírez 78

Tabla 4.6 Muestra de coeficientes obtenidos usando el reconocedor de voz por

Lizbeth Vega 78

Tabla 4.7 Resultados de prueba al reconocedor variando el ruido blanco, así como variando el volumen de la voz, para Lizbeth Ramírez

80

Tabla 4.8 Resultados de prueba al reconocedor variando el ruido blanco, así como variando el volumen de la voz, para Lizbeth Vega 81

Tabla 4.9 Cotización del proyecto 82

INDICE DE FIGURAS

Fig. 1.1 Sistemas de Respuesta de Voz. 11 Fig. 1.2. Diagrama a bloques de un sistema de respuesta digital. 13 Fig. 1.3. Resumen de los métodos de codificación para los tipos de discurso. 15 Fig. 1.4 Diagrama a Bloques de un Sistema de Respuesta de Voz basado en un

formato de representación.

17

Fig. 1.5 Representación general de un problema de reconocimiento del habla. 18 Fig. 1.6 Diagrama a Bloques de un Sistema de Verificación de Ponente 19 Fig. 1.7 Procesamiento de aspectos de señal del sistema de verificación de orador. 20

Fig. 1.8. Periodo Pitch e intensidad de contorno de palabras usadas en la verificación de oradores.

21

Fig. 1.9 Imagen de los 3 primeros formantes, pitch e intensidad para la verificación

de palabra de un orador. 22

Fig. 1.10 Imágenes de los primeros 8 LPC por verificación de palabra del orador 22 Fig. 1.11 Ilustración del tiempo de subida 23 Fig. 1.12 Un ejemplo de una típica función de deformada. 25 Fig. 1.13 Ejemplo de los efectos deformación en el tiempo en la intensidad del

contorno del discurso.

25

Figura 1.14. Distribución de medidas de varios parámetros del discurso y ajustes

Gaussianos a los datos. 29

Figura 1.15. Identificación de exactitud del discurso como funciónd el parámetro establecido.

30

Figura 1.16. Identificación de exactitud del discurso (usando parámetros cepstrum) como una función de la duración del discurso.

31

Fig. 1.17 Diagrama a bloques del sistema de reconocimiento de dígitos aislados 31 Fig. 1.18. Dos polos LPC ajustados a los espectros de los sonidos del habla. 33 Fig. 1.19. Medidas de reconocimiento de voz para el digito aislado /nine/. 34 Fig. 1.20. Medidas de reconocimiento de voz para el dígito aislado /six/. 35 Fig. 1.21. Diagrama a bloques de un reconocedor de palabras con amplio

(9)

Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas vii

Fig.2.1 Ilustración de la gama de los últimos sist. de reconocimiento de palabras aisladas como una función del tamaño del vocabulario y el grado de dependencia de los altavoces.

38

Fig. 2.2. Diagrama de bloques del modelo simplificado para la producción del

habla

39

Fig. 2.3. Ejemplos de señal y error de predicción para las vocales. 49 Fig. 2.4. Señales típicas y espectros para el método de covarianza LPC para un

orador masculino.

49

Fig.2.5. Señales típicas y espectros para el método de auto correlación LPC para

un orador femenino. 50 Fig. 2.6. Variación del error de predicción con la longitud de la sección de una

sección de voz del habla natural.

52

Fig. 2.7. Secuencias de predicción de error de 200 muestras de habla de tres

sistemas de LPC.

53

Fig. 2.8. Polo FTT a un espectro de la señal FFT. 53 Fig. 2.9. Espectros de /a vocal/ muestra en 6kHz para varios valores del orden

indicador p. 54

Fig. 2.10. Espectros de vocales sintéticas /a/. 55 Fig. 2.11 Comparación de los espectros obtenidos por el habla (a) ceptrum

suavizado y (b) la predicción lineal.

55

Fig. 2.12. Diagrama de bloques del sintetizador de predicción lineal. 58 Fig. 2.13. Modelos de tubo sin pérdidas equivalentes utilizando (a) dos uniones

multiplicador, y (b) una unión multiplicador. 58

Fig. 3.1 Crear una GUI 60

Fig. 3.2 Ventana de opciones para crear la GUI 61 Fig. 3.3. Diagrama de bloques del software desarrollado. 63 Fig. 3.4. Estructura de la interfaz gráfica. 64 Fig. 3.5. Diagrama de bloques y código de cargar archivo. 65

Fig. 3.6. Código de reproducir. 65

Fig. 3.7. Diagrama de bloques y código de segmentar. 66 Fig. 3.8. Diagrama de bloques y código de reiniciar. 66 Fig. 3.9. Diagrama de bloques y código de grabar. 67 Fig. 3.10. Diagrama de bloques y código de entrenar. 67 Fig. 3.11. Diagrama de bloques y código de reconocer 68 Fig. 3.12. Diagrama de bloques y código de parámetros de la señal. 69

Fig. 4.1. Gráfica del comando “derecha”, del usuario Lizbeth Ramírez, Lizbeth

Vega 74

Fig. 4.2. Gráfica de los LPC´s del comando “derecha”, del usuario Lizbeth

Ramírez, Lizbeth Vega

75

Fig. 4.3. Gráfica del comando “derecha”, del usuario Lizbeth Ramírez, Lizbeth

Vega Señal Segmentada. 75

Fig. 4.4. Ilustra la función del botón “Guardar”. 76

Fig. 4.5. Gráfica de los cruces por cero del comando “derecha” del usuario Lizbeth

Ramírez, Lizbeth Vega

76

(10)

Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas 8

Introducción.

Como primera instancia en el capitulo uno se presenta la teoría matemática de un sistema reconocimiento de voz. Se hace mención de la estructura de la forma de onda de la señal de voz, la cual es creada por las fuentes del sonido en el tracto vocal y las resonancias de las cuerdas vocales las cuales le dan forma al sonido para generar los diferentes fonemas. La frecuencia fundamental de la excitación determina el tono percibido de la voz. La señal de voz puede ser representada por los parámetros del modelo de producción de la voz en lugar de la forma de onda analógica, teniendo como resultado una señal digital muestreada, con lo anterior se tiene que las propiedades de la señal de voz son constantes por intervalos de tiempo cortos, debido esto es posible calcular, medir o estimar los parámetros del modelo analizando segmentos cortos de la señal de voz y de esa manera obtener una representación digital de la señal.

En el dominio del tiempo se pueden extraer ciertas características como la energía en tiempo corto, el régimen de cruces por cero y la autocorrelación, con los cuales podemos detectar si una señal de audio contiene voz o ruido, podemos determinar si se trata de sonidos vocálicos o novocálicos y en caso de tratarse de sonidos vocálicos determinar el tono. La extracción de características en el dominio del tiempo tiene la enorme ventaja de poder realizarse sin necesidad de que las muestras cambien al dominio de la frecuencia y por ende llevarse a cabo su implementación en sistemas de bajo costo.

El uso mas importante del régimen de cruces por cero esta en la segmentación de palabras aisladas y mas específicamente en la discriminación entre silencio y la voz. En vista de que no todas las palabras comienzan con un fricativo, conviene combinar el régimen de cruces por cero de tiempo corto con la energía de tiempo para implementar un discriminador silencio/voz, de esta manera, si se mantiene por arriba de un cierto valor de umbral podemos considerar que la señal de audio tiene contenido de voz y solo si ambos están por debajo de sus respectivos valores umbrales podemos considerar que la señal tiene solo ruido ambiental.

La autocorrelacion tiene demasiada información acerca de la señal de voz, de hecho, los vectores de autocorrelacion permiten determinar el numero LPCs a partir de la frecuencia de muestreo, siendo este valor redondeado del cociente entre el valor de frecuencia de muestreo y mil, sumando el valor de 3, regla que nos permite calcular los valores suficientes para estimar de manera precisa la función de transferencia del tracto vocal. La función de autocorrelacion tiene muchos picos pero la mayoría de estos picos se atribuyen a oscilaciones del tracto vocal que son responsables de darle forma a cada periodo de la señal de voz. El procedimiento sencillo de buscar la ubicación del pico más grande de la autocorrelacion para estimar el tono no es tan confiable debido a que en ocasiones, el cambio rápido de los formantes puede crear un pico en la autocorrelacion más grande que aquel debido al tono, por ello es necesario normalizar la señal.

(11)

Continuando en el segundo capitulo se ve como la voz puede ser sintetizada a partir de los parámetros obtenidos en el análisis de predicción lineal de varias maneras. La manera mas simple tiene la misma representación paramétrica usada durante el análisis. Los parámetros de control variables en el tiempo que se requieren para el sintetizador son el tono, el vocálico/no vocálico, la ganancia o valor rms de la voz y los p coeficientes predictores. El generador de

impulsos actúa como fuente de excitación para sonidos vocálicos y un generador de ruido blanco actúa como excitación para sonidos novocálicos produciendo muestras aleatorias no correlacionadas uniformemente distribuidas con media cero y desviación estándar unitaria.

La codificación lineal predictiva se ha convertido en la técnica predominante de extracción de características de la señal de voz, presenta las siguientes ventajas:

1. Estimación mas precisa de los parámetros de voz, es decir, del espectro, los formantes, energía y área del tracto vocal.

2. Bajo régimen de bits, este se define como el número de bits por segundo que es necesario muestrear, por ejemplo un régimen de bits de 64000 bits/seg puede significar 8000 muestras de 8 bits cada segundo, o bien, 4000 muestras de 16 bits cada segundo.

3. Relativo bajo costo computacional

La codificación lineal predictiva esta basada en la idea de que una muestra de voz puede predecirse mediante una combinación lineal de las muestras anteriores de voz dentro de un cierto intervalo, para poder hacer eso, es necesario determinar los coeficientes predictores, esto se logra minimizando la suma de los cuadrados de las diferencias entre las muestras obtenidas mediante la predicción y las muestras reales.

La voz puede ser modelada como la salida de un sistema lineal cuyos parámetros varían en el tiempo y cuya entrada es un tren de impulsos o bien la salida de un generador de ruido dependiendo de si se va a producir un sonido vocálico o un sonido novocálico. Los parámetros del modelo de la frecuencia F del tren de impulsos; la ganancia G; la posición del

interruptor vocálico/novocálico y los coeficientes ak, todos estos parámetros varían con el

tiempo aunque no presentan cambios bruscos.

Para encontrar los coeficientes predictores que minimizan el error se deben calcular los coeficientes y luego resolver el sistema de ecuaciones, la matriz de autocorrelacion T es una

matriz de Topeplitz dado que es simétrica y los valores a lo largo de cualquier diagonal son un mismo valor.

Los métodos mas conocidos para solucionar un sistemas de ecuaciones con estas características son los de Levinson y Robinson, pero al método mas conocido se le conoce como procedimiento recursivo de Durbin El algoritmo de Durbin resuelve primero un sistema

predictor de primer orden (p = 1). En el proceso de calcular los coeficientes predictores para

un predictor de orden p se deben calcular los coeficientes de todos los predictores de órdenes

inferiores a p. El error de predicción se puede estar monitoreando así como los coeficientes

(12)

La ventaja de utilizar los coeficientes LPC para estimar los formantes es que es menos complicado encontrarlos dado que el espectro obtenido a partir de los coeficientes LPC es un espectro suavizado, la desventaja inherente a la estimación de los formantes a partir de los coeficientes LPC es que estos son obtenidos asumiendo que el tracto vocal puede modelarse mediante un filtro de puros polos y aunque esto es adecuado para efectos de clasificación, se sabe que el espectro de sonidos nasales no solo tiene polos sino ceros por lo que la estimación de los formantes a partir de coeficientes LPC no seria muy preciso para este tipo de sonidos.

Para la siguiente etapa del análisis es realizar la comparación de los parámetros de la base de datos de las señales con la señal introducida. La técnica más eficiente de hacer esta etapa es la aplicación del Alineamiento Temporal (DTW) la cual tiene en cuenta la variación en la escala del tiempo de dos palabras aisladas a comparar.

La desventaja de esta técnica es la presencia de importantes distorsiones temporales, pues no siempre se pronuncia la palabra a la misma velocidad. Estas distorsiones afectan no sola a la palabra considerada sino también a sus componentes acústicos. Es por esto que se hace se la euclidianas, así Para dos palabras a comparar con dichos algoritmos proporcionan una medida de similitud y obtener un valor cercano a cero, que puede ser aprovechada en el reconocimiento de palabras aisladas.

En el capitulo 3 se muestra el desarrollo del diseño de la interfaz IGU con el software Matlab, Para el desarrollo del software para el sistema de reconocimiento de voz se considero tener botones para su manipulación de la señal los cuales son: guardar, segmentar, grabar, reproducir. Para comprobar lo matemático se representa gráficamente la señal en sus parámetros cruces por cero, energía, LPCs.

La interfaz IGU básicamente se implementó un prototipo de programa que por medio de su utilización permite realizar un reconocimiento de palabras aisladas por parte de un orador. La aplicación consta de: obtención de la señal hablada, extracción de características utilizando el método decodificación por predicción lineal (LPC) mediante distancia euclidianas, comparación de características con el método de alineación temporal dinámica (DTW). Con el objetivo de determinar el comando introducido y el usuario por quien fue mencionado.

(13)

1. Procesamiento de Voz Digital para la Comunicación hombre-máquina

mediante la voz.

La comunicación hombremáquina es un área muy rica en el uso de técnicas digitales de procesamiento del habla. Generalmente se reconocen tres grandes áreas dentro de la comunicación por voz, y son las siguientes:

1. Sistemas de respuesta de voz.

2. Sistemas de reconocimiento de locutor. 3. Sistemas de reconocimiento de voz.

Los sistemas de respuesta de voz están diseñados para responder a una solicitud mediante mensajes hablados, por otro lado, las zonas 2 y 3 tienen comunicación de hombre a máquina. Los sistemas de reconocimiento de voz, se encargan de verificar la identidad del hablante, o de identificarlo de entre algunos conjuntos conocidos. De esta manera, el reconocimiento del habla es dividido en las subáreas, como son: la verificación del hablante y la identificación del hablante.

El área de reconocimiento de voz, se puede subdividir en muchas subzonas en función de factores como: el tamaño del vocabulario, la población hablante, las condiciones al hablar, etc. La tarea básica de un sistema de reconocimiento de voz es reconocer una expresión exacta, o "entender" la expresión (responder de manera correcta a lo que fue dicho). El concepto de comprender en lugar de reconocer la expresión es muy importante para los sistemas que ocupan un amplio vocabulario, mientras que el concepto de reconocimiento exacto es de mayor importancia para un vocabulario limitado (con una pequeña población de hablantes y sistemas de palabras aisladas). Se pone especial atención a los sistemas de procesamiento digital de voz, incluyendo los aspectos generales de los sistemas de procesamiento de información, ya que estos son a menudo muy importantes para el buen funcionamiento de todo el sistema.

Fig. 1.1 Sistemas de Respuesta de Voz.

(14)

1. Provisión para el almacenamiento de un vocabulario para el sistema de respuesta de voz.

2. Reglas para la formación de mensajes con los elementos del vocabulario. 3. Un programa para crear mensajes de respuesta de voz.

Para la implementación de un sistema de respuesta de voz hay dos enfoques principales. Uno consiste en tratar de construir una máquina con la capacidad de expresarse de forma comparable a la del ser humano. Estos sistemas de síntesis de voz por reglas sistemas se basan en el modelo para la producción del habla, y su almacenamiento de vocabulario es básicamente un diccionario de pronunciación en el cual las reglas de formación del mensaje deben generar las señales de control necesarias, (tono, intensidad y parámetros de respuesta vía vocal) para controlar un sintetizador de voz basado en el modelo de producción del habla.

El segundo tipo de sistema de respuesta de voz, es el sistema de vocabulario limitado, en el cual se crea el mensaje de salida mediante la concatenación de elementos aislados del habla natural en el vocabulario almacenado. La Figura 1.2 muestra un diagrama a bloques de un sistema de respuesta de voz digital en el que el vocabulario se compone de palabras aisladas y frases que son representadas en forma digital y se almacenan en la memoria.

Los mensajes se crean mediante la recuperación de palabras y frases necesarias previamente almacenadas, y que se reproducen en la secuencia apropiada. Hay 3 consideraciones principales en el diseño de sistemas de respuesta de voz de este tipo:

1. Seleccionar un medio para representar y almacenar los elementos de vocabulario básico, así como un sistema diseñado para permitir un fácil acceso a cada elemento del vocabulario.

2. Seleccionar un medio de edición de grabaciones de voz para seleccionar los elementos deseados, el vocabulario debe ser proporcionado, junto con un dispositivo de registro de los elementos del vocabulario en el medio de almacenamiento.

3. Tener un sistema para seleccionar y reproducir los elementos del vocabulario en la secuencia prescrita.

El objetivo de un sistema de respuesta de voz es producir expresiones del habla útiles para la comunicación con los seres humanos, por lo que la inteligibilidad es de suma importancia. Los factores subjetivos tales como la calidad y naturalidad de las expresiones del habla pueden tener un gran efecto en la utilidad y aceptabilidad de un sistema de respuesta de voz. Por lo tanto, es importante que los tres componentes del sistema de respuesta de voz, como son el Sistema de Preparación de Vocabulario, el Almacenamiento Digital y el Sistema de Composición del Mensaje, se diseñen de modo que exista un potencial máximo de producción muy inteligible, pues el discurso debe sonar natural.

1.1. Características Acústicas

(15)

Fig. 1.2. Diagrama a bloques de un sistema de respuesta digital.

Las palabras a su vez están divididas en fonemas, los cuales son la unidad básica del habla y en conjunto determinan los sonidos con los que se pueden construir las palabras de cualquier lenguaje.

Acústicamente, un fonema es un sonido que se distingue por un patrón característico. Por otro lado, un alófono es una de las diferentes pronunciaciones que pueda llegar a tener el fonema. El conjunto de fonemas se divide de acuerdo a su manera y llegar de articulación en varios grupos:

Vocales.- La producción del sonido de una vocal se genera cuando el aire pasa de los

pulmones a laringe y después a la boca si ninguna obstrucción. En las vocales, la posición de la lengua y la forma como se abre o cierra la boca determinan el timbre, el tamaño y la forma de la onda sonora. Las vocales se identifican por sus formantes, las cuales son muy marcadas durante todo el fonema.

Diptongos. son combinaciones de vocales en las que la lengua se esta moviendo

durante la duración del fonema. Cuando el hablante disminuye la duración del conjunto formado por dos vocales y las pronuncia en una sola emisión de voz.

Consonantes. Los sonidos de las consonantes son producidos cuando el aire al salir de

los pulmones encuentra un obstáculo, debido generalmente por la lengua y en algunos casos los labios, dejándole un espacio pequeño por donde pasa con fricción. La clasificación de las consonantes depende de la forma de articulación de los órganos vocales que producen los sonidos. Por lo tanto las consonantes se clasifican en:

I. Fricativas: Son producidos por un cierre parcial del tracto vocal, provocando

que el aire salga con turbulencia (ejemplo: f,s,hx).

II. Oclusivos: En algún punto de la articulación del sonido, la corriente de aire

queda obstruida y después es liberada con una explosión pequeña. Al cierre del aire par aquedar obstruido se le denomina closure y le antecede a los oclusivos (ejemplo: b,p,g).

III. Vibrantes: Se producen cuando la lengua cierra por un breve instante el tracto

(16)

IV. Africativos: Se generan cuando la corriente de aire es detenida como en una

oclusiva pero en lugar de ser liberada repentinamente, es liberada con fricción como un fricativo (ejemplo: ch).

V. Nasales: Se generan cuando se cierra el tracto vocal mientras el velo es bajado

y la corriente de aire pasa a través de la cavidad nasal (ejemplo: m,n).

Aunque el tono y la intensidad del habla están determinados principalmente por la vibración de las cuerdas vocales, su espectro está fuertemente determinado por las resonancias del tracto vocal. Los picos que aparecen en el espectro sonoro de las vocales, independientemente del tono, se denominan formantes. Aparecen como envolventes que modifican las amplitudes de los armónicos de la fuente sonora. Las vocales se producen como sonidos y cada una tiene su espectro propio: la A y la U tiene fundamental y tercer armónico fuertes, segundo y cuarto débiles; la E y la O, más o menos lo contrario, fundamental y tercer armónico débiles, segundo y cuarto fuertes; la I tiene los primeros armónicos débiles y el quinto y sexto fuertes. La inteligibilidad oral se debe a las altas frecuencias. Para que el habla sea comprensible, es indispensable la presencia de armónicos cuya frecuencia se halla entre 500 y 3500 Hz. Por otra parte, la energía de la voz está contenida en su mayor parte en las bajas frecuencias y su supresión resta potencia a la voz que suena delgada y con poca energía.

1.2. Consideraciones Generales en el Diseño de los Sistemas de Respuesta de Voz.

Como se muestra en la Figura 1.2, un sistema digital requiere de un codificador analógicodigital (un sistema para la obtención de una representación digital de una señal de voz). Del mismo modo, se requiere un decodificador para convertir la representación digital en una señal analógica. Cuando el vocabulario se encuentra representado en forma digital, puede almacenarse en la memoria digital. El sistema de composición de mensaje es necesario para acceder a las entradas del vocabulario en la secuencia correcta y concatenarlos en una representación digital del mensaje deseado. Esta representación digital, alimenta a su vez al decodificador digitalanalógico.

El factor clave en el diseño de un sistema de respuesta de voz digital es la elección del método de codificación digital, ya que tiene un gran impacto en la capacidad y el tipo de memoria digital requerida, así como en la forma en la que se constituirán los mensajes. Al hacer la elección del método de codificación digital para aplicaciones de respuesta de voz se deben considerar tres factores:

1. La tasa de información necesaria para que la calidad de voz sea aceptable. 2. La complejidad de los sistemas de codificación y decodificación.

3. La posibilidad de modificación de los elementos de vocabulario.

(17)

Fig. 1.3. Resumen de los métodos de codificación para los tipos de discurso.

Las representaciones de formas de onda son las más simples en términos de los algoritmos de codificación/decodificación. Por otro lado, los sistemas de análisis/síntesis, que básicamente "toman la señal de voz en trozos", tienen el mayor potencial para la modificación de los elementos de su vocabulario de forma útil.

Una de las principales preocupaciones en el diseño de sistemas automáticos de respuesta de voz es la preparación y edición de vocabulario. Las técnicas digitales tienen el potencial de alta eficiencia y gran flexibilidad en la preparación de los elementos del vocabulario, y proporciona una salida de voz de alta calidad.

Generalmente, las palabras y frases que forman un vocabulario de respuesta de voz son dichas por un orador entrenado y se hace una grabación de audio de alta calidad, las palabras o frases se registran y se convierte en una representación digital por el codificador de analógico digital. La representación digital (que puede ser del tipo de forma de onda o de análisis síntesis) se almacena temporalmente en forma digital en la computadora.

El comienzo y el final de un enunciado se pueden localizar con bastante precisión para las grabaciones digitales de alta calidad, para ello se emplea un sistema de ayuda automático para encontrar el inicio y el final de la emisión, eliminando el silencio que rodea estos puntos. De esta forma, la computadora puede determinar con precisión si la expresión es de una duración adecuada. La expresión se puede reproducir en el altavoz para verificar la inflexión de la palabra o frase. El proceso de grabación puede ser fácilmente repetido hasta obtener una inflexión y una duración satisfactoria.

En la etapa final de la preparación de un vocabulario de respuesta de voz, un sistema automático puede comparar la intensidad de todas las palabras en el vocabulario y ajustar adecuadamente todos los niveles de forma uniforme, de acuerdo a los niveles determinados por la intención de uso de cada entrada. Esto puede implicar un cálculo de la amplitud de la señal de pico o una medida de intensidad como un corto tiempo de energía.

(18)

El sistema de respuesta de voz se completa al proporcionar un medio para componer expresiones del habla con los elementos del vocabulario. Si se utiliza una representación de forma de onda, solo hay que concatenar las formas de onda de los elementos del vocabulario.

Esto puede conducir a expresiones del habla que suenan algo naturales si el vocabulario está formado en su mayoría de las palabras aisladas, este enfoque tiene la virtud de que el sistema de composición de mensajes puede ser muy simple, y el sistema se puede implementar fácilmente usando un microprocesador.

Por otra parte, las representaciones basadas en algún tipo de análisissíntesis ofrecen mayor flexibilidad para modificar las propiedades de los elementos del vocabulario para que la expresión compuesta conserve algunas de las propiedades de las expresiones naturales (tiempo, inflexión, etc.). Esta ventaja es más importante debido a que las entradas de vocabulario se representan en términos de los parámetros fundamentales de la producción del habla, es posible alterar el tono y la duración de una palabra para que se ajuste a un contexto de mensaje en particular.

Es posible alterar los parámetros del discurso en los límites de las palabras para producir enunciados sintéticos que suenen similares al habla natural. Esto requiere reglas para determinar el tono y los momentos apropiados, así como algoritmos para modificar los parámetros de voz, realizar cambios de duración a las palabras, y fusionar los límites de las palabras.

1.2.1 Síntesis de Voz por Concatenación de los Formantes con Código de Palabras.

El diagrama de bloques de la Figura 1.4 es el ejemplo de una representación de análisissíntesis. En este caso, los elementos del vocabulario se procesaron para obtener una representación digital en términos de período de lanzamiento, con clasificación voz /sin voz, intensidad y frecuencias de los formantes.

Además de los elementos del vocabulario, el sistema de composición de mensajes requiere de medios para la obtención de la duración apropiada de la palabra y el tono de la expresión deseada. Con esta información, las frecuencias de los formantes de palabras adyacentes son fácilmente fusionadas como en el habla natural. Debe tenerse en cuenta que en la unión entre la segunda y tercera palabras, las frecuencias de los formantes se reajustan con el fin de ser continuas en toda la frontera de palabra, como en el habla natural. Por último, se señala que las curvas de tono original de los elementos de vocabulario pueden ser descartadas a favor de un único tono de contorno adecuado para la expresión completa.

(19)

[image:19.612.90.533.106.440.2]

elementos de vocabulario que ofrecen una flexibilidad similar para la manipulación de los parámetros de la emisión del habla.

Fig. 1.4 Diagrama a Bloques de un Sistema de Respuesta de Voz basado en un formato de representación.

1.3. Sistemas de Reconocimiento de Orador.

En el reconocimiento del orador, las técnicas de procesamiento digital son a menudo el primer paso en el problema de reconocimiento de patrones. Como se muestra en la Figura 1.5 una representación (vector patrón) de la señal de voz se obtiene mediante técnicas de procesamiento digital del habla que conservan las características de la señal del habla relevantes para la identidad de los oradores. El patrón resultante se compara con los patrones de referencia previamente preparados y la lógica de decisión posterior se utiliza para hacer una elección entre las alternativas disponibles. Hay dos subáreas diferentes de reconocimiento de locutororador de verificación y la identificación del hablante.

(20)

(o conjuntos) de las medidas y el patrón de referencia para tomar la decisión final de aceptar o rechazar la identidad declarada. Generalmente se toma una medida de distancia entre las medidas dadas y se calcula la distribución de referencia almacenada. Con base en las implicaciones relativas de cometer los dos tipos posibles de error (es decir, la verificación de un impostor, o el rechazo de un orador correcto) un umbral adecuado se encuentra en función de la distancia.

Fig. 1.5 Representación general de un problema de reconocimiento del habla.

Es fácil demostrar que la probabilidad de cometer los dos tipos de errores descritos anteriormente es esencialmente independiente de , el número de patrones de referencia almacenados en el sistema, ya que los patrones de referencia para todos los demás oradores van a formar la distribución estable que caracteriza a todos los oradores. Si se denota la probabilidad de distribución para el vector de medida para el iésimo orador, y , entonces una regla de decisión simple para la verificación del orador puede ser:

(1.1)

Donde es una constante para el orador iésimo que determina las probabilidades de error para el iésimo orador y es la media (suma del conjunto de todos los oradores) de distribución de probabilidad para la medición de . Mediante la variación de la constante podemos obtener control de la mezcla de error entre los dos tipos de errores.

El problema de la identificación del orador difiere significativamente del problema de la verificación del orador. En este caso, el sistema es requerido para hacer una identificación absoluta entre los N oradores en la población de usuarios.

De esta manera, en lugar de una comparación simple entre un conjunto de medidas y un patrón de referencia almacenado, se requieren N comparaciones completas. La regla de decisión de estos sistemas es en la forma:

(1.2)

(21)

Se puede observar que existen un gran número de similitudes y diferencias entre la verificación de oradores y sistemas de identificación de oradores. Cada proceso requiere que un orador pronuncie una o más frases de prueba, hace algunas mediciones en estas frases de prueba, y luego calcula una (o más) funciones de distancia entre el vector y el vector de medición de referencia almacenado. Los métodos de procesamiento de señales de estos dos problemas son muy similares, las mayores diferencias se producen en el proceso de decisión.

1.3.1 Sistema de Verificación de Oradores.

La Figura 1.6 muestra un diagrama a bloques de un sistema en línea de verificación de oradores digitales desarrollado por Rosenberg y otros. La persona que desee ser verificada ingresa por primera vez su identidad declarada, a petición del sistema de verificación (a través de un sistema informático de respuesta de voz) pronuncia su frase de verificación, y pide alguna transacción en el caso de que sea verificada.

Fig. 1.6 Diagrama a Bloques de un Sistema de Verificación de Ponente.

Por ejemplo, la transacción solicitada no puede ser el acceso a información privilegiada de un banco, etc. Lo que se habla, se procesa para obtener un patrón que se compara con los patrones de referencia almacenados para la identidad declarada, y luego es solicitado sobre la base de la transacción, que determina el error de mezcla constante (c, en la Ecuación 1.1)

tomando la decisión de aceptar o rechazar el cliente.

La Figura 1.7 muestra un diagrama a bloques de las partes de procesamiento de señales del sistema de verificación del orador (Detección de Punto Final, Detección de Pitch,

Mediciones de Energía, Análisis LPC, Análisis de Formante y Registro de Patrones). El enunciado de la muestra que se produce dentro de un intervalo de tiempo preseleccionado debe ser señalado con precisión por el sistema de detección de punto final. En esta implementación el dominio del tiempo se utiliza para localizar el punto final de la expresión de la muestra.

(22)

expresión. Se utiliza un detector de campo para medir el contorno de pitch del enunciado, una

medición de energía de corta duración para dar contornos de energía, se utiliza un análisis LPC para dar contornos y predecir los parámetros, y finalmente, se hace una estimación de la ubicación de los formantes.

Fig. 1.7 Procesamiento de aspectos de señal del sistema de verificación de orador.

Todos los parámetros se muestra en la Figura 1.7 se han utilizado en algún momento en el sistema de verificación, sin embargo, debido a la gran cantidad de cálculos necesarios para el análisis LPC o la estimación de los formantes de la aplicación on-line se restringe la medida

establecida en las mediciones de tono e intensidad. Para ilustrar la amplia gama de procesamiento digital que se utilizó en tan sólo la fase de análisis del sistema de verificación, vale la pena mencionar los algoritmos específicos utilizados por Rosenberg para realizar estas mediciones. La medición de la intensidad fue la magnitud promedio de corto plazo. El análisis LPC fue el método de autocorrelación. Finalmente, el análisis de los formantes utiliza el método homomórfico.

Las Figuras 1.81.9 muestran los contornos típicos de medición para la prueba absoluta "Estábamos lejos hace un año", pronunciada por un hablante masculino. La Figura 1.8 muestra el período de duración y los contornos de intensidad de la expresión. Estos datos se aproximaron 100 veces por segundo y se suavizaron por un filtro digital de paso bajo a 16 Hz, de fase lineal (FIR). Hay significativamente más variaciones en la intensidad de la trama que en el contorno de pitch para el período de este orador en particular. La Figura 1.9 muestra los

gráficos de los tres primeros formantes de tono y la intensidad de una versión diferente de la expresión. Los datos de los formantes se suavizaron también por el mismo filtro que se utilizó para el período de pitch y los contornos de intensidad. Finalmente, la Figura. 1.10 muestra los

(23)

[image:23.612.181.444.67.317.2]

Fig. 1.8. Periodo “Pitch” e intensidad de contorno de palabras usadas en la verificación de oradores.

Después de que la representación paramétrica deseada se ha calculado, es necesario comparar con los patrones de referencia correspondientes para el orador, cuya identidad se afirma. No es fácil comparar los patrones temporales como el tono, la intensidad y las variaciones de los formantes, generalmente un orador no es capaz de hablar precisamente igual en varias repeticiones diferentes de la frase de verificación. La solución a esta dificultad ha sido la deformación no lineal de la escala de tiempo de los patrones de entrada para obtener el mejor registro entre los patrones de referencia almacenados para el orador, y los patrones de medida para su emisión de la muestra. El proceso de distorsión de tiempo es un elemento muy importante y ha sido utilizado en una gran variedad de aplicaciones de procesamiento de voz.

Conceptualmente, el proceso de distorsión de tiempo es como se ilustra en la Figura 1.11. La idea es deformar la escala de tiempo de un enunciado de referencia para que los eventos significativos en algunas mediciones de contorno de nivel se alineen con los mismos hechos significativos en el contorno de referencia . La función de deformación es de la forma:

(1.3)

(24)

[image:24.612.230.396.336.568.2]

Fig. 1.9 Imagen de los 3 primeros formantes, “pitch” e intensidad para la verificación de palabra de un orador.

Fig. 1.10 Imágenes de los primeros 8 LPC por verificación de palabra del orador.

Estas condiciones de contorno son:

(1.4a) (1.4b)

(25)

Fig. 1.11 Ilustración del tiempo de subida.

Un método muy simple consiste en definir como una función lineal a trozos de con un número finito de puntos de corte a lo largo del eje en el que la pendiente de cambia. Los puntos de corte y las pendientes de , así como la inclinación general ), se determinan por un tipo de descenso más rápido de la optimización, en el que se utiliza ya sea una medida de distancia entre la prueba y los contornos de referencia, o una medida de correlación para controlar la dirección de la búsqueda de la optimización.

Una solución mucho más sencilla, y más rápida que la distorsión de tiempo, es utilizar el método de programación dinámica para elegir de manera óptima una función de deformación limitada. Al imponer una condición de continuidad en la función de deformación, en lugar de imponer una aproximación lineal a trozos, se simplifica determinar la función adecuada de deformación óptima para un conjunto de contorno.

Consideramos la realización de la distorsión de tiempo apropiada para un par de contornos que se toman de muestras de un conjunto de puntos discretos. Los puntos en el contorno de medición se etiqueten y los puntos en la referencia de contorno se etiqueten . A continuación, se escogen un tiempo de deformación función de , de modo que:

(1.5)

Donde las condiciones de contorno en w(n) son las siguientes:

(1.6)

Si se utiliza una deformación lineal, la función de deformación de tiempo resultante tendría de la siguiente forma:

₍

(26)

Para una función más general de deformación no lineal, se debe considerar una estrategia para comenzar en el punto ,, progresando a través de la red discreta para acabar en el punto , como es requerido por las condiciones de contorno. Para limitar el grado de no linealidad de la función de deformación es razonable imponer la condición de continuidad leve que la función de deformación no pueda cambiar por más de dos puntos de la red en cualquier índice :

(1.8)

Por lo tanto la pendiente de la función de deformación es 0, 1 o 2, si en el índice de la red anterior, el índice deformado ha cambiado, o 1 o 2, si en el índice de la red anterior, el índice deformado, se mantuvo constante.

Para determinar las condiciones de la Ecuación (1.8) al usar el índice de red se requiere de una medida de similitud entre los datos de referencia, medida en la rejilla del índice , y los datos de las pruebas de medición en la rejilla del índice . La medida de similitud (o medida de distancia) se utiliza para determinar la ruta de la función de deformación local que minimiza la distancia total máxima, está sujeta a las limitaciones de la continuidad de la Ecuación (1.8).

La Figura 1.12 muestra el dominio de coordenadas posibles de la red y una función de deformación típica (la línea continua en la red) para el punto de deformación 20 () y la referencia a un punto 15 (), es la expresión de prueba. Las limitaciones de continuidad de la función de deformación que se encuentran dentro de la gráfica de comparación se muestran en la Figura 1.12.

La técnica de la distorsión de tiempo ha sido aplicada para la verificación del usuario y de reconocimiento de voz. La Figura 1.13 muestra un conjunto de curvas de nivel de intensidad de una referencia y una expresión de prueba, tanto antes como después de la distorsión de tiempo lineal. La mejora en el registro de estos contornos es bastante sorprendente para este ejemplo.

Los pasos finales en el proceso de verificación de la Figura 1.7 son para calcular algunas medidas de la distancia total (basados en las medidas de distancia individual de las muestras medidas por separado), y luego comparar la distancia total a un umbral elegido adecuadamente. Donde un es el valor de la medición del contorno jésimo en el instante , es el valor de la medición del jésimo contorno de referencia en el tiempo , y

es la desviación estándar de la medición jésima en el momento .

La función de la distancia total D, es generalmente una suma ponderada de los

cuadrados, es decir:

(27)

[image:27.612.177.432.80.295.2]

Fig. 1.12 Un ejemplo de una típica función deformada.

Fig. 1.13 Ejemplo de los efectos de deformación en el tiempo en la intensidad del contorno del discurso.

Donde es el peso de la jésima, elegida sobre la base de la eficacia de la medida j ésima en la verificación de la computadora.

[image:27.612.182.441.345.572.2]

(28)

igual (cuando la probabilidad de falso rechazo y falsa aceptación son iguales) del sistema puede ser esencialmente 0 si se utilizan suficientes mediciones, y si los coeficientes de ponderación en el cálculo de la distancia total son cuidadosamente seleccionados para cada orador. Para este sistema la tasa de error con imitadores profesionales era de 4.1%. Para la operación de verificación del sistema mediante el habla telefónica de calidad una tasa de error del 7% se obtuvo utilizando sólo el período de campo y mediciones de la intensidad. La adición de mediciones más sofisticadas, como los formantes, o los parámetros LPC, redujeron significativamente este porcentaje de error.

1.3.2 Sistemas de Identificación de Oradores.

Hay muchas similitudes entre los problemas de verificación del orador y la identificación del orador. En cuanto a los aspectos de procesamiento de señal, los dos problemas son tratados de manera casi idéntica, como se muestra en la Figura. 1.7, se aplica a la identificación del orador, así como la verificación de los oradores. Las principales diferencias en el procesamiento son involucrar la elección de los parámetros utilizados para realizar las mediciones de distancia, y la necesidad de hacer mediciones de distancia (de identificación) en lugar de 1. La decisión final para la identificación del hablante es elegir al orador cuyos patrones de referencia son los más cercanos en distancia a los patrones de muestra, mientras que para la verificación del orador, la decisión final es la elección binaria de si acepta o rechaza la afirmación de la identidad basada en la magnitud de distancia con respecto a alguna distancia umbral convenientemente elegido.

A pesar de una simple medición de distancia clásica del tipo dado en la Ecuación (1.9) es en general apropiado para la mayoría de los sistemas de verificación de orador, una medida de distancia un poco más sofisticada y robusta ha sido utilizada por Atal y otros sistemas para la identificación del hablante. Hay que recordar que el propósito del cálculo de la distancia es proporcionar una medida de similitud entre el patrón de referencia y el modelo de entrada. La medida de distancia utilizada por Atal se puede derivar de la siguiente manera. Sea un vector columna que representa el patrón de entrada, en la que el componente ésimo de es la medida ésima. Se supone que la función densidad de probabilidad conjunta de las mediciones para el altavoz ésimo es una distribución de Gauss multidimensional con media , y matriz de covarianza . Por lo tanto, la función de de densidad de Gauss está dada por:

_|_| _[ _]_(1.11)

Donde es la inversa de la matriz de conexión (se asume que no es impar), | | es el determinante de la conexión, y el denota la transpuesta de un vector. La regla de decisión que minimiza la probabilidad de los estados de error del vector de medición deben ser asignados a la clase si:

(1.12)

(29)

₍ ₎ _|_|

(1.13)

Los dos últimos términos en el lado derecho de la Ecuación (1.12) no dependen de la medida del vector y se pueden considerar como un término constante que representa un sesgo hacia la clase ésima. Se ha encontrado que para la mayoría de los casos, la regla de decisión que incluye el término de sesgo no proporciona ninguna ventaja significativa sobre una regla de decisión basada exclusivamente en el primer término del lado derecho de la Ecuación (1.12). Así, en vez de la regla de decisión de la Ecuación (1.12), la medida de distancia es:

( ) ( )

Generalmente se utiliza y el índice se elige de modo que se reduce al mínimo sobre todo . La regla de decisión requiere el cálculo del vector de media milla y la matriz de covarianza para cada conexión de clase en el conjunto de decisión. Para una serie de mediciones de los vectores con los componentes que pertenecen a la clase , la media y la matriz de covarianza se definen por las relaciones:

∑ (1.15) ∑ (1.16)

La Figura 1.14 muestra algunos ejemplos típicos de las distribuciones de las mediciones de parámetros del habla, que junto con una dimensión de Gauss se ajustan a los datos. La calidad de los ajustes es mejor en algunos casos que en otros.

Deben hacerse varias observaciones acerca de los supuestos y los cálculos necesarios que conducen a la regla de decisión de la Ecuación (1.13). El supuesto de una distribución normal de las mediciones se puede justificar con varias consideraciones, en primer lugar, para que la regla de decisión sea correcta, no es necesario que la distribución sea exactamente normal. En el caso de distribuciones unimodales, es suficiente con que la distribución sea normal en el centro del rango, esta propiedad a menudo se encuentra para ser probada por las mediciones físicas. Por otra parte, la regla de decisión es óptima para una clase de densidades de probabilidad que se relaciona con la densidad gaussiana a través de relaciones funcionales arbitrarias monótonas, la regla de decisión sólo requiere la información sobre los dos primeros momentos de la distribución. La estimación precisa de los momentos de orden superior es generalmente difícil en situaciones prácticas.

(30)

segunda característica importante de la métrica de distancia de la Ecuación (1.14) es que es particularmente eficaz en la ponderación de los diferentes componentes del vector patrón de acuerdo a su importancia.

Usando la regla de decisión de la ecuación (1.13) Atal investigo la eficacia de varias representaciones paramétricas de la señal de habla aplicados al problema de identificación del orador utilizando una población de 10 oradores, cada uno diciendo la misma frase de prueba en seis ocasiones. Estas emisiones se dividieron en 40 segmentos iguales en longitud, proporcionando una distorsión de tiempo habitual, la duración media de cada segmento fue de 50 ms. Luego se llevó a cabo un análisis LPC a cada uno de los 40 cuadros de las 60 sentencias. Así un vector patrón de los coeficientes LPC se obtuvo para cada fotograma, y a partir de estos coeficientes LPC se obtiene una respuesta de impulso, una función de Autocorrelación, una función de la zona del tubo sin pérdidas y un Cepstrum.

La precisión de identificación del orador fue puesta a prueba mediante la selección de una expresión para cada orador, expresiones de prueba y otras cinco expresiones para formar patrones de referencia para cada orador. Entonces la decisión de la regla de la Ecuación. (1.13) se aplica cuadro a cuadro a cada uno de los oradores para obtener una tasa de identificación promedio para cada uno de los 40 cuadros. Estos resultados se muestran en la Figura 1.15 para cada uno de los conjuntos de parámetros equivalentes. Estos conjuntos de medición arrojaron buenos resultados para un sector de discurso breve.

Mediante la combinación de varios fotogramas se obtiene un vector patrón de mayor dimensión, y puede alcanzarse mayor precisión. La Figura 1.16 muestra las curvas de exactitud de identificación alcanzadas con las medidas Cepstrum en función de la duración total del intervalo de discurso utilizado en la fabricación del cálculo de la distancia. Se puede observar en esta Figura que las precisiones de identificación del orden de 95% se han logrado para un conjunto de oradores limitado por las muestras de la duración de habla del orden de medio segundo.

1.4. Sistemas de Reconocimiento de Voz.

Para reconocimiento de voz, se aplican técnicas de procesamiento digital del habla para obtener un modelo que se compara con los patrones de referencia almacenados. En reconocimiento de voz, el objetivo es determinar qué palabra, frase u oración se hablaba.

A diferencia de las áreas de respuesta de voz y reconocimiento de orador del equipo, en el que los problemas son bien definidos, el área de reconocimiento de voz es aquella en la que debe haber un gran número de opciones específicas antes de que el problema sea abordado.

Los siguientes en algunos ejemplos de estas opciones:

1. Tipo de discurso palabras aisladas, habla continua, etc.

2. Número de oradores sistema, orador solo, varios oradores designados, población ilimitada.

(31)

[image:31.612.160.464.74.359.2]

Fig. 1.14. Distribución de medidas de varios parámetros del discurso y ajustes Gaussianos a los datos.

4. Medio ambiente de habla cabina insonorizada, sala de informática, lugar público. 5. Sistema de transmisión micrófono de alta calidad, micrófono cerca de hablar,

teléfono.

6. Tipo y cantidad de formación del sistema sin entrenamiento, conjunto de entrenamiento fijo, formación continua.

7. Tamaño de vocabulario vocabulario pequeño (120 palabras), medio (20100 palabras), amplio (más de 100 palabras).

8. Formato de entrada de habla texto obligado, formato libre.

En la lista anterior se puede ver una amplia variedad de opciones y alternativas disponibles en la especificación de un sistema de reconocimiento de voz. Se analizarán tres sistemas de reconocimiento de representante de discurso, en los que se utiliza una gran cantidad de procesamiento digital de voz, estos son de vocabulario limitado al contexto.

Aunque el tipo más sofisticado de sistemas de reconocimiento de voz continúa también utiliza procesamiento digital en las fases de análisis, se ha procurado la implementación de sistemas de análisis sintáctico y semántico de la expresión, áreas relacionadas con teorías lingüísticas.

(32)

Fig. 1.15. Identificación de exactitud del discurso como función del parámetro establecido.

1.4.1 Sistema de Reconocimiento de Dígitos Aislados.

Las especificaciones para el sistema de reconocimiento de dígitos aislados fueron los siguientes:

1. Vocabulario de palabras aisladas. 2. Ilimitación de la población de oradores.

3. Oradores sin restricciones en cuanto a sexo ni edad. 4. Sala de habla de medio ambiente informático.

5. Transmisión a través de cualquiera de parlante cerca de un micrófono o de alta calidad. 6. No hay sistema de formación.

7. Vocabulario de10 dígitos (09).

8. Formato de palabra con una pausa entre cada entrada palabra.

(33)

[image:33.612.216.411.92.279.2]

Fig. 1.16. Identificación de exactitud del discurso (usando parámetros cepstrum) como una función de la duración del discurso.

Fig. 1.17 Diagrama a bloques del sistema de reconocimiento de dígitos aislados

Aunque hay una gran variedad de representaciones, los candidatos para un sistema de reconocimiento de voz en general, utilizado en un sistema de oradores independiente de las mediciones, debe ser razonablemente robusto. Las características importantes incluyen:

1. Las mediciones se realizan de forma simple y sin ambigüedades (no puede tener diferentes interpretaciones).

2. Las medidas pueden utilizarse para caracterizar una proporción de los sonidos graves del habla.

(34)

Cruce por cero de la tasa. Energía.

Análisis LPC con p = 2 polos. LPC residual de error.

El uso de un análisis LPC de dos polos es algo inusual, fue sugerido por Makhoul y Wolf como un excelente medio de representación de las características generales del espectro a corto plazo.

La frecuencia de polo indica la concentración de energía en el espectro, mientras que el error residual indica la extensión o la inclinación en el espectro. La Figura 1.18 muestra la comparación de los espectros de varios sonidos del habla obtenidos directamente a través de mediciones de espectro FFT, con los espectros de la adecuación de dos polos del espectro LPC. Para un análisis LPC de dos polos, el polinomio resultante tiene un volumen único de complejos conjugados, raíz, o dos raíces reales. En la Figura 1.18(a) se trazan los espectros para el sonido / sh / como en la palabra "short". Para este ejemplo, el análisis LPC de dos

polos dio un polo complejo conjugado alrededor de 3 kHz, es decir, la región de la concentración máxima de energía en el espectro. La Figura 1.18(b) muestra resultados similares para la vocal / a /, donde la mayor concentración de energía en el espectro es de

alrededor de 800 Hz. En las Figuras 1.18(c) y 1.18(d) (una /o/ oclusiva sonora y la vocal / i /),

la mayor concentración de energía espectral es de alrededor de 0 Hz, por lo que el análisis LPC de dos polos da dos polos reales en la mitad derecha del plano 2. La Figura 1.18 muestra que la frecuencia de polo calculada en el análisis LPC de 2 polos da una idea bastante buena de la ubicación de la parte dominante de la energía espectral del sonido, y por lo tanto puede ser utilizado eficazmente para caracterizar los sonidos con relativa alta frecuencia o frecuencias con bajas concentraciones de energía. Por ejemplo, los sonidos de alta frecuencia se caracterizan por una concentración relativamente alta de energía, mientras que las vocales nasales por lo general tienen una frecuencia mucho más baja para la concentración de energía.

Para ilustrar el análisis de las mediciones típicas, las Figuras 1.19 y 1.20 muestran el conjunto completo de mediciones para las versiones habladas de los dígitos nueve (nine) y seis (six).

El reconocimiento de estas cifras se basa en la determinación bruta de las clases de sonido (en varios puntos a lo largo de la emisión) de cada medida por separado, y luego se ponen los análisis comunes por separado para tomar la decisión final.

(35)

[image:35.612.127.497.76.333.2]

Fig. 1.18. Dos polos LPC ajustados a los espectros de los sonidos del habla.

El uso de un procesamiento en paralelo, estructura tipo árbol de decisiones sobre la base de indicaciones por separado de cada una de las mediciones, en cada uno de los intervalos de segmentos de los dígitos, así Sambur y Rabiner obtuvieron una estrategia para reconocer de manera segura a 65 oradores con una precisión de reconocimiento de 94.4 a 97.3%.

Así, buscamos una medida donde D es la distancia entre los marcos de expresión con el parámetro LPC, establece ,

y . Puesto que D es una medida de distancia es necesario que:

(1.17) Y

(1.18)

Una medida de la distancia propuesta por Itakura, puede obtener el siguiente razonamiento, argumentando que debido al ruido, así como la inexactitud del modelo de predicción lineal de la palabra, no es posible medir los coeficientes LPC verdaderos asociados con un segmento del discurso, sino sólo es posible estimar los coeficientes LPC subyacente para el segmento de voz, suponemos que se nos ha dado un segmento del discurso con una estimación de los coeficientes LPC â.

El problema es determinar la probabilidad de que ese â sea de un segmento del discurso con verdaderos coeficientes LPC a. Una vez que esta probabilidad está determinada,