La forma simple es utilizar un sistema de representación paramétrico utilizado en el análisis. La Figura 2.12 muestra un diagrama de bloques de un sintetizador de voz. La variable
Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas 57
en el tiempo, los parámetros de control, necesitan el sintetizador en el período de lanzamiento, un interruptor de voz/sorda, ganancia o valor RMS del habla, y coeficientes de predicción p. El generador de impulso actúa como la fuente de excitación para los sonidos sonoros, para producir un pulso de amplitud unitaria al comienzo de cada período de lanzamiento. El generador de ruido blanco actúa como la fuente de excitación para producir sonidos sordos no correlacionados, distribuidos uniformemente, muestras aleatorias con una desviación estándar de la unidad, y la media de cero.
La selección entre las dos fuentes se realiza por el control de voz/sorda. La ganancia de control G determina la amplitud de la excitación general. Las muestras de voz sintética son determinados por:
̅ ∑ ̅ (2.73) Esta red es el método más simple y directo para la síntesis del habla a partir de los parámetros de predicción. Un total de p se multiplica y se añaden los p necesarios para generar cada muestra de salida.
En el modelo de síntesis de la Figura 2.13 los parámetros de síntesis deben ser cambiados con el tiempo. Aunque los parámetros se estiman en intervalos regulares durante las regiones del discurso sonoro, los parámetros de control se cambiaron a principios de cada período. Para el habla sorda simplemente cambia una vez por cuadro (es decir, cada 10 ms para 100 cuadros/s de velocidad). La actualización de los parámetros de control al comienzo de cada período de lanzamiento (síntesis de tono asíncrono) ha demostrado ser una estrategia de síntesis mucho más eficaz que el proceso de actualización de los parámetros de cada marco (síntesis asíncrona).
Atal ha encontrado que los parámetros de tono y la ganancia debe ser interpolados geométricamente (linealmente en una escala logarítmica), sin embargo, debido a las limitaciones de la estabilidad, los parámetros de predicción en sí no se puede interpolar. Esto se debe al hecho de que la interpolación entre dos conjuntos de coeficientes de predicción estable puede conducir a unos resultados inestables interpolados.
El sintetizador de la Figura 2.13 se ha utilizado en una amplia variedad de simulaciones de los sistemas de LPC. Su principal ventaja es su sencillez y facilidad de implementación.
Su principal inconveniente es que requiere de una precisión de cálculo considerable para sintetizar el discurso, porque la estructura es básicamente una estructura de forma recursiva, que tiende a ser muy sensibles a los cambios en los coeficientes. Tal vez la alternativa más atractiva a la síntesis basada en los parámetros de pronóstico es el uso de los coeficientes de reflexión o coeficientes PARCOR en un equivalente de tubo sin pérdidas. La ventaja de esta estructura es que los multiplicadores son los coeficientes de reflexión
, que tienen la propiedad de que son limitados (| | , y también que se puede interpolar directamente, mientras que el mantenimiento del filtro sea estable.
Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas 58
Fig.2.12 Diagrama de bloques del sintetizador de predicción lineal
Fig.2.13 modelos de tubo sin pérdidas equivalentes utilizando(a) dos uniones multiplicador, y (b) una unión multiplicador
Se desprende de la Figura 2.13b que para aplicar un filtro a la síntesis de , como un
modelo de tubo acústico, se requiere multiplicaciones y sumas por muestra,
Reconocimiento de voz utilizando coeficientes LPC mediante distancias euclidianas 59 3. Diseño y Desarrollo del sistema
En este capítulo se muestra el diseño y desarrollo del software, el cual consiste en una interfaz gráfica de usuario, donde el usuario puede obtener un análisis de la señal producida por el comando; este análisis se realiza a base de las funciones matemáticas, las cuales son Energía, Cruces por cero y LPC.
Se rescata de estas funciones el método de LPC, del cual se obtienen los coeficientes que se utilizan para la comparación entre la base de datos (grabaciones previas), con el comando introducido; y el coeficiente más cercano a 0, indica a que usuario y comando corresponde, de esta manera se obtiene el reconocedor de voz.
El proyecto se enfoca solo a reconocer el comando (derecha/izquierda), y el usuario quien lo ha mencionado, en este caso, las integrantes del proyecto, se trabaja con estos comando porque el objetivo principal era controlar una cámara que tuviera movilidad hacia derecha, izquierda, arriba y abajo; mediante la voz. Sin embargo debido a la falta de tiempo dentro del periodo escolar y la falta de recursos económicos, se decidió trabajar con solo la interfaz de usuario para estos dos comandos, por medio de una interfaz gráfica generada en la plataforma de programación Matlab.
Se decidió trabajar en este proyecto al observar una problemática cuando se realizan tareas que implican complejidad al maniobrar, situaciones en las que no se tiene la total visibilidad del entorno, o condiciones de trabajo en las que las extremidades están siendo utilizadas continuamente y el único recurso que el usuario tiene es la voz. Por ello, la solución dada fue una cámara controlada por voz, la cual además de tener una interfaz diseñada para mostrar el entorno, al reconocer los comandos daría movilidad a la cámara, evitando al usuario torsiones innecesarias y ofreciendo mayor facilidad al maniobrar.
Conforme se avanzó al trabajo y al tener las limitaciones anteriormente mencionadas, se decidió solo enfocar el proyecto a un reconocedor de voz, notando que, al combinar este proyecto con otros prototipos, se puede obtener una aplicación para otras problemáticas cotidianas, como son: seguridad en el hogar o trabajo, prestar ayuda a una persona con collarín que necesite manejar, ya que le es complicado espejear, entre otros.