INSTITUTO POLITÉCNICO NACIONAL
ESCUELA SUPERIOR DE INGENIERIA MECÁNICA Y ELÉCTRICA UNIDAD CULHUACAN
SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN
“REDES NEURONALES RECURRENTES: PRINCIPIOS Y APLICACIONES
T E S I S
QUE PARA OBTENER EL GRADO DE:
MAESTRO EN CIENCIAS DE INGENIERIA EN MICROELECTRÓNICA
PRESENTA:
ING. OSCAR NOGUERA SÁNCHEZ
ASESORES: DRA. MARIKO NAKANO MIYATAKE DR. HÉCTOR M. PEREZ MEANA
MÉXICO D. F. 31 DE MAYO DE 2006.
Para Gabriel, mi hijo por haber dado sentido a mi vida.
Para Jorge y Guadalupe, mis padres.
Para Fernando, Lourdes y Armando, mis hermanos.
Capítulo I Introducción
1.1 Introducción . . . 1
1.2 Objetivo . . . 1
1.3 Justificación . . . 1
1.4 Metas . . . 2
1.5 Organización de la tesis . . . 3
Capítulo II Estado de arte de Reconocimiento de Hablante 2.1 Introducción . . . 4
2.2 Conceptos básicos en el reconocimiento de hablante . . 4
2.3 Características biométricas . . . 6
2.4 Señal de Voz . . . 6
2.5 Análisis de Señal de Voz . . . 8
2.5.1 Análisis de Predicción Lineal . . . 8
2.5.2 Análisis Cepstral . . . 11
2.5.3 LPC-Cepstrum . . . 12
2.5.4 Coeficientes Cepstrum en escala de Mel (Mel-Cepstrum). 13 2.6 Métodos de reconocimiento . . . 14
2.6.1 Métodos Estadísticos . . . 14
2.6.2 Redes Neuronales Artificiales (ANN) . . . . 17
2.6.2.1 Redes Neuronales Multicapas con algoritmo de retropropagación (BP) . . . 18
2.6.2.2 Redes Neuronales de tiempo retardado (TDNN) . 18 2.6.2.3 Redes Neuronales de Radial Basis Function (RBF) . 19 2.6.3 Método de “Dynamic Time Warping” . . . 20
2.7 Antecedentes . . . 21
2.8 Conclusiones . . . 23
Capítulo III Redes Recurrentes 3.1 Introducción . . . 25
3.2 Tipos de estructuras de redes neuronales . . . 25
3.3 Redes neuronales recurrentes: principios y modelos . . 26
3.4 Modelos de redes neuronales recurrentes . . . 27
3.4.1 Modelo de Jordan . . . 27
3.4.2 Modelo de Elman . . . 28
3.4.3 Modelo de William y Zipser . . . 30
3.5 Red de Hopfield . . . 31
3.5.1 Operación de la red de Hopfield . . . . 32
3.5.2 Experimento de la Red de Hopfield . . . . 35
3.5.3 Función de Energía . . . 37
3.5.4 Capacidad de la Red de Hopfield . . . . 38
3.6 Redes Recurrentes en Tiempo Real . . . . 38
3.6.1 Algoritmo de Aprendizaje Supervisado Temporal en Tiempo Real . . . 39
3.7 Red recurrente muy simple (VSRN+) . . . . 41
3.8 Aplicación de las Redes Recurrentes al Procesamiento de Secuencias . . . 42
3.9 Modelo de Predicción . . . 43
3.9.1 Secuencias . . . 44
3.10 Conclusiones . . . 45
Capítulo IV Identificación de Hablante como una Aplicación de la Red Neuronal Recurrente 4.1 Introducción . . . 48
4.2 Identificación de Hablante Independiente de Texto . . 48
4.3 Captura y preprocesamiento de la señal de voz . . 49
4.3.1 Palabras Balanceadas . . . 50
4.3.2 Condición de la Captura . . . 52
4.3.3 Obtención de Inicio y Final de una Frase . . . 53
4.3.3.1 Método Manual . . . 53
4.3.3.2 Cruce por ceros . . . 54
4.3.3.3 Espectro de potencia . . . 55
4.4 Extracción de Características . . . 58
4.4.1 Obtención de los coeficientes LPC . . . 58
4.4.2 Obtención de los coeficientes LPC-cepstral . . 61
4.5 Clasificador Red Neuronal Recurrente . . . 62
4.6 Simulación Computacional . . . 66
4.7 Evaluación y resultados . . . 66
4.7.1 Evaluación y Resultados en la 1aetapa . . . 67
4.7.2 Evaluación y Resultados en la 2aetapa . . . 68
4.8 Comparación de las redes RNR y las BP . . . 71
4.8.1 Comparación de la red RTRL y el sistema GMM . 71 4.9 Conclusiones . . . 71
Capítulo V Conclusiones 5.1 Trabajos a Futuro . .. . . 74
En lugar de considerar a los sistemas estáticos que intentaban darle al tiempo una representación temporal, esta tesis demuestra la necesidad de procesar señales de series temporales en sistemas dinámicos,.
En esta tesis también se investigan todas las redes neuronales con memoria encontrando que aquellas que tenían recurrencia mostraban mejor desempeño al procesar series de tiempo. Las redes neuronales recurrentes fueron clasificadas de acuerdo a las tareas relacionadas en el procesamiento de secuencias, además se muestran las estructuras de las redes neuronales recurrentes publicadas hasta el día de hoy con los algoritmos asociados que describen su entrenamiento (i.e. el modelo de Jordan, la red de Elman, la red de Williams & Zipser y la red de Hopfield). Asimismo, se analizan sus aplicaciones y alcances, y se ofrece una base de datos conteniendo diez expresiones de palabras fonéticamente balanceadas habladas por cuatro personas.
Esta tesis presenta un sistema de identificación de hablante como un ejemplo para mostrar la utilidad de la propiedad de recurrencia en las redes neuronales.
La red neuronal recurrente seleccionada (la red de Williams & Zipser) tiene una estructura recurrente en la capa de salida, y fue entrenada con algoritmo RTRL (Real Time Recurrent Learning). Este algoritmo tiene la ventaja que la red RTRL corre en línea, i.e. el aprendizaje ocurre mientras que la secuencia de entrada se presenta. La aplicación fue la identificación de hablante con texto independiente, y los resultados obtenidos de la red RTRL sugieren que las redes neuronales recurrentes pueden codificar características estáticas y dinámicas de las señales del habla. Además, se concluye que la red RTRL mejora los resultados de un sistema tradicional de identificación de hablante en el que las redes de retropropagación fueron usadas (en las tesis tanto para obtener el grado de maestría como el trabajo para obtener el grado de Doctor por parte de Marisol Hernández y de Eric Simarcas, respectivamente).
También, la red RTRL mejora a otro sistema que emplea modelos de mezclas gaussianas (GMM) mostrados en los trabajos arriba mencionados.
This thesis demostrates how to represent time in connectionist models. One approach is to represent time implicitly by its effects on processing rather than explicitly (as in a spatial representation).
This thesis surveyed all neural networks involving the use of recurrent links in order to provide networks with a dynamic memory. All neural networks were clasified to the tasks related to time series process published up-to-date.
Beside, their algorithms were decribed, i.e. Jordan model, Elman model, Real- time Recurrent Learning network and Hopfield network. A series of speaker identification experiments has been conducted.
This thesis demostrates a text-independent speaker identification system based on recurrent neural networks trained with the Real-time Recurrent Learning algorithm (RTRL). The database was built using Spanish phonetic balance words. The results suggest that recurrent networks can encode static and dynamic features of speech signals. They also show that the proposed system outperforms by far the traditional speaker identification system in which Backpropagation networks are used. However, they slightly outperform the system in which GMM models are used.
1.1 Introducción
En este capítulo se expone el objetivo de esta tesis, que es el empleo de redes neuronales recurrentes usadas como predictores de secuencias de tiempo, para procesar señales de series temporales. También se justificará este trabajo en base a proyectos anteriores que están limitados al no tener una manera adecuada de considerar el concepto de tiempo y que sustituyen la relación dinámica de funciones biométricas a formas estáticas.
1.2 Objetivo
Se han usados varias estructuras de redes neuronales para realizar diferentes tareas, tales como reconocimiento de patrones, identificación de personas y predicción de señales, etc. En la mayoría de los casos, se han usado redes neuronales multicapas hacia adelante simple con algoritmos de retropropagación.
Aunque este tipo de redes neuronales han mostrado buen desempeño para realizar varias tareas, éste presenta como limitante que la señal de entrada no tiene una relación temporal entre sí. Sin embargo, este tipo de redes neuronales no han sido la mejor opción, cuando la señal de entrada tiene una relación temporal, ya que no considera esta relación en su funcionamiento.
Las redes neuronales hacia adelante con recurrencia entre algunas capas, se llaman redes neuronales recurrentes. Estas redes pueden manejar los datos en secuencias de tiempo de manera adecuada, debido a que dentro de este tipo de redes neuronales, se manejan simultáneamente señales de tiempos diferentes.
Sin embargo, este tipo de redes neuronales no se han explotado suficientemente, debido a su complejidad en la adaptación de los pesos de conexión. Por lo tanto, en esta tesis se investiga y se analiza sobre estructuras existentes y algoritmos de aprendizaje de redes neuronales recurrentes, i.e. la red de Jordan (1986), la red de Elman (1990) y la red de William & Zipser (1989). Finalmente, usando la red neuronal recurrente de William y Zipser(1989) con el algoritmo RTRL se desarrolla un sistema de reconocimiento de hablante independiente de texto, para mostrar la eficiencia de las redes neuronales recurrentes.
1.3 Justificación
Como se había mencionado anteriormente, las redes neuronales multicapas hacia adelante simple sin recurrencia se han usado para resolver varias tareas y se consideran como un modelo de cerebro humano. Sin embargo las conexiones de axones en las neuronas biológicas están realizadas de manera exhaustiva, entre ellas y presentando en muchos casos conexiones que forman bucles. Estos
bucles realizan una relación entre señal actual y señal anterior con cierto factor de olvido, por lo tanto se efectúa una predicción con señales anteriores.
Antes de nacer un niño está produciendo 240,000 neuronas por minuto en su cerebro como se observa en la figura 1.1. Si nos referimos al cerebro humano de un niño entre 0 y 5 años, encontramos que los axones se multiplican intensivamente justamente después del nacimiento, generando una maraña de conexiones entre neuronas. El niño entre 6 y 18 meses empieza a balbucear y después de 24 meses (siempre es variable) empieza a hablar. Hasta los cinco años el cerebro del niño puede aprender todos los sonidos de diferentes idiomas.
Si solamente se le habla en un idioma sólo las interconexiones que se usan para dicho idioma permanecen. Lo anterior además de la necesidad de recordar nos indica que una red neuronal recurrente se acerca más a una neurona biológica.
Aquí cabe mencionar que hay cerca de 50 tipos de neuronas biológicas.
1.4 Metas
Considerando las objetivos de esta tesis, se marca como metas las siguientes actividades.
(1) Investigar estructuras existentes de las redes neuronales recurrentes.
Hacer un estudio sobre todas las redes neuronales recurrentes que se han publicado hasta el día de hoy y analizar sus aplicaciones y alcances, clasificarlas de acuerdo a sus tareas relacionadas a procesamiento de secuencias.
(2) Analizar los algoritmos de aprendizaje sobre las redes neuronales recurrentes.
Siempre que se tiene una nueva red, es imprescindible analizar el(los) algoritmo(s) que describen a dicha red. Por lo que se revisaron los algoritmos que describen el buen funcionamiento de la red neuronal recurrente.
(3) Realizar un sistema de reconocimiento de hablantes usando redes neuronales recurrentes.
Una vez que se decidió mostrar las bondades de una red neuronal recurrente se procedió realizar el sistema de reconocimiento de hablantes, se le acompañó de los algoritmos que mejor describieran su funcionamiento.
(4) Realizar una comparación entre desempeño de redes neuronales recurrentes y redes neuronales multicapas hacia adelante simple que se usaron en los trabajos para obtener el grado de maestría y el trabajo para obtener el grado de Doctor por parte de Marisol Hernández y Eric Simarcas respectivamente.
Se corrieron diferentes pruebas para poder comparar el desempeño de redes neuronales recurrentes con los resultados de redes neuronales multicapas hacia adelante simple.
1.5 Organización de la tesis
Para alcanzar las metas antes mencionadas, he desarrollado este trabajo de tesis en cinco capítulos básicos en la forma descrita a continuación:
En el capítulo dos se presenta el estado del arte sobre el reconocimiento de hablante haciendo énfasis de la extracción de características y los métodos de reconocimiento.
En el capítulo tres se analizan las estructuras y operación de las principales redes neuronales recurrentes, tales como el modelo de Jordan, el modelo de Elman, la red de Hopfield, la red recurrente de tiempo real (RTRL) y la red recurrente muy simple (VSRN+). Se mencionan sus algoritmos y las aplicaciones de dichas redes neuronales recurrentes.
En el capítulo cuatro se expone el sistema propuesto, desde la elaboración de la base de datos, el pre-procesamiento de la señal, la extracción de características LPC-cepstral, el clasificador y los resultados de diferentes pruebas.
Finalmente, en el capítulo cinco se efectúa la comparación de los resultados de la red neuronal recurrente y el mejor de los resultados de una red multicapas hacia adelante simple, y las conclusiones. También se comentan los trabajos que a futuro se harán.
Figura 1.1 Un bebé construyendo sus redes neuronales.
Capítulo 2
Estado de arte de Reconocimiento de Hablante
2.1 Introducción
En este capítulo, se mencionará el marco teórico sobre el reconocimiento de hablante, describiendo los conceptos que se manejan en el campo, las técnicas que se utilizan ampliamente para extraer características desde la señal de voz y los métodos para reconocer al hablante usando las características extraídas. Finalmente, se describirán brevemente los trabajos presentados en la literatura para poder realizar una comparación con el sistema propuesto en esta tesis.
2.2 Conceptos básicos en el reconocimiento de hablante Identificación y Verificación de hablantes
En el sistema de reconocimiento de hablantes, se puede clasificar en dos sistemas: Identificación de hablantes y Verificación de hablantes. Los dos sistemas tienen objetivos y aplicación diferentes.
• Identificación de hablante: Dentro de un conjunto finito de hablantes, el sistema identifica un hablante, cuya característica de voz tiene mayor similitud con la característica de voz ya registrada. En este sistema, la población de hablantes es un factor muy importante, ya que si el número de hablantes de un conjunto crece, el funcionamiento del sistema tiende a bajar. También la capacidad de detección de voz que no pertenece al conjunto de hablantes es un factor importante.
• Verificación de hablante: El sistema verifica la identidad de quién clama ser, o sea las características de voz se comparan únicamente con las características de voz de la persona clamada. El sistema toma una decisión binaria que si la voz es auténtica o no, aplicando algún criterio determinado en el sistema. En este sistema se manejan dos tipos de errores para evaluar el funcionamiento del mismo, los cuales son error tipo I (falsa alarma) y error tipo II (falsa aceptación).
Sistema dependiente o independiente de texto
El sistema de reconocimiento de hablantes puede ser el sistema independiente de texto o el sistema dependiente de texto, dependiendo de la aplicación requerida.
• Sistema dependiente de texto: El proceso de reconocimiento de hablante reconoce palabra o texto determinado. Este sistema generalmente tiene un desempeño con menor error y es más fácil de entrenar, por lo cual se aplica para el control de acceso en los lugares restringidos.
• Sistema independiente de texto: El proceso de reconocimiento de hablantes debe de reconocer un hablante para cualquier texto o palabra pronunciado. Comparado con el sistema dependiente de texto, este sistema tiene una complejidad más alta, la cual provoca menor precisión de reconocimiento. Las aplicaciones principales de este sistema son el control mediante señal de voz junto con reconocimiento de hablante y aplicación forense, entre otros. En el control mediante señal de voz, principalmente se debe reconocer palabra o texto pronunciado, y para excluir uso del sistema o aparato para un conjunto de hablantes, se realiza además un reconocimiento de hablante. En la aplicación forense, se parte de alguna plática (podría ser llamada telefónica) para determinar el posible hablante.
Voz de laboratorio, voz en ambiente natural y voz telefónica
Obviamente la calidad de la señal de voz afecta el funcionamiento de reconocimiento. Por lo tanto para realizar una comparación de los sistemas de reconocimiento de hablante, se deben describir las condiciones de grabación de señal de voz y su relación señal a ruido (SNR). La calidad de la señal de voz grabada se clasifican en tres rangos: voz de laboratorio, voz en ambiente y voz telefónica.
• Voz de laboratorio: Las señales de voz son grabadas en un ambiente con bajo nivel de ruido (SNR>30 dB). En esta situación, el efecto de ruido ambiental se puede ignorar.
• Voz de ambiente natural: La señal de voz se graba en un ambiente natural. El rango de la relación señal a ruido es 20 dB <SNR< 30 dB.
Cuando la señal grabada es muy ruidosa, antes de realizar el proceso de extracción de características y reconocimiento, la señal se debe de aplicar a un sistema de eliminación de ruido.
• Voz telefónica: La introducción de ruido y la limitación de ancho de banda causan una distorsión a la señal de voz. Esta distorsión afecta considerablemente a algunos sistemas de reconocimiento de hablante.
Sin embargo se requiere un funcionamiento favorable de reconocimiento usando la voz telefónica debido a que existen varias aplicaciones importantes usando la señal de voz telefónica.
2.3 Características biométricas
La biometría estudia la identificación de individuos basada en las características biológicas o de comportamiento. La señal de voz es la característica biométrica usada para reconocer (identificar o verificar) a una persona. Actualmente varias características biométricas se han investigado para reconocimiento de personas.
Las características principales son: patrón de iris, rostros, huellas dactilares, DNA, etc. La señal de voz no es la característica más confiable comparada con otras características biométricas, debido a que la señal de voz varía dependiendo de la condición física y mental del hablante. Sin embargo el patrón de voz se hace muy atractivo como una característica biométrica, debido a que se puede usar de manera remota usando líneas telefónicas, además, las personas aceptan con facilidad un micrófono. La tabla 2.1 muestra ventajas y desventajas de las características biométricas comúnmente usadas para reconocimiento de individuo de acuerdo a Anil Jain (1999).
Biométrico Universalidad Singularidad Permanencia Colectividad Desempeño Aceptabilidad
Rostros Alto Bajo Medio Alto Bajo Alto
Huella dactilar
Medio Alto Alto Medio Alto Medio Geometría
de manos Medio Medio Medio Alto Medio Medio
Cadencia
de tecleo Bajo Bajo Bajo Medio Bajo Medio
Iris Alto Alto Alto Medio Alto Bajo
Retina Alto Alto Medio Bajo Alto Bajo
Firma Bajo Bajo Bajo Alto Bajo Alto
Voz Medio Bajo Bajo Medio Bajo Alto
Termogra-
Mas Alto Alto Bajo Alto Medio Alto
Olor Alto Alto Alto Bajo Bajo Medio
ADN Alto Alto Alto Bajo Alto Bajo
Postura Medio Bajo Bajo Alto Bajo Alto
Oreja Medio Medio Alto Medio Medio Alto
Tabla 2.1 Comparación de tecnologías biométricas.
2.4 Señal de Voz
Existen dos fuentes principales de características específicas del hablante:
física y aprendida. La forma del tracto vocal proporciona la parte física más importante que distingue la voz. El tracto vocal se compone de los órganos que producen el habla. Los sonidos con que se realiza el acto del habla son producidos por el aparato fonador del hombre. Lo más simple para analizar los sonidos es considerarlos en su origen, i.e. su articulación. La articulación de un sonido consiste en el paso del aire exhalado por los pulmones a través del tracto comprendido desde la laringe a los labios y las fosas nasales,
terminando con las vibraciones de las partículas de aire. La figura 2.1 muestra la estructura breve del aparato fonador. Los movimientos y las posiciones de los órganos incluidos en ese espacio condicionan el producto final.
Figura 2.1 Aparato Fonador.
Las partes más importantes del aparato fonador son la glotis (o cuerdas vocales), el velo del paladar, la lengua, los dientes y los labios. Sus movimientos, junto con la mayor o menor separación entre los maxilares superior e inferior, y sus aproximaciones o contactos con los otros órganos no móviles (paladar, dientes) dan lugar a una gran variedad de sonidos. Este sistema físico puede modelarse como un filtro, cuya función de transferencia depende del sonido articulado y, por lo tanto, de la posición de los diversos órganos involucrados en la generación del habla.
El flujo de aire ataca a un conjunto de cavidades pudiendo producir la excitación acústica de las mismas por uno de los caminos siguientes:
1. Vibración de las membranas de las cuerdas vocales con el paso del aire. La excitación será periódica, y se llama excitación glotal de frecuencia fundamental (Fo) dando lugar a los sonidos sonoros como las vocales.
2. Un estrechamiento en algún punto del tracto vocal que genera turbulencias más o menos aleatorias en la zona de constricción. La excitación es análoga a un ruido blanco. Genera sonidos sordos como los fricativos.
Mientras las ondas acústicas pasan a través del tracto vocal, el espectro de frecuencia se altera por las resonancias del tracto vocal. Las resonantes del tracto vocal se llaman formantes. Así, la forma del tracto vocal puede ser estimada desde su forma espectral (e.g. localidad del formante e inclinación espectral) de la señal de voz.
La respiración (área torácica) juega un rol en las propiedades de resonancia del sistema vocal. La traquea es un tubo, típicamente de 12 cm de largo y 3 cm de diámetro, formado de anillos de cartílago unidos por tejido a los pulmones y la laringe. Cuando las cuerdas vocales están vibrando, hay resonancias arriba y debajo de las cuerdas. Las resonancias debajo de la glotis (cuerdas vocales) dependen en gran medida de las propiedades de la traquea. Debido a esta dependencia fisiológica, dichas resonancias tienen propiedades dependientes del hablante.
Otros aspectos de la producción de la voz que pueden ser útiles para discriminar hablantes son las características aprendidas, incluyendo velocidad del hablante, efectos prosódicos y dialectos.
2.5 Análisis de Señal de Voz
El procesamiento de señal de voz (Speech Processing) es un tema de investigación muy establecido desde hace tres décadas, debido a que existen varias aplicaciones, tales como reconocimiento de palabras habladas, síntesis y aclaramiento de señal de voz, reconocimiento de hablante, etc. Para cualquier proceso requerido sobre la señal de voz, ésta debe ser analizada cuidadosamente. Existen varios parámetros o características que se pueden extraer de la señal de voz, tales como coeficientes de predicción lineal, Espectrum (escala normal y escala Mel), Cepstrum (escala normal y escala Mel), LPC- Cepstrum, etc. En esta sección realiza breve explicación de los métodos usados para analizar y caracterizar señal de voz.
2.5.1 Análisis de Predicción Lineal
Una de las técnicas más usadas en el procesamiento de señales de voz viene a ser el análisis de predicción lineal. Esta técnica ha probado ser muy eficiente debido a la posibilidad de parametrizar la señal con un número pequeño de patrones con los cuales es posible reconstruirla adecuadamente.
Los parámetros obtenidos mediante este método se caracterizan por variar en forma lenta durante las ventanas de tiempo de análisis.
Mediante esta técnica podemos representar a la señal vocal mediante parámetros que varían en el tiempo, los cuales están relacionados con la función de transferencia del tracto vocal y las características de la fuente sonora. Otra ventaja es que no requiere demasiado tiempo de procesamiento, lo cual es importante a la hora de la implementación. El modelo matemático expuesto establece que el tracto vocal puede modelarse mediante un filtro digital, siendo los parámetros los que determinan la función de transferencia.
El problema consiste en, dado un segmento de palabra, extraerle sus parámetros característicos que en este caso vienen a ser los coeficientes del filtro.
El análisis de predicción lineal permite aproximar una señal a partir de señales anteriores. En este caso se trata de predecir señales de voz mediante un filtro FIR (filtro de respuesta finita), cuya función de transferencia se deduce a partir de:
∑
=+
−
−
= p
1 k
k.s(n k) G.u(n) a
) n (
s (2.1)
Donde s(n)es la salida de la señal presente, p es el número de predicción, ak
son los parámetros del modelo llamados coeficientes de predicción, s(n-k) son las salidas anteriores, G es el factor de ganancia, y u(n) es la entrada presente.
En aplicaciones en señal de voz, la entrada u(n) es generalmente desconocida, por lo que se va a ignorar. El filtro viene a representar un modelo del tracto vocal. La función de transferencia del filtro se obtiene sacando la transformada z a la relación anterior obteniendo:
∑
=+ −
= p
1 k
.
z
ka
k1 ) G z (
H (2.2)
Donde G es la ganancia del filtro y dependerá de la naturaleza de la señal.
Dada la señal s(n), el problema consiste en determinar los coeficientes de predicción ak y la ganancia G. Los coeficientes de predicción serán los que se usarán como parámetros de reconocimiento de palabras. Su determinación se realiza minimizando el error que se comete cuando se intenta realizar la aproximación de la señal. Sea ~ la señal predicha a partir de la señal s(n) original, entonces:
) n ( s
∑= −
−
= p
1
k ak.s(n k) )
n (
s~ (2.3)
Esto simplifica en grande el problema de estimar ak debido a que la fuente (i.e. la entrada glotal) y el filtro (i.e. el tracto vocal) han sido desacoplados. La fuente u(n), que corresponde a la excitación del tracto vocal, no es modelada por estos coeficientes de predicción. Es ciertamente razonable esperar que algunas
características dependientes del hablante estén presentes en esta señal de excitación (frecuencia fundamental). Por lo tanto, si la señal de excitación se ignora, información de verificación de hablante discriminatoria valuable se puede perder.
Definiendo a e(n) como el error de predicción entre la señal actual s(n) y la señal predicha s~(n). e(n) también conocida como el residual se expresa así:
−
=s(n) ) n (
e s~(n)=s(n)+
∑
= p −
1 k
ks(n k)
a (2.4)
Por lo tanto, el error de predicción e(n) es idéntico a la señal de entrada multiplicada por G. Mediante el método de los mínimos cuadrados, los coeficientes de predicción se calculan minimizando el error cuadrático medio con respecto a cada uno de los coeficientes. Sea E el error cuadrático total:
E=
∑
=∑
∑
− = +
n n
p 2
1 k
k 2
n s(n) a .s(n k)
e
(2.5)Se realiza la minimización con respecto a ak:
∑ ∑ ∑
=
−
−
=
−
p −
1
k ak. n s(n k).s(n i) n s(n)s(n i), i=1,2,3,...p (2.6) En el método de autocorrelación dentro del análisis de predicción lineal tenemos la siguiente expresión con retraso τ:
Rτ = −∑−τ
= +τ
− τ
−
1 N
0
i s(i).s(i ) 1
N
1 (2.7)
A continuación se procede a realizar un análisis de autocorrelación. La función de autocorrelación proporciona una medida de la correlación de la señal con una copia desfasada en el tiempo de sí misma, en donde p es el orden de análisis.
De aquí se extraen los p coeficientes de autocorrelación, valores típicos de p pueden ser entre 10 y 15.
Podemos identificar los coeficientes de autocorrelación en las ecuaciones que minimizan los errores en la estimación de la señal predicha. Para resolver este conjunto de ecuaciones se recurre al algoritmo de Levinson-Durbin el cual permite resolver el sistema de ecuaciones de una forma eficiente:
E0=R0
ki=-
1 i 1 i
1
j i 1 i j
i j
E R a R
−
=
= − −
∑
+ , 1 ≤ i ≤p
) i i (
i k
a =
=
) i (
aj aij−1 +kiaii−−1j 1≤ j ≤ i-1
Ei=(1-ki2)Ei-1 i=1,2,...,p Solución final:
aj=a(jp) 1 ≤ j ≤ p (2.8)
Usando los parámetros del modelo ak, la ecuación (2.9) representa la base fundamental para representar la predicción lineal. Esto implica que cualquier señal se define por un predictor lineal y un error correspondiente. Obviamente, el residual contiene toda la información no contenida en los coeficientes de predicción.
s(n)= -
∑
+e(n) (2.9)= p −
1 k
k.s(n k) a
Típicamente, el error cuadrático medio MSE se minimiza debido a que permite una solución de forma cerrada, simple de los coeficientes de predicción. Al minimizar el error MSE se tiende a producir un espectro de magnitud plana (blanco de banda limitada) de la señal de error.
Si la señal de voz se puede representar por este modelo, entonces el residual es un tren de impulsos que se repite a la velocidad de la vibración de las cuerdas vocales. Por lo tanto, los errores de predicción máximo (picos residuales) ocurren a la velocidad de vibración de las cuerdas vocales (muchos algoritmos de
“detección de pitch" explotan esta propiedad).
Teniendo los coeficientes del filtro ak se dispone (para la ventana de análisis) de la función de transferencia del modelo del tracto vocal en ese instante, es decir se dispone con la forma con la que la cavidad vocal se comporta y que junto con la señal de excitación se obtiene el sonido emitido en ese momento.
2.5.2 Análisis Cepstral
Se puede definir como la transformada inversa del módulo del espectro en escala logarítmica (en belios). Más formalmente se define como la transformada inversa del logaritmo del módulo de la transformada de la señal, ver figura 2.2.
El cepstrum se define como:
Cepstrum (x[n]) =F-1{log| F[x(n)]|} (2.10) Donde F es la transformada de Fourier y x(n) es la trama (aproximadamente de 20 a 30 ms) de la que se calcula su cepstrum.
Como se mencionó anteriormente, el mecanismo de producción del habla se puede representar mediante una señal de excitación (tren de impulsos) e(t) y un filtro, con respuesta impulsional h(t). Donde s(t) es la señal de voz y se puede
obtener como la convolución de la señal de excitación e(t) con respuesta impulsional del tracto vocal h(t), tenemos: s(t)=e(t)h(t). Obteniendo esta respuesta en el dominio de la frecuencia, se logra: S(f)=E(f) H(f) y sobre esta señal se calcula su logaritmo, tenemos que:
log(S(f))=log[E(f)H(f)]=log[E(f)]+log[H(f)] (2.11) Los componentes del log(|S(f)|) son de frecuencias distintas. La información obtenida del tracto vocal varía lentamente y se representan por las bajas frecuencias y la información de la señal de excitación aparece en las altas frecuencias. Esto significa que el cepstrum de una señal es la suma del cepstrum de la excitación y el cepstrum del filtro ( de la respuesta al impulso del filtro).
Figura 2.2 Procedimiento para el análisis cepstral.
Por eso los cepstrum están muy relacionados con una operación llamada desconvolución homomórfica. Lo que pretende esta operación es: dada una señal que es convolución de dos señales (en este caso podría ser un fonema sonoro) obtener esas dos señales (la excitación de las cuerdas vocales y la respuesta del filtro del tracto vocal).
2.5.3 LPC-Cepstrum
Existe un procedimiento sencillo para calcular los coeficientes cepstrum a partir de los coeficientes LPC, con complejidad computacional menor que la definición del cepstrum a partir del logaritmo y transformaciones de Fourier.
Los coeficientes de predicción lineal son transformados a coeficientes cepstrum, usando la siguiente relación recursiva:
c1= -a1
cn= -an +
∑
−=1 − −
p
1 i
i n i.c , a ).
i n n (
1 1< n ≤p (2.12)
donde ci y ai son i-ésimos coeficientes cepstrum y coeficientes de predicción lineal, respectivamente.
2.5.4 Coeficientes Cepstrum en escala de Mel (Mel-Cepstrum)
Los coeficientes han demostrado trabajar bien en sistemas de reconocimiento de hablante así como en sistemas de reconocimiento del habla, no requiere de análisis de predicción lineal. Para obtener las características de mel-cepstrum es necesario realizar tres pasos para el procesamiento de la señal de voz:
1.- Calcular el espectro de energía
El espectro de energía de una señal de voz representa la energía promedio de la señal y permite identificar mejor los datos de voz sonoros. Asumiendo que x(n) es la entrada de la señal de voz, tenemos:
X(k)=
∑
−=
π 1 −
N
0 n
K 2 k
w j
e ).
n ( W ).
n (
x (2.13)
Donde k∈[0,K-1], K es generalmente un factor igual a 256 y W(n) está en función a la ventana de Hamming. El espectro de energía está dado por:
P(k)=|X(k)2| (2.14)
2.- Obtener la cantidad de energía en cada banda de frecuencias
La percepción de una frecuencia particular Ej. Calculando la energía de cada banda de frecuencias:
Ej =
∑
, 1 ≤ j ≤ J (2.15)= 2 φ
K
0 k
j(k).P(k)
Donde J es generalmente igual a 24 y φj es una función triangular asociada con la jth frecuencia.
3.- Cálculo de los Coeficientes Cepstrum en escala de Mel cj = A
∑
−=1 π + +
J
0
k (k 0.5))log10(Ek 1) jJ
cos( (2.16)
El factor de amplificación A, generalmente es igual a 200.
Las frecuencias se perciben de manera no lineal y se han utilizado de esta manera para mejorar sus características en sistemas de reconocimiento. Un mel es una unidad para medir la frecuencia percibida de un tono, así como el sistema auditivo no percibe la frecuencia de un tono de manera lineal, un mel no corresponde linealmente a una frecuencia física de un tono.
2.6 Métodos de reconocimiento
En esta sección, se describe métodos comúnmente usados para reconocimiento de hablante. A grandes rasgos, se puede clasificar en tres métodos, los cuales son los métodos estadísticos, método de segmentación implícito representando a las redes neuronales y DTW (Dynamic Time Warping).
2.6.1 Métodos Estadísticos
Los métodos estadísticos crean los modelos correspondientes a cada hablante, a partir de características extraídas como los coeficientes de LPC, mencionadas en la sección anterior.
El modelo generado para un hablante realiza una operación estadística y determina la probabilidad que la señal de entrada pertenezca al hablante del modelo. Finalmente compara el valor estadístistico que aloja del modelo con un valor umbral determinado. Básicamente dos métodos han usado en este campo de investigación, los cuales son Modelos Ocultos de Markov (Hidden Markov Models HMM) y Modelo de Mezcla Gausiana (Gaussian Mixture Model GMM).
Modelos Ocultos de Markov (HMM)
El modelo oculto de Markov (Hidden Markov Model HMM) es un proceso estocástico que consta de un proceso de Markov no observado (oculto) q=(q1, q2, q3,…..,qT), y un proceso observado O = (o1, o2, o3,…….,oT) cuyos estados son dependientes estocásticamente de los estados ocultos; es decir, es un proceso divariado (q,O). Los modelos HMM se pueden considerar también como sistemas generativos estocásticos, los cuales se emplean en la modelación de series de tiempo.
En este sistema de reconocimiento de hablante que utiliza la técnica de reconocimiento basada en modelos ocultos de Markov, podemos representar un modelo HMM como un autómata de estados finitos (véase la representación de la figura 2.3) que pretende modelar el mecanismo de producción del habla. Su capacidad de discriminación se debe a que están constituidos por un conjunto de estados, similares a los estados que atraviesa el tracto vocal cuando hablamos, en el que el proceso de transición entre estados está gobernado por probabilidades.
Cada uno de los estados produce un conjunto de posibles salidas similares a los sonidos que configuran la señal de la voz.
HMM y su variación han sido usados como modelos probabilísticos de hablante para reconocimiento en texto independiente y texto dependiente.
Figura 2.3 Esquema correspondiente a los modelos ocultos de Markov.
Modelos de Mezcla Gaussiana (GMM)
El Modelo de Mezcla Gaussiano es otro método estadístico que se ha usado para reconocimiento de hablante. La diferencia principal con el HMM es que no impone ninguna restricción Markoviana entre los nodos del modelo. La ventaja de GMM es la eficiencia computacional y que es fácil implementar en un DSP (Digital Signal Processor) en tiempo real.
Aunque no existen características, exclusivamente de voz que distingan a los hablantes, el espectro de voz muestra que es muy efectivo para la identificación de hablante, porque el espectro refleja la estructura del tracto vocal de la persona, y el factor fisiológico distingue la voz de una persona con la de otra. La representación de espectro LPC, tales como LPC cepstrum y los coeficientes de reflexión han sido usados extensivamente para reconocimiento de hablante, sin embargo esta representación se afecta severamente por ruido.
Para el análisis de voz se lleva a cabo una segmentación. El segmento de 20 mseg de la señal de voz, se aplica una FFT (Fast Fourier Transform) y se calcula la magnitud. La magnitud espectral se aclara y se procesa en un banco de filtro de escala de mel. Se aplica transformada coseno a al señal filtrada para producir coeficientes de cepstrum. Este proceso ocurre cada 10 mseg, produce 100 vectores de característica por segundo.
La densidad de mezcla gausiana (Gaussian Mixture Density) es suma pesada de M componentes de densidad como se describe en la figura 4, y es dado por la ecuación (2.17).
→x (
p |λ)=
∑
(2.17)=
→ M
1 i
i ib (x) p
donde es el vector aleatorio de dimensión D, b→x i( ), i=1,..,M son componentes de densidad y p
→x
i, i=1,....,M son los pesos de mezcla. Cada componente de densidad es la función gausiana de dimensión D.
→x (
bi )= 1/2
i 2 /
)D
2 (
1
∑
π exp
−21(→x−µ→i)'
∑
i −1(→x−µ→i) (2.18)con vector promedio y matriz de covarianza . Los pesos de mezcla satisfacen la restricción . La densidad de mezcla gausiana se construye por vectores de promedio, matrices de covarianza y pesos de mezcla de todos los componentes de densidad. Estos parámetros son representados colectivamente como:
µ→i
∑
i∑
M= =1 i pi 1
µ
=
λ pi,→i,
∑
i , i=1,...,M (2.19)Figura 2.4 Modelo de mezcla gausiana de un componente M.
Para identificación de hablante, cada hablante es representado por un modelo GMM y se refiere por su modelo λ.
Existen dos motivaciones principales para usar modelo de mezcla gausiana como representación de identidad de hablante.
La idea intuitiva que el componente de densidad individual de la densidad multimodal como GMM puede modelar algunos conjuntos de clases acústicas. Estas clases acústicas reflejan algunas configuraciones de tracto vocal dependiente de hablante, el cual es útil para caracterizar identidad de hablantes. La forma espectral de la i-ésima clase acústica se puede representar
porµ (promedio del i-ésimo componente de densidad), y la variación de la →i forma espectral del promedio puede ser representada por la matriz de covarianza
∑
i .Observación empírica que la combinación lineal de las funciones básicas gausianas, es capaz de representar gran cantidad de clases de distribución de muestreo. Uno de los atributos de GMM es su habilidad para formar aproximaciones de densidad de cualquier forma arbitraria.
Además los componentes gausianos actúan juntos para modelar el pdf (función de densidad de probabilidad), no es necesario la matriz de covarianza completa, aunque las características no sean estadísticamente independientes. La combinación lineal de matriz diagonal de covarianza es capaz de modelar correlación entre los elementos del vector de característica.
2.6.2 Redes Neuronales Artificiales (ANN)
En lugar de generar modelos individuales para representar un hablante particular, las redes neuronales modelan las funciones de decisión que discriminan hablantes en una manera mejor, usando el conjunto de datos conocidos. Este proceso de generación de las funciones de decisión se llama entrenamiento y los datos conocidos usados en este proceso de entrenamiento se llama patrones de entrenamiento. Existen varias estructuras de la red y métodos de aprendizaje (o entrenamiento) para diferentes aplicaciones. Para reconocimiento de hablantes se han usado Redes neuronales de perceptrón multicapas con algoritmo de retropropagación (BP), Redes neuronales de tiempo retardado (Time Delay Neural Networks TDNN), Redes neuronales Radial Basis Function (RBF) y Redes Neuronales Recurrentes (RNN).
Generalmente las redes neuronales artificiales (ANN) requieren menor número de parámetros que los métodos estadísticos y han producido buen funcionamiento de reconocimiento. La mayor desventaja de redes neuronales es que requiere entrenamiento de mayor tiempo y cuando agrega un hablante nuevo al sistema, necesita un reentrenamiento.
A continuación se describe brevemente la estructura y algoritmos de aprendizaje de redes neuronales que se han usados en el campo de reconocimiento de hablante. Sobre Redes Neuronales Recurrentes (RNN) se explicará manera más detallada en el capítulo 3, debido a que un tipo de estas redes neuronales se ha utilizado para la realización de esta tesis.
2.6.2.1 Redes Neuronales Multicapas con algoritmos de retropropagación (BP) La red está formada por al menos tres capas: La capa de entrada, la capa de salida y una capa oculta. El método está basado en la generalización de la regla del gradiente descendiente (i.e. propagación del error hacia atrás). El funcionamiento de una red de retropropagación (BP) consiste en un aprendizaje de un conjunto predefinido de pares de entradas-salidas dados, empleando un ciclo propagación-adaptación de dos fases: primero se aplica un patrón de entrada como estímulo para la primera capa de las neuronas de la red, éste se va propagando a través de todas las capas superiores hasta generar una salida, aquí, se compara el resultado obtenido en las neuronas de salida con la salida que se desea obtener y se calcula un valor del error para cada neurona de salida. A continuación, la fase de retropropagación, estos errores se transmiten hacia atrás, partiendo de la capa de salida. Este proceso se repite, capa por capa, hasta que todas las neuronas de la red hayan recibido un error que describa su aportación relativa al error total. Ahora, se reajustan los pesos de conexión de cada neurona, de manera que, en la siguiente vez que se presente el mismo patrón, la salida esté más cercana a la deseada.
Las redes BP tienen muchas aplicaciones por las ventajas, también tienen desventajas. No se pueden dar reglas concretas para determinar el número de neuronas o el número de capas ocultas de una red para resolver un problema concreto. El tamaño de las capas, tanto de entrada como de salida, suele determinarse por la naturaleza de la aplicación. En cambio, el número de neuronas que debe tener la capa oculta no suele ser evidente. Entonces, para la simulación se recomienda el menor número posible de neuronas en la capa oculta, porque cada una de ellas implica mayor carga de procesamiento. Mientras que en el sistema implementado en hardware no hay mayor problema.
2.6.2.2 Redes Neuronales de tiempo retardado (TDNN)
Hasta ahora, se han descrito algoritmos como el de retropropagación que únicamente pueden aprender mapeo de entrada-salida que es estático. Sin embargo, sabemos que el tiempo es una variable importante en muchas tareas cognitivas prácticas, como la visión, el habla, el procesamiento de señales y el control de motores. Se necesita permitir al tiempo ser representado por el efecto que tiene sobre el procesamiento de señales. Esto significa que hay que proveer de propiedades dinámicas a las redes para que respondan a señales variantes en el tiempo.
Para ser breves, el que una red sea dinámica, significa que se le tiene que dar memoria. Una manera en que este requerimiento puede ser cumplido es que se introduzcan retardos de tiempo en la estructura sináptica de la red y se ajusten sus valores durante la fase de aprendizaje. El uso de retardos de tiempo en redes neuronales esta motivado neurobiológicamente, dado que los retardos de tiempo están omnipresentes en el cerebro y juegan un rol importante en el procesamiento de información neurobiológica.
Así se introducen las redes neuronales de tiempo retardado (TDNN), estas redes TDNN son redes neuronales multicapa hacia delante que incorporan neuronas ocultas repetidas y neuronas de salida repetidas en el tiempo. Se hace uso de espectrogramas. Un espectrograma es una imagen de dos dimensiones en el que el eje vertical corresponde a la frecuencia y el eje horizontal corresponde al tiempo; la intensidad (oscuridad) de una imagen corresponde a la señal de energía. La topología TDNN de hecho se enmarca en un perceptrón multicapas en la que una conexión sináptica se representa por un filtro FIR. Esta red neural se refiere como un perceptrón multicapas FIR. Las redes TDNN son la contraparte supervisada de las HMM en el sentido que intentan capitalizar la información temporal.
2.6.2.3 Redes Neuronales de Radial Basis Function (RBF)
El diseño de esta red se puede observar como un problema de aproximación (curve-fitting) en un espacio multidimensional. El aprendizaje es equivalente a encontrar una superficie en un espacio multidimensional que proporcione una mejor aproximación a los datos de entrenamiento, con un criterio de aproximación medido en sentido estadístico. La generalización es equivalente a usar la superficie multidimensional para interpolar los datos de prueba. La capa oculta proporciona un conjunto de funciones que constituyen una base arbitraria para los patrones de entrada (vectores) cuando éstos se transforman en el espacio de la capa oculta; estas funciones se llaman funciones de base radial (radial-basis functions).
Las redes radial basis function (RBF) son un caso especial de la perceptrón multicapas, con capas que computan su activación no a través de una función sigmoidal sino de acuerdo a una medición de similitud Euclidiana entre patrones y activación de funciones base. Las funciones base apropiadas son funciones gausianas, de Laplace y de densidad de probabilidad de Cauchy. Las funciones gausianas son usadas más comúnmente, debido a que proporcionan una interpolación mejor. El funcionamiento de una red RBF de tres capas es: La primera capa mapea el vector característica de entrada a un conjunto de nodos ocultos (o centros), de la segunda capa, que constituyen una base para el espacio del patrón de entrada. Las funciones base de esta capa oculta producen una respuesta localizada al patrón de entrada, i.e., su respuesta toma un valor diferente a cero únicamente cuando el patrón de entrada cae dentro de una pequeña región alrededor del centro representado por la función base. Se puede
notar que este modelo se motiva por las características de respuesta sintonizada localmente que existe en muchas partes del sistema nervioso, como las células cochlear del sistema auditivo. La tercera capa implementa un mapeo lineal de la activación de los centros (o nodos ocultos) a los nodos de salida correspondientes a las diferentes clases de patrones.
Las redes RBF y las perceptrón multicapas son ejemplos de redes hacia adelante con capas no lineales. Ambas son aproximadores universales. Sin embargo, estas dos redes difieren en varios aspectos:
1. Una red RBF (en forma básica) tiene sólo una capa oculta, mientras que una MLP puede tener una o más capas ocultas.
2. Los nodos de computación de una red MLP, están ya sea en una capa oculta o una de salida, comparten un modelo de neurona común. Por lo contrario, los nodos de computación en una capa oculta y en las capas de salida son totalmente diferentes y sirven de manera diferente.
3. La capa oculta de una red RBF es no lineal, mientras que la capa de salida es lineal. Por lo contrario, las capas ocultas y de salida de una MLP usada como clasificador son usualmente no lineales; sin embargo, cuando una MLP se usa para resolver problemas de regresión no lineal, una capa lineal para la salida, es la selección preferida.
4. El argumento de la función de activación de cada unidad oculta de una red RBF computa la distancia Euclidiana entre el vector de entrada y el centro de la unidad. Por lo contrario, la función de activación de cada unidad oculta en una red MLP computa el producto interno del vector de entrada y el vector peso sináptico de esa unidad.
5. Las redes MLP construyen aproximaciones globales a mapeos no lineales entrada-salida. Consecuentemente, son capaces de generalización en regiones de espacio entrada donde están disponibles pocos o ausencia de datos de entrada. Por lo contrario, las redes RBF usando no linearidades decayendo exponencialmente (funciones gausianas) construyen aproximaciones locales a mapeos de entrada-salida no lineales, dando como resultado que estas redes sean capaces de aprendizaje rápido y con sensitividad reducida en la presentación de datos de entrenamiento.
2.6.3 Método de “Dynamic Time Warping”
Su aplicación más habitual es en sistemas de reconocimiento de hablante dependiente de texto. El hablante es representado mediante un conjunto de patrones (plantillas), para ello la señal de voz se divide en pequeños segmentos de análisis, y sobre cada uno de esos segmentos se realiza un proceso de análisis que extrae un conjunto de parámetros (que pueden ser acústicos o coeficientes espectrales). Este conjunto o vector de parámetros se puede ver como un punto en un espacio N-dimensional. El conjunto de todos los segmentos de análisis se convertirá así en una secuencia de puntos en ese espacio, y esa secuencia de puntos es lo que se llama “patrón” o “plantilla”.
El sistema reconocedor dispone de un conjunto de patrones de “referencia” que se habrán calculado en la fase de entrenamiento, y que representan al conjunto de palabras del vocabulario que el sistema puede reconocer. De esta forma, una vez obtenida la plantilla de la palabra, la tarea del reconocedor consiste en compararla con todos los patrones de referencia que el sistema tiene, calculando la “distancia”
que la separa de las referencias, y elegir como muestra reconocida aquella cuya plantilla de referencia tenga la distancia menor en la comparación.
2.7 Antecedentes
El primer antecedente sobre reconocimiento de hablante empieza con el investigador Atal en 1974, de la compañía AT&T, es de texto dependiente. La característica extraída es cepstrum y el método empleado fue igualación de patrones. La voz empleada es de laboratorio con una población de 10 personas y el error registrado es: 2% para identificación y 2% para verificación, con una duración de la prueba de 0.5 s y 1 s respectivamente.
En 1979 Markel y Davis, investigadores de la compañía STI, realizaron un proyecto sobre identificación de hablante con texto independiente, el cual trabaja con características de predicción lineal y con un método estadístico de término largo. La voz es de laboratorio con un total de 17 personas y alcanzó un error de 2% con una duración de prueba de 39 s. Dos años más tarde en 1981, Furui, otro investigador de AT&T volvió a trabajar con texto dependiente, y método de igualación de patrones sólo que esta vez empleó voz de línea telefónica con cepstrum normalizada y una población de 10 personas. Su resultado fue un error de 2% en verificación empleando 3 s.
En 1982 Schwartz, investigador de BBN, realizó un proyecto sobre identificación de hablante con texto independiente, utilizando características LAR y un método PDF no paramétrico. Utiliza señal telefónica con una población de 21 personas y arrojó un error de 2.5% y una duración de prueba de 2 s.
En 1983 Li y Wrench de la compañía ITT, realizaron una investigación de reconocimiento de hablante de texto independiente, empleando característica LP cepstrum y el método de igualación de patrones. La voz identificada es de laboratorio con un grupo de 11 personas alcanzando un error de 21% para una duración de 3 s y un 4% para 10 s. Dos años más tarde en 1985, Doddington, de la compañía Texas Instrument (TI), investigó sobre verificación de hablante con texto dependiente, empleando bancos de filtro con un método DTW, el cual puso a prueba con voz de laboratorio. El número de personas que verificó fue de 200 con un error de 0.8% y una duración de la prueba de 6 s. En ese mismo año (1985) Soong de la compañía AT&T, trabajó con voz telefónica, como ya es común en esa empresa, en la identificación de hablante con característica LP y con un método VQ de probabilidad de razón de distorsión (tamaño 64). Empleó
10 dígitos aislados con una población de 100 personas y el error resultante fue de 5% con una duración de prueba de 1.5 s y un error de 1.5% para 3.5 s.
En 1986, Higgins y Wohlford investigadores de la compañía ITT desarrollan el reconocimiento de hablante de texto independiente utilizando la característica cepstrum y el método DTW de probabilidad al tanteo. Se empleo voz de laboratorio, con una población de 11 personas logrando un error del 10% con duración de prueba de 2.5 s y un error de 4.5% para 10 s. Attili (1988), desarrolló en la compañía RPI una investigación sobre reconocimiento del hablante con texto dependiente, empleando características cepstrum, LP y autocorrelación y el método de estadística proyectada de términos largos. Se aplicó voz de laboratorio con un grupo de 90 personas y registró un error de 1% en la verificación con una duración de prueba de 3 s.
En la década de 1990 el reconocimiento de hablante toma un gran auge empezando con Tishby (1991), de la compañía AT&T, quien continuo trabajando con 10 dígitos aislados y señal telefónica. Los coeficientes son LP y el modelo estadístico HMM (AR mezclado) donde verifica a 100 personas con un error de 2.8% y 0.8% con una duración de prueba de 1.5 s y 3.5 s respectivamente. En ese mismo año Higgins de la compañía ITT investiga sobre reconocimiento de texto dependiente con voz de oficina, extrae característica LAR y LP-cepstrum y aplica el método DTW de probabilidad al tanteo. El número de población es de 186 y alcanza un error de 1.7% en la verificación con una duración de prueba de 10 s.
En 1995, Reynolds y Carlson de la compañía MIT-LL realizaron trabajos sobre reconocimiento de hablante con texto dependiente utilizando características mel- cepstrum y el método de probabilidad HMM (GMM). La voz de entrada es de oficina con una población de 138 personas logrando un error en la identificación de 0.8% y en la verificación de 0.12% con una duración de prueba de 10 s en ambos casos. Al año siguiente (1996) Reynolds investiga sobre reconocimiento con texto independiente con voz vía telefónica empleando característica mel- cepstrum y mel-dcepstrum nuevamente con el método de probabilidad HMM (GMM). El tamaño de la población es de 416 y su error es de: 11% y 6% con una duración de prueba de 3 s; 6% y 8% con una duración de 10 s: 3% y 5% con una duración de 30 s, con igual auricular y diferente respectivamente.
En 1995, Che y Lin de la universidad de Rutgers emplearon en su investigación de texto dependiente características cepstrum y el método HMM con un grupo de 138 personas. Para la identificación alcanzaron un error de 0.56% con una duración de prueba de 2.5 s, y 0.14% con una duración de 10 s; para la verificación lograron 0.62% con una duración de prueba de 2.5 s.
Colombi, (1996) investigador de la compañía AFIT, empleó en su trabajo sobre verificación e identificación de hablante con texto dependiente los cepstrum, dceptrum y ddcepstrum con el método HMM monófono. La voz de entrada es de
oficina y el grupo de personas es de 138. Para la identificación se logró un error de 0.22% y para la verificación el 0.28% con una duración de prueba de 10 s.
Fue al final de la década (1999) cuando K. Golapan y Timothy R. Anderson miembros de IEEE TRANSACTIONS, utilizaron las características cepstrum, Fourier y el método expansión de Bessel. Con una población de 143 individuos y 1054 pronunciaciones lograron un porcentaje de identificación del 65% y 76%
respectivamente.
En el año 2000, Yiing Zhang y Xiaoyan (pertenecientes al depto. de Ciencia de Computación Tsinghua de China) efectuaron investigación sobre reconocimiento de hablante con una base de datos llamada Mandarín. La base esta conformada por 50 personas (25 hombres y 25 mujeres), estos hablantes pronunciaron 50 diferentes palabras en un rango de 1.2 a 5.6 s, además otras 20 personas fueron empleadas como impostores. La señal de voz es de 8kHz segmentada en 32 partes. La característica fueron 16 LPC-cepstrum. La tasa de error alcanzó 2.16 al 7.8%.
2.8 Conclusiones
En este capítulo se investigaron los trabajos de reconocimiento de hablante efectuados hasta el día de hoy, como se observó en la sección 2.7. El análisis se dividió en dos partes, primeramente se mostraron las características que mejor modelan la señal de voz del individuo y que tienen la característica de discriminación (importante en cuanto la población crece), como son: el análisis de predicción lineal, el análisis cepstral, los coeficientes cepstrum y los coeficientes cesptrum en la escala de Mel.
Finalmente, se describieron los diferentes métodos que comúnmente se han usado para reconocimiento de hablante que se pueden clasificar en tres; los cuales son los métodos estadísticos, los métodos de segmentación representando a las redes neuronales y el método de “Dynamic Time Warping”.
La figura 2.3 mostró esquemáticamente a los modelos ocultos de Markov y la figura 2.4 al modelo de mezcla gausiana de un componente M. Ambos modelos forman parte de los métodos estadísticos. Mientras que las redes neuronales artificiales fueron representadas por las redes de retropropagación (BP), las de tiempo retardado (TDNN) y las redes neuronales de función base radial (RBF).
El objetivo de mostrar el marco sobre el que se pueden analizar las redes neuronales recurrentes RNR, se cumplió.
Bibliografía
Campbell P. Joseph Jr., (1997, Septiembre).“Speaker Recognition: A Tutorial”.
Proceedings of the IEEE vol. 85 no.9, pp 1437-1462.
Haykin Simon, (1999). ‘Neural Networks, A Comprehensive Foundation’, IEEE Press, Macmillan.
Jain Anil, Bolle Ruud and Pankanti Sharath, (1999). ‘Personal Identification’, Kluwer Academic Publihers.
Katagiri Shigeru, (2000). ‘Handbook of Neural Networks for Speech Processing’, Artech House.
Reynolds A. Douglas and Rose C. Richard, (1995). “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models” IEEE Transactions on Speech and Audio Processing, vol. 3 no.1, pp 72-83.
Romero Durán José Netz, (2004). “Reconocimiento de locutor utilizando modelos ocultos de Markov con parámetro MFCC y LPCC” tesis.
Capítulo 3
Redes Recurrentes
3.1 Introducción
En este capítulo, se mencionará la necesidad indiscutible de considerar el concepto del tiempo en el reconocimiento cognitivo. Además, se mostrarán las diferencias de conexión entre las capas de las redes, definitivamente haciendo hincapié a las redes neuronales recurrentes (RNR). Las redes recurrentes son sistemas dinámicos no lineales capaces de descubrir regularidades temporales en las secuencias procesadas y pueden aplicarse, por lo tanto, a multitud de tareas de procesamiento de este tipo de secuencias.
Se analizará detalladamente la red de Hopfield y algún ejemplo de su poder, también se analizará la red recurrente de tiempo real (RTRL) que se empleó para un primer reporte de reconocimiento de hablante en tiempo real.
Se mencionarán estructuras y operación de las principales redes neuronales recurrentes, tales como el modelo de Jordan, el modelo de Elman, la red de Hopfield, la red recurrente de tiempo real (RTRL) y finalmente la red recurrente muy simple (VSRN+). También se mencionarán las principales aplicaciones de las RNR. Debido a que en los principales aplicaciones, las redes neuronales recurrentes se habían usado como modelo de predicción, en el final de este capítulo se mencionan la red recurrente como predictor de secuencia de tiempo.
No obstante, la predicción en sí no es el objetivo último: en esta tesis la capacidad predictiva de las redes recurrentes se aplica a la identificación del hablante.
3.2 Tipos de estructuras de redes neuronales
Desde el punto de vista de las conexiones de neuronas, las redes neuronales se pueden clasificar en dos clases, las cuales son redes neuronales con conexiones hacia adelante (feedforward networks) y redes neuronales con conexiones recurrentes (recurrent networks).
La red neuronal con conexiones hacia adelante (feedforward network) propaga las señales de la salida del nodo en el modo de un sólo sentido. La información viaja de la capa de abajo, la cual consiste de nodos de entrada a la capa superior. La red ADALINE, la red neuronal multicapas (Multilayer Neural Network), la red RBF y la red de Kohonen pertenecen a este tipo de redes neuronales.
Las redes neuronales con conexiones hacia adelante representadas por la red multicapas con algoritmo de retropropagación, se han utilizado ampliamente en el campo de reconocimiento de patrones, tales como reconocimiento de caracteres manuscritos, reconocimiento de rostros, reconocimiento de objetos, entre otros y han mostrado generalmente buen funcionamiento. Sin embargo este tipo de redes neuronales no pueden manejar relación temporal de los patrones, cuando los patrones están formados por secuencias temporales, tal como la señal de voz.
La red neuronal con conexiones recurrentes (recurrent network), como su nombre lo indica, describe la recurrencia de información. La señal de entrada viaja de la capa de entrada hacia la capa de salida, en el mismo tiempo todos o algunos datos de las capas superiores regresan a las capas inferiores formando un ciclo de retransmisión de información, excluyendo regresar a la capa de entrada. La señal de salida algunas veces se le permite regresar al nodo que la produjo.
Fundamentalmente, la red neuronal recurrente tiene una capacidad más grande de representación de información que la red neuronal hacia adelante, y es especialmente más apropiada para representar los datos de series en el tiempo tales como señales del habla. Resultados de investigaciones recientes han mostrado claramente que las redes neuronales hacia adelante son viables candidatos para ser poderosos clasificadores de patrones.
3.3 Redes neuronales recurrentes: principios y modelos
El tiempo soporta muchos comportamientos humanos interesantes (tales como el lenguaje). Así, la pregunta de cómo representar el tiempo en los modelos de redes neuronales es muy importante. Un método es representar el tiempo implícitamente por sus efectos en el proceso en vez de explícitamente (como en una representación espacial). El modelo de Jordan (1986) incluye el uso de uniones recurrentes con la finalidad de proveer redes con memoria dinámica.
Posteriormente, Elman (1990) propone una variante al modelo de Jordan, donde los patrones de la capa oculta son retroalimentados a sí mismos, y el tiempo está inextricablemente ligado con el proceso. Estas representaciones revelan una estructura rica, que le permiten ser altamente dependientes del contexto, también expresar generalizaciones a través de clases de partes. Estas representaciones sugieren un método para representar categorías de léxico y hace distinción de partes.
El tiempo está inextricablemente ligado con muchos comportamientos que se expresan como secuencias temporales. Ciertamente, es difícil saber como uno podría tratar con problemas básicos como comportamiento dirigido a metas, planeación, o tareas causales sin alguna forma de representar el tiempo.
La pregunta de cómo representar la secuencia del tiempo puede parecer especial, única a los modelos de procesamiento en paralelo, probablemente debido a la naturaleza del proceso de la computación en paralelo que parece estar en pugna con la naturaleza serial de eventos temporales. Sin embargo, aún dentro de los