Algoritmo EBHA para el Entrenamiento de Redes Neuronales

(1)

ALGORITMO EBIIA PARA EL ENTRENAMIENTO DE REDES NEURONALES

Anibal Colrina Alencio, Fernando Peralta Reyes [email protected]. [email protected]

Facu/wd de Ingeniería Electrónica Universidad Nacional Mayor de San Marcos

RESUMEN: En el siguiente artÍCulo se propone un algoritmo de entrenamiento para una red neuronal artificial tipo Perceptron Multicapa cuya aplicación estuvo dirigida al reconocimiento de patrones de voz. El algoritmo ha sido denominado Entrenamiento por Bloques de Hablantes (EBHA) y se ha codificado en el estándar ANSI C sobre la versión 6 de Microsoft Visual CH.

ABSTRACT: We propose a training algorithm for an artificial neural network of Multil Layer Perceptron (MLP) type whose applications are adressed 10 speech recognition patlems. The algorithm has been denoted by Speaker Block Training (EBHA) and it has been coded in the standard ANSI C on the version 6 of Visual Microsoft C++.

Keywords: Señal de Voz, RNA. MLP. pesos. capas. nodos. Backprogation, palabras, Tasa de Acierto. hablantes y patrones.

utilización de Redes Neuronales Artificiales (RNA). Sin embargo. optar por esta solución implica entrenar a la red de la forma más eficientemente posible. Es así. que el presente artículo propone un algoritmo denominado de Entrenamiento por Bloques de Hablantes (EBHA) para una RNA tipo Perceptron Multicapa (MLP) la cual fue implementada y probada por los autores en un Reconocedor de Voz [Peralta y Cotrina.2002J.

11. DESCRIPCIÓN DEL ALGORITMO EBHA El Algoritmo EBHA es representado en la figura l. los parámetros de entrada son representados por el número de hablantes H. el número de palabras que el sistema puede reconocer l' y el conjunto de patrones de entrenamiento XjU=O,I •..p). La salida está representada

por la matriz W, que contiene los pesos resultantes de

conexión entre las neuronas.

I. INTRODUCCIÓN H P Xj Entrenamiento EBHA

w

Un sistema de reconocimiento de voz es utilizada para un gran número de aplicaciones. consta de varias etapas que se inicia cuando las palabras son convertidas a señales eléctricas a través de un micrófono y son digitalizadas a fin de ser interpretadas por el procesador del sistema. En la etapa de Clasificación. los algoritmos matemáticos extraen los patrones o parámetros característicos de la señal de voz. que luego tienen que ser identificadas en la etapa de Reconocimiento, tarea que es sumamente compleja y es donde se han optado varias soluciones. una de las cuales esta basada en la

ELECTRÓNICA - UNMSM

Figura I - Esquema del algoritmo EBHA

2.1 Bloque de "ablames

Después de formar la base de datos de entrenamiento, llamada Corpus [Llamas y Cardeñoso. 1995]. compuesta por los patrooes de todas las palabras recolectadas. se agrupan aquellos que correspooden a cada hablante. se debe tomar eo cuenta que cada

(2)

2.3 Entrenamiento de Todos los /lablantes .3),~,

---,

₁ x,

*1

2 Lf,.1 ~W,

I

"""""¡ ! X,

*1

BAO""

I*w,

QWB

;;:J

,

x, 1*

BAO<P!!

.

I*w,

f !

x,1*

BAO\Pfl:

I*w,

QW

_B"

x,1*

_"""'"

¡

_"'\

~ _Xj

_*1

l

_I*w

_j

•

BACI'.PR o _í ~ _~

,

Xj

*1

---wo--

--,

Después de haber entrenado el primer hablante, se utiliza el resultado como referencia para entrenar un bloque siguiente, que corresponderá a un segundo hablante, en el cual se realizará un procedimiento análogo al anterior, y por consiguiente, tendrá como resultado una nueva matriz de pesos. WB2, como se

aprecia en la figura 3. El proceso continuará de manera análoga hasta que se termine de entrenar los H hablantes, es decir hasta que se obtenga WBII.

Wo 0' 1

I

Xl ••

1

2 .(S~1

l-tw

l BACKPR

••

1 X2

"1

BACKPR

l"w

2 ~WBl .!< Xj

"1

f

l-tw

¡

< BACKPR '! .Q ~

Para describir este proceso de manera didáctica se analiza la figura 2, en la cual se puede apreciar el bloque que contiene los patrones de entrenamiento Xj

U=1,2 •..,I'). Al iniciarse el entrenamiento, el switch se encuentra en la posición 1, de esta manera se tiene como pesos iniciales valores aleatorios y acotados entre cero y uno [Freeman y Skapura, 1993Jy contenidos en la matriz Wo. Teniendo como referencia los valores de Wo se realiza el entrenamiento del primer patrón (X¡), mediante la regla de aprendizaje Backpropagation

(BACKPR), que devuelve como resultado la matriz de pesos W¡, los mismos que serán utilizados como referencia en el entrenamiento del segundo patrón (X,). Luego. se continúa con el tercero. y así sucesivamente hasta llegar a entrenar el último patrón Xp que dará

como resultado los pesos de las neuronas contenidos en la matriz Wp.

2.2 Elltrenamiellto de 1m Iiablallte

hablante debe haber pronunciado todas las palabras. la agrupación da como resultado a los denominados Bloques de Hablante que contienen las P palabras que el sistema reconoce.

Figura 2 - Entrenamiento de un Hablante

,

~ - - - - - - - - - - - - - - - - - - - - __ 1

Seguidamente se mide el grado de similitud entre todos los pesos obtenidos, en caso de que sean diferentes, se repite el procedimiento anterior, pero elswitch pasa a la posición 2, es decir, el primer patrón X¡ vuelve a ser entrenado pero está vez teniendo como referencia los pesos de la matriz Wp. Este procedimiento se repite las

veces que sea necesario, hasta que exista un alto grado de similitud entre todos los pesos obtenidos durante el desarrollo del proceso, es decir W¡=W,=W3 .•.=Wp. Una

vez que esto se logra los pesos obtenidos en el último entrenamiento se almacenan en la matriz de pesos WB¡ que es el resultado de entrenar el primer bloque, que corresponde al primer hablante.

Figura 3 - Entrenamiento de Todo los Hablantes. Después se efectúa una comparación entre los pesos resultantes del entrenamiento de cada hablante, con la finalidad de analizar la similitud entre ellos. si son diferentes, la secuencia de entrenamiento con cada uno de los bloques se repite, pero esta vez, con WBH como

referencia en el primer hablante (switch en posición 3). Estas secuencias se repetirán hasta que el grado de similitud entre los pesos resultantes de cada bloque alcance un valor muy alto, es decir cuando WB¡=WB,=WBJ ...=WBH. Cuando esto sucede el

proceso de entrenamiento finaliza dando como resultado los pesos actualizados con el último

(3)

entrenamiento y se guardan en la matriz \VF. Con los pesos finales el sistema es capaz de reconocer las palabras independientemente de quien sea el hablante que las pronuncie.

IIl. EVALUACIÓN DEL ENTRENAMIENTO

tenía menor tiempo de convergencia en el

entrenamiento.

Los nodos de las capas Oculta y de Salida, tienen como Función de Transferencia (FT) a la función Sigmoidal. Los valores de las constantes k, en cada una de las capas, han sido escogidas por ser las que produjeron menor tiempo de entrenamiento de la red.

3.1 Descripción de la Red Neuronal Utilizada

Para ilustrar y mostrar la eficiencia del algoritmo se ha tomado una RNA de tipo Perceptron Multicapa de 3 niveles que pueda reconocer entre 10 palabras diferentes con las características mostradas en la tabla 1.

Tabla I • Parámetros de la RNA

La FT de los nodos de entrada está dada por la función lineal de pendiente unitaria. También se ha convenido asignar cero al valor del Umbral de cada neurona que conforma el Perceptron Multicapa con el propósito de disminuir la carga computacional de la red durante la etapa de entrenamiento y principalmente durante la etapa de reconocimiento, denominada Propagación. En la figura 5. se representa las matrices resultantes \Va entre las capas de Entrada y Oculta, y \Vb entre las capas Oculta y de Salida.

Wa,Wb Numero de

Nodos 100 32 10

Función de

Lineal Sigmoidal Sigmoidal Transferencia

ons an e e a

Sigmoidal (k) 0.09155 0.15695

El número de nodos en la capa de entrada es igual al número de elementos del vector de características, el cual está dado por 100 coeficientes MFCC (Mel Frecuency Cepstral Coefficients), normalizados entre cero y uno. El número de nodos de la capa de salida está en función del número de palabras que se desea reconocer. mientras que para cada palabra reconocida entregará como respuesta el vector Vi (i=1, 2•... 10), como se muestra en la figura 4, es decir, sólo la neurona asignada a esa palabra tendrá el valor de uno, las demás tendrán cero.

LPALABRAI

xp [1-> Red • ~ PALI\BRA2

Nemollat b [ ) ~ ,

LpALABRAnp

W,;oyWb, Pesosresuh,;onfes del entrenamiento

Xp. Vector DeCaf~teristk.s

Figura 5 - Proceso de Reconocimiento

3.2 Recolección de Datos

Se recolectaron un conjunto de 56 hablantes, los cuales han sido clasificados en categorías, teniendo en cuenta el sexo y edad, tal como se muestra en la tabla 2.

Tabla 2 - Hablantes Recolectados

4 6 10 10 30 4 6 10 6 26 Niño 8.11 Adolescente 12-17 Joven 18-30 Adulto 30-60 Total 1

O O

O ••• O 1 ... O O O •• , O ASlQt>l./l.OAAlAo-

,

...•...

,

~AALA~ 1 P~1V-O Vi V1 VN

Figura 4 - Nodos de Salidas de la red

Mientras que para seleccionar el número de nodos en la capa oculta, al no existir una regla para definirlo, se optó por escoger el número 32, porque en este valor se

Cada una de las personas pronunció diez palabras (los dígitos del Cero al Nueve). Se formó una base de datos formada por 560 patrones característicos (muestras), se efectuó un análisis de correlación de los patrones característicos con la finalidad de seleccionar a los hablantes que comparten más características en común dentro del grupo [Llamas y Cardeñoso, 1995]. Para el

(4)

análisis de correlación se utilizó la ecuación 4.1 [Chou. 1968]. en la cual r". es el coeficiente de correlación

entre las secuencias x e y.

¿x'y'

1".,)'

=

~¿x"

y" En donde:

x'= x-x

y'= y- y

(4.1 ) (4.2) (4.3)

El algoritmo de entrenamiento desarrollado forma parte de un sistema de reconocimiento denominado Reconocedor y Analizador de Voz (RA V) [Peralta y Cotrina. 2002J

Tabla 4 Parámetros de Entrenamiento.

Numero de Patrones 800

Numero de Palabras (nP) 10

Numero de Hablantes 8

Hablantes Relativos InH) 80

Error de oatrón (en) 0.025

Error de Hablante (mm) 0.0001

Error de grupo de hablantes (aa) 0.00001

Tabla 3 - Hablantes Seleccionados

Como consecuencia, se obtuvo un nuevo grupo

conformado por 8 hablantes, los cuales se muestran en la tabla 3; con los que se procedió a entrenar la Red Neuronal.

Cem Uoo

"'"

T••, ""'-¡;;;Cinco Seis Siete OC'"

N"""

Cem 48 Uoo 48

"'"

48 Tres 2 46 """m 45 3 Cinco 48 Seis 45 3 Siete 48 OC'" 48

N"""

48

3.4 Evaluación

Off

Line

t.a. 98%

Tabla 5 - Evaluación Off line

tao

I

1001 1001 1001 961 941 1001 941 1001 1001 1001 La tabla 5. muestra los resultados obtenidos en la evaluación

Off

Line, en ella se puede apreciar la tasa de acierto del algoritmo para cada palabra pronunciada. En la primera columna se indican la palabras que han sido pronunciadas. y en la primera fila se indican las palabras que se han reconocido. Como se puede observar. el sistema presentó una tasa de Acierto de 100% en casi toda las palabras, excepto en las palabras 'Tres' y 'Seis' por ser de naturaleza fricativa y además en la palabra 'Cuatro', debido a que esta tiene un silencio intermedio. O 1 1 1 3 1 O 3 1 5

Se aplicó esta fórmula a todos los patrones recolectados (secuencias). tomados de dos en dos. y aquellos que no alcanzaron un coeficiente de correlación mayor a 0.75 fueron considerados como patrones dispersos y fueron separados.

A la nueva base de datos generada se le denomina Corpus de Entrenamiento y está formado por 800 patrones correspondientes a 10 repeticiones por cada palabra. La base de datos formado por los patrones de cada uno de los 48 hablantes restantes que no fueron seleccionados. se le denomina Corpus de Evaluación [Llamas y Cardeñoso. 19951. La cual sirve para efectuar una evaluación del sistema en modo

Off

Line.

3.3 EllIrenGmielllO

El proceso de Entrenamiento de la Red Neuronal se realizó utilizando una Computadora Personal Pentium 1II de 750 MHz. Este proceso se llevó a cabo en 8h con 25 minutos. La tabla 4 muestra los demás parámetros de entrenamiento.

La figura 6, muestra una gráfica de barras que expresa en términos de porcentaje los resultados obtenidos en la evaluación

Off

Line. La tasa de acierto global del sistema es de 98.125 %, lo cual indica que el resultado de la prueba fue exitoso.

(5)

Palabras EV111uacf<}s

Figura 6 - Resultados de la evaluación Off Line

Tabla 8 • Evaluación On Line con ruido de fondo.

Niño 6-11 Adolescente 12.1 Joven 16-30 Adu~o 30-60 Totales

En la segunda etapa se evaluó el sistema en un ambiente con ruido musical que producía una figura de ruido que oscila entre 20 y 30 dB; en estas condiciones, la tasa de acierto del sistema disminuyó a 87.4 %, tal como se muestra en la tabla 8.

-

1 l

-~

-l

-~ 1-

₁

~ ~ L.,-:: de Aciertos x 100% 1Jde Pruebas 100

.,

"'

70 60 50 40

.,

20 10 O 3.5 Evaluación Gn Line

La tabla 6, muestra la eficiencia del sistema en modo

On Line sobre veinte personas distribuidas por género y edades.

Las figuras 7 y 8 muestran la eficiencia alcanzada por cada palabra pronunciada en la evaluación On Lille sin y con ruido respecti vamente.

f- 1-f- l- 1- f- L.,-:tdeAciertos 1t700% IJdePruebas 100

.,

'"

₁₀ 60 50 'O lO 20 10 O l? ~ 0.,

•

Tabla 6 - Hablantes de prueba

Niño 8.11 Adolescente 12-17) JOl.en (18-30) Adutto 30-60) Total PalabrasEvaluadó1S Palabras Evaluadas

I

¡;:¡ ~

11-

f- f- ~ - f- I

HI

I

f--

f -100

.,

"'

70 60 50 40 lO 20 10 O ~ ~

•

• J:.de Aciertos 1t100% tt de Pruebas

Figura 7 - Eficiencia del reconocimiento 011 Lille sin

ruido

Figura 8 - Eficiencia del reconocimiento 011 Line con

ruido La prueba se realizó en dos etapas; en la primera se

evaluó el sistema en un entorno que se considera

aislado de ruido de fondo, aunque estaba presente el ruido eléctrico producido por los ventiladores de la computadora; se obtuvo como resultado una tasa de acierto de 91.65 %. La tabla 7 muestra los resultados obtenidos en esta prueba, en ella se detalla la eficiencia obtenida en cada categoría de hablante donde nH es el número de hablantes, nP-p es el número de palabras pronunciadas, np.a es el número de palabras reconocidas con éxito y T.A. es la tasa de acierto.

Tabla 7 - Evaluación On Line sin ruido de fondo.

Niño 6-11

Adolescente 12-17 Joven 16-30 Adu~o 30-60 Totales

(6)

Finalmente, el gráfico de la figura 9 muestra una evaluación global de la eficiencia del algoritmo, contrastando los resultados del reconocimiento en los modos Off Line y On Line, este último, en ambientes con ruido y en ambientes sin ruido.

12. '00 yo ~

ff'

lfi 80 ~ 60

4'

2.

•

O 1 2 _~ _{4_ 5} 6 7 8 9

.

-o-OfFLIfIE

I

-..,.;. ON LI fIE S'RUOO

-6- ON LlfIECIRlIOO

Figura 9 - Comparación de la Eficiencia del Algoritmo EBHA

IV. CONCLUSIONES

Se ha creado un algoritmo de entrenamiento para la Red Neuronal tipo Perceptron Multicapa basado en la regla de aprendizaje Backpropagation, la cual clasifica las palabras pronunciadas por distintos hablantes de acuerdo a la información lingüística y cuyos resultados muestran una tasa de acierto muy alta.

En la evaluación en modo Off Line se obtuvo una tasa de acierto de 98.125%, lo que demuestra que dicho algoritmo tiene una gran eficiencia para el establecimiento de clases. La tasa de acierto en el modo

On Line en un ambiente sin ruido de fondo es de 91.65% que es menor que para el modo Off Line, como se puede apreciar en las tablas 5 y 7. Esta aparente contradicción se explica por el hecho de que en el modo On Line a pesar de no existir ruido de fondo, si existe ruido producido por la computadora especialmente de la fuente de poder y los ventiladores, y también los ocasionados de manera involuntaria por los hablantes evaluados; los cuales no ocurren para el modo Off Line.

Al evaluar el reconocimiento en entornos ruidosos con Figuras de Ruido entre 15 dB y 30 dB, la tasa de Acierto fue de 87.4%, lo que implica que la Red Neuronal puede trabajar en presencia de ruido de fondo intensos.

AGRADECIMIENTOS

Al Instituto de Investigación de la Facultad de Ingeniería Electrónica de la UNMSM por dar las facilidades para realizar el trabajo. '

REFERENCIAS

Bermúdez, LB., J. Bobadilla y P. Gómez. (2000). Reconocimiento de Voz y Fonética Acústica. Ediciones Alfaomega .

Llamas, e., V. Cardeñoso (\995). Reconocimiento Automático del Habla. Teoría y Aplicaciones. Universidad de Valladolid. Cater, J. (\984). Electronically Hearing: Computer

Speech Recognition 1st Edition. Howard W. Sams y Ca., Inc.

Kartalopoulos, S. (\996). Understanding Neuronal Networks and Fuzzy Logic. IEEE Press. Hilera, J.R. y V.J. Martínez (\995). Redes Neuronales

Artificiales. Fundamentos, Modelos y Aplicaciones. Editorial Addison-Wesley Iberoamericana.

Freeman, J.A. y D.M Skapura (\999). Redes Neuronales, Algoritmos, Aplicaciones y Técnicas de Programación, ADDlSON-WESLEY.

Sphar C. (\ 999). Aprenda Microsoft Visual C++ 6.0 Ya. Mc. Graw-Hill.

Schildt ,H. Turbo ClC++.Manual de Referencia. Hanselman, D. y B. Littlefield (\996). Matlab edición

de estudiante. Guía de usuario Versión 4. Editorial Prentice Hall.

Peralta, F. y A. Cotrina (2002). Reconocedor y Analizador de Voz. Tesis Titulo Profesional. Universidad Nacional Mayor de San Marcos Lima Perú.

Crespo, e., e. de la Torre y J.e. Torrecilla. Detector de

extremos para reconocimiento de voz.

Telefónica Investigación y Desarrollo. Publicación de Telefónica I+D. S:A. Madrid España.

http://www.tid.es/presencialpubl icaciones/co msidlesp/home.html. Fecha de acceso: Enero de 2001.

Hernández, L., F. J. Caminero, e. de la Torre y L. Villarrubia. Estado del arte en Tecnología del Habla. Telefónica Investigación y Desarrollo. Publicación de Telefónica I+D. SA http://www.tid.es/presencialpublicaciones/co

(7)

Algoritmo EBHA para el Entrenamiento de Redes Neuronales

w

---,

*1

I

*1

I*w,

QWB

,

,

x, *1

.

I*w,

x,*1

I*w,

QW

x,*1

"""'"

"'\

*1

I*w

•

,

*1

---wo--

--,

I

1

l-tw

••

"1

l"w

"1

l-tw

¡

,

O O

,

...•...

,

¿x'y'

=

~¿x"

x'= x-x

y'= y- y

"'"

N"""

"'"

N"""

Off

I

Off

Off

Off

-

1

l

-l

1

.,

"'

.,

.,

'"

•

•

I

11-

HI

f--

.,

"'

•

ff'

4'

•

.

I

x, 1*

x,1*

x,1*

_"""'"

_"'\

_*1

_I*w

₁