EVALUACIÓN DEL PROCESO DE ENTRENAMIENTO DE LOS HMMS

4. ANÁLISIS DE RESULTADOS

4.2 EVALUACIÓN DEL PROCESO DE ENTRENAMIENTO DE LOS HMMS

El proceso utilizado se midió con respecto a varios factores que influyeron en el proceso de entrenamiento de los modelos ocultos de Markov, los cuales serán nombrados a continuación:

• Tiempo empleado en la inserción de las etiquetas de las palabras.

• Herramienta utilizada.

• Recursos en tiempo y memoria de la ejecución de la herramienta utilizada.

4.2.1 Tiempo Empleado en la Inserción de las Etiquetas de las Palabras

Este proceso no presentó ningún inconveniente durante el desarrollo de la aplicación de palabras aisladas. La forma para etiquetar los archivos de voz de las palabras es muy sencilla, gracias a que en la gráfica de la voz que genera la herramienta Hslab, se puede observar el inicio y el final de cada palabra, por lo tanto, no es necesario escuchar la señal para poder etiquetarla, aunque Hslab permite la opción de escuchar las etiquetas. El único inconveniente es la gran cantidad de archivos para su correspondiente inserción de las etiquetas. En este proyecto se utilizaron 299 archivos y en cada uno se etiquetaron tres

regiones, lo cual demandó tiempo y paciencia. El promedio de tiempo que demandó esta fase fue de 3 días trabajando 6 horas diarias.

En la aplicación de dígitos conectados, este fue el proceso que más demandó tiempo y paciencia. El proceso de inserción de las etiquetas fue a nivel de fonemas, lo cual fue realizado manualmente con la herramienta Hslab. Las etiquetas se colocaron al escuchar segmentos de cada palabra, e identificar los fonemas por medio del oído. Debido a la gran cantidad de palabras (138) y que cada una tiene como mínimo tres fonemas, este proceso se tornó muy largo, lo cual tuvo como consecuencia gran cantidad de tiempo empleado en esta fase. El promedio de tiempo empleado para etiquetar la totalidad de los datos de entrenamiento fue de 8 días trabajando 6 horas diarias. Durante el proceso de entrenamiento es necesario insertar las etiquetas correspondientes al modelo sp, este proceso tomó 3 horas. Luego, para entrenar los modelos de los trifonemas se tienen que convertir las etiquetas creadas a etiquetas de trifonemas. Este proceso fue largo, dado que para crear un modelo de trifonema de la forma a-b+c, se hace necesario tomar el tiempo de inicio del fonema a y el tiempo final del fonema b para crear la nueva etiqueta a-b+c, este proceso se realizó al manipular por medio de un editor de texto todos los archivos de las transcripciones. El promedio aproximado de tiempo utilizado en esta etapa fue de 6 días trabajando 6 horas diarias.

4.2.2 Herramienta Utilizada

En la aplicación de palabras aisladas, se utilizó la herramienta Hinit y Hcompv para inicializar los modelos con los datos de entrenamiento para permitir una convergencia rápida y precisa de los algoritmos de entrenamiento, este proceso demoró aproximadamente de 2 a 3 segundos. La inicialización se realizó individualmente para cada modelo por medio de un comando de línea. Además para el entrenamiento de los modelos, se utilizó la herramienta Hrest, la cual ejecuta la re-estimación por Baum Welch de un sólo modelo, debido a esto se entrenó cada modelo por aparte, por medio de un comando de línea para cada uno. Este proceso se realizó cuatro veces para los seis modelos, lo cual fue suficiente para obtener su convergencia. Con respecto al tiempo, el proceso fue rápido y se limitó al

tiempo requerido para escribir los comandos de línea, aproximadamente el proceso tomó 20 minutos.

En la aplicación de dígitos conectados, se utilizó la herramienta Hcompv para inicializar todo el conjunto de modelos en un sólo comando de línea a diferencia de la aplicación anterior. Para el entrenamiento de los modelos se utilizó Herest, la cual ejecuta una sola re- estimación de los parámetros utilizando la versión de entrenamiento embebido del algoritmo Baum Welch. El entrenamiento de los modelos en esta aplicación tomó más tiempo que en el entrenamiento de palabras aisladas, dado que primero se entrenaron los modelos de fonemas, luego fueron entrenados los fonemas junto con el modelo de sp y después se entrenaron los modelos de trifonemas. El tiempo empleado en esta fase sin incluir el tiempo requerido de las nuevas inserciones de las etiquetas de los modelos sp y trifonemas, fue aproximadamente de 2 días trabajando 6 horas diarias, debido a la manipulación requerida en los archivos empleados.

4.2.3 Recursos en Tiempo y Memoria de la Ejecución de las Herramientas Utilizadas

En la aplicación de palabras aisladas, el proceso de la inicialización y la re-estimación de los modelos son casi inmediatos. El tiempo varia en relación de la cantidad de datos y etiquetas existentes entre los datos, porque a mayor número de datos o etiquetas repetidas, el proceso se torna más lento. En el proyecto se manejaron 299 archivos y la herramienta tuvo un buen comportamiento con respecto al tiempo gastado en el cómputo de la re- estimación con esta cantidad de datos. Como se explicó anteriormente, el tiempo de cálculo variaba de modelo a modelo y en general el promedio fue de 3 a 4 segundos. Los modelos de las palabras no requirieron gran cantidad de tiempo para su convergencia pero el modelo de silencio demandó más tiempo que los otros modelos, debido a la mayor ocurrencia entre los datos.

En la aplicación de dígitos conectados, las herramienta Hcompv sólo toma unos segundos en inicializar los parámetros, aproximadamente 2 segundos. Con la herramienta Herest, el

tiempo puede ser más rápido o más lento de acuerdo a un umbral14_{puesto por el} desarrollador, el cual indica como tienen que ser estimados los parámetros. Con un mayor umbral se obtendrá un mayor tiempo empleado en el cálculo de las re-estimaciones y estas serán más precisas. El umbral utilizado generó un promedio de tiempo de espera de 10 a12 segundos con esta herramienta. También influyó la cantidad y longitud de los archivos de voz que fueron manipulados los cuales para esta aplicación duraban un promedio de 8 segundos en su reproducción.

Con respecto a la memoria utilizada por parte de la CPU en el proceso de la ejecución de las herramientas, la información se puede observar en la Tabla 3:

Herramienta Uso Máximo de Memoria

Hinit 1356 KB aprox.

Hcompv 1308 KB aprox.

Hrest 1586 KB aprox.

Herest 4364 KB aprox.

Tabla 3. Recursos de Memoria de las Herramientas de Entrenamiento.

Los resultados obtenidos se extrajeron del administrador de tareas de Windows. El proceso de la ejecución de la herramienta Herest requiere más memoria debido a la mayor duración de grabación de los archivos de voz y la mayor cantidad de modelos a entrenar. En general las herramientas no requieren mayor cantidad de recursos de memoria.

In document Aplicaciones en reconocimiento de voz utilizando HTK (página 68-71)