CAPÍTULO 3: RESULTADOS Y DISCUSIÓN
3.1. Software FORMANTE
A partir de los algoritmos explicados anteriormente, utilizando el programa LabVIEW 9.0 [33], se implementó un software cuya interfaz gráfica se muestra en la Figura 3.1; nos brinda facilidades como grabar una señal de voz y reproducir una que se haya guardado anteriormente. Además permite obtener los formantes de una señal y su correspondiente oscilograma, la frecuencia fundamental y construir un TV a partir de las vocales sostenidas /a/, /i/, /u/, guardarlo y visualizar otro que haya sido guardado anteriormente por el programa, además de calcular el área del mismo. Se ha incluido en la instalación una ayuda detallada de la utilización del mismo, para facilitar su comprensión y utilización.
Figura 3.1. Interfaz gráfica del software “Formante”, implementado en este trabajo. 1. Botones de control y barra de direccionamiento. 2. Gráficas. 3. Controles para extracción de F0 y formantes. 4. Sección de Triángulo Vocálico.
El software cuenta con un archivo instalador y un ejecutable que posibilita la utilización del mismo en sistemas operativos como Windows, desde 2000 en adelante, sin que sea
1
2
3
Capítulo 3: Resultados y Discusión
37
necesario tener instalado el programa LabVIEW 9.0 en la máquina. Esto resulta una ventaja considerable debido al hecho de que las computadoras de los usuarios potenciales del software FORMANTE no poseen características de alto procesamiento y rendimiento como para utilizar el software LabVIEW 9.0 en su totalidad.
Para una mejor comprensión de la utilización del software se dividió la interfaz gráfica en cuatro secciones señalizadas en rojo en la Figura 3.1:
1. Botones de control y barra de direccionamiento. 2. Gráficas.
3. Controles para extracción de F0 y formantes. 4. Sección de Triángulo Vocálico.
En la sección 1 se encuentran los botones relacionados con la adquisición de la señal y su reproducción, como son: GRABAR, REPRODUCIR, PARAR, el control de volumen y la barra de direccionamiento donde se visualiza la dirección del archivo de voz sobre el que se está trabajando.
La sección 2 contiene las gráficas de forma de onda, así como las correspondientes a frecuencia fundamental y formantes, estas últimas son mostradas de acuerdo al tipo de análisis que se efectúa, que puede ser seleccionado con el control “Tipo de Análisis” en la sección 3.
La sección 3 contiene dos indicadores que muestran el método de obtención de los formantes (LPC) y el tipo de ventana que se utilizó para la división en tramas de la señal (Hanning). Además cuenta con el control “Tipo de Análisis” que permite seleccionar entre un análisis de formantes y uno de frecuencia fundamental. Para el caso de análisis de los formantes de la señal, esta sección también dispone de un selector del umbral utilizado para la detección de los picos espectrales, que aparece en un valor de 30% por defecto, también permite escoger el ancho de banda del pico, en Hz, prefijado por defecto en un valor de 100Hz.
La sección 4 corresponde a la confección del triángulo vocálico. Consta de una gráfica donde se visualiza el TV, así como un indicador donde se muestra el área del mismo. La utilización de esta sección será explicada posteriormente con más detalle.
Capítulo 3: Resultados y Discusión
38
Además este programa consta de una barra de menú y una barra de título. La barra de menú contiene el selector “Archivo”, Figura 3.2. Este permite cargar una señal de voz, mostrar el cuadro de ayuda contextual y salir del programa seleccionando “Exit”.
Para proceder a cargar una señal se selecciona “Cargar señal” en el menú “Archivo”, a continuación se mostrará un cuadro de diálogo que permite buscar la dirección de la señal que se desea analizar y seleccionarla. Para realizar cualquier tipo de análisis de los brindados por el software FORMANTE es necesario tener cargada la señal a analizar con anterioridad. La señal seleccionada se utilizará en el programa hasta tanto no sea seleccionada otra.
Figura 3.2. Representación del menú “Archivo”. Selección de “Show Context Help” y muestra de la ayuda
contextual del programa.
El proceso de grabación se hace de acuerdo al diagrama de flujo mostrado en la Figura 3.3 a), mediante la utilización de un micrófono y la tarjeta de sonido de la computadora. Para detener el proceso se debe pulsar el botón PARAR de lo contrario este seguirá indefinidamente.
En el caso de la reproducción de la señal, hay que proceder primero a cargar la misma al programa, para luego ser reproducida y analizada de acuerdo a las facilidades que brinda el software, en la Figura 3.3 b) se muestra el diagrama de flujo para el proceso de reproducción. El control de volumen ubicado en la sección 1 permite aumentar o disminuir el nivel de intensidad del sonido en la reproducción del mismo.
Capítulo 3: Resultados y Discusión
39
a) b)
Figura 3.3. Diagrama de flujo del proceso de: a) Grabar la señal y b) Reproducir.
La construcción del TV resulta un poco más compleja para el usuario del software, ya que la selección de los formantes F1 y F2 de las vocales se hace de manera manual para cada una. Es necesario tener almacenada con anterioridad las vocales sostenidas /a/, /i/, /u/ de un paciente para la construcción del triángulo. El TV se va modificando a medida que se le vaya incorporando la información acerca de los valores de formantes de las vocales, el proceso es mostrado en la Figura 3.4. Además el software brinda también la posibilidad de calcular el área del mismo, mostrando el valor en el indicador “Área del triángulo”, ver sección 4 de la Figura 3.1. Las vocales están diferenciadas por colores, el verde pertenece a la /a/, el azul a la /i/, mientras que la /u/ está señalada con color negro, así resulta mucho más fácil encontrar su ubicación en el triángulo vocálico.
Figura 3.4. Diagrama de flujo para el proceso de construcción del Triángulo Vocálico.
Pulsar GRABAR
Seleccionar nombre y ubicación del archivo
Pulsar OK para comenzar la grabación Grabando Pulsar PARAR Pulsar "Archivo" Seleccionar "Cargar señal" Buscar ubicación y seleccionar la señal Pulsar OK para cargar la señal Pulsar Reproducir Pulsar PARAR 1.- Cargar señal de vocal sostenida 2.- Seleccionar "Formante" en "Tipo de Análisis" 3.- Seleccionar "Crear Triángulo" en "Triángulo Vocálico" 4.- Ubicar cursor en región de F1 5.- Pulsar botón "OK" correspondiente a la vocal y al formante 6.- Repetir desde 4 para F2 7.- Repetir desde 1 para la vocal restante
Capítulo 3: Resultados y Discusión
40
Luego de haber confeccionado un triángulo se puede guardar el mismo al hacer clic en el botón GUARDAR de la sección 4; especificando la dirección y el nombre del archivo. El triángulo guardado puede ser visualizado nuevamente en la interfaz del software si se selecciona “Buscar triángulo” en el menú “Triángulo Vocálico” y posteriormente se pulsa el botón BUSCAR de la sección 4 para encontrar el archivo del triángulo que se desea mostrar. Esta utilidad del software permite hacer comparaciones del estado del paciente a lo largo de un proceso de rehabilitación o de diagnóstico.
Para obtener el gráfico de formantes o frecuencia fundamental se selecciona la opción correspondiente en el selector “Tipo de Análisis”. El control “umbral” situado en la región “Detección de picos” de la sección 3 permite modificar el umbral en el proceso de extracción de picos espectrales para la obtención de los formantes. De igual forma se puede modificar el ancho de banda de los picos a extraer, modificando el control, “Ancho del pido (Hz)” ubicado en la misma sección. Esto permite acomodar el gráfico de los formantes según le sea más satisfactorio al usuario. La extracción de los formantes se hizo utilizando el método explicado en el Capítulo 2, basado en LPC, mientras que la extracción de la frecuencia fundamental se hizo utilizando el método Cepstrum explicado también en el Capítulo 2.
En el caso de que se necesite información sobre la utilización del programa este consta de un cuadro de ayuda contextual que brinda una descripción detallada de los componentes del panel frontal. Para tener acceso a esta utilidad se selecciona “Show Context Help” en el menú “Archivo”. Así se mostrará una ayuda contextual de cada elemento indicado por el cursor. Para ampliar la información que ofrece el cuadro de ayuda contextual se pulsa el icono que nos ofrece una ayuda general del programa. Como se muestra en la Figura 3.2.
El gráfico de los formantes puede ser usado de manera efectiva en la detección de distintas patologías, así como en la evaluación del desempeño del paciente en un proceso de rehabilitación. Las regiones correspondientes a los formantes son destacadas en color rojo por el proceso de detección de los mismos. En la Figura 3.5 se muestran dos gráficos correspondientes a una vocal /a/ sostenida de una voz masculina normal, a la izquierda y patológica, a la derecha. En este caso la patología presenta características de ronquera, que provocan que haya una contaminación de la señal con componentes de ruido, lo que
Capítulo 3: Resultados y Discusión
41
enmascara notablemente la aparición de los formantes, esto puede comprobarse en dicha figura.
a) b)
Figura 3.5, Gráfico de formantes de vocal /a/ sostenida de voz masculina, a) normal y b) patológico.
En la Figura 3.5 a) están señalados los formantes F1 y F2 de la vocal /a/, ambos se encuentran estables y bien definidos, además sus valores están dentro de los clasificados como normales, ver Figura 1.5, por lo que puede demostrarse que este gráfico corresponde a una voz normal. Sin embargo en la Figura 3.5 b) no es posible definir cuáles son las regiones correspondientes a los formantes, el espectro presenta notables afectaciones por ruido característico de este tipo de patología.
De igual forma se puede notar la diferencia entre sonidos utilizando los formantes, en la Figura 3.6 se muestra el gráfico de formantes de una voz femenina normal pronunciando tres vocales (/a/, /i/, /u/), sostenidas consecutivamente. En el gráfico puede verse como los formantes detectados se corresponden con sus valores normales esperados, ver Figura 1.5.
Figura 3.6. Gráfico de formantes de una voz femenina pronunciando las vocales /a/, /i/, /u/ consecutivamente.
F1 F2
Capítulo 3: Resultados y Discusión
42
Si realizamos la construcción del triángulo vocálico correspondiente al caso de la Figura 3.6 según se ha explicado con anterioridad, se obtiene un triángulo vocálico normal mostrado en la Figura 3.7. El TV puede verse diferenciado en presencia de una patología como en el caso de que exista un problema de articulación que provoque una diferenciación pobre entre los sonidos vocálicos. Esto puede ocasionar una centralización del triángulo vocálico, disminuyéndose el valor de su área.
Figura 3.7. Triángulo Vocálico normal construido en el software a partir del gráfico de formantes de la figura 3.6. El color verde corresponde a la vocal /a/, el color azul a la /i/ y el negro a la vocal /u/.
La frecuencia fundamental también puede ser usada para diferenciar entre una voz normal y una patológica. Esta característica de la voz varía según el estado de salud del paciente, su edad, sexo, etc. En la tabla 1 se muestran valores de frecuencia fundamental obtenidos a partir de gráficos del software correspondientes a varias voces normales, masculinas, femeninas, adultas e infantiles, pronunciando la vocal /a/ sostenida. Los valores se obtuvieron de forma aproximada mediante inspección visual de los gráficos, se muestra el valor medio y el rango de variación de F0 para cada voz.
Tabla 1. Valores aproximados del promedio y rango de variación de F0 de varias voces normales
pronunciando la vocal /a/ sostenida.
Señales de voz Sexo Edad Valor medio F0 (Hz) Rango de variación
de F0 (Hz) Voz-1 Femenino 48 203 202-212 Voz-2 Masculino 52 179 178-182 Voz-3 Femenino 8 263 259-269 Voz-4 Femenino 23 240 237-248 Voz-5 Masculino 7 242 234-248
Capítulo 3: Resultados y Discusión
43
Se muestra en la Tabla 1 como los valores obtenidos mediante el gráfico permiten diferenciar entre distintas voces. Además la detección de F0 en voces normales como estas, presentan un estrecho rango de variación individual, sin importar el tipo de voz que se analice. Esto demuestra la efectividad del algoritmo detector de F0.
En presencia de una patología, la frecuencia fundamental puede verse afectada de diferentes maneras. En la Figura 3.8 se muestran dos gráficos de frecuencias fundamentales pertenecientes a dos voces masculinas: sana y patológica. Los gráficos pertenecen a un análisis de F0 de las voces utilizadas para la confección de la Figura 3.5. En la Figura 3.8 se observan las diferencias entre las F0 de ambos casos, en la voz normal, a), tiene un valor prácticamente constante a lo largo del tiempo mientras que en el caso patológico, b), resulta imposible hacer una detección correcta del valor de F0 del paciente, debido a la inestabilidad que presenta esta característica, producto a la contaminación por ruido propia de la voz ronca del individuo.
Figura 3.8. Gráfico de frecuencias fundamentales, vocal /a/ sostenida, masculina, a) normal y b) patológica.
3.2.Conclusiones parciales del capítulo.
En este capítulo se comprueba que el software cumple con los requerimientos y especificaciones esperadas. La interfaz posee una serie de controles e indicadores de fácil manejo para el usuario y se explica detalladamente una metodología para la utilización de la aplicación. Además se muestran algunos ejemplos del comportamiento del mismo ante distintas señales de voz.
Conclusiones y Recomendaciones
44
CONCLUSIONES Y RECOMENDACIONES
Conclusiones:
• Se seleccionó el algoritmo adecuado para la determinación del período fundamental.
• Se seleccionó el algoritmo adecuado para la determinación de formantes.
• Se realizó la puesta a punto del software.
• Se diseñó y desarrolló un software para el registro de características de la voz utilizable en consultas de logopedia y foniatría.
Recomendaciones:
• Promover la aplicación del software propuesto en las consultas de logopedia y foniatría de la región con el objetivo de obtener una primera realimentación de los resultados y deficiencias del mismo, que contribuyan a su posterior desarrollo.
Referencias Bibliográficas
45
REFERENCIAS BIBLIOGRÁFICAS
[1] M. Mohan and J. Schroeter, "Speech Production Models and Their Digital Implementations," in Dgital Signal Processing Handbook, V. K. Madisetti and D. B. Williams, Eds., 1999, ch. 44. [2] César San Martín and Roberto Carrillo, "Implementación de un reconocedos de palabras
aisladas dependiente del locutor.," Revista Facultad de Ingeniería, U.T.A (Chile), vol. 12, no. 1,
pp. 9-14, 2004.
[3] Arthur C & Hall Guyton, "Respiración.," in Textbook of medical Physiology., ch. VII, pp. 537-
538.
[4] Un Chong and Yang Shih-Chien, "A pitch extraction algorithm based on LPC inverse filtering
and AMDF," Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 25, no. 6, pp.
565 - 572, Diciembre 1977.
[5] Hema A. Murthy and K. V. Madhu Murthy, "Formant Extraction from Fourier Transform
Phase," IEEE Trans. on Biomedical Engineering, pp. 484-488, 1989.
[6] P. Martín, "Comparison of pitch detection by cepstrum and spectral comb analysis," Acoustics,
Speech, and Signal Processing, IEEE International Conference on ICASSP '82., pp. 180-183, Mayo 1982.
[7] María E. Hernández-Díaz, "Algoritmos para la Extracción del Período Fundamental de la Voz: Desarrollo y Evaluación," Univercidad Central Martha Abreu de Las Villas, Santa Clara, Tesis doctoral 1996.
[8] H. & Hernández-Díaz, M. , Kairuz, "Análisis del Triángulo Vocálico en pacientes con implante coclear," IV Encuentro Iberoamericano de Trastornos del Lenguaje, Habla y Voz y Congreso Cubano, Habana, Cuba., 2008.
[9] Eduardo Castillo, "Algoritmos y Programas para el estudio de voces patológicas disártricas.," Centro de Estudios de Electrónica y Tecnologías de la Información (CEETI), Universidad Central de Las Villas (UCLV), Santa Clara, Cuba, 1996.
[10 ]
Héctor A. Kairuz Hernández – Díaz, "Detección y marca de los cambios espectrales notorios en voces patológicas," Centro de Estudios de Electrónica y Tecnologías de la Información (CEETI), Universidad Central de Las Villas (UCLV), Tesis de grado 2009.
[11 ]
Matías Zañartú, "Aplicaciones del análisis acústico en los estudios de la voz humana," Seminario Internacional de Acústica, Santiago de Chile, 2003.
Referencias Bibliográficas
46
[12 ]
M. J. Llau Arcusa and J. González, "Medida de la inteligibilidad en el habla disártrica," Revista
de Logopedia, Foniatría y Audiología, vol. 24, no. 1, pp. 33-43, 2004. [13
]
Susanna Varho, New Linear Predictive Methods for Digital Speech Processing. Helsinki, 2001.
[14 ]
Alex Acero, "Source-Filter Models for Time-Scale Pitch-Scale Modification of Speech," Microsoft Research, Wasington,.
[15 ]
F. A., Castellanos G. Sepúlveda, "Estimación de la Frecuencia Fundamental de Señales de Voz Usando Transformada Wavelet," 2004.
[16 ]
WJ Hess, "Pitch and Voice Determination of Speech with and Extesion Toward Musical Signal," in Springer Handbook of Speech Processing., 2008, ch. 10, pp. 181-208.
[17 ]
J.A. Facal, M.L. y Salvatori, J.M. Gurlekian, "Preparación de un Informe Clínico para tres
patologías de la voz.," in Topicos em Fonoaudiología. CEFAC, Zorzi, Gomes Marchesan, Ed.:
LOVISE, pp. Pp. 539-554. [18
]
Jose Antonio Díaz and Christine Sapienza, "Algoritmo robusto para la detección de la
frecuencia fundamental de la voz basado en el espectrograma," Revista de Ingeniería UC, vol.
10, no. 3, pp. 7-16, 2003. [19
]
M., Ramón, J. L. Rosique, "Análisis Discriminante Aplicado a los Formante de las Vocales Castellanas en la Fonación con Prótesis y Erigmofonía tras Laringuectomía total," España, 2003.
[20 ]
R. D., Weismer, G., Kent, J. F., Vorperian, H. K. Kent, "Acoustic Studies of Dysarthic Speech: Methods, Progress, and Potentia," University of Wisconsin Madison, 1999.
[21 ]
B.J., & Weisiger, B.E. Zski, "Identification of dysarthia types based on perceptual analysis," Journal of Communication Disorders, vol. 20, pp. 367-378, 1987.
[22 ]
R. J. Baken, Clinical Measurement of Speech and Voice. San Diego, 1999, ch. 9.
[23 ]
R. W. Schafer, "Homomorphic System and Cepstrum Analysis of Speech," in Springer
Handbook of Speech Processing. Canadá, 2008, ch. 9, pp. 161-180. [24
]
W. Keneth Jenkins, "Fourier Series, Fourier Transforms, and DFT," in Digital Signal Processing,
V. K. Madisetti and D. B. Williams, Eds., 1999, ch. 1.
Referencias Bibliográficas
47
] Detection," The Journal of the Acoustical Society of America, vol. 36, no. 2, pp. 296-302,
Febrero 1964. [26
]
Alan V. Oppenheim and Ronald W. Schafer, "From Frequency to Quefrency: A History of the
Cepstrum," IEEE Signal Processing Magazine, pp. 95-106, Septiembre 2004.
[27 ]
Michael A. Noll, "Cepstrum Pitch Determination," The Journal of the Acoustical Society of
America, vol. 41, no. 2, 1967. [28
]
H. Laforcada and D. Milone, "Diseño y desarrollo de un Software para el análisis y
procesamiento de señales de voz.," in Memorias del XIV Congreso Argentino de Bioingeniería,
2003, p. 66. [29
]
H. Kobayashi and T. Shimamura, "A modified cepstrum method for pitch extraction," in The
1998 IEEE Asia-Pacific Conference on Circuits and Systems. IEEE APCCAS, Chiangmai , Thailand, Noviembre 1998, pp. 299-302.
[30 ]
B. S. Atal, "The history of linear prediction," IEEE Signal Proc. , no. 23, pp. 154-161, 2006.
[31 ]
J. Benesty, J. Chen, and Y. Huang, "Linear Prediction," in Springer Handbook of Speech
Processing. Canadá, 2008, ch. 7, pp. 121-133. [32
]
Jhon G. Proakis and Dimitris G. Manolakis,.: Prentice Hall, 1998, ch. 11, pp. 861-900.
[33 ]
National Instrument, Labview V9.0, 2009.
[34 ]
David Gerhard, "Pitch Extraction and Fundamental Frequency: Hystory and Curent
Techniques," Department of Computer Science University of Regina, Regina, Canada, 2003. [35
]
Gastón Schlotthauery, María E. Torres, and Hugo R. Rufiner, "Determinación de la frecuencia fundamental de la voz basada en descomposición modal empírica por conjuntos y entropías," XIII Reunión de Trabajo en Procesamiento de la Información y Contror (RPIC 2009), Septiembre 2009.
[36 ]
(2011, Febrero) Using LabVIEW for Voice Signal Analysis. [Online]. HYPERLINK
"http://zone.ni.com/devzone/cda/epd/p/id/5977" http://zone.ni.com/devzone/cda/epd/p/i d/5977
[37 ]
Hiroshi Muta and Thomas Baer, "A Pitch-synchronous Analysis of Hoarseness in Running Speech," Haskins Laboratories, 1988.
Referencias Bibliográficas
48
[38 ]
Sassan Amhadi, "New Techniques for Sinusoidal Coding of Speech al 2400 BPS," IEEE, 2006.
[39 ]
Hannu Pulakka, "Analysis of Human Voice Production Using Inverse Filtering, High-Speed Imaging, and Electroglottography," HELSINKI UNIVERSITY OF TECHNOLOGY, Tesis de maestría 2005.
[40 ]
M. V. Wickerhauser, Adapted Wavelet Analysis from Theory to Software. Massachusetts: A K
Peters, 1994. [41
]
Chamwoo Kim, "A Robust Formant Extraction Algorithm Combining Spectral Peak Picking and
Root Polishing," EURASIP Journal on Applied Signal Processing, vol. 2006, pp. 1-16, 2006.
[42 ]
E. and Gath, I. Yair, "High resolution pole - zero analysis of Parkinsonian speech," IEEE Trans.
on Biomedical Engineering, vol. 38, no. 2, 1991. [43
]
J. L. and Del Riesgo, C. Flanagan, "Speech Processing: A perspectiveon the science and its
applications," AT & T Technical Journal, pp. 2-13, Sept./ Oct 1990.