Fabiola M. Mart´ınez Licona, John Goddard Close, Alma E. Mart´ınez Licona
Inteligencia Artificial Aplicada, Depto. Ingenier´ıa El´
ectrica, UAM-I.
fmml@xanum.uam.mx
Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007
Uno de los medios de comunicaci´on entre los huma-nos m´as importantes es el habla; mediante la emi-si´on de palabras se pueden expresar las ideas y sen-timientos de manera directa y efectiva. Por esa raz´on la producci´on de la voz humana es un ´area de inten-so estudio para diversas comunidades cient´ıficas y profesionales como la f´ısica, la ling¨u´ıstica y las cien-cias de la computaci´on.
La producci´on del habla se puede analizar desde di-versos puntos de vista como el ac´ustico, el fisiol´ogico o el psicol´ogico, siendo el ac´ustico de los m´as utiliza-dos para el an´alisis y desarrollo de aplicaciones en re-conocimiento y s´ıntesis. Ac´usticamente la voz se mo-dela como una fuente de sonido con ciertas propieda-des que est´an determinadas a partir de un filtro se-lectivo. El filtro representa al tracto vocal, conduc-to donde se producen los sonidos articulados que re-sultan en las palabras emitidas. Cuando una per-sona habla, las propiedades del filtro van cambian-do con el tiempo debicambian-do a los cambios en la geo-metr´ıa del tracto vocal, mismos que quedan deter-minados por los cambios en la posici´on de los ´ orga-nos localizados en su interior. El fonema es la m´ıni-ma unidad sonora de que se componen las palabras [1]. La emisi´on de fonemas se genera a partir del movimiento de los articuladores del habla, que in-cluyen cuerdas vocales, paladar, lengua, dientes, la-bios, ´uvula y quijada. La fig. 1 muestra la localiza-ci´on de algunos de dichos ´organos dentro del trac-to vocal.
En el campo de las tecnolog´ıas del habla es bien sa-bido que los sonidos no se producen de manera ais-lada; cada sonido tiene un efecto en los dem´as y a la vez es afectado por el resto de componentes so-noros, en particular por los sonidos vecinos dentro de la palabra. Este efecto dentro de la concatena-ci´on de unidades fon´eticas recibe el nombre de
coar-Figura 1. Esquema del tacto vocal
ticulaci´on. La coarticulaci´on se relaciona con la velo-cidad y la coordinaci´on de los movimientos de los ele-mentos dentro del tracto vocal y su efecto se obser-va en la gama de obser-variaciones que se presentan en la pronunciaci´on. Es por esta raz´on que una misma pa-labra o enunciado puede sonar diferente si es pro-nunciado por una persona de nacionalidad mexica-na o argentimexica-na, por umexica-na persomexica-na de la costa o la ciu-dad, o incluso por un ni˜no o un adulto ya sea hom-bre o mujer. Es materia de estudio la caracteriza-ci´on de estas diferencias ya que se puede obtener co-nocimiento acerca de los problemas en la emisi´on de sonidos o en la articulaci´on de palabras con la fi-nalidad de desarrollar procedimientos de rehabilita-ci´on en pacientes con estos problemas.
A manera de ejemplo, una vocal producida entre dos consonantes, digamos una /m/, presenta modifica-ciones en su representaci´on debido al efecto de las consonantes adyacentes. La consonante /m/ se pue-56
de caracterizar por el lugar donde se produce den-tro del tracto vocal; en este sentido, se dice que es una nasal debido a la participaci´on de las fosas na-sales en su producci´on. Este fonema se contrasta con los llamados oclusivos como la /p/ o la /t/ cuya ca-racter´ıstica principal es la retenci´on moment´anea del flujo de aire y su posterior liberaci´on de manera s´ ubi-ta. Una adecuada representaci´on de estos comporta-mientos resulta necesaria para su estudio.
Dada la velocidad con la que estos eventos ocurren y la variedad de cambios que se pueden presentar den-tro de una misma emisi´on, se requiere de una re-presentaci´on que los detecte y los represente con la claridad suficiente para caracterizarlos y, por ejem-plo predecirlos si pensamos en una aplicaci´on basa-da en reconocimiento. La representaci´on gr´afica de los eventos ac´usticos que se producen en el habla en algunas ocasiones carece de claridad cuando se tra-ta de analizar estos cambios, ya sea dentro del mis-mo hablante o en situaciones mutihablantes, por lo que se requiere de diferentes tipos de representacio-nes y an´alisis para su mejor comprensi´on. Los cam-bios que se mencionan se refieren a las modificacio-nes de los coarticuladores en el tracto vocal cuan-do pasan de la producci´on de un sonicuan-do a otro co-mo por ejemplo en un diptongo, la concatenaci´on de una vocal fuerte con una d´ebil, o en una s´ıla-ba de estructura compleja como en /trans/ donde una vocal se hace acompa˜nar de cuatro consonan-tes de las cuales una es oclusiva (de muy corta du-raci´on), otra es una nasal (producida a nivel de fo-sas nasales) y la otras dos son del tipo fricativo y vi-brante (con un comportamiento de tipo ruidoso). Para una emisi´on de habla, la representaci´on m´as sencilla y directa es la que relaciona la amplitud de la se˜nal con el tiempo en que ´esta se presenta; a es-te tipo se le denomina representaci´on en tiempo. Da-do que una se˜nal puede caracterizarse respecto a sus componentes en frecuencia, se puede obtener la re-presentaci´on en frecuencia, o el espectro de esa mis-ma se˜nal, aplicando la transformada r´apida de Fou-rier (FFT); sin embargo se requiere de una adecua-ci´on a la representaci´on gr´afica para detectar la ma-nera en que se presentan los cambios. Una carac-ter´ıstica del habla como se˜nal es que pertenece al grupo de se˜nales no estacionarias, es decir, es del ti-po de se˜nales que presentan cambios en su morfolog´ıa sin seguir un patr´on determinado o alguna periodici-dad. Para detectar las caracter´ısticas cambiantes se requiere de un “ventaneo” de la se˜nal, el cual con-siste en aplicar el algoritmo de la FFT a un
seg-mento de la misma; dicho segseg-mento queda determi-nado por la multiplicaci´on de la se˜nal por una fun-ci´on definida y finita denominada ventana. La repre-sentaci´on final maneja tres dimensiones, el tiempo, la frecuencia y la energ´ıa de la se˜nal dada por el es-pectro de potencia obtenido a partir de la FFT. Es-ta represenEs-taci´on recibe le nombre de espectrogra-ma y el algoritmo correspondiente se obtiene de
Γy(ω) = 2π ∞ X k=−∞ |Ck| 2 δ ω−k2π N ,
donde Γy(ω) es la densidad de potencia o espectro
de potencia de una se˜nal peri´odica y(n), y Ck son
los coeficientes asociados [2]. La fig. 2, p´ag. 58 pre-senta dos ejemplos de reprepre-sentaci´on en tiempo y frecuencia de fonemas, una vocal y una consonan-te. N´otese la caracter´ıstica cuasi peri´odica de la vo-cal /a/, misma que queda reflejada en la forman-te, la l´ınea en una banda de frecuencias fija a lo lar-go del tiempo de emisi´on. En contraste, la consonan-te /b/ presenta una forma dif´ıcil de caracconsonan-terizar, su espectrograma no parece representar los comporta-mientos vistos en el tiempo. Para la obtenci´on del es-pectrograma se utilizaron los siguientes par´ametros: frecuencia de muestreo de 16 KHz, n´umero de da-tos por segmento o ventana de 256 utilizando una funci´on hamming sin traslape.
El espectrograma tiene ciertas limitaciones, la m´as importante es que la resoluci´on en frecuencia que-da fija. Para se˜nales cambiantes en el tiempo lo ideal ser´ıa tener una representaci´on que pudiera identifi-car aquellos componentes a baja frecuencia que su-ceden en todo el tiempo y a los de alta frecuencia que se presentan en per´ıodos muy cortos de tiem-po. Desde hace algunos a˜nos se han desarrollado re-presentaciones tiempo-frecuencia que pueden resol-ver estas situaciones. En particular, la representa-ci´on basada en funciones limitadas en tiempo con caracter´ısticas definidas, ondillas, onditas o wave-lets, utiliza ventanas de ancho variable de acuerdo a la frecuencia; en este sentido su comportamien-to se asemeja al del o´ıdo que filtra de manera se-lectiva aquellos componentes que le permiten iden-tificar los sonidos y su articulaci´on. La descompo-sici´on de la se˜nal utilizando la transformada wave-let se desarrolla en forma jer´arquica por lo que se puede obtener una representaci´on en diferentes es-calas; entonces se puede hablar de una descompo-sici´on multiresoluci´on que permite observar
diver-Figura 2. Representaci´on en tiempo y frecuencia (espectrograma) de la vocal /a/ y la consonante /b/.
sos componentes definidos en tiempo y en frecuen-cia. La transformada wavelet se obtiene de
CW Tx(τ, a) = Z
x(t)·ψ∗
a,τ(t)·dt
donde ψ∗ es la funci´on u ondilla base, la cual se
descompone en versiones dilatadas en tiempo, dado porτ, y en escalas, dado pora[3].
En la fig. 3, p´ag. 59, se observan los tres tipos de re-presentaciones descritas, se trata de una s´ılaba que consta de una consonante fricativa y una vocal. En la parte inferior se muestra la representaci´on tempo-ral de la se˜nal donde se puede observar la diferen-cia morfol´ogica entre cada fonema. En la parte su-perior se presenta el espectrograma correspondien-te, donde se identifica la frontera entre ambos soni-dos y se puede apreciar la diferencia entre el com-portamiento espectral entre ellos, donde la vocal pre-senta su formante y la consonante su comportamien-to ruidoso. En la parte central de la misma figura se puede observar una representaci´on tiempo-escala de la s´ılaba. En este tipo de representaci´on cada esca-la puede verse como un acercamiento a esca-la descompo-sici´on de la se˜nal; en este sentido la vocal se descom-pone en paquetes temporales a lo largo de tres es-calas mientras que la consonante presenta compo-nentes de mediana energ´ıa a lo largo de cinco es-calas. Si bien es posible obtener una representaci´on adecuada, se deben cuidar aspectos como la resolu-ci´on en tiempo y escala, y la funresolu-ci´on base para desa-rrollar la descomposici´on en ondillas ya que para al-gunos casos es preferible para la descomposici´on
uti-lizar funci´on base que tenga caracter´ısticas simila-res a las de la se˜nal bajo estudio.
A partir de la representaci´on tiempo-frecuencia se ha desarrollado una serie de descomposiciones que pre-sentan variantes en la manera de obtener las fami-lias de funciones. En una de ellas se desarroll´o un al-goritmo que busca la base que mejor se ajusta a la se˜nal, este tipo de descomposici´on recibe el nombre de b´usqueda ajustada o matching pursuit. De ma-nera gema-neral el algoritmo es del tipo iterativo y des-compone la se˜nal en diccionarios de vectores. Un dic-cionario es una familia de vectores incluida en un espacio de Hilbert con norma unitaria. La mane-ra en que se obtiene la descomposici´on es la siguien-te. SeaR0
f = f; sup´ongase que se ha calculado el residuo de orden n-´esimo Rnf, para n≥ 0.
Enton-ces se elige un elemento que pertenece al diccionario,
gγn∈D, el cual se acerque al residuoR
nf de tal
for-ma que
|C(Rnf, gγn)|= supγ∈Γ|C(R
n
f, gγ)|
dondeC(f, gγ) es una funci´on de correlaci´on que
mi-de la similitud entref ygγ. El residuoRnf se
vuel-ve a descomponer ahora en
Rnf = (Rnf, gγn)gγn+R
n+1
f
que define el residuo del ordenn+ 1. En el algoritmo de Matching Pursuit (MP) introducido inicialmente por Mallat y Zhang [4], la funci´on de correlaci´on uti-lizada es el producto internoC(f, gγ) =hf, gγi.
Pa-ra cualquiePa-ra de las funciones de correlaci´on utiliza-das se ha probado que la energ´ıa del error||Rnf||2
Figura 3. Representaciones gr´aficas de una s´ılaba. En or-den descenor-dente: espectrograma, representaci´on tiempo-escala mediante la transformada wavelet y representa-ci´on temporal.
decae a cero. Entonces iterando la ecuaci´on ante-rior se obtiene la descomposici´on at´omica de la se˜nal
f =
+∞
X
n=0
C(Rnf, gγn)gγn
La fig. 4 se presenta la representaci´on gr´afica del fonema /b/ en el tiempo, parte media, y su des-composici´on mediante matching pursuit, parte su-perior. En la parte inferior se muestran los coeficien-tes de la descomposici´on. Se puede observar que la morfolog´ıa del fonema presenta un comportamien-to muy irregular, n´otese la diferencia con respeccomportamien-to al otro fonema /b/ de la fig. 2. La descomposici´on me-diante MP parece que sigue los cambios abruptos
Figura 4. Representaciones gr´aficas del fonema /b/. En orden descendente: representaci´on mediante la descom-posici´on MP, representaci´on temporal y coeficientes de la descomposici´on MP.
presentados en el tiempo, adem´as se puede obser-var que en el dominio del tiempo-frecuencia el n´ ume-ro de elementos diferentes de ceume-ro es menor compara-do con el espectrograma o la representaci´on tiempo-escala. Analizando la sucesi´on de elementos a lo lar-go del tiempo y su localizaci´on en el plano de fase, un tipo de representaci´on tiempo-frecuencia, se de pensar en que unos cuantos componentes pue-den representar el comportamiento del fonema y de ellos hay algunos cuyo contenido de energ´ıa, repre-sentado por el nivel de gris, es mucho mayor al resto de elementos.
Se han presentado diferentes maneras de represen-tar la se˜nal del habla. Algunas de ellas se han utili-zado frecuentemente para estudiar efectos en la pro-nunciaci´on de palabras como la coarticulaci´on, men-cionada anteriormente [5]. El efecto de coarticula-ci´on se puede observar en la Fig. 5, (p´ag. 60) donde se presenta la frase “B´elgica dispuesta” (tomada de un enunciado del Latino40) le´ıda por una hablante gua-temalteca y otra argentina [6]. La morfolog´ıa de los espectros de potencia para las emisiones de la pala-bras dispuesta muestran diferencias apreciables so-bre todo en la primera parte, la s´ılaba /dis/. La pri-mera hablante hace una pausa larga entre la pronun-ciaci´on de la primera y segunda palabras, el espec-tro muestra la diferenciaci´on de las s´ılabas pero el fo-nema /d/ pr´acticamente no se ve mientras que la /i/
Figura 5. Representaciones espectrogr´afica de la frase “B´elgica dispuesta” pronunciada por una hablante de Guatemala (parte superior) y de Argentina (parte in-ferior).
aparece con muy poca energ´ıa y la /s/ aparece con por un tiempo corto y compacta. En el segundo ca-so la pronunciaci´on se realiza de manera m´as conti-nua y las s´ılabas y fonemas se pueden distinguir, in-cluyendo el fonema /d/; la /i/ se ve con m´as claridad y la /s/ muestra su caracter´ıstica fricativa de mane-ra diferente al primer caso. Otro aspecto considemane-ra- considera-ble para determinar las diferencias en la coarticula-ci´on de la frase es la pausa entre palabras, donde ra la primera hablante ´esta se alarga m´as que pa-ra la segunda. En este caso se puede obtener infor-maci´on acerca de la fluidez del hablante, la diferen-cia en la pronundiferen-ciaci´on de sonidos e incluso la velo-cidad en el habla.
El habla como se˜nal es una de las m´as interesan-tes desde el punto de vista del an´alisis dadas sus ca-racter´ısticas y variaciones. Con las t´ecnicas descri-tas es posible ver el habla y estudiar los efectos que diferentes condiciones tienen sobre la emisi´on de so-nidos articulados. Algunas de estas t´ecnicas pare-cen m´as adecuadas para el an´alisis que otras en al-gunos casos; sin embargo la posibilidad de visuali-zar el comportamiento de los sonidos, en el tiem-po, en la frecuencia o en ambos dominios a la vez, y de num´ericamente representarlos permite el desa-rrollo de herramientas para su aplicaci´on a diferen-tes campos como lo es el reconocimiento del ha-bla para activar sistemas de seguridad o de
s´ınte-sis para el desarrollo de interfaces hombre-m´aquina. En el Departamento de Ingenier´ıa El´ectrica el gru-po de profesores investigadores del camgru-po de la inte-ligencia artificial se ha encargado de desarrollar es-tudios tendientes al an´alisis y caracterizaci´on del ha-bla mediante m´etodos convencionales y no conven-cionales con la finalidad de proponer formas alterna-tivas para su caraterizaci´on.
Bibliograf´ıa
1. Morgan N., Boulard H., “Continuous Speech Recognition”, IEEE Signal Processing Magazi-ne, pp.25-41, Mayo 1995.
2. J. R. Deller, J. H. Hansen and J. G. Proakis, “Discrete-time Processing of Speech Signals”,
IEEE Press,2000.
3. S. Mallat,A Wavelet Tour of signal Processing, 2nd Edition, Academic Press, 1999.
4. S. Mallat, Z. Zhang, “Matching Pursuit with Time-Frequency Dictionaries”, IEEE Trans. Signal Process., Vol. 41(12):3397-3415, 1993. 5. Mart´ınez Licona A. E., Mart´ınez Licona F.
M., Vidal Cabrera O. O., Goddard Close J.C., “Estudio del Efecto Coarticulatorio en el Ha-bla”,Revista Mexicana de Ingenier´ıa Biom´ edi-ca, marzo 2004, vol. XXV, n´umero I. pp. 67-77. 6. Bernstein, Jared, et al. “The Latino40 Speech Database”. Entropic Research Laboratory, Wa-shington, DC. 1994.