• No se han encontrado resultados

Cómo se ve la voz? Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007

N/A
N/A
Protected

Academic year: 2021

Share "Cómo se ve la voz? Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007"

Copied!
5
0
0

Texto completo

(1)

Fabiola M. Mart´ınez Licona, John Goddard Close, Alma E. Mart´ınez Licona

Inteligencia Artificial Aplicada, Depto. Ingenier´ıa El´

ectrica, UAM-I.

fmml@xanum.uam.mx

Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007

Uno de los medios de comunicaci´on entre los huma-nos m´as importantes es el habla; mediante la emi-si´on de palabras se pueden expresar las ideas y sen-timientos de manera directa y efectiva. Por esa raz´on la producci´on de la voz humana es un ´area de inten-so estudio para diversas comunidades cient´ıficas y profesionales como la f´ısica, la ling¨u´ıstica y las cien-cias de la computaci´on.

La producci´on del habla se puede analizar desde di-versos puntos de vista como el ac´ustico, el fisiol´ogico o el psicol´ogico, siendo el ac´ustico de los m´as utiliza-dos para el an´alisis y desarrollo de aplicaciones en re-conocimiento y s´ıntesis. Ac´usticamente la voz se mo-dela como una fuente de sonido con ciertas propieda-des que est´an determinadas a partir de un filtro se-lectivo. El filtro representa al tracto vocal, conduc-to donde se producen los sonidos articulados que re-sultan en las palabras emitidas. Cuando una per-sona habla, las propiedades del filtro van cambian-do con el tiempo debicambian-do a los cambios en la geo-metr´ıa del tracto vocal, mismos que quedan deter-minados por los cambios en la posici´on de los ´ orga-nos localizados en su interior. El fonema es la m´ıni-ma unidad sonora de que se componen las palabras [1]. La emisi´on de fonemas se genera a partir del movimiento de los articuladores del habla, que in-cluyen cuerdas vocales, paladar, lengua, dientes, la-bios, ´uvula y quijada. La fig. 1 muestra la localiza-ci´on de algunos de dichos ´organos dentro del trac-to vocal.

En el campo de las tecnolog´ıas del habla es bien sa-bido que los sonidos no se producen de manera ais-lada; cada sonido tiene un efecto en los dem´as y a la vez es afectado por el resto de componentes so-noros, en particular por los sonidos vecinos dentro de la palabra. Este efecto dentro de la concatena-ci´on de unidades fon´eticas recibe el nombre de

coar-Figura 1. Esquema del tacto vocal

ticulaci´on. La coarticulaci´on se relaciona con la velo-cidad y la coordinaci´on de los movimientos de los ele-mentos dentro del tracto vocal y su efecto se obser-va en la gama de obser-variaciones que se presentan en la pronunciaci´on. Es por esta raz´on que una misma pa-labra o enunciado puede sonar diferente si es pro-nunciado por una persona de nacionalidad mexica-na o argentimexica-na, por umexica-na persomexica-na de la costa o la ciu-dad, o incluso por un ni˜no o un adulto ya sea hom-bre o mujer. Es materia de estudio la caracteriza-ci´on de estas diferencias ya que se puede obtener co-nocimiento acerca de los problemas en la emisi´on de sonidos o en la articulaci´on de palabras con la fi-nalidad de desarrollar procedimientos de rehabilita-ci´on en pacientes con estos problemas.

A manera de ejemplo, una vocal producida entre dos consonantes, digamos una /m/, presenta modifica-ciones en su representaci´on debido al efecto de las consonantes adyacentes. La consonante /m/ se pue-56

(2)

de caracterizar por el lugar donde se produce den-tro del tracto vocal; en este sentido, se dice que es una nasal debido a la participaci´on de las fosas na-sales en su producci´on. Este fonema se contrasta con los llamados oclusivos como la /p/ o la /t/ cuya ca-racter´ıstica principal es la retenci´on moment´anea del flujo de aire y su posterior liberaci´on de manera s´ ubi-ta. Una adecuada representaci´on de estos comporta-mientos resulta necesaria para su estudio.

Dada la velocidad con la que estos eventos ocurren y la variedad de cambios que se pueden presentar den-tro de una misma emisi´on, se requiere de una re-presentaci´on que los detecte y los represente con la claridad suficiente para caracterizarlos y, por ejem-plo predecirlos si pensamos en una aplicaci´on basa-da en reconocimiento. La representaci´on gr´afica de los eventos ac´usticos que se producen en el habla en algunas ocasiones carece de claridad cuando se tra-ta de analizar estos cambios, ya sea dentro del mis-mo hablante o en situaciones mutihablantes, por lo que se requiere de diferentes tipos de representacio-nes y an´alisis para su mejor comprensi´on. Los cam-bios que se mencionan se refieren a las modificacio-nes de los coarticuladores en el tracto vocal cuan-do pasan de la producci´on de un sonicuan-do a otro co-mo por ejemplo en un diptongo, la concatenaci´on de una vocal fuerte con una d´ebil, o en una s´ıla-ba de estructura compleja como en /trans/ donde una vocal se hace acompa˜nar de cuatro consonan-tes de las cuales una es oclusiva (de muy corta du-raci´on), otra es una nasal (producida a nivel de fo-sas nasales) y la otras dos son del tipo fricativo y vi-brante (con un comportamiento de tipo ruidoso). Para una emisi´on de habla, la representaci´on m´as sencilla y directa es la que relaciona la amplitud de la se˜nal con el tiempo en que ´esta se presenta; a es-te tipo se le denomina representaci´on en tiempo. Da-do que una se˜nal puede caracterizarse respecto a sus componentes en frecuencia, se puede obtener la re-presentaci´on en frecuencia, o el espectro de esa mis-ma se˜nal, aplicando la transformada r´apida de Fou-rier (FFT); sin embargo se requiere de una adecua-ci´on a la representaci´on gr´afica para detectar la ma-nera en que se presentan los cambios. Una carac-ter´ıstica del habla como se˜nal es que pertenece al grupo de se˜nales no estacionarias, es decir, es del ti-po de se˜nales que presentan cambios en su morfolog´ıa sin seguir un patr´on determinado o alguna periodici-dad. Para detectar las caracter´ısticas cambiantes se requiere de un “ventaneo” de la se˜nal, el cual con-siste en aplicar el algoritmo de la FFT a un

seg-mento de la misma; dicho segseg-mento queda determi-nado por la multiplicaci´on de la se˜nal por una fun-ci´on definida y finita denominada ventana. La repre-sentaci´on final maneja tres dimensiones, el tiempo, la frecuencia y la energ´ıa de la se˜nal dada por el es-pectro de potencia obtenido a partir de la FFT. Es-ta represenEs-taci´on recibe le nombre de espectrogra-ma y el algoritmo correspondiente se obtiene de

Γy(ω) = 2π ∞ X k=−∞ |Ck| 2 δ ω−k2π N ,

donde Γy(ω) es la densidad de potencia o espectro

de potencia de una se˜nal peri´odica y(n), y Ck son

los coeficientes asociados [2]. La fig. 2, p´ag. 58 pre-senta dos ejemplos de reprepre-sentaci´on en tiempo y frecuencia de fonemas, una vocal y una consonan-te. N´otese la caracter´ıstica cuasi peri´odica de la vo-cal /a/, misma que queda reflejada en la forman-te, la l´ınea en una banda de frecuencias fija a lo lar-go del tiempo de emisi´on. En contraste, la consonan-te /b/ presenta una forma dif´ıcil de caracconsonan-terizar, su espectrograma no parece representar los comporta-mientos vistos en el tiempo. Para la obtenci´on del es-pectrograma se utilizaron los siguientes par´ametros: frecuencia de muestreo de 16 KHz, n´umero de da-tos por segmento o ventana de 256 utilizando una funci´on hamming sin traslape.

El espectrograma tiene ciertas limitaciones, la m´as importante es que la resoluci´on en frecuencia que-da fija. Para se˜nales cambiantes en el tiempo lo ideal ser´ıa tener una representaci´on que pudiera identifi-car aquellos componentes a baja frecuencia que su-ceden en todo el tiempo y a los de alta frecuencia que se presentan en per´ıodos muy cortos de tiem-po. Desde hace algunos a˜nos se han desarrollado re-presentaciones tiempo-frecuencia que pueden resol-ver estas situaciones. En particular, la representa-ci´on basada en funciones limitadas en tiempo con caracter´ısticas definidas, ondillas, onditas o wave-lets, utiliza ventanas de ancho variable de acuerdo a la frecuencia; en este sentido su comportamien-to se asemeja al del o´ıdo que filtra de manera se-lectiva aquellos componentes que le permiten iden-tificar los sonidos y su articulaci´on. La descompo-sici´on de la se˜nal utilizando la transformada wave-let se desarrolla en forma jer´arquica por lo que se puede obtener una representaci´on en diferentes es-calas; entonces se puede hablar de una descompo-sici´on multiresoluci´on que permite observar

(3)

diver-Figura 2. Representaci´on en tiempo y frecuencia (espectrograma) de la vocal /a/ y la consonante /b/.

sos componentes definidos en tiempo y en frecuen-cia. La transformada wavelet se obtiene de

CW Tx(τ, a) = Z

x(t)·ψ∗

a,τ(t)·dt

donde ψ∗ es la funci´on u ondilla base, la cual se

descompone en versiones dilatadas en tiempo, dado porτ, y en escalas, dado pora[3].

En la fig. 3, p´ag. 59, se observan los tres tipos de re-presentaciones descritas, se trata de una s´ılaba que consta de una consonante fricativa y una vocal. En la parte inferior se muestra la representaci´on tempo-ral de la se˜nal donde se puede observar la diferen-cia morfol´ogica entre cada fonema. En la parte su-perior se presenta el espectrograma correspondien-te, donde se identifica la frontera entre ambos soni-dos y se puede apreciar la diferencia entre el com-portamiento espectral entre ellos, donde la vocal pre-senta su formante y la consonante su comportamien-to ruidoso. En la parte central de la misma figura se puede observar una representaci´on tiempo-escala de la s´ılaba. En este tipo de representaci´on cada esca-la puede verse como un acercamiento a esca-la descompo-sici´on de la se˜nal; en este sentido la vocal se descom-pone en paquetes temporales a lo largo de tres es-calas mientras que la consonante presenta compo-nentes de mediana energ´ıa a lo largo de cinco es-calas. Si bien es posible obtener una representaci´on adecuada, se deben cuidar aspectos como la resolu-ci´on en tiempo y escala, y la funresolu-ci´on base para desa-rrollar la descomposici´on en ondillas ya que para al-gunos casos es preferible para la descomposici´on

uti-lizar funci´on base que tenga caracter´ısticas simila-res a las de la se˜nal bajo estudio.

A partir de la representaci´on tiempo-frecuencia se ha desarrollado una serie de descomposiciones que pre-sentan variantes en la manera de obtener las fami-lias de funciones. En una de ellas se desarroll´o un al-goritmo que busca la base que mejor se ajusta a la se˜nal, este tipo de descomposici´on recibe el nombre de b´usqueda ajustada o matching pursuit. De ma-nera gema-neral el algoritmo es del tipo iterativo y des-compone la se˜nal en diccionarios de vectores. Un dic-cionario es una familia de vectores incluida en un espacio de Hilbert con norma unitaria. La mane-ra en que se obtiene la descomposici´on es la siguien-te. SeaR0

f = f; sup´ongase que se ha calculado el residuo de orden n-´esimo Rnf, para n 0.

Enton-ces se elige un elemento que pertenece al diccionario,

gγn∈D, el cual se acerque al residuoR

nf de tal

for-ma que

|C(Rnf, gγn)|= supγ∈Γ|C(R

n

f, gγ)|

dondeC(f, gγ) es una funci´on de correlaci´on que

mi-de la similitud entref ygγ. El residuoRnf se

vuel-ve a descomponer ahora en

Rnf = (Rnf, gγn)gγn+R

n+1

f

que define el residuo del ordenn+ 1. En el algoritmo de Matching Pursuit (MP) introducido inicialmente por Mallat y Zhang [4], la funci´on de correlaci´on uti-lizada es el producto internoC(f, gγ) =hf, gγi.

Pa-ra cualquiePa-ra de las funciones de correlaci´on utiliza-das se ha probado que la energ´ıa del error||Rnf||2

(4)

Figura 3. Representaciones gr´aficas de una s´ılaba. En or-den descenor-dente: espectrograma, representaci´on tiempo-escala mediante la transformada wavelet y representa-ci´on temporal.

decae a cero. Entonces iterando la ecuaci´on ante-rior se obtiene la descomposici´on at´omica de la se˜nal

f =

+∞

X

n=0

C(Rnf, gγn)gγn

La fig. 4 se presenta la representaci´on gr´afica del fonema /b/ en el tiempo, parte media, y su des-composici´on mediante matching pursuit, parte su-perior. En la parte inferior se muestran los coeficien-tes de la descomposici´on. Se puede observar que la morfolog´ıa del fonema presenta un comportamien-to muy irregular, n´otese la diferencia con respeccomportamien-to al otro fonema /b/ de la fig. 2. La descomposici´on me-diante MP parece que sigue los cambios abruptos

Figura 4. Representaciones gr´aficas del fonema /b/. En orden descendente: representaci´on mediante la descom-posici´on MP, representaci´on temporal y coeficientes de la descomposici´on MP.

presentados en el tiempo, adem´as se puede obser-var que en el dominio del tiempo-frecuencia el n´ ume-ro de elementos diferentes de ceume-ro es menor compara-do con el espectrograma o la representaci´on tiempo-escala. Analizando la sucesi´on de elementos a lo lar-go del tiempo y su localizaci´on en el plano de fase, un tipo de representaci´on tiempo-frecuencia, se de pensar en que unos cuantos componentes pue-den representar el comportamiento del fonema y de ellos hay algunos cuyo contenido de energ´ıa, repre-sentado por el nivel de gris, es mucho mayor al resto de elementos.

Se han presentado diferentes maneras de represen-tar la se˜nal del habla. Algunas de ellas se han utili-zado frecuentemente para estudiar efectos en la pro-nunciaci´on de palabras como la coarticulaci´on, men-cionada anteriormente [5]. El efecto de coarticula-ci´on se puede observar en la Fig. 5, (p´ag. 60) donde se presenta la frase “B´elgica dispuesta” (tomada de un enunciado del Latino40) le´ıda por una hablante gua-temalteca y otra argentina [6]. La morfolog´ıa de los espectros de potencia para las emisiones de la pala-bras dispuesta muestran diferencias apreciables so-bre todo en la primera parte, la s´ılaba /dis/. La pri-mera hablante hace una pausa larga entre la pronun-ciaci´on de la primera y segunda palabras, el espec-tro muestra la diferenciaci´on de las s´ılabas pero el fo-nema /d/ pr´acticamente no se ve mientras que la /i/

(5)

Figura 5. Representaciones espectrogr´afica de la frase “B´elgica dispuesta” pronunciada por una hablante de Guatemala (parte superior) y de Argentina (parte in-ferior).

aparece con muy poca energ´ıa y la /s/ aparece con por un tiempo corto y compacta. En el segundo ca-so la pronunciaci´on se realiza de manera m´as conti-nua y las s´ılabas y fonemas se pueden distinguir, in-cluyendo el fonema /d/; la /i/ se ve con m´as claridad y la /s/ muestra su caracter´ıstica fricativa de mane-ra diferente al primer caso. Otro aspecto considemane-ra- considera-ble para determinar las diferencias en la coarticula-ci´on de la frase es la pausa entre palabras, donde ra la primera hablante ´esta se alarga m´as que pa-ra la segunda. En este caso se puede obtener infor-maci´on acerca de la fluidez del hablante, la diferen-cia en la pronundiferen-ciaci´on de sonidos e incluso la velo-cidad en el habla.

El habla como se˜nal es una de las m´as interesan-tes desde el punto de vista del an´alisis dadas sus ca-racter´ısticas y variaciones. Con las t´ecnicas descri-tas es posible ver el habla y estudiar los efectos que diferentes condiciones tienen sobre la emisi´on de so-nidos articulados. Algunas de estas t´ecnicas pare-cen m´as adecuadas para el an´alisis que otras en al-gunos casos; sin embargo la posibilidad de visuali-zar el comportamiento de los sonidos, en el tiem-po, en la frecuencia o en ambos dominios a la vez, y de num´ericamente representarlos permite el desa-rrollo de herramientas para su aplicaci´on a diferen-tes campos como lo es el reconocimiento del ha-bla para activar sistemas de seguridad o de

s´ınte-sis para el desarrollo de interfaces hombre-m´aquina. En el Departamento de Ingenier´ıa El´ectrica el gru-po de profesores investigadores del camgru-po de la inte-ligencia artificial se ha encargado de desarrollar es-tudios tendientes al an´alisis y caracterizaci´on del ha-bla mediante m´etodos convencionales y no conven-cionales con la finalidad de proponer formas alterna-tivas para su caraterizaci´on.

Bibliograf´ıa

1. Morgan N., Boulard H., “Continuous Speech Recognition”, IEEE Signal Processing Magazi-ne, pp.25-41, Mayo 1995.

2. J. R. Deller, J. H. Hansen and J. G. Proakis, “Discrete-time Processing of Speech Signals”,

IEEE Press,2000.

3. S. Mallat,A Wavelet Tour of signal Processing, 2nd Edition, Academic Press, 1999.

4. S. Mallat, Z. Zhang, “Matching Pursuit with Time-Frequency Dictionaries”, IEEE Trans. Signal Process., Vol. 41(12):3397-3415, 1993. 5. Mart´ınez Licona A. E., Mart´ınez Licona F.

M., Vidal Cabrera O. O., Goddard Close J.C., “Estudio del Efecto Coarticulatorio en el Ha-bla”,Revista Mexicana de Ingenier´ıa Biom´ edi-ca, marzo 2004, vol. XXV, n´umero I. pp. 67-77. 6. Bernstein, Jared, et al. “The Latino40 Speech Database”. Entropic Research Laboratory, Wa-shington, DC. 1994.

Referencias

Documento similar

"No porque las dos, que vinieron de Valencia, no merecieran ese favor, pues eran entrambas de tan grande espíritu […] La razón porque no vió Coronas para ellas, sería

[r]

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

Tome el MacRm media libra de Manecca de puerca ,media Je Manmca de Bac media de A- yre Rolado ,media de Azeyre Violado, y re poMc'tn holla vi- driadaafuegommfo,paza que

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de