SVTA: Sistema de síntesis de voz visual a partir de texto y audio

(1)

Abstract—Este artículo presenta el desarrollo y evaluación del sistema de síntesis de voz visual SVTA, el cual toma un texto o un archivo de audio en idioma español y genera una secuencia sincronizada de video y audio. El trabajo se enfocó en encontrar y optimizar un método de entrenamiento semiautomático, basado en aprendizaje supervisado, para obtener un conjunto reducido de imágenes que permitan sintetizar cualquier frase en el idioma, a partir de un video corto. Para la síntesis se propone el uso de una modificación del algoritmo de Viterbi para encontrar una trayectoria de imágenes natural que se ajuste a la frase de entrada. SVTA tiene como salida final una reproducción en tiempo real del video sintetizado si la entrada es texto o un video sintético en formato AVI acompañado de la voz natural si la entrada es un archivo de audio.

Palabras Clave— Síntesis de voz visual, Cuantificación vectorial, Interpolación de Imágenes, TTS, Segmentación fonética.

I. INTRODUCCIÓN

A producción natural de voz es un proceso complejo en el que participan elementos como los pulmones, las cuerdas vocales, el tracto vocal y las diferentes partes de la boca (dientes, lengua y paladar entre otros). Para interpretar la voz el cerebro realiza una integración de la información audiovisual que recibe [1]. Esto es ventajoso ya que se tienen dos fuentes de información: la auditiva y la visual, que además están relacionadas estrechamente por una correspondencia directa, donde a cada fonema le corresponde una postura visual determinada, que no es única porque varios fonemas pueden tener la misma representación visual o porque un fonema puede tener varias representaciones visuales [2].

Un sistema de generación de voz visual contribuye significativamente a la inteligibilidad del habla, particularmente en condiciones de audio adversas [1] [3]. Las aplicaciones de un sistema con estas características son tan variadas como los servicios de telecomunicaciones, ayuda a personas con discapacidades, aprendizaje del idioma español, mejoramiento de la comunicación hombre máquina, etc.

La relación entre las características visuales y acústicas del

R. E. Carillo y A. F. Quijano, pertenecen al grupo de investigación de Bioingeniería, Análisis de Señales y Procesamiento de Imágenes de la Pontificia Universidad Javeriana de Bogotá. (Correos electrónicos:

[email protected], [email protected] ).

P. R. Vizcaya, profesor asociado del departamento de Ingeniería Electrónica y director del grupo de investigación de Bioingeniería, Análisis de Señales y Procesamiento de Imágenes de la Pontificia Universidad Javeriana de Bogotá. (Correo electrónico: [email protected] ).

habla se han explotado para codificar los movimientos articulatorios del hablante y usar modelos animados para reproducirlos. En los últimos años se han hecho grandes avances en el campo de la síntesis de voz visual, lo que ha llevado a que diferentes métodos como animaciones de modelos humanos [4][5], modelos paramétricos [6][7] y aproximaciones fotorealísticas [8] hayan sido estudiados.

En este trabajo se construyó el sintetizador de voz visual SVTA, que toma como entrada un texto cualquiera en idioma español o una señal de voz acústica y genera una secuencia sincronizada de imágenes acompañada por la voz natural de entrada o por voz artificial, a partir de un conjunto reducido de imágenes. Para esto se utilizó un método híbrido entre los métodos basados en aproximaciones fotorealísticas y los basados en modelos paramétricos, en el que la selección de las imágenes que componen el video sintetizado se hace en un espacio paramétrico, pero las imágenes utilizadas son tomadas de un conjunto de imágenes reales.

El presente artículo está organizado de la siguiente forma:

en la sección II, se hacen algunas definiciones básicas de voz visual y se hace una breve presentación de trabajos anteriores en el área. En la sección III se muestran, de manera general, las funciones más importantes de SVTA y los dos módulos que lo componen; en las secciones IV y V se hace una descripción detallada de cada uno de esos módulos, explicando cada uno de los bloques en que se dividieron. En la sección VI se muestra la forma como se evaluó el sintetizador y los resultados obtenidos en dicha evaluación y finalmente, en la sección VII se presentan las conclusiones finales del proyecto.

II. ANTECEDENTES

A. Voz Visual

Dentro del ambiente de investigación en tecnologías del habla, se emplea el término voz visual para denotar el conjunto de movimientos faciales necesarios para producir la voz. A cada fonema le corresponde una postura visual determinada, que no es única porque varios fonemas pueden tener la misma representación visual o porque un fonema puede tener varias representaciones visuales [2].

Un visema es la representación facial que se asocia con uno o más fonemas determinados. Esta asociación entre fonemas y visemas depende de las características articulatorias de cada persona [1] y del idioma o dialecto en particular.

SVTA: Sistema de síntesis de voz visual a partir de texto y audio

Rafael Eduardo Carrillo Rangel, Andrés Felipe Quijano Muñoz y Pedro Raúl Vizcaya Guarín

L

(2)

B. Síntesis de Voz Visual

Los sistemas para síntesis de voz visual se pueden clasificar en dos grandes grupos. El primer grupo se basa en una descripción paramétrica de las imágenes de los visemas en el video de entrenamiento, la síntesis se realiza en el dominio paramétrico y, a la salida, se obtiene la animación de una cara pronunciando el texto o audio deseado [7][8][9]. El segundo grupo, se basa en una aproximación fotorealística y consiste en la generación de secuencias de imágenes, a partir de una base de datos utilizando algoritmos de morfosis y flujo óptico [2][10].

En el grupo de Bioingeniería, análisis de señales y procesamiento de imágenes en la Pontificia Universidad Javeriana, se ha venido trabajando en un algoritmo de generación de secuencias que busca crear transiciones suaves entre un par de imágenes. Para generar estas transiciones suaves el algoritmo busca la secuencia que tenga la menor distancia acumulada entre una imagen origen y una destino [8].

III. DESCRIPCIÓN GLOBAL

SVTA es un sintetizador de voz visual que toma como entrada un texto cualquiera o una señal de voz acústica en idioma español y genera una secuencia sincronizada de imágenes acompañada por la voz natural de entrada o por voz artificial obtenida del sintetizador Mbrola® [11], a partir de un conjunto reducido de imágenes. SVTA fue desarrollado como una aplicación en Visual C++ 6.0; trabaja con una resolución de imagen de 720x480 píxeles, una tasa de reproducción de video de 30cps, audio de salida PCM lineal de 16KHz y 16bits por muestra y formato de video AVI sin compresión tanto para los videos de entrada y salida.

Este sintetizador está dividido en dos grandes módulos: El módulo de entrenamiento, en el que se obtiene el conjunto de imágenes que serán utilizadas en la síntesis y el módulo de síntesis en donde directamente se genera el video artificial de salida.

IV. MODULODE ENTRENAMIENTO

En la fase de entrenamiento el sistema recibe un video en formato AVI (con las características descritas en la sección anterior), en el que aparece una persona pronunciando un texto predeterminado y un archivo con la descripción fonética del mismo, en el que se especifica el inicio y fin de cada fonema.

El texto predeterminado contiene un conjunto representativo de visemas y sus transiciones. La salida del módulo de entrenamiento es un video, al cual llamaremos el Libro de Códigos, que contiene las imágenes representantes de todos los visemas en el idioma español y un conjunto de imágenes para generar secuencias intermedias entre cualquier par de visemas. A parte del Libro de Códigos el módulo tiene también como salida un archivo donde se almacenan las distancias euclidianas entre todas las imágenes en él. El archivo de distancias y el Libro de Códigos permitirán realizar la síntesis de cualquier frase con sentido. En la Fig. 1 se presenta el diagrama en bloques del módulo de entrenamiento.

Fig. 1. Diagrama en bloques del módulo de entrenamiento.

A. Generación de descripción visémica

La descripción fonética de entrada ingresa al bloque Generación de Descripción Visémica, en donde se genera una lista en la que se indica qué visema le corresponde a cada fonema.

B. Etiquetado

En este bloque a cada una de las imágenes del video se le asigna su correspondiente visema . Esta tarea se realiza a partir de la descripción visémica obtenida en el bloque anterior, pues si se conoce la duración de cada fonema en la secuencia de audio, se puede determinar qué visema está siendo pronunciado en cada una de las imágenes del video de entrada.

C. Parametrización

Este módulo busca representar cada una de las imágenes del video de entrenamiento como un conjunto reducido de parámetros. Para esto, se extrae una ventana de 64x128 píxeles en la que esté contenida la región de la boca. Esta ventana es representada en escala de grises y se calcula la DCT en dos dimensiones. De la matriz de coeficientes obtenida, se escogen los primeros 8x16 elementos, que corresponden a los coeficientes de frecuencias más bajas, en los que está concentrada cerca del 96% de la energía total de la imagen [8]. Cada imagen queda entonces representada como un vector de características de 128 posiciones.

D. Detector de silencios

El bloque Detector de Silencios tiene dos funciones principales: seleccionar las imágenes del video de entrenamiento que corresponden a un silencio en el audio y calcular la energía que tiene el audio en la duración de cada imagen. Para ello, se segmenta el audio en ventanas de 30ms con una tasa de actualización de 10ms y se calcula la energía para cada ventana.

E. Selección del libro de Códigos

Este bloque es el núcleo de la fase de entrenamiento y su objetivo principal es escoger la imagen que mejor representa cada uno de los visemas y las imágenes que serán utilizadas para generar las transiciones entre ellas.

El método utilizado para hacer la cuantificación vectorial, es escoger como representante, la imagen cuyo vector de características esté más cercano (mínima distancia Euclidiana) al estimado de la media de cada conjunto. Es decir, se escoge el representante como:

( )

{

²

}

arg min ,

i k

k L i k

Y

d

∈

=

x

y x x , ( 1 )

donde,

(3)

1

i Yk

N

k _∈

= ∑

k i

X

x x

, ( 2 )

{

^xⁱ ^∈^Y^k

}

es el conjunto de imágenes pertenecientes al k- ésimo visema,

N

_kes el número de imágenes en la clase y

( )

2 ,

L i j

d x x denota la distancia euclidiana entre x_i^yx_j^. Una vez se tienen los representantes de cada tipo de visema, se procede a obtener el conjunto de imágenes que serán utilizadas para generar las transiciones entre visemas. Para ello, se utilizarán las imágenes del video de entrenamiento, eliminando las representantes, las imágenes que representan momentos de silencio y aquellas que representan vocales de poca energía (en el audio).

Finalmente, para reducir el tiempo de procesamiento en el módulo de síntesis, se procede a calcular y almacenar en un archivo de texto la distancia Euclidiana entre todas las imágenes que componen el Libro de Códigos.

F. Entrenamiento de Modelos Acústicos

Si la entrada a SVTA es voz acústica, paralelamente a los bloques anteriormente descritos, es necesario tener un sistema que se encargue de crear los modelos acústicos a nivel de fonema para hacer la conversión de audio a descripción fonética en la etapa de síntesis. En el trabajo se utilizó el Toolbox de HMM de Matlab [12] para entrenar los modelos acústicos utilizando el algoritmo de reestimación de Baum- Welch[13].

V. MÓDULODE SÍNTESIS

SVTA puede recibir a la entrada tanto una señal de voz acústica como un texto cualquiera en idioma español. Si se recibe la señal de voz, la secuencia de imágenes que componen el video de salida es acompañada de la voz original de entrada, si lo que se recibe es texto, la secuencia de imágenes es acompañada de voz artificial obtenida del sintetizador Mbrola®. La Fig. 2 muestra el diagrama en bloques que se siguió en el Módulo de Síntesis.

Generación de Descripción

Fonética

Visémica

Generación de Secuencias

Mbrola

Integración Audio-Video Libro de

Códigos Modelos

Acústicos Audio

Texto

Video Artificial

Reglas Gramaticales

Fig. 2. Diagrama en bloques del Módulo de Síntesis

A. Generación de Descripción Fonética a partir de Audio Si la señal que se recibe a la entrada es voz acústica, debe pasar por el bloque Generación de Descripción Fonética a partir de audio. La señal de audio de entrada es segmentada en

ventanas de 30ms con tasa de actualización de 10ms y a cada trama se le aplica una ventana de Hamming de la misma duración. Cada una de estas ventanas es parametrizada como un vector de 25 coeficientes cepstrales en escala MEL[14].

Nuevamente, los vectores son agrupados en secuencias de tres, de forma tal que cada secuencia represente una imagen del video de salida. Cada una de estas secuencias se debe asociar a un fonema determinado. Para esto se utiliza un clasificador de Máxima Verosimilitud [14] basado en los modelos ocultos de Markov obtenidos en la etapa de entrenamiento de los modelos acústicos. La descripción formal del método de clasificación se presenta a continuación.

Sea O=O₁O₂O₃ la secuencia de observación de la señal de voz en 30ms,λ_i el i-ésimo HMM que representa al i-ésimo fonema y P

(

^O

λ

i

)

la verosimilitud entre la secuencia de observación O y el modelo λ_i. El segmento se clasifica como el fonema f siguiendo la regla de clasificación de máxima verosimilitud:

( )

{

i

}

i

P

f =^arg^max ^O

λ

. ( 3 )

B. Generación de Descripción Fonética a partir de Texto Si lo que se recibe a la entrada es texto, el bloque Generación de Descripción Fonética se encarga de generar una cadena de caracteres, donde están codificados los fonemas que describen el texto, junto con los parámetros que permiten dar una entonación adecuada. Estos parámetros son duración y tono de cada fonema. La base para la construcción de este bloque, fue el trabajo “Generador automático de Prosodia y Base de datos de difonemas para la síntesis de voz” [15], en el que tomando como entrada un texto cualquiera en idioma español, se genera un archivo con la correspondiente Descripción Fonética, que puede ser ingresado a Mbrola®

para su reproducción.

C. Generación de Descripción Visémica

La descripción fonética obtenida de cualquiera de los dos bloques anteriores, ingresa al bloque Generación de Descripción Visémica, en donde se genera una lista en la que se indica qué visema del Libro de Códigos le corresponde a cada fonema y el número de imágenes que se deben agregar entre cada par de visemas de acuerdo a la duración de los fonemas.

D. Generación de Secuencias

La descripción visémica obtenida proporciona información de las imágenes en las posiciones de los visemas pero no en las transiciones, por lo que es necesario seleccionar las imágenes del Libro de Códigos que ocuparán esas posiciones intermedias generando la mejor reconstrucción posible de una secuencia natural. Esta tarea es realizada por el bloque

(4)

/u/ Transición Transición /n/

Fig. 3. Transición entre visema /u/ y el visema /n/ con dos imágenes intermedias

/u/ Transición Transición /n/

Fig. 4 Transición completa entre el visema /u/ el visema /n/ después del bloque Generación de Secuencias

Generación de Secuencias. Para esto se usa una adaptación del algoritmo de Viterbi, basado en el método de generación de secuencias propuesto en [8], en el cual se calculan todas las posibles trayectorias entre la imagen inicial y final, y se selecciona la secuencia que acumule menor distancia en la transición. Formalmente el algoritmo de generación de secuencias se puede definir de la siguiente forma:

Sea I

{ } i

n n1, ,M

= ∈_K el conjunto de imágenes (libro de códigos) e

i i

_n

,

_m

∈ I

las imágenes origen y destino respectivamente. Sea ( )

s

^k la k-ésima secuencia posible de N imágenes (N<M) entre

i

_n y

i

_m y

D s (

^{( )}^k

)

el peso de la secuencia ( )

s

^k definido como:

1

( ) ( ) ( ) ( ) ( )

1 1

( (

( ) , ) ^N ( , ) , )

l

p p p

k k k k k

n l l N m

d i d

D s s ⁻ d s s s i

=

=⎡⎣ ⎤⎦ +

∑

⎡⎣ + ⎤⎦ +⎡⎣ ⎤⎦ ^{, ( 4 )} donde p es el factor de potencia y

s

_l^{( )}^k es la l-ésima imagen en ( )

s

^k . La secuencia más suave se escoge como la de menor peso. Esto es:

{ }

( ) 1

( ) ( )

, 1,...,

arg min ( )

k N

opt k

s k M

s D s

= −

=

. ( 5 )

Como se aprecia en la definición anterior, la distancia entre cualquier par de imágenes es elevada a una potencia p.

Esto se hace para castigar aquellas secuencias que generen saltos bruscos en las transiciones. Para encontrar el mejor valor de p, se probaron diferentes alternativas.

Primero se probó haciendo p variable, proporcional al número de imágenes intermedias que se fueran a insertar entre visemas [16]. Luego se experimentó dejar p constante y se probaron valores entre 1 y 6. Para cada uno de los casos anteriores, se generaron videos sintéticos y se evaluaron subjetivamente los resultados. En general, se vio que cuando p aumentaba (mayor a 2), si bien se generaban transiciones suaves entre imágenes consecutivas, las secuencias resultantes no eran naturales, particularmente cuando el número de imágenes intermedias era grande (mayor a 4).

Por otro lado, al hacer p igual a uno, la secuencia tiende a quedarse fija, bien sea en la imagen origen o en la destino y se genera un salto brusco entre una y otra.

Finalmente, se decidió trabajar con p igual a dos, valor en el que se obtuvieron las secuencias más naturales, especialmente cuando el número de imágenes intermedias es grande.

Por ejemplo, suponiendo que se desea generar la transición entre el visema /u/ y el visema /n/ con dos imágenes intermedias (Fig. 3). Aplicando el algoritmo de Generación de Secuencias explicado anteriormente, se buscan, en el Libro de Códigos, las dos imágenes que produzcan la transición más suave entre ellos. La Fig. 4 muestra el resultado.

E. Mbrola

Si la señal de entrada es texto, la descripción fonética obtenida, ingresa también al sintetizador de voz Mbrola®, el cual se encarga de generar la secuencia de audio correspondiente al texto de entrada.

F. Integración Audio-Video

Finalmente, el bloque Integración Audio-Video procede a sincronizar y acoplar la secuencia de imágenes generada, bien sea con la señal de voz acústica de entrada o con la señal de audio obtenida de Mbrola®, para hacer la reproducción audiovisual correspondiente.

VI. RESULTADOS

Las pruebas de aceptación y desempeño del sistema se basaron en la recomendación ITU-T Serie P.900 [17], específicamente la P.910 y P.911, buscando hacer una evaluación de la calidad del video. Las pruebas se dividieron en: evaluación subjetiva y evaluación objetiva.

A. Evaluación Subjetiva

Esta evaluación se realizó sobre un total de 45 personas, en condiciones controladas de iluminación y ruido, en el departamento de ingeniería electrónica de la Pontifica Universidad Javeriana. En este experimento la población

(5)

evaluadora respondió una encuesta en la que se evaluaba la calidad perceptual de los videos sintetizados. Las características que se evaluaron en la encuesta fueron:

Naturalidad, suavidad en las transiciones y coherencia entre audio y video.

La Tabla 1 muestra los resultados de la pregunta “La naturalidad del video es”, tanto para videos con audio sintético como videos con audio natural.

TABLA 1.

RESULTADOS PRUEBA DE NATURALIDAD

Excelente Buena Aceptable Mala Pésima Video con

audio sintético 0,0% 22,2% 51,1% 26,7% 0,0%

Video con

audio natural 13,3% 46,7% 31,1% 8,9% 0,0%

Al comparar los resultados obtenidos en la evaluación de la naturalidad de los videos (preguntas 1 y 3), como era de esperarse, hubo una diferencia clara en favor de los videos sintetizados con audio natural, sobre los sintetizados con audio de Mbrola®. Como se ve en la Tabla 1, el 60% de la población encontró entre buena y excelente la naturalidad del video, lo que refleja la calidad de la síntesis.

La Tabla 2 resume la opinión de los encuestados acerca de los saltos presentes en los videos.

TABLA 2.

RESULTADOS PRUEBA DE SUAVIDAD EN LAS TRANSICIONES Imperceptible Perceptible -

No molesto

Ligeramente

molesto Molesto Muy molesto Video con audio

sintético 6,7% 55,6% 37,8% 0,0% 0,0%

Video con audio

natural 15,6% 71,1% 11,1% 2,2% 0,0%

Los resultados muestran que la mayoría de la población encuestada (55 y 71% en cada pregunta) consideró los cambios entre imagen como poco molestos pero perceptibles y además los videos con audio natural tienen una mejor aceptación.

TABLA 3.

RESULTADOS PRUEBA DE COHERENCIA ENTRE AUDIO Y VIDEO Excelente Buena Aceptable Mala Pésima Video con

audio sintético 22,2% 35,6% 35,6% 6,7% 0,0%

Video con

audio natural 15,6% 44,4% 31,1% 8,9% 0,0%

La Tabla 3 muestra los resultados de la prueba de coherencia entre audio y video.

Adicionalmente, se realizó una prueba en la que se presentó, una secuencia de voz visual natural y una secuencia sintetizada a partir del mismo audio en el video natural y se pidió a los encuestados que evaluaran qué tan bruscos eran los cambios en el video sintético resultante.

Cerca del 67% de los encuestados dijo que los cambios en el video sintético resultante eran perceptibles pero no molestos. Esto indica que, aunque la calidad de la síntesis es buena, aún no se llega a los niveles de naturalidad alcanzados por trabajos como el de[10].

B. Evaluación Objetiva

Con el fin de tener una medida cuantitativa de la variación entre imágenes consecutivas del video, se calculó la Medida de información perceptual temporal (TI) [17].

La TI se define como:

[ ]

{ ⁽ ^, ⁾ }

max std M i j

TI

_n

espacio tiempo

=

, ( 6 )

donde,

) , ( )

, ( ) ,

( i j F i j F

₁

i j

M

_n

=

_n

−

_n₋ , ( 7 )

) , ( j i

F

_n es el píxel en la i-ésima fila y la j-ésima columna, de la n-ésima trama en tiempo.

En esta prueba se calculó la TI en 4 videos naturales, se extrajo el audio y se realizó la síntesis para cada uno de ellos, esto con el fin de medir qué tanto difieren las transiciones generadas en el video sintético frente a las que se presentan en los videos naturales. Los resultados obtenidos se presentan en porcentaje de variación y fueron calculados de la siguiente forma:

% 100

int

− ×

=

Nat Nat S

TI TI

PV TI

( 8 )

Donde

PV

es el porcentaje de variación,

TI

_S_int^{es la TI}

del video sintetizado y

TI

_Nat es la TI del video natural. Los resultados obtenidos están consignados en la Tabla 4.

TABLA 4.

RESULTADOS DEL PORCENTAJE DE VARIACIÓN PARA CADA VIDEO

Video Porcentaje Video1 13.63%

Video2 12.20%

Video3 -10.05%

Video4 -2.56%

La TI arroja una medida de la máxima variación espacial del video entre cuadros adyacentes, lo que da una medida cuantitativa de qué tan fuertes son los saltos entre imágenes consecutivas en cualquier video. Los resultados obtenidos muestran que la TI en los videos sintetizados no difiere en mas de un 15% frente a la obtenida en los videos naturales, incluso en la mitad de los casos la TI del video sintético es menor a la del video natural.

Otro parámetro importante que mide el desempeño del sintetizador, es la carga computacional que requiere para hacer tanto el proceso de entrenamiento como el de síntesis.

A continuación se presentan los resultados obtenidos:

TABLA 5.

RESUMEN DE LOS TIEMPO DE PROCESAMIENTO DEL SISTEMA

Parámetro Rendimiento

Tiempo de síntesis 13ms por segundo de video Tiempo de entrenamiento

1.25 s por cada segundo de video Tiempo de clasificación de

fonema 1.5 s por cada segundo de audio

(6)

Todos los tiempos fueron medidos en un procesador Pentium IV de 1.7GHz. Los tiempos de procesamiento son bastante bajos comparados con trabajos como el de [10] y hacen posible la síntesis en tiempo real

VII. CONCLUSIONES

Se desarrolló un sistema de síntesis de voz visual a partir de texto y voz acústica, capaz de sintetizar cualquier frase con sentido en el idioma español. El sistema cuenta con un módulo de entrenamiento capaz de encontrar un conjunto de imágenes representantes de forma semiautomática, a partir de un video corto.

El algoritmo de síntesis genera secuencias de voz visual suaves y coherentes con la señal de audio respectiva (natural o artificial). Cuando la entrada al sistema es texto, los tiempos de procesamiento obtenidos, permiten la reproducción en tiempo real de la secuencia de video artificial.

Los resultados de las evaluaciones reflejan que la calidad de la síntesis es buena y que los algoritmos utilizados en la generación de secuencias suaves, cumplen su objetivo. Sin embargo, el sistema es aún sensible a la calidad del video de entrenamiento, pues pequeños movimientos del hablante o de la cámara en el momento de la grabación, generan saltos molestos en los videos de salida. Por ello, para obtener secuencias de imágenes más naturales se debe grabar un video de entrenamiento en condiciones muy controladas.

Al evaluar el algoritmo de Generación de Secuencias, con potencias elevadas (mayores a 6), se evidencia la necesidad de entrenar el sistema con un video de mayor duración o adquirido a una tasa superior a 30 cuadros por segundo, para lograr transiciones creíbles.

La elección de los algoritmos utilizados para la síntesis de voz visual, debe estar directamente relacionada con la aplicación que se desea montar, pues existe un compromiso importante entre parámetros como la naturalidad de los videos generados y el tiempo y recursos computacionales necesarios para el procesamiento.

Para que la calidad de los videos sintéticos pueda ser comparable con la de videos naturales, es necesario incluir en los algoritmos de síntesis, métodos para generar secuencias artificiales de movimiento de ojos y otras partes de la cara, de forma que la postura del hablante se vea menos rígida.

REFERENCIAS

[1] A.Rogozan, y P. Deléglise. “Adaptive fusion of acoustic and visual sources for automatic speech recognition”. En: Speech Communications. Vol. 26, No. 1/2 (oct. 1998); p. 149-161.

[2] T. Ezzat, y T. Poggio. “Visual speech Synthesis by Morphing Visemes”. Laboratorio de Inteligencia Artificial y Centro para el Aprendizaje Biológico y Computacional, M.I.T. (may. 1999).

[3] C. Benoît, y LE Goff, B. “Audio-visual speech synthesis from French text: Eight years of models, designs and evaluation at the ICP”. En:

Speech Communications. Vol. 26, No. 1/2 (oct. 1998); p. 117-129.

[4] Baily, G.,Elisei, F., Odisio, M., Pelé., Cailière, D. and Grein- Cochard, K. “Talking faces for MPEG-4 compliant scalable face to

face telecommunication”, Proceeding of the Smart Objects Conference, 2003.

[5] Cohen, M. & Massaro, D. “Modeling coarticulation in synthetic visual speech”. In N.M. Thalman & D. Thalman (Eds.) Models and Techniques in Computer Animation. Springer-Verlag, Tokyo, 141- 155, 1993.

[6] J. Machado y D. Santa. “Síntesis paramétrica de voz visual”. Trabajo de grado. Departamento de ingeniería electrónica, Pontificia Universidad Javeriana, Bogotá, Colombia., 2001.

[7] M. Tamura; T. Masuko; T. Kobayashi and K. Tokuda. “Visual speech synthesis based on parameter generation from HMM: speech- driven and text-and-speech-driven approaches”. Interdisciplinary graduate school of science and engineering, Tokyo Institute of Technology, Yokohama, 226-8502 Japan. 2000.

[8] P. Vizcaya. et al. “A coding method for visual telephony sequences”.

En: Memorias del Auditory – Visual Speech Processing Workshop 2005. Vancouver – Canada. Julio 2005.

[9] E. Yamamoto, S. Nakamura y K. Shikano. “Lip movement synthesis from speech based on Hidden Markov Models”. En: Speech Communications. Vol. 26, No. 1/2 (oct. 1998); p. 105-115.

[10] T. Ezzat; G. Geiger y T. Poggio. “Trainable videorealistic speech animation”. Laboratorio de Inteligencia Artificial y Centro para el Aprendizaje Biológico y Computacional, M.I.T. (nov. 2002).

[11] The Mbrola Project Home Page.

http://tcts.fpms.ac.be/synthesis/mbrola.html.

[12] K Murphy. “Hidden Markov Model (HMM) Toolbox for Matlab”

(2005, Jun, 8) Disponible en:

http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html [13] L.R. Rabiner. “A tutorial on Hidden Markov Models and Selected

applications in Speech Recognition”, Proceedings of IEEE, Vol 77, No 2 Feb. 1989.

[14] J. Deller; J. Proakis. y J. Hansen. “Discrete-Time Processing of Speech Signals”, Macmillan Publishing Company. 1987.

[15] I. C. Niño y R. E. Duque. “Generador Automático de Prosodia y Base de Datos de Difonemas para Síntesis de Voz”. Trabajo de grado. Departamento de ingeniería electrónica, Pontificia Universidad Javeriana, Bogotá, Colombia. (2002).

[16] C. Soto. “Generador de Corpus para Síntesis de Voz Visual”. Trabajo de investigación de maestría. Departamento de ingeniería electrónica, Pontificia Universidad Javeriana, Bogotá, Colombia. (abr. 2004).

[17] ITU-T P-Series Recommendations. Audiovisual quality in multimedia services Series P.900. 1999.

SVTA: Sistema de síntesis de voz visual a partir de texto y audio

SVTA: Sistema de síntesis de voz visual a partir de texto y audio

L

( )

{

}

1

N

= ∑

x x

{

}

N

( )

(

λ

)

( )

{

}

λ

{ } i

i i

,

∈ I

s

i

i

D s (

)

s

∑

s

s

{ }

arg min ( )

s D s

=

[ ]

{ ( , ) }

max std M i j

TI

=

) , ( )

, ( ) ,

( i j F i j F

i j

M

=

−

) , ( j i

F

% 100

− ×

=

TI TI

PV TI

PV

TI

TI

{ ⁽ ^, ⁾ }