ROBOT-TO-HUMAN (R2H) Y HABLA EMOCIONAL - Desarrollo y validación de un modelo dinámico para una

Tradicionalmente los sistemas de interacción hombre-robot se basan en una concepción maestro-esclavo, en el que el papel del operador humano es el de supervisar y dar órdenes al robot y el del robot es cumplir dichas órdenes y even- tualmente suministrat al operador la información que este necesite. El robot actúa esencialmente como una herramienta manejada por el operador. En estos sistemas, la interacción con el humano actúa como un factor que limita y reduce la autonom´ıa del robot.

El paradigma R2H pretende desarrollar robots sociales con un alto grado de autonom´ıa, cuyo comportamiento esté condicionado por sus propios im- pulsos y motivaciones, que responderán en última instancia a un intento por parte del robot de maxi- mizar o mantener en niveles de equilibrio variables internas ligadas a sus necesidades. En la arquitectura de control del robot, la interacción con los humanos se planteará exactamente con los mismos principios que la interacción con otros elementos del mundo.

El carácter social de los robots se reflejará en el hecho de que la interacción con humanos no se considerará sólo como un complemento a otras funcionalidades del robot, sino como una de sus caracter´ısticas básicas. Esto se concretará en el desarrollo de un conjunto amplio de habilidades sociales y en que entre las motivaciones del robot se incluirán también motivaciones sociales. El trabajo que se exopne en el presente art´ıculo corresponde a la implementación de una de estas habilidades sociales que es la habilidad de habla incorporando en la señal de voz una entonación controlada y dedicada a la expresión emocional. Esta aproximación a la interacción entre humanos

y robots puede ser de gran interés para algunos nuevos tipos de robots, como pueden ser robots que cooperen de igual a igual con humanos, o robots dedicados a fines lúdicos, didácticos e in- cluso terapéuticos.

Figura 2: Arquitectura de control AD (Au- tom´atica-Deliberativa)

3. ARQUITECTURA DE

CONTROL AUTOM ´ATICA-

DELIBERATIVA

La arquitectura de control del robot personal Maggie desarrollada en [2], [3] y [5] está inspirada en los trabajos en psicolog´ıa cognitiva de Shiffrin y Schneider [17] en los que se modela el razon- amiento y comportamiento humano en dos niveles de inteligencia y actuación: uno automático y otro deliberativo. En la Figura 1. puede observarse el diagrama de la Arquitectura A-D, donde además se incorpora un Sistema de Control basado en Emociones desarrollado en [11]

En el nivel automático corren en paralelo varias habilidades automáticas que se caracterizan por su comunicación directa con los sensores y actuadores del robot, y por su rapidez respecto a las habilidades deliberativas. En el nivel deliberativo corre una sola habilidad deliberativa que se encarga de la planificación de la secuencia de actuaciones o de ejecución de habilidades automáticas del nivel inferior. El sistema de control basado en emociones establece el objetivo interno del robot.

La comunicación entre habilidades automáticas se realiza tanto por eventos discretos como a través de la Memoria a Corto Plazo. Una descripción de- tallada de la arquitectura y de su implementación en Maggie puede encontrarse en [15] y [10]

4. DESCRIPCI ´ON DE LA

HABILIDAD TTSskill

El sistema implementado que se presenta en este art´ıculo tiene la forma de habilidad au- tomática y se integra en la arquitectura de control del robot desarrollada: Arquitectura Au- tomática-Deliberativa con Sistema de Control por Emociones (Figura 1). Básicamente la habilidad TTSskill toma como dato de entrada de la Memo- ria a Corto Plazo una expresión textual y teniendo en cuenta el estado emocional del robot construye una estructura prosódica o de entonación que se añade al texto para luego ser sintetizado como voz a través de los altavoces del robot. La realización de esta s´ıntesis de voz emocional a partir de tex- to se realiza en los siguientes pasos: discretización del texto en fonemas, construcción de curvas de entonación y s´ıntesis en señal de audio. La elec- ción de estos pasos está inspirada por el trabajo realizado anteriormente en el Sony Computer Sci- ence Laboratory (CSL) [13]

Para el paso de s´ıntesis en señal de audio, se ha utilizado una herramienta de distribución gratu´ıta denominada MBROLA [18] Esta herramienta marca el formato en el que deben con- struirse los datos a lo largo del algoritmo de gen- eración de una señal de audio a partir de texto. 4.1. Constructor fonético

Este módulo toma como dato de entrada una expresión en forma de texto o frase, y devuelve una cadena de caracteres que simbolizan la representación fonética de la frase de entrada. Dicha representación fonética corresponde con la formulación que propone MBROLA para la representación textual de fonemas hablados que puede verse en la Tabla 1.

4.1.1. Fichero fon´etico

MBROLA es el sintetizador TTS utilizado. En la construcción prosódica de una frase se ha de ten- er en cuenta su funcionamiento, es decir, el formato de los datos que esta herramienta utiliza. MBROLA recibe como entrada un fichero en formato texto estructurado por columnas que denom- inamos fichero fonético. En la primera columna se sitúa la serie de fonemas de la frase a sintetizar, en la segunda columna se sitúa la duracion de cada fonema en ms El resto de columnas son pares de valores. El primer valor marca un porcentaje de duración del fonema y el segundo la frecuencia en herzios a la que debe ponerse la s´ıntesis del fonema en el porcentaje de tiempo que marca el parámetro anterior. As´ı por ejemplo:

Cuadro 1: Representación fonética utilizada Fonema Ejemplo Representación

p padre paDre b vino bino t tomo tomo d donde donde k casa kasa g gata gata tS mucho mutSo jj hielo jjelo f facil faTil T cinco Tinko s sala sala x mujer muxer m mismo mismo n nunca nunca J ajo aJo l lejos leJos L caballo kabaLo r puro puro rr torre torre i pico piko e pero pero a valle baLe o toro toro u duro duro a 430 10 380 80 450

indica que el fonema a dura 430 ms; al 10 % de 430 msdebe alcanzar 380 Hz y debe alcanzar 450 Hz al 80 %

Puede haber tantos pares de valores porcentaje- tono como se quiera. Estos pares de valores config- uran la envolvente de tono para cada fonema, por lo que cuantos más valores haya, más natural y hu- manizada resultará la s´ıntesis en voz. No obstante y dado que la duración de cada fonema habitual- mente es inferior al segundo, con un par de estos valores se obtienen resultados suficientemente satisfactorios. Cada fila de este fichero tiene, por tanto el siguiente formato:

fonema duracion porcentaje tono Adem´as de este fichero, MBROLA acepta una serie de opciones como son el volumen y el tono principal de la frase.

4.2. Constructor pros´odico

Este módulo toma como dato de entrada una de los cinco estados emocionales en los que puede es- tar el robot: alegr´ıa, tristeza, calma, ira y confort (o neutro), construye las curvas de entonación o curvas prosódicas y adapta dichas curvas a la

longitud de la frase que va a ser sintetizada como voz emocional. Para caracterizar la prosodia de cada frase y teniendo en cuenta el formato del fichero fonético que acepta MBROLA, podemos enumerar las siguientes variables f´ısicas: por un lado y en relación al conjunto entero de fonemas de la frase: el tono principal, envolvente de tono y volumen principal; y por otro lado y asociado a cada fonema de la frase: una envolvente de tono dentro de cada fonema y una duración de fonema. El problema es dar valores a estas variables para que la prosodia de la frase sintetizada exprese una emoción concreta y no otra. Para alcanzar este objetivo se define un conjunto de parámetros intuitivos que sirven como marco entre la emoción que se quiere expresar y las variables f´ısicas enumeradas arriba. En la tabla x. se muestran los valores escogidos para este conjunto de parámetros prosódicos en función de la emoción que se quiere expresar mediante voz. Estos parámetros se describen a continuación:

VOLUMEN(sin unidades) establece volumen sonoro de la totalidad de la frase sintetizada. Es el factor por el que se multiplica el volumen que por defecto utiliza MBROLA en la construcci´on del fichero de audio correspoin- diente a la frase de voz sintetizada.

MEANDUR(ms) es la duraci´on principal de cada fonema.

DURVAR (ms) marca el rango de variaci´on de la duraci´on de cada fonema.

MEANPITCH(Hz) es la frecuencia principal de cada fonema.

PITCHVAR (Hz) marca el rango de variación de la frecuencia principal de cada fonema. LAST-ACCENT (0 — 1) parámetro booleano que marca si el último fonema de la frase se va o no a acentuar.

CONTOUR (RISING — FALLING) par´ametro booleano que marca el contorno por defecto del tono de cada fonema.

LAST-CONTOUR (RISING — FALLING) par´ametro booleano que marca el contorno del ´ultimo fonema.

4.2.1. Algoritmo del constructor pros´odico

El fichero fonético, entrada para MBROLA, es constru´ıdo en formato texto a partir de la lista de fonemas que devuelve el constructor fonético y de la lista de parámetros que devuelve el constructor

prosódico. As´ı, el fichero es completado con la lista de fonemas de la frase concreta que se va a sintetizar y con los valores numéricos correspon- dientes y explicados anteriormente para marcar la prosodia de la frase: duración, porcentaje y tono. A continuación se describe el algoritmo que construye la duración y tono de cada fonema. Este algoritmo va recorriendo todos y cada uno de los fonemas.

duracion( fonema ) = MEANDUR + rand( DURVAR ) if( fonema es consonante )

tono( fonema ) -= PITCHVAR if( fonema es vocal )

tono( fonema ) += PITCHVAR if( fonema == accentuado):

duracion( fonema ) += DURVAR if( CONTOUR == RISING)

if( fonema es consonante ) tono( fonema ) += PITCHVAR if( fonema es consonante )

tono( fonema ) -= PITCHVAR if( CONTOUR == FALLING)

if( fonema es consonante ) tono( fonema ) -= PITCHVAR if( fonema es consonante )

tono( fonema ) += PITCHVAR

if( LAST-ACCENT ) para ´ultima palabra e = PITCHVAR / 2

duracion( fonema ) += DURVAR if( LAST-CONTOUR == FALLING)

pitch( fonema ) -= ( fonema +1 ) * e if( LAST-CONTOUR == FALLING)

pitch( fonema ) -= ( fonema +1 ) * e e = 2 * e

porcentaje(fonema) = 80 + rand( 20 ) Cabe destacar el uso de la función de aleatoriedad con el propósito de introducir en la s´ıntesis cierto carácter natural caracter´ıstico del habla, es el caso, por ejemplo del valor del parámetro porcentaje

4.3. Sintetizador TTS

MBROLA es un proyecto iniciado en el Labo- ratorio de Teor´ıa de Circuitos y Tratamiento de la Señal (TCTS Lab) de la Facultad Politécnica de Mons (Bélgica) cuyo propósito principal es el de implementar sintetizadores TTS para todas las lenguas posibles. Es una herramienta gratu´ıta pero cuyo código no está abierto, sin embargo, su adaptación a una aplicaión externa es sencilla. MBROLA consta de un ejecutable y una base de datos en formato binario asociada a una lengua y a un agente o personaje que marca tanto el idioma (y por tanto el conjunto de fonemas posibles)

Cuadro 2: Parámetros prosódicos para cada emoción

Par´ametro alegr´ıa tristeza calma ira confort

VOLUMEN (s.u.) 0.8 1 1 2 2 MEANDUR (ms) 170 300 200 150 300 DURVAR (ms) 50 100 100 20 300 MEANPITCH (Hz) 600 250 370 100 350 PITCHVAR (Hz) 100 30 10 50 50 LAST-ACCENT (0 | 1) 1 0 0 0 1

CONTOUR RISING FALLING RISING FALLING RISING

LAST-CONTOUR RISING FALLING RISING FALLING RISING

como el tono o soniquete del habla. Hay personjes femeninos y masculinos. El ejecutable que trae MBROLA recibe como opciones el volumen y el tono general de la expresión hablada y como entrada el fichero asociado a la base de datos del idioma y el que hemos venido a denominar fichero fonético con la lista de fonemas a sintetizar y parámetros acústicos antes presentados. Este ejecutable devuelve un fichero de audio. Los formatos permitidos son .wav o .au

El servidor TTSserver que corre dentro de la habilidad TTSskill se encarga de ir leyendo de la memoria compartida una frase nueva que haya de ser sintetizada; toma la emoción con la que debe expresarse y construye el fichero fonético; éste se compila con el ejecutable de MBROLA y la base de datos asociada al idioma de lo cual se obtiene un fichero de audio que se lleva al dispositivo de audio para que se oiga.

5. RESULTADOS

EXPERIMENTALES

La conexión de la habilidad implementada TTSskill con el resto de habilidades y demás en- tidades de la arquitectura (ver Figura 1) es to- talmente satisfactoria. Esto se debe a que la estructura software para la implementación de una habilidad automática en la arquitectura AD se ha estandarizado en previos trabajos. El funcionamiento en tiempo real es también satisfacto- rio: TTSskill es capaz de realizar la trasformación de la frase textual a una lista de fonemas, el cálcu- lo de los parámetros prosódicos y la s´ıntesis de la onda de audio generada con suficiente rapidez como para no apreciarse un retardo digno de mayor estudio.

La habilidad automática TTSskill se encarga de la s´ıntesis de texto a voz con entoncaión emocional, por tanto, el resultado final de esta imple- mentación es un resultado audible. En este aparta- do, se va a presentar una breve comparación de las caracter´ısticas sonoras de distintas frases al haber sido procesadas de modo distinto para expresar

Figura 3: Comparaci´on del tono de cada fonema a lo largo de las frases: ”Soy Magui y estoy muy triste”(abajo) y ”Soy Magui y estoy muy contenta”(arriba)

emociones distintas.

En la Figura 4 puede observarse la representación gráfica de la variación del tono a lo largo de cada fonema de la frase en función del tiempo para dos emociones antagónicas: alegr´ıa y tristeza. Para el caso en el que se quiere expresar alegr´ıa el texto de la frase a sintetizar fue ”Soy Maggie y estoy muy contenta”En el caso de la expresión de tristeza fue ”Soy Maggie y estoy muy triste”. Por tanto, teniendo en cuenta la tabla 1, la lista fonética del primer caso quedar´ıa s o i m a g i i e s t o i m u i k o n t e n t a (24 fonemas) s o i m a g i i e s t o i m u i t r i s t e(22 fonemas) En el caso de la expresión de alegr´ıa puede observarse que el tono principal es mayor que en la expre- sión de tristeza. Además la variación del tono entre fonemas es más rápida, dado que la duración de cada fonema es menor.

6. CONCLUSIONES Y

In document Desarrollo y validación de un modelo dinámico para una pila de combustible tipo PEM (página 156-159)