• No se han encontrado resultados

Reconocimiento Automático de Habla Empleando Información de Acento Lexical en los Modelos Acústicos

N/A
N/A
Protected

Academic year: 2021

Share "Reconocimiento Automático de Habla Empleando Información de Acento Lexical en los Modelos Acústicos"

Copied!
12
0
0

Texto completo

(1)

1 Laboratorio de Investigaciones Sensoriales, Facultad de Medicina, U.B.A., Córdoba 2351 Piso 9º Sala 2, Buenos Aires, Argentina

diegoevin@gmail.com , jag@fmed.uba.ar 2 Facultad de Ingeniería, Universidad Austral, Av. Juan de Garay 125, Buenos Aires, Argentina

{PUnivaso, AClausse}@austral.edu.ar

3 Laboratorio de Investigación en Señales e Inteligencia Computacional, Facultad de Ingeniería y Ciencias Hídricas, U.N.L,

Ruta Nac. 168 – Km. 472.4, Santa Fe, Argentina d.milone@ieee.org

4 Grupo de Inteligencia Artificial Aplicada, Facultad de Ingeniería, U.N.E.R, Ruta Prov. 11 Km.10 Oro Verde - Entre Ríos, Argentina

Resumen. En este trabajo se propone discriminar la información de los acentos lexicales para construir modelos acústicos en un sistema de reconocimiento automático del habla. Se estudia y compara el desempeño del modelo propuesto con respecto al modelado acústico estándar empleando como material de evaluación habla telefónica leída para el Español de Argentina, obtenida de la base SALA-Argentina. Se evalúan como unidades del modelo acústico: monofonos, trifonos dependientes del contexto interior de las palabras, trifonos dependientes del contexto entre palabras y los denominados monofonos acentuados, en los que se diferencian las vocales acentuadas lexicalmente de las no acentuadas. El desempeño obtenido con el modelo propuesto tiene una tasa de reconocimiento del 85,60% mientras que para el mejor sistema de referencia alcanza un 84,89%.

Palabras Clave: Reconocimiento Automático del Habla, Modelos Acústicos, Prosodia, Acentos Léxicos.

1 Introducción

El desempeño de los sistemas de reconocimiento automático del habla (RAH) ha mostrado mejoras evidentes en los últimos años. Es por ello que se encuentran con más frecuencia aplicaciones comerciales que emplean interfases orales para tareas

(2)

restringidas. Sin embargo cuando se contrasta el desempeño de los reconocedores del habla con el alcanzado por los seres humanos se encuentran diferencias significativas, especialmente cuando las evaluaciones se realizan empleando señales provenientes de ambientes acústicamente adversos o con canales de transmisión limitados como el telefónico [1]. Las dificultades también crecen al intentar reconocer habla espontánea o variantes regionales con hábitos prosódicos no considerados en el entrenamiento.

Entre los factores que permiten explicar las diferencias observadas en las tasas de reconocimiento entre seres humanos y computadoras, se pueden mencionar: la cantidad y tipo de información empleada, la forma de representación y procesamiento de dicha información, y los mecanismos de compensación y adaptación empleados por los seres humanos en condiciones adversas [2]. Con respecto al primero de estos puntos, se argumenta que los seres humanos emplean e integran varios niveles de conocimiento lingüístico en la tarea de reconocimiento e interpretación del habla, mientras que muchos de esos niveles estructurales del habla –ampliamente estudiados en el dominio de la lingüística – aún no han sido incorporados al RAH.

Indudablemente la prosodia, que agrupa los conceptos perceptuales de entonación, ritmo y acento, provee información lingüística, para-lingüística y extra-lingüística que los oyentes utilizan no sólo para complementar la información léxica sino también para focalizar las palabras de contenido, desambiguar significados y filtrar el resto de la información de transporte o función. Debido a que los sistemas de reconocimiento del habla convencionales no hacen uso de esta fuente de información, resulta interesante estudiar cuál es el aporte que puede brindar la prosodia para mejorar el desempeño de los sistemas de RAH estándar.

En este punto cabe definir qué es el acento léxico (stress) y qué es el acento tonal (accent). El acento léxico se refiere al acento de palabra que está determinado por las reglas de la ortografía y es un rasgo abstracto descontextualizado, que se corresponde con la fonología de la lengua. La mayoría de las palabras del español tienen un acento léxico que corresponde a la vocal de la sílaba acentuada, y en muchos casos ese acento léxico permite diferenciar palabras, por ejemplo en el par mínimo papá-papa. Las realizaciones acústicas de las vocales con acento léxico tienen correlatos físicos determinados por la mayor duración, mayor energía, mayor frecuencia glótica o fundamental y una estructura espectral mejor delineada [3][4].

Por otra parte, el acento tonal, aparece libremente cuando se percibe una palabra con prominencia por encima de las demás. Este acento se aplica dentro del contexto de una frase a determinadas palabras (principalmente las de contenido) para indicar foco o que se trata de información nueva. El correlato acústico tradicional de este acento está dado por el contorno local de la frecuencia fundamental. Por ejemplo, a la pregunta ¿Dónde está la casa? puede responderse “la casa esta en la montaña”. En esta respuesta la palabra montaña recibe un acento tonal expresado físicamente como un ascenso de la frecuencia fundamental en la sílaba “ta”. Debe notarse que el acento tonal se ubica temporalmente en sincronía con el acento léxico de la misma palabra. En el ejemplo anterior la palabra “casa” tiene acento léxico en la silaba “ca” pero no posee acento tonal.

En el español los acentos tonales se ubican siempre donde existe un acento léxico [5]. Es decir, los acentos léxicos son reservorios potenciales del acento tonal. Sin

(3)

embargo existen casos en los que no se respetan las reglas mencionadas anteriormente. Por ejemplo cuando la sincronía entre acento léxico y tonal no es exacta. Existen leves defasajes entre el pico de la frecuencia fundamental y las fronteras de la sílaba acentuada. Y más aún, puede suceder que una sílaba con acento léxico reciba un acento tonal pero que la frecuencia fundamental no tenga un valor alto o aumentado (denominado H*). Además en las frases de habla continua es común que el contorno de entonación de la frase predomine sobre los acentos tonales imponiendo un descenso de la frecuencia fundamental en el final de una frase afirmativa. En esta situación, el acento lexical se manifiesta por un aumento de los parámetros restantes (duración y energía), y el acento tonal recibe la categoría de tono bajo (L*) [6].

Se pueden encontrar varios antecedentes en los que se intenta emplear información acentual en el proceso de reconocimiento automático del habla. Se pueden dividir a las propuestas metodológicas para la introducción de esta información en el proceso de reconocimiento entre los que intentan utilizar la información acentual en una frase de preprocesado del habla, en una fase de post-procesamiento de las hipótesis de reconocimiento y los que intentan introducir la información directamente en el proceso de búsqueda de los sistemas basados en Modelos Ocultos de Markov (MOM). El antecedente más cercano al presentado en este trabajo es [7] donde se propone emplear modelos diferentes para las vocales acentuadas de las inacentuadas lexicalmente en un sistema de reconocimiento del habla para el holandés. Los resultados reportados no mostraron mejoras de las tasas de reconocimiento.

En [8] se estudian qué parámetros acústicos tienen mayor correlación con el acento léxico, y se los agrega como atributos adicionales al vector de características de un sistema de reconocimiento del habla telefónica. Los autores obtienen una reducción relativa de 5.3% de la tasa de error a nivel palabra respecto a los sistemas de referencia.

En [9] se trata de explotar la relación entre acentos tonales y elementos lexicales para mejorar el desempeño de un RAH. La estrategia propuesta utiliza: 1) un modelo acústico prosódico basado en redes neuronales para estimar la presencia de acentos tonales a partir de rasgos acústicos, 2) un modelo probabilístico de secuencias de etiquetas de acentos tonales y 3) un modelo probabilístico de secuencias de etiquetas tonales dada una secuencia de palabras y acentos lexicales. Los modelos se utilizan para calcular la lista de N-mejores hipótesis de reconocimiento. Empleando esta estrategia los autores reportan una reducción del error de reconocimiento a nivel de palabras de 1.3% respecto a un sistema de referencia.

Para el español, un aporte pionero en la utilización de los componentes prosódicos para el reconocimiento del habla, empleando acentos léxicos fue presentado en [10]. En este trabajo la información de los correlatos acústicos del acento lexical: frecuencia fundamental, energía, duración y espectro, se utilizaron en el modelo lingüístico del reconocedor. En ese trabajo se propone emplear información léxica dentro del modelo de lenguaje de un reconocedor del habla basado en MOM. Específicamente se emplea información sobre secuencias de acentos léxicos para modificar las probabilidades de transición entre palabras dentro de un modelo de lenguaje variante en el tiempo. Se reportaron disminuciones del error del 28.91%

(4)

respecto al sistema de referencia empleando como material de evaluación habla continua para el español peninsular.

En este trabajo se evaluará el efecto de utilizar la información de acentos léxicos en los modelos acústicos, creando modelos separados para vocales acentuadas e inacentuadas lexicalmente. Esta propuesta es inédita para el español, y complementa el estudio realizado sobre la influencia de los acentos léxicos en lo modelación lingüística [10].

Con referencia a los trabajos realizados en otras lenguas como en [7] donde no se obtuvieron resultados satisfactorios discriminando vocales de acuerdo al acento léxico, en este trabajo consideramos que el efecto del acento léxico puede ser más evidente en el español, dado que es una lengua de ritmo silábico para el habla leída [11], donde existe mayor consistencia en la diferenciación entre vocales acentuadas e inacentuadas.

El resto del presente trabajo está organizado de la siguiente manera: en la Sección 2 se analizará el diseño de la base de datos acústica empleada en los experimentos, en la Sección 3 la metodología empleada para el entrenamiento de modelos y la etapa de reconocimiento, en la Sección 4 los diferentes resultados obtenidos de acuerdo a los parámetros del reconocedor empleado, y en la Sección 5 las conclusiones y futuras líneas de trabajo.

2 Base de Datos Acústica

La base de datos empleada, forma parte del proyecto SALA I (SpeechDat Across Latin America) [12], y sigue las definiciones establecidas en [13]. El subconjunto correspondiente al español de Argentina [14] está constituido por cinco regiones distribuidas en todo el país. El estilo de habla corresponde a párrafos leídos, extraídos de diarios y libros de la Argentina o elaborados por lingüistas. Las grabaciones se realizaron a través de la red de telefonía fija por medio de una computadora equipada con una placa de adquisición AVM-ISDN-A1 y una interfaz de acceso básico a ISDN (BRI). La frecuencia de muestreo empleada fue de 8 kHz a 16 bits por muestra. Para este trabajo se seleccionaron frases de habla continua de la base SALA Argentina, región SUR. Esta región comprende las provincias de Buenos Aires, Santa Fe, Entre Ríos, La Pampa, Neuquén, Río Negro, Chubut, Santa Cruz y Tierra del Fuego. La región SUR es la más populosa de Argentina con un número aproximado de 21 millones de habitantes (corresponde al 65% del total del país) y forma parte de una de las divisiones dialectales propuestas en [15].

Durante la selección de las emisiones acústicas se eliminaron aquellas que presentaban alteraciones groseras (como baja relación señal a ruido y errores de emisión). El corpus quedó delimitado a 1.301 frases, con un total de 9.948 palabras, correspondientes a un vocabulario de 2.722 palabras distintas, emitidas por 138 hablantes (48 hombres y 90 mujeres) correspondientes a 99 minutos de grabación.

(5)

3 Metodología Empleada

La metodología consistió en:

1. Desarrollar un sistema de reconocimiento del habla basado en MOM1, implementando cada uno de los módulos requeridos: un diccionario de pronunciaciones, un modelo de lenguaje y los modelos acústicos.

2. Evaluar el desempeño del sistema de reconocimiento empleando como modelos acústicos trifonos y monofonos estándar, y monofonos acentuados.

3.1 Diccionario de Pronunciaciones y Modelo de Lenguaje

El diccionario de pronunciaciones se construyó empleando el alfabeto fonético para fines tecnológicos denominado SAMPA (Speech Assesment Methods: Phonetic Alphabet), adaptado para el Español de Argentina [16], que utiliza un total de 30 unidades fonéticas. Para el caso del reconocedor empleando monofonos acentuados, se modificó el diccionario de pronunciaciones anteriormente detallado, empleando reglas ortográficas para distinguir las vocales acentuadas. Las vocales correspondientes a palabras monosilábicas fueron consideradas no-acentuadas, debido a que aproximadamente el 90% de las palabras átonas son monosílábicas [17]. Además, en experimentos exploratorios previos no se logró una mejoría en el reconocimiento de palabras empleando las monosílabas acentuadas.

Como modelo de lenguaje se empleó un bigrama. El mismo fue estimado en base a las transcripciones de las 1.301 frases de la base de datos. En la Tabla 1 pueden verse las características generales de la gramática generada.

Tabla 1. Características del modelo de lenguaje utilizado.

Atributo Valor

Vocabulario [palabras] 2722

Número de nodos 2723

Entropía 5.4

Perplejidad 42.5

Longitud de frase promedio [palabras] 9.2 Longitud de frase mínima [palabras] 2 Longitud de frase máxima [palabras] 40

Las pruebas de reconocimiento se efectuaron en una computadora con procesador AMD Athlon XP-M 2200+ con 512MB de memoria.

(6)

3.2 Modelos Acústicos

La parametrización de la señal acústica se realizó empleando frecuencia de muestreo de 8 kHz, 16 bits de resolución y sustracción de la media temporal, de manera de eliminar cualquier nivel de continua proveniente de la etapa de adquisición. Se utilizaron ventanas de análisis del tipo Hamming de 25ms de duración y 10 ms de avance, filtro de preénfasis de primer orden ( = 0.97), y normalización de la energía a nivel de frase. Se codificó cada ventana de la señal empleando 12 coeficientes cepstrales en escala de Mels a los cuales se les adicionó los coeficientes delta y aceleración (derivadas temporales de primer y segundo orden), conformando un total de 39 parámetros.

Las unidades empleadas en los modelos acústicos fueron: 1) monofonos, 2) monofonos acentuados, 3) trifonos dependientes del contexto interior de las palabras (TdCIP) y 4) trifonos dependientes del contexto entre palabras (TdCEP).

El conjunto de monofonos estándar quedó conformado por las 30 unidades fonéticas correspondientes al alfabeto SAMPA para Argentina, a las cuales se les agregó un modelo de “silencio” y otro “pausa corta” completando un total de 32 unidades.

La clase de monofonos acentuados fue generada sumando a los modelos anteriores los correspondientes a las cinco vocales acentuadas, quedando así representada por 37 unidades.

Los modelos empleados en el caso de los TdCIP y TdCEP fueron generados a partir de la expansión de los modelos de monofonos estándar en trifonos, considerando el contexto de cada fonema. Posteriormente se los agrupó en clases acústicas similares mediante agrupamientos basados en reglas fonéticas. Este agrupamiento permitió reducir la cantidad de modelos a emplear dada la limitada cantidad de datos de entrenamiento para estimar cada modelo. El número de unidades definitivas, luego de la fase de agrupamiento fue de 849 para TdCPI, y de 1314 para TdCEP.

El número promedio de mezclas de Gausianas tanto para monofonos como para trifonos fue de 144, a saber de 256, 128, 128 y 64 para los subconjuntos 1, 2, 3 y 4 de los vectores de características respectivamente.

3.3 Etapa de Entrenamiento

El entrenamiento de los modelos acústicos siguió la metodología propuesta por [18], consistente en:

a. Creación de un MOM simple de 3 estados de izquierda a derecha para cada uno de los fonemas, exceptuando la pausa corta, que es asociada al estado central del modelo de silencio.

b. Generación de nuevos modelos a partir de los modelos ya entrenados. Los nuevos modelos comparten el mismo conjunto de funciones de densidad de

(7)

probabilidad, variando únicamente los pesos de ponderación aplicados a cada una de ellos (MOM semi-continuos).

c. Para los monofonos y monofonos acentuados el re-entrenamiento de los modelos semi-continuos hasta obtener los MOM definitivos que se emplean en la etapa de reconocimiento.

d. Para el caso de TdCIP y TdCEP se realizó la expansión automática de los modelos de monofonos estándar a trifonos. En el caso de los TdCIP la expansión abarca los difonos y trifonos presentes dentro de cada palabra, mientras que para el caso de los TdCEP se consideran también trifonos entre palabras.

e. Re-entrenamiento de los modelos para ambos tipos de trifonos. f. Agrupamiento de los modelos en clases acústicas similares.

g. Re-entrenamiento de los grupos de modelos generados, empleando enlazado de parámetros.

h. Re-entrenamiento final hasta lograr los MOM definitivos a ser empleados en la etapa de reconocimiento para ambos tipos de trifonos.

3.4 Etapa de Reconocimiento

Teniendo en cuenta el modelo acústico, el modelo de lenguaje y la secuencia de observaciones acústicas correspondientes a la frase a reconocer, se utiliza el algoritmo de Viterbi para buscar la secuencia de transiciones de estados de máxima verosimilitud. Esta secuencia es la que mejor explica la señal acústica recibida, considerando los modelos acústicos entrenados y el modelo de lenguaje.

El reconocedor posee diversos parámetros configurables, para los cuales se emplearon los siguientes valores: ancho del haz de decodificación 120, factor de preponderancia del modelo de lenguaje sobre el acústico 5, factor de penalización de palabras insertadas 0. El “ancho del haz de decodificación” restringe el crecimiento de la red de reconocimiento a aquellos MOM cuyas probabilidades de verosimilitud caen dentro de un ancho de haz con respecto al modelo más probable. De esta manera disminuyendo el ancho de haz se procesan menos modelos y se reduce el tiempo de decodificación, aunque puede reducirse también el porcentaje de reconocimiento. El “factor de lenguaje” post-multiplica la verosimilitud de la red de palabras de forma de incrementar la importancia del modelo de lenguaje con respecto al modelo acústico. En el caso de un factor de lenguaje nulo sólo se consideraría el modelo acústico en el reconocimiento. El “factor de penalización de palabras insertadas” permite controlar la probabilidad de inserción de palabras durante el reconocimiento. Al aumentar este factor se hacen más probables hipótesis de secuencias con mayor número de palabras, aumentando también el riesgo de inserciones de palabras erróneas.

(8)

4 Resultados y Discusión

4.1 Medidas de Desempeño

Para comparar el desempeño de los reconocedores automáticos del habla se suelen considerar diversos aspectos como la cantidad de palabras reconocidas correctamente, la velocidad del proceso de reconocimiento, etc. Para cuantificar la calidad del reconocimiento se emplean las siguientes figuras de mérito: la tasa de reconocimiento de palabras (R), la precisión (P) y la tasa de error de palabras (ER) definidas como: % 100     N S D N R . (1) % 100      N I S D N P . (2) R ER100% . (3)

Donde N es la cantidad total de palabras a reconocer, S es el número de errores por substitución, D es el número de errores por eliminación, I es el número de errores de inserción.

Por otra parte, las mediciones para la estimación del tiempo de procesamiento se realizaron calculando el tiempo que demora el reconocimiento sobre el conjunto completo de evaluación, dividido el número de ventanas de análisis. Luego se normaliza por la duración de una ventana. Así se obtiene un tiempo de reconocimiento normalizado (TR), útil para calcular y comparar costos de ejecución para cada unidad acústica empleada. Esta medida es obviamente dependiente del hardware. REAL REC T T TR  . (4)

Donde TREC es el tiempo de reconocimiento promedio para una ventana de análisis y TREAL es la duración de la ventana.

(9)

4.2 Resultados Comparativos

Para la comparación del desempeño de los reconocedores empleando las distintas unidades acústicas se utilizó la metodología de validación cruzada, empleando 10 particiones del conjunto de datos disponibles. Para cada partición se separaron 20% de los casos para evaluación.

En la Tabla 2 pueden verse los resultados del reconocimiento para cada una de las unidades básicas de los modelos acústicos empleados en cada una de las particiones.

Tabla 2. Resultados de reconocimiento empleando diferentes unidades acústicas.

Monofonos Monofonos

acentuados TdCIP TdCEP

Partición R P R P R P R P 1 85.48 83.49 85.07 82.87 84.82 83.11 84.35 80.93 2 88.76 87.26 88.00 86.09 86.51 89.94 89.44 86.51 3 88.40 87.02 88.51 86.81 88.94 87.23 90.43 85.53 4 92.52 91.69 92.94 92.42 90.47 88.34 93.41 89.76 5 86.56 86.25 85.54 85.13 85.20 84.39 87.61 85.60 6 90.98 90.03 92.96 91.47 91.91 90.37 93.33 89.80 7 83.77 82.56 85.94 84.69 85.00 82.13 86.49 80.44 8 81.09 79.61 81.44 80.30 80.56 79.11 82.91 78.99 9 78.08 76.90 80.06 79.17 76.05 73.90 81.23 77.91 10 85.71 84.09 88.08 87.05 83.69 81.73 86.44 82.71 Promedio 86.14 84.89 86.85 85.60 85.32 83.53 87.56 83.82 Desvío Estándar 4.38 4.53 4.23 4.25 4.67 4.76 4.13 4.26

En la Tabla 2 se puede observar que los mejores resultados se obtienen para monofonos acentuados. Aún cuando los monofonos estándar tienen la ventaja de disponer de más muestras para estimar cada modelo durante el entrenamiento, el desempeño fue menor, confirmándose la hipótesis de que existen diferencias en los atributos físicos entre vocales acentuadas e inacentuadas que pueden aprovecharse para mejorar el reconocimiento del habla.

Los resultados obtenidos para trifonos son inferiores a los obtenidos para monofonos. En este caso el número de muestras disponibles de entrenamiento es aún menor. Es de esperar que al aumentar el número de ejemplos de entrenamiento, mejore el desempeño empleando estas unidades, ya que existe una relación de compromiso entre la calidad de representación del contexto y el número de ejemplos disponibles para estimar adecuadamente los modelos para cada uno de esos contextos.

La Figura 1 permite comparar las ventajas y desventajas de cada conjunto de unidades acústicas, de acuerdo a la metodología propuesta en [19].

(10)

En esta figura se pueden ver los distintos valores del factor de tiempo real y las correspondientes precisiones para cada unidad acústica. Estos datos se obtuvieron realizando la evaluación de los distintos sistemas de reconocimiento con diferentes valores del parámetro que controla el haz de decodificación dentro del algoritmo de Viterbi. Cuando se brinda al reconocedor una mayor exploración, la precisión de reconocimiento mejora pero también aumenta el tiempo de procesamiento requerido. Se puede ver que a partir de un factor de tiempo real de 0.8 aproximadamente, el mejor desempeño se logra con las unidades propuestas.

Además los trifonos requieren mayor tiempo para mostrar un desempeño equivalente.

Fig. 1. Comparación de resultados de reconocimiento en cuanto a precisión y tasa de tiempo real para las cuatro unidades acústicas evaluadas.

Considerando una precisión de al menos 89%, en la Tabla 3 se presenta la información vinculada al factor de tiempo real, y al uso de memoria para cada modelo.

(11)

Tabla 3. Resultados comparativos de precisión de reconocimiento, tasa de tiempo real y memoria de almacenamiento de los MOM.

Partición TR Memoria [KB]

Monofonos 0,10 142

Monofonos acentuados 0,13 170

TdCIP 0.95 940

TdCEP 3,89 986

En la Tabla 3 se puede observar que los requerimientos de memoria son consistentes con la cantidad de unidades de los modelos propuestos.

A pesar de requerir mayor espacio en memoria, los modelos de monofonos acentuados presentan un factor de tiempo real cercano al de los monofonos estándar. Los modelos de trifonos TdCEP mostraron la mayor relación de tiempo real en concordancia con el mayor número de unidades.

5 Conclusiones y Trabajos Futuros

En este trabajo se construyeron modelos acústicos basados en la información de acento lexical. Se evaluó el desempeño del modelo propuesto con respecto al modelado acústico estándar empleando como material de evaluación habla telefónica leída para el reconocimiento automático del habla del Español de Argentina.

Para el conjunto de datos disponibles el empleo de modelos semi-continuos independientes del contexto (monofonos y monofonos acentuados) permitió obtener porcentajes de reconocimiento similares a los obtenidos empleando modelos dependientes del contexto (trifonos).

El empleo de los monofonos acentuados permitió mejorar el porcentaje de reconocimiento en un 1,78% con respecto a los trifonos dependientes del contexto entre palabras, con una reducción considerable del tiempo de procesamiento.

Si se requiere implementar un sistema de reconocimiento en tiempo real es necesario imponer restricciones al haz de decodificación en el algoritmo de Viterbi para lograr tasas de tiempo real menores a un RT de 100%. Si bien esta restricción provoca una disminución en las tasas de reconocimiento, la misma no es muy significativa. En un futuro trabajo se evaluará esta propuesta aumentando el número de datos de entrenamiento para evaluar adecuadamente el desempeño con trifonos.

Como en este trabajo se distinguen las vocales acentuadas de las inacentuadas sólo a partir del texto, próximamente se evaluará esta distinción utilizando información acústica. Se espera utilizar la información de los acentos tonales como indicadores de la presencia de un acento léxico en palabras de contenido.

(12)

Referencias

1. Lippmann, R.: “Speech Recognition by Machines and Humans”. Speech Communication, vol. 22, no. 1, pp. 1–15 (1997)

2. Benzeghiba, M., De Mori, R., Deroo, O., Dupont, S., Erbes, T., Jouvet, D., Fissore, L., Laface, P., Mertins, A., Ris, C., Rose, R., Tyagi, V., Wellekens, C.: Automatic Speech Recognition and Speech Variability: A Review. Speech Communication vol. 49 pp. 763– 786 (2007)

3. Lehiste, I., Suprasegmentals. Cambridge MIT Press, Massachussets (1970)

4. Borzone, A., Signorini, A., Massone, M.I.: Rasgos Prosódicos: el Acento. Fonoaudiológica, 28, 19-36 (1982)

5. Ladd, D.: Intonational Phonology. Cambridge University Press, Great Britain (1996) 6. Colantoni, L., Gurlekian, J.: Convergence and Intonation: Historical Evidence from Buenos

Aires Spanish. Bilingualism: Language and Cognition vol. 7, no. 2, pp. 107-119 (2004). 7. van den Heuvel, H., van Kuijk, D., Boves, L.:Modeling Lexical Stress In Continuous

Speech Recognition For Dutch. Speech Communication vol. 40, pp. 335-350 (2003) 8. Wang, C., Seneff, S.: Lexical Stress Modeling for Improved Speech Recognition of

Spontaneous Telephone Speech in the Jupiter Domain. In Proceedings of the 7th European Conference on Speech Communication and Technology (2001)

9. Ananthakrishnan, S., Narayanan, S.: Improved Speech Recognition Using Acoustic And Lexical Correlates Of Pitch Accent In A N-Best Rescoring Framework. In Proc. Int. Conf. Acoust., Speech, Signal Process., pp. 873-876 (2007)

10. Milone, D.H., Rubio, A.J.: Prosodic and Accentual Information for Automatic Speech Recognition. IEEE Transactions on Speech and Audio Processing, vol. 11, no. 4, pp. 321-333 (2003).

11.Toledo, G.: El Ritmo en el Español. Editorial Gredos, Madrid (1988)

12. Moreno A.: SALA: SpeechDat Across Latin America. Proceedings of The I Workshop on Very Large Databases, Atenas, Grecia (2000)

13. Winsky, R.: Definition of Corpus, Scripts and Standards for Fixed Networks. SpeechDat Project, doc ref LE2-4001-SD1.1.3,22 (1997)

14. Gurlekian, J., Colantoni, L., Torres, H., Rincón, A., Moreno A., Mariño J.: Database for an Automatic Speech Recognition System for Argentine Spanish. Proceedings of the IRCS Workshop on Linguistic Databases pp. 92--98 (2001)

15. Vidal de Battini, B.: El Español de Argentina. Buenos Aires: Consejo Nacional de Educación (1964)

16. Gurlekian, J., Colantoni, N., Torres, H.: El Alfabeto Fonético SAMPA y el Diseño de Córpora Fonéticamente Balanceados. Fonoaudiológica. Editorial: ASALFA. Tomo:47, no. 3, pp 58-69 (2001)

17.Quilis, A.: Tratado de Fonología y Fonética Españolas. Editorial Gredos, España (1993) 18. Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J.,

Ollason, D., Povey, D., Valtech, V. & Wooland, P.: The HTK Book. Cambridge University Press (2006)

19. Ravinshakar, M.: Efficient Algorithms for Speech Recognition. Doctoral Thesis, School of Computer Science, Computer Science Division, Carnegie Mellon University (1996)

Referencias

Documento similar

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

La siguiente y última ampliación en la Sala de Millones fue a finales de los años sesenta cuando Carlos III habilitó la sexta plaza para las ciudades con voto en Cortes de

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

La Ley 20/2021 señala con carácter imperativo los procesos de selección. Para los procesos de estabilización del art. 2 opta directamente por el concurso-oposición y por determinar

El nuevo Decreto reforzaba el poder militar al asumir el Comandante General del Reino Tserclaes de Tilly todos los poderes –militar, político, económico y gubernativo–; ampliaba

Sanz (Universidad Carlos III-IUNE): "El papel de las fuentes de datos en los ranking nacionales de universidades".. Reuniones científicas 75 Los días 12 y 13 de noviembre

(Banco de España) Mancebo, Pascual (U. de Alicante) Marco, Mariluz (U. de València) Marhuenda, Francisco (U. de Alicante) Marhuenda, Joaquín (U. de Alicante) Marquerie,

 Para recibir todos los números de referencia en un solo correo electrónico, es necesario que las solicitudes estén cumplimentadas y sean todos los datos válidos, incluido el