Tecnologías del lenguaje
en España. Comunicación
inteligente entre
personas
y
máquinas
En el actual tránsito hacia la Sociedad de la Información y el Conocimiento, las tecnologías del lenguaje (TL) pueden amplificar de forma notable el valor estratégico de un idio-ma. En unos casos, aumentando la competitividad de sus ya voluminosos intercambios internacionales y, en otros, garantizando la supervivencia de sus valores culturales e identitarios.
En España conviven las dos situaciones: la segunda len-gua nativa del mundo, hablada por más de 460 millones de personas en 21 países, coexiste con otras tres lenguas cooficiales, todas ellas por debajo de los 10 millones de ha-blantes.
Desde el Instituto para la Promoción de las Tecnologías de la Lengua hemos impulsado este estudio, que refleja luces y sombras del grado de desarrollo y aplicación de las TL en nuestro país, y pretende ser un primer paso hacia la elabo-ración colaborativa (instituciones, investigadores, empre-sas y gobiernos) de planes estratégicos que permitan con-solidar el posicionamiento de las lenguas españolas en el mapa mundial de los intercambios económicos, culturales y sociales.
PV
P. 1
5,0
0 €
10178339
63
Coord. Ángel Luis Gonzalo
Te
cnologías del
lenguaje
en E
spaña. Comunicación
int
eligent
e
entre
personas
y
EN ESPAÑA. COMUNICACIÓN
INTELIGENTE ENTRE PERSONAS
Y MÁQUINAS
Asesor técnico:
EN ESPAÑA. COMUNICACIÓN
INTELIGENTE ENTRE PERSONAS
Y MÁQUINAS
Asesor técnico:
Instituto para la Promoción de las Tecnologías de la Lengua
Coordinador en Madrid:
Francisco Cruces
Coordinadora adjunta:
Maritza Urteaga Castro Pozo
Investigadores en México:
Verónica Gerber Bicceci, Claudia Jiménez López, Raúl Marcó del Pont Lalli,
Enedina Ortega, Carla Pinochet Cobos, Cecilia Vilchis Schöndube
y Julián Woodside Woods
Investigadores en Madrid:
© Fundación Telefónica, 2016 Gran Vía, 28
28013 Madrid (España)
© Editorial Ariel, S.A., 2016 Avda. Diagonal, 662-664 08034 Barcelona (España)
© de los textos: Fundación Telefónica
© de la ilustración de cubierta: © Mclek - Shuttestock, TecnoVectors - Shutterstock El presente monográfico se publica bajo una licencia Creative
Commons del tipo: Reconocimiento - Compartir Igual
Coordinación editorial de Fundación Telefónica: Rosa María Sáinz Peña Primera edición: diciembre de 2016
ISBN: 978-84-08-16893-5 Depósito legal: B. 25-427-2016 Impresión y encuadernación: Unigraf Impreso en España – Printed in Spain
Esta obra se puede descargar de forma libre y gratuita en: http://www.fundaciontelefonica.com/publicaciones
El papel utilizado para la impresión de este libro es cien por cien libre de cloro y está calificado como
Prefacio ...
XI
La globalización ...
XI
El valor estratégico del idioma ...XII
El Proyecto I+D+ñ ...XIV
Introducción
Ángel Luis Gonzalo ... XV
Las tecnologías de la lengua ...
XVI
Estructura de la obra ...XVII
Los grupos de investigación ...XX
1. Reconocimiento del lenguaje hablado
Eduardo Lleida y Alfonso Ortega ...
1
1.1 Introducción ...
2
1.2 Un paseo por la historia ...
3
1.3 La tecnología ...
7
1.3.1 Características acústicas ...
7
1.3.2 Modelado acústico ...
9
1.3.3 Modelado de lenguaje ...
10
1.3.4 Algoritmos de búsqueda ...
12
1.4 ¿Quién es quién? ...
12
1.4.1 ¿Cuál es el panorama nacional? ...
13
Referencias ...
14
Currículum de los autores ...
17
2. Generación de lenguaje hablado Juan Manuel Montero ...
19
2.1 Introducción ...
20
2.1.1 Descripción ...
20
2.1.2 Arquitectura de un sintetizador y conceptos ...
20
2.1.3 Problemas por resolver ...
22
2.1.4 Beneficios y aplicaciones ...
24
2.2 Las tecnologías y los productos disponibles ...
25
2.2.1 Antecedentes históricos ...
25
2.2.2 Síntesis por concatenación de unidades pregrabadas ...
26
2.2.3 Síntesis por selección y concatenación de unidades ...
26
2.2.5 Síntesis híbrida ...
29
2.2.6 Evaluación de sistemas de síntesis ...
29
Bibliografía ...
29
Referencias ...
42
Currículum del autor ...
44
3. Procesamiento del lenguaje escrito Horacio Rodríguez ...
45
3.1 Introducción ...
46
3.2 El preproceso de los textos ...
48
3.3 Recuperación de información (IR) ...
51
3.4 Extracción de información (IE) ...
55
3.5 Resumen automático (AS) ...
61
3.6 Búsqueda de respuestas (QA) ...
64
3.7 Inferencia textual (RTE) ...
67
Currículum del autor ...
69
4. Reconocimiento de texto manuscrito Joan Andreu Sánchez y Enrique Vidal ...
71
4.1 Introducción ...
72
4.2 Reconocimiento de texto manuscrito ...
74
4.2.1 Reconocimiento de texto manuscrito off line ...
74
4.2.2 Reconocimiento de texto manuscrito on line ...
77
4.3 Reconocimiento interactivo de texto manuscrito ...
78
4.4 Búsqueda de términos en imágenes de texto ...
79
4.5 Conclusiones ...
82
Referencias ...
82
Currículum de los autores ...
83
5. Traducción automática y asistida Francisco Casacuberta Nolla y Enrique Vidal Ruiz ...
85
5.1 Introducción ...
86
5.2 Traducción automática ...
87
5.2.1 Traducción de texto escrito ...
87
5.2.2 Adaptación a nuevos entornos ...
90
5.2.3 Otros aspectos de la traducción automática ...
90
5.2.4 Traducción del habla ...
91
5.3 Traducción asistida ...
92
5.3.1 Traducción interactiva ...
92
5.4 Tendencias actuales ...
94
5.5 Conclusiones ...
95
Referencias ...
95
6. Discurso y diálogo
Emilio Sanchís ...
101
6.1 Historia y estado actual de los sistemas de diálogo ...
102
6.2 Características de un sistema de diálogo hablado ...
104
6.2.1 Reconocimiento de la entrada hablada del usuario ...
105
6.2.2 Comprensión ...
105
6.2.3 El gestor de diálogo ...
106
6.2.4 Generación de respuestas ...
107
6.2.5 Sintetizador ...
107
6.3 El etiquetado de actos de diálogo ...
107
6.4 VoiceXML ...
108
6.5 Evaluación de los sistemas de diálogo ...
108
6.6 Gestión del diálogo ...
109
6.6.1 Reglas ...
110
6.6.2 Parcialmente Observables Markov Decision Process (POMDP) ...
110
6.6.3 Traductores estocásticos ...
111
6.6.4 Redes bayesianas ...
112
6.6.5 Simulación de usuario ...
112
6.7 Conclusión ...
113
Bibliografía ...
114
Currículum del autor ...
116
7. Recursos lingüísticos de las lenguas españolas...
117
7.1. CREA y CORPES, corpus de referencia del español Mercedes Sánchez Sánchez ...
119
7.1.1 El Corpus de Referencia del Español Actual (CREA) ...
120
7.1.2 El Corpus del Español del Siglo XXI (CORPES XXI) ...
122
7.1.2.1 Codficación de CORPES ...
124
Currículum de la autora ...
124
7.2. Recursos lingüísticos del catalán Núria Bel y Montserrat Marimon ...
125
7.2.1 Introducción ...
126
7.2.2 Corpus orales ...
127
7.2.3 Corpus textuales ...
128
7.2.4 Corpus paralelos...
129
7.2.5 Recursos léxicos ...
129
Bibliografía ...
130
Currículum de las autoras ...
131
7.3. Recursos lingüísticos del euskera Iker Etxebeste. UZEI ...
133
7.3.1 Introducción ...
134
7.3.2 Corpus y diccionarios principales disponibles en Internet ...
135
7.3.3 Herramientas para corrección de texto ...
135
7.3.5 Memorias de traducción ...
136
7.3.6 Actualidad de proyectos de I+D+i ...
137
7.3.6.1 ¿Quién es quién? ...
138
Currículum del autor ...
140
7.4. Recursos de tecnología lingüística para la lengua gallega Xavier Gómez Guinovart ...
141
7.4.1 Introducción ...
142
7.4.2 Corpus textuales ...
142
7.4.3 Léxicos y diccionarios ...
144
7.4.4 Otros recursos ...
145
Currículum del autor ...
147
Anexo. Grupos de investigación de tecnologías del lenguaje en España ...
147
1 Andalucía ...
149
2 Aragón ...
158
3 Canarias ...
164
4 Castilla y León ...
168
5 Cataluña ...
171
6 Comunidad Valenciana ...
195
7 Galicia ...
204
8 Madrid ...
206
La globalización
Desde hace algún tiempo se viene aceptando con naturalidad la idea de que el tránsito hacia la Socie-dad de la Información y/o del Conocimiento representa para todos nosotros un salto cualitativo seme-jante al que supuso la imprenta de Johannes Gutenberg para sus coetáneos del siglo xv. Pero las opor-tunidades y los retos que nos brindan ahora la digitalización de la información y la enorme facilidad que las TIC proporcionan para su transporte y almacenamiento, son todavía de mayor envergadura y, sobre todo, exigen actuaciones tan urgentes como globales.
A diario contemplamos con asombro el abrumador despliegue de las TIC en nuestros ámbitos profe-sionales, públicos e incluso domésticos. Hoy nadie duda de que los proveedores de equipos e infraes-tructuras están resolviendo eficientemente el reto de generalizar el acceso a canales de comunicación de banda ancha, tanto en las redes fijas como en las móviles. El objetivo es que cualquier persona pueda acceder, de modo casi instantáneo, a cualquier información desde cualquier lugar del planeta, a precios razonablemente asequibles. Los proveedores de servicios por Internet hacen el resto, de ma-nera que el escenario de la Sociedad del Conocimiento ya está listo. Pero en él hay varios papeles de la función que aún no están repartidos.
Si una buena parte de la información, la cultura y el conocimiento ya es globalmente accesible: • ¿Basta con la implantación tecnológica para que todos los ciudadanos del mundo estén en
igual-dad de condiciones a la hora de beneficiarse de esa ingente acumulación informativa? • ¿Qué otras «variables» condicionan el proceso?
• ¿Qué nuevas desigualdades pueden generarse? Y si pasamos del ámbito social al económico:
• ¿Qué oportunidades de mercado ofrece esta globalización de la información, la cultura y el cono-cimiento?
• ¿Cómo debe prepararse un conglomerado como la UE, un país como España, una comunidad con lengua propia o un grupo de empresas determinado para rentabilizar esas oportunidades, en pro-vecho de sus ciudadanos o de sus accionistas y clientes?
Son tantas las disciplinas (políticas, sociales, culturales, científicas, económicas) involucradas que hay multitud de especialistas buscando respuestas a ésas y a otras muchas de las preguntas que suscita un proceso tan arrollador e irreversible como éste.
Fundesco, la precursora de la actual Fundación Telefónica, fue en ese sentido la más reconocida en nuestro entorno europeo. Se erigió por entonces en observatorio plural; catalizador de iniciativas, y laboratorio donde experimentar los impactos sociales, culturales y económicos de las hoy llamadas TIC. Más de ciento cincuenta publicaciones propias, decenas de encuentros multidisciplinares y nume-rosos proyectos piloto de implantación real de nuevas tecnologías permitieron vislumbrar una buena parte de esta asombrosa «sociedad digitalizada» que treinta años después deslumbra incluso a los especialistas. Aún perdura la revista Telos, probablemente la plataforma de reflexión más veterana que exista en Europa sobre las consecuencias de la aplicación intensiva de las telecomunicaciones y las tecnologías digitales sobre nuestras vidas.
El valor estratégico del idioma
Pues bien, de entre los múltiples aspectos que se vienen analizando durante décadas, hay una variable que ostenta un papel estratégico de enorme relevancia a la hora de obtener beneficios sociales, cultu-rales y también económicos en el «multijuego» que se está desarrollando ya sobre el tablero de la Sociedad de la Información: el idioma.
Con idioma, lengua o lenguaje nos referimos al «sistema lingüístico propio de una comunidad huma-na». Es el vehículo de la comunicación entre personas, instituciones y empresas, y es el soporte de la información almacenada. Es signo de identidad y un medio para el aprendizaje, pero también ingre-diente fundamental de la creatividad literaria, teatral y cinematográfica.
Hoy en día, ya podemos consultar el catálogo de productos de un fabricante situado a miles de kiló-metros, hacer el pedido y abonarlo desde nuestros dispositivos electrónicos, pero sólo si entendemos su idioma o utilizamos una lengua franca intermedia. Para que nuestras empresas se sitúen en el esca-parate global de Internet, también necesitan superar esa barrera lingüística. Por eso los economistas dedicados al comercio internacional siguen trabajando con un modelo semejante al de la «gravitación universal», según el cual «el flujo comercial entre dos países es directamente proporcional a sus tama-ños económicos, e inversamente proporcional a las distancias físicas y lingüísticas que los separan». (Ver el libro de la colección Instituto Cervantes-Santillana, publicado con la colaboración de Fundación Telefónica y titulado El español, lengua global. La economía.)
Sobre las dos primeras variables es difícil actuar. Pero a igualdad de peso económico y de proximidad física, los países que tengan como lengua nativa precisamente la lengua franca más utilizada (inglés, hoy en día) tendrán una clara ventaja comparativa frente a los demás. Incluso podemos afirmar que el factor «distancia física» ya no es lo que era, gracias a la capilaridad global de las telecomunicaciones. De manera que el modelo ya casi se queda en dos factores contrapuestos: el peso económico (léase científico, tecnológico, cultural, político) y la distancia lingüística.
¿Y eso cómo se hace? De la forma clásica, enseñando idiomas a toda nuestra población activa. Es en todo caso una excelente opción, por éste y por otros muchos motivos, pero resulta muy cara, muy lenta y de resultado incierto, sobre todo porque se necesita una colaboración muy activa de los pro-pios aprendices. Pero hay otra vía: construir máquinas capaces de «dialogar de forma natural» con nosotros y con quienes utilizan otros idiomas. Es el horizonte ideal de los artilugios electrónicos que manejamos en la actualidad: poder interrogar a la máquina de viva voz (no va a dar tiempo a que los procesos evolutivos humanos transformen nuestros dedos en punteros) y que ella navegue por la red mundial en varios idiomas hasta obtener la respuesta adecuada... en nuestra propia lengua.
La Comisión de la UE está enfocando su preocupación en el sentido de paliar los catastróficos efectos que una «dualidad digital» tendría sobre los ciudadanos comunitarios que se encuentran en situación minoritaria respecto a la disponibilidad tecnológica, a los conocimientos básicos para utilizarla y... al idioma materno. En su afán por luchar contra esa nueva desigualdad social ha abierto una reflexión sobre cómo garantizar a todos los europeos un acceso a la información, que al mismo tiempo sea igua-litario y económicamente viable. Y ha comenzado por priorizar aquellas actuaciones relacionadas con el papel que las múltiples lenguas comunitarias pueden y deben jugar frente a esa amenaza, siempre acompañando al inevitable protagonista de cualquier escenario que elijamos: el idioma inglés. En ese sentido, la UE apela a todos para poner recursos en el desarrollo de proyectos multilingües que eviten en un futuro inmediato la total dependencia respecto al inglés en el acceso a la información globaliza-da (Internet, ordenadores, tabletas, móviles, teleaprendizaje, telecompras...). Lo hace porque es cons-ciente de que las llamadas «tecnologías de la lengua», imprescindibles para garantizar la ansiada acce-sibilidad global, están más cerca de conseguirlo en un entorno lingüístico inglés o chino que en cualquier otro. Y en la UE hay casi treinta lenguas nacionales y otras muchas regionales para incorpo-rar al proceso, y construir así el imprescindible «mercado común de la información».
Desde nuestro punto de vista, es obvio que se debe estar presente en el proceso abierto por la UE, pero parece aún más evidente que España está obligada a poner urgentemente en marcha una estrategia propia. Máxime si tenemos en cuenta que, en nuestro caso, coexisten varias lenguas cooficiales al uso entre el 40% de la población, con una lengua común que, de acuerdo con el último informe anual del Instituto Cervantes, es, al mismo tiempo:
• La segunda lengua nativa del mundo, hablada por más de 460 millones de personas (el 6,7% de la población mundial) en los 21 países que la tienen como lengua oficial.
• La tercera más utilizada en Internet (7,9% de los usuarios), y la segunda en visitas a la Wikipedia. • La tercera más estudiada, por 21 millones de extranjeros, y la primera en Estados Unidos. • La segunda o tercera lengua de otros 50 millones de personas en el resto del mundo. • Sus hablantes contribuyen a más del 9% del PIB mundial.
El Proyecto I+D+ñ
Conscientes de todo ello, desde el Instituto para la Promoción de las Tecnologías de la Lengua en Es-paña hemos puesto en marcha un ambicioso proyecto que pretende, a medio plazo, la creación de una plataforma de estudio y promoción de las tecnologías de la lengua. Sería, al mismo tiempo, un obser-vatorio, una fábrica de ideas y proyectos nuevos, y un lobby sectorial, en el que pretendemos que concurran las instituciones dedicadas a cuidar, enseñar y difundir nuestros idiomas (academias, uni-versidades, institutos como el Cervantes), junto con los investigadores (grupos de investigación, aso-ciaciones, redes temáticas) y, desde luego, las empresas, tanto aquellas que generan tecnologías y productos como las que los utilizan en su actividad mercantil (telecos, editoriales, multimedia y mu-chas más).
Por nuestra parte, los siguientes pasos serán la constitución de esa plataforma y la identificación de los elementos básicos que podrían establecer una primera definición estratégica de lo que llamaría-mos el sector de la investigación, desarrollo y aplicación de las tecnologías de la lengua en España. La intención última sería concienciar a la sociedad, y a sus diversos gobiernos, sobre la importancia estra-tégica, económica y cultural de las mismas, y evitar que su desarrollo se deje solamente en manos de las grandes operadoras norteamericanas de servicios de Internet.
Antes que nada, y para no confundir al lector, debe quedar claro que éste es un típico estudio sobre «el estado del arte» de una disciplina, no tanto un libro divulgativo sobre las Tecnologías del Lenguaje (TL). Es decir, su objetivo consiste en inventariar y comentar el nivel de desarrollo actual de las TL en España, en general, y la contribución de los grupos de I+D españoles, en particular. En ese sentido, está llamado a ser una pieza importante, aunque todavía insuficiente, para valorar buena parte de las for-talezas y debilidades estratégicas de las lenguas españolas en el tablero internacional del conocimien-to y la información globalizados.
Como se ha dicho en el prefacio, se trata del primer paso de un entramado de iniciativas encaminadas a crear una plataforma entre investigadores, empresas y entidades para promocionar el desarrollo y aplicación de las TL en nuestro país, dado su altísimo valor estratégico y económico para las lenguas españolas.
Aun tratándose, por lo tanto, de una obra necesariamente «muy técnica», se les pidió a los autores que la redactaran de manera que resultase «útil para los especialistas», «motivador para los estudian-tes» y «comprensible para el resto».
Creemos que lo han conseguido en gran medida, porque no en vano los autores de los diversos capítu-los son especialistas del máximo nivel científico en sus respectivas áreas, y decidieron participar tras numerosas reuniones de los promotores de esta iniciativa con grupos de I+D de varias universidades y con las asociaciones científicas que agrupan a la inmensa mayoría de los investigadores españoles que trabajan en este sector, así como con algunas de las instituciones implicadas en la conservación de nuestras diversas lenguas.
La segunda advertencia que deseamos hacer al lector tiene que ver con el propio desequilibrio entre áreas de conocimiento que emana de la propia realidad, y que ha situado en primer plano de la actua-lidad los avances tecnológicos de la lingüística computacional aplicada, en detrimento de la visibiactua-lidad de los alcanzados en la lingüística teórica. Legiones de filólogos, lingüistas, psicólogos, sociólogos y filósofos se ocupan secularmente de investigar el origen, la estructura y la evolución de las lenguas que hablamos, así como de las influencias cruzadas entre unas y otras. Muchos de ellos también nos enseñan a utilizarlas adecuadamente, e incluso algunos culminan su dedicación profesional a una len-gua concreta, ayudando a redefinir constantemente sus fronteras desde las academias.
o su contribución a reducir los costes de transacción. La buena es que a esas legiones de «hombres (y mujeres) de letras» se suman ahora nutridas formaciones de ingenieros, matemáticos y físicos, capaces de engarzar y disciplinar las complejas variantes formales, sintácticas y semánticas de una lengua en los sistemas automáticos de comunicación y almacenamiento de información, que propi-cian los intercambios instantáneos y las transacciones comerciales y financieras alrededor del pla-neta.
Ha sido una sorpresa, en cierto modo decepcionante, comprobar que, al menos en España, hay una muy débil integración entre ambas poblaciones. El hecho cierto de que los desarrollos basados en modelos matemáticos permitan llegar a aplicaciones prácticas más rápidamente, y con menor coste, que los fundamentados en las reglas del uso lingüístico, ha provocado una fuerte «colonización» de este campo por parte de los científicos experimentales y los tecnólogos, en detrimento de filólogos y lingüistas, a los que, desgraciadamente, no encontrará el lector en este estudio.
Es tarea importante, que rebasa los límites de esta publicación, diseñar espacios de encuentro y cola-boración entre ambas comunidades, en aras de propiciar soluciones mucho más ambiciosas (como, por ejemplo, las que proporcionarían las ciencias cognitivas) para reforzar la pujanza estratégica de nuestras lenguas oficiales en el contexto global. Los promotores de este estudio pronto nos dedicare-mos a ello, poniendo en marcha el Proyecto I+D+ñ.
Las tecnologías de la lengua
Para acabar de perfilar los contornos de esta obra, es preciso referirse al alcance de lo que denomina-mos «tecnologías de la lengua». Superponedenomina-mos esa etiqueta a todas aquellas tecnologías que nos ayudan a automatizar procesos de comunicación, oral o escrita, incorporados a máquinas especial-mente programadas. Esos procesos suelen tener como finalidad el establecimiento de un diálogo hombre-máquina en busca de información, de comunicación interpersonal e incluso la realización de una transacción. Para ello, las máquinas intermediarias deben ser capaces de reconocer no sólo las palabras sueltas que le llegan en forma oral y/o escrita (incluso manuscrita), sino el sentido final del
discurso emitido por cada usuario humano concreto, con independencia de su idioma y hasta de su
«forma de hablar». Y, además, han de generar respuestas, orales y/o escritas, que permitan mantener, de forma coherente, ese diálogo hombre-máquina.
Así que necesitamos que las máquinas, por una parte, reconozcan nuestro lenguaje oral/escrito y, por otra, puedan generar su propio lenguaje, oral/escrito, para darnos respuesta. A su vez, el sistema de comunicación-información en el que se integran debe ser capaz de buscar, capturar, procesar y
recu-perar para nosotros la información requerida. Todas las tecnologías que contribuyen a ello se
encua-dran en lo que denominamos «tecnologías de la lengua».
in-teligencia artificial, ciencias de la documentación, sociología, matemáticas (especialmente, estadísti-ca) y economía.
Por otra parte, el campo de aplicación de estas tecnologías es tan amplio que cualquier intento de in-ventariar los «productos lingüísticos» ya existentes desbordaría ampliamente los límites de un estu-dio como éste. En el libro Las cuentas del español, de la colección Fundación Telefónica, se identifican 135 áreas de productos y servicios recogidas en la Contabilidad Nacional de España relacionadas con el idioma, cuyo despliegue nos lleva a «unas 6.000 categorías de productos».
Estamos hablando de ámbitos tan extensos como:
• industrias culturales (editoriales, cine, teatro, música, videojuegos) • medios de comunicación (prensa, radio, TV)
• servicios de telecomunicación • enseñanza
• publicidad • servicios postales • Internet
• servicios bancarios no presenciales
• servicios públicos de las administraciones hacia los ciudadanos • transacciones comerciales (comercio electrónico, turismo, alquileres) • y un largo etcétera.
Los diversos autores que participan en este estudio señalan algunas de las realizaciones más ilustrati-vas en cada uno de sus respectivos campos, y a través de los grupos de I+D que se recogen en el co-rrespondiente anexo se pueden llegar a conocer muchas más.
En futuras actualizaciones de este tipo de estudio se abordará la realización de sendos inventarios de empresas y productos, para delimitar el grado de penetración de estas tecnologías en nuestro país.
Estructura de la obra
Así, en el capítulo 1, los profesores Eduardo Lleida y Alfonso Ortega, de la Universidad de Zaragoza, repasan la evolución de las distintas aproximaciones que los investigadores han ido dando al problema del reconocimiento del lenguaje hablado, y nos sitúan en el estado actual de las mismas. Ya en este primer capítulo se visualiza el camino elegido por la mayoría de los investigadores: el de la estadística y el cálculo de probabilidades. Esta opción no trata de dotar a la máquina de una «inteligencia artifi-cial» que le permita manejar el idioma como lo hacemos los seres humanos, sino de programarla para que deduzca probabilísticamente el sentido de nuestras palabras a partir de la información suministra-da por enormes bases de suministra-datos que almacenan millones de palabras, frases, expresiones... y errores lingüísticos. Estos depósitos lingüísticos son los recursos de un idioma. El problema es que todavía hay pocos, todavía son pequeños y todavía no están totalmente accesibles. Y ya se sabe, la probabilidad de que la máquina estocástica acierte en su proceso de inferencia depende directamente de la canti-dad de información a la que pueda acceder.
Esta deriva matemática que los ingenieros han introducido en el apacible mundo académico de la lin-güística y la filología ha provocado no pocos sentimientos de alarma e incluso rechazo en muchos lingüistas, filólogos, psicólogos, sociólogos y filósofos. Desde nuestro punto de vista, como ya se ha señalado anteriormente, se trata de un problema grave, porque esta revolución tecnológica que afecta tan de lleno al lenguaje humano avanzará cojeando si todos esos especialistas se quedan al margen. Los propios inspiradores de la «vía estadística» saben que sus resultados siempre serán imperfectos y no demasiado fiables, aunque no paren de mejorar día tras día. Para muchas de las actividades cotidia-nas ya basta con las tasas de error actuales, pero el nivel alcanzado supone todavía una clara degrada-ción del idioma y limita la eficacia de muchas de las transacciones automáticas.
Los profesores Lleida y Ortega nos dicen que, en un futuro inmediato, será necesario mejorar «los modelos de lenguaje y diálogo, para lo que se requiere investigar en la comprensión y cognición del lenguaje». Es decir: queridos lingüistas, filólogos, psicólogos... uníos a la revolución.
También será necesario tener resuelto el problema de la «locuacidad» de las máquinas, si queremos dialogar con ellas de forma natural. De eso tratan los capítulos 2 y 6.
En el primero de ellos, el profesor Juan Manuel Montero, de la Universidad Politécnica de Madrid, des-cribe así la generación del lenguaje hablado: «En palabras llanas podríamos decir que la generación consiste en conseguir que las máquinas sean capaces de hablar, leer un texto o interpretar un perso-naje como nosotros y para nosotros».
Si no nos conformamos con plantear a nuestra máquina una simple pareja de pregunta-respuesta, estamos abocados a dialogar con ella. Precisamente el capítulo 6, a cargo del profesor Emilio Sanchís, de la Universitat Politècnica de València, nos introduce en las complejidades lingüísticas, psicológicas y cognitivas de los procesos de discurso y diálogo, y concluye que «uno de los retos más importantes actualmente, además de aumentar la robustez en reconocimiento y comprensión, es la posibilidad de diseñar sistemas que aprendan de las interacciones con usuarios reales y se adapten automáticamen-te a nuevas situaciones. Debe automáticamen-tenerse en cuenta que la usabilidad de estos sisautomáticamen-temas sólo se populari-zará cuando sus prestaciones sean muy altas, ya que de otra forma el posible usuario se frustra y es-coge otro tipo de interacción».
Tanto si dialogamos con la máquina mediante la voz como si lo hacemos por escrito, aquélla siempre acabará trabajando con textos. Además, la inmensa mayoría de la información objeto de nuestras pesquisas y de nuestras transacciones estará almacenada en forma de textos accesibles de modo automático. Por lo tanto, no es de extrañar que el campo en el que más se trabaja actualmente sea precisamente el del procesamiento de textos, como desgrana extensamente el profesor Horacio Rodrí-guez, de la Universitat Politècnica de Catalunya, en el capítulo 3, dedicado al lenguaje escrito. A los llamados sistemas inteligentes basados en textos les pedimos que encuentren los documentos en los que reposa la información que precisamos; que extraigan para nosotros las partes que nos interesan e, incluso, que nos las resuman, o encuentren respuestas cortas y precisas. Estas «partes» interesantes pueden ser factuales (una persona, una organización, una enfermedad, un acontecimiento), pero tam-bién pueden ser opiniones (sobre productos comerciales, políticas gubernamentales, comportamien-tos), y los resúmenes más solicitados suelen referirse, como nos indica el profesor Rodríguez, a biogra-fías, historiales médicos, correos electrónicos, páginas webs, noticias, reuniones, textos docentes... ¿Y si no tenemos acceso a una máquina parlante o no podemos hablar ni utilizar un teclado? Pues para eso se están desarrollando también técnicas que permiten capturar, procesar e interpretar de forma automática textos manuscritos, incluso en modo interactivo, como describen en el capítulo 4 los profe-sores Joan Andreu Sánchez y Enrique Vidal, de la Universitat Politècnica de València, a partir de una hi-pótesis que puede sorprender a muchos: «Se especula que la cantidad de texto manuscrito actualmente existente en el mundo es superior a la del texto producido mecánicamente... No es de extrañar, por tan-to, el gran interés social y comercial en hacer posible el acceso simple y ágil al inmenso legado de infor-mación histórica, política, económica, demográfica y cultural en general, contenido en dichos textos». En el capítulo 5, los profesores Francisco Casacuberta y Enrique Vidal, de la misma universidad, ponen al día los avances en el terreno de la traducción automática y asistida, bien sea de textos o de lenguaje hablado, pero distinguiendo muy bien la diferencia entre traducción automática (sin intervención hu-mana) y traducción asistida (que sólo pretende ayudar al traductor humano).
aceptable (aunque obviamente mejorable) en el uso cotidiano de Internet (vídeos y audios de confe-rencias, entrevistas, podcasts, y navegación en general)».
Por último, en el capítulo 7, que se subdivide en cuatro apartados para las lenguas cooficiales, se subra-ya la importancia que tienen los llamados recursos lingüísticos para avanzar más deprisa y con más se-guridad en cualquiera de los campos antes mencionados. La mayor parte de los sistemas que se utilizan en los procesos de automatización del tratamiento del lenguaje se basan sobre todo en datos almace-nados y en modelos estadísticos, y no tanto en reglas gramaticales. De ahí que los corpora, diccionarios, gramáticas y terminologías de cada idioma sean vitales para los investigadores. Y en un país como Es-paña, con un idioma en el podio mundial y otros compartiendo oficialidad, se impone la necesidad de acometer esfuerzos cooperativos en esta materia, tanto interinstitucionales como público-privados. Aquí se muestran los recursos más recientes desarrollados para cada uno de los idiomas, que resultan aún manifiestamente escasos, muchas veces descoordinados y no siempre accesibles para los inves-tigadores. Mercedes Sánchez, de la Real Academia Española, presenta el Corpus de Referencia del Es-pañol Actual (CREA), que cuenta con más de 160 millones de formas, procedentes de documentos escritos y orales producidos en todos los países de habla hispana desde 1975 hasta 2004, y comple-menta al Corpus Diacrónico del Español (CORDE), que contiene más de 260 millones de formas, desde los orígenes del idioma hasta 1974.
Finalmente, en 2007 se decidió elaborar el Corpus del Español en el siglo xxi (CORPES), que aspira a
alcanzar los 300 millones de formas, a partir de escritos producidos desde 2001 hasta 2012.
Las profesoras Núria Bel y Montserrat Marimon, de la Universitat Pompeu Fabra, repasan los numero-sos proyectos realizados en el ámbito de la lengua catalana, en el terreno de corpus orales; textuales (como el corpus de referencia del catalán, el CTILC, con 52 millones de palabras), y paralelos (catalán-español). Finalizan su contribución refiriéndose a los léxicos fonéticos y morfológicos del catalán, así como a los bancos de neologismos y a los recursos terminológicos.
El especialista en terminología vasca, Iker Etxbeste (UZEI), hace una descripción muy completa del rico entramado de actividades científicas, tecnológicas y empresariales centradas en el euskera, cu-yas especiales características (15 casos de declinación, 275 variables para cada nombre y 875 para cada adjetivo) han propiciado la necesidad de realizar desarrollos específicos y han dado lugar a toda una industria, agrupada en LANGUNE.
Por último, el profesor Xavier Gómez Guinovart, de la Universidade de Vigo, presenta las principales aplicaciones y recursos de las tecnologías lingüísticas de la lengua gallega, y destaca entre los diversos corpus textuales el TILG (25 millones de palabras), el CORGA (29 millones de palabras) y el CTAG (2 millones de palabras técnicas).
Los grupos de investigación
desarrollo de las tecnologías, la mejor forma de conocer esa realidad en profundidad es acercarse a sus protagonistas: los grupos de investigación y desarrollo tecnológico.
En el anexo correspondiente se muestran las fichas descriptivas de cada uno de los 32 grupos que han mostrado interés por facilitar su presencia en este estudio. Pertenecen a 22 universidades de nueve comunidades autónomas y agrupan a más de 600 investigadores. En futuras actualizaciones de este trabajo se realizarán los correspondientes inventarios de entidades, empresas, productos y servicios directamente relacionados con la introducción de estas tecnologías en el tratamiento automatizado de las lenguas españolas.
Ángel Luis Gonzalo Pérez. Ingeniero superior de Telecomunicación. Ha desempeñado, entre otras
Capítulo
1
Reconocimiento del lenguaje
hablado
Eduardo Lleida y
Alfonso Ortega
Universidad de Zaragoza
1.1 Introducción
2
1.2 Un paseo por la historia
3
1.3 La tecnología
7
Y así, cargados, llegaron al pie de una roca grande que había en la base del montículo, y se detuvieron, colocándose en fila. Y su jefe, que iba a la cabeza, dejó por un instante en el suelo su pesado zurrón, se irguió cuan alto era frente a la roca; y exclamó con voz estruen-dosa, dirigiéndose a alguien o a algo invisible para todas las miradas: «¡Sésamo, ábrete!». Y al punto se entreabrió con amplitud la roca.
Entonces el jefe de los bandoleros ladrones se retiró un poco para dejar pasar delante de él a sus hombres. Y cuando hubieron entrado todos, se cargó a la espalda su zurrón otra vez, y penetró el último.
Luego exclamó con una voz de mando que no admitía réplica: «¡Sésamo, ciérrate!». Y la roca se cerró herméticamente, como si nunca la hechicería del bandolero la hubiese partido por virtud de la fórmula mágica.
Las mil y una noches Alí Baba y los cuarenta ladrones,
Tomo V y cuando llegó la 852ª noche
1.1 Introducción
El lenguaje no es un instrumento meramente comunicativo, sino que es el fenómeno que nos posibili-ta expresar realidades más complejas, diferenciándonos del resto de seres vivos. El lenguaje hablado es una cualidad intrínsecamente humana y es el modo de comunicación más evolucionado. Transpor-ta información lingüística (mensaje y lenguaje) del hablante (p.ej., identidad, esTranspor-tado emocional, acen-to, estatus social, características del aparato fonador) y del entorno físico donde se produce. Toda esta información se encuentra codificada de una forma compleja en el habla.
Desde lingüistas a ingenieros, se han abierto múltiples frentes de investigación para intentar extraer toda esta información a partir de la señal de voz. Entre todos estos frentes, el reconocimiento automá-tico del habla (RAH), enfocado a la extracción del mensaje, ha sido de los que más esfuerzos de inves-tigación han acaparado en las últimas décadas.
Aunque para el ser humano es una tarea relativamente sencilla, y a pesar de todo el esfuerzo realizado por los investigadores, la extracción automática de información desde la señal de voz no es un proceso trivial. El habla en sí no es más que la utilización que cada individuo hace de la lengua y por ello viene afectada por múltiples factores, tanto lingüísticos como psicológicos y ambientales, que suponen un gran desafío a la hora de extraer la información relevante. A pesar de ello y aun estando lejos de ser un problema resuelto, cada vez existe un número mayor de aplicaciones que utilizan el reconocimien-to de voz en secreconocimien-tores muy diversos.
siste-mas, más robustos al uso en los entornos de trabajo, con más cobertura de lenguas y, sobre todo, progresar en los fundamentos de la percepción, comprensión y cognición del lenguaje hablado.
1.2 Un paseo por la historia
La investigación en los sistemas de reconocimiento automático del habla, como el mismo proceso de aprendizaje del ser humano, ha pasado por diversas etapas o generaciones. Desde la creación del pri-mer dispositivo capaz de convertir las ondas acústicas en una señal eléctrica para su transmisión a distancia en el siglo xix, la idea de convertir la voz en texto fue creciendo poco a poco. Sin embargo, hasta la década de 1930 no comienza la investigación en las características acústico-fonéticas de la voz. Entre esta década y la de 1950 empezaron a aparecer dispositivos muy rudimentarios capaces de reconocer sonidos, utilizando sistemas electrónicos analógicos, a la vez que se sentaban las bases del análisis acústico-fonético de la señal de voz. Podemos decir que nos encontramos ante el nacimiento, o primera generación, de sistemas automáticos de reconocimiento del habla.
En la década de 1950 aparecieron los primeros sistemas de reconocimiento de palabras aisladas, principalmente dígitos. Diversos laboratorios empezaron a desarrollar proyectos de investigación en reconocimiento automático del habla, entre los que destacan los Bell Labs, pioneros en estas tecno-logías. En 1952 los Bell Labs presentaron el sistema «Audrey» [1] capaz de reconocer dígitos habla-dos de una única voz, pero ocupaba un rack de habla-dos metros de alto y el consumo de potencia y man-tenimiento hacían que fuera muy caro e inviable. Sin embargo, ofrecía unas tasas de acierto cercanas al 99% cuando se adaptaba al habla de un usuario. El éxito logrado por los Bell Labs con el reconoci-miento de dígitos aislados supuso un revulsivo para focalizar más recursos de investigación en el reconocimiento automático del habla. Diversos laboratorios de Estados Unidos (Bell Labs, MIT Lin-coln Labs, RCA Labs…), Reino Unido (University College in England…), Japón (NEC Labs, Kyoto Uni-versity…) y la Unión Soviética desarrollaron sistemas de hardware específico para reconocer pala-bras habladas.
En 1962 IBM presentó la máquina Shoebox [2,3] capaz de reconocer 16 palabras habladas en inglés. Se empiezan a utilizar rudimentarios ordenadores. Nos encontramos ante la infancia o segunda ge-neración de sistemas de reconocimiento automático del habla. Los pocos sistemas que se desarro-llan son dependientes del hablante, utilizan un flujo discreto de habla insertando pausas entre pala-bras y el vocabulario es muy reducido, del orden de pocas decenas de palapala-bras. Aun así son admirables los resultados obtenidos con la tecnología disponible. En esta década, IBM y CMU (Car-negie-Mellon University) inician sus programas de investigación enfocados al reconocimiento de habla continua.
El gran revulsivo para avanzar en la comprensión del habla fue el lanzamiento, por parte del Ministe-rio de Defensa de Estados Unidos, del programa DARPA-SUR (Defense Advanced Research Projects Agency-Speech Understanding Research) entre 1970 y 1976. Este programa impulsó a los investi-gadores a enfocar su trabajo más allá del puro reconocimiento del habla. Fueron los inicios de la comprensión del habla, que incluían en los sistemas conocimiento léxico, sintáctico, semántico y pragmático. A su finalización en 1976, se crearon diversos sistemas de reconocimiento y compren-sión del habla por parte de centros de investigación como CMU, SRI, BBN y MIT. De todos ellos, el sistema Harpy [5] creado por CMU, con un vocabulario de 1.011 palabras, aproximadamente el vo-cabulario de un niño de tres o cuatro años, supuso un avance significativo al introducir el uso de re-des de estados finitos para compilar toda la información acústica, léxica y sintáctica en una sola red de búsqueda.
Nos encontramos ante la preadolescencia o tercera generación de sistemas de reconocimiento del habla. Son sistemas basados en técnicas de reconocimiento de patrones, análisis espectral funda-mentado en predicción lineal, vocabularios de tamaño medio (cientos de palabras) con locución de palabras aisladas o de forma concatenada y dependiente del hablante. En esta década se sentaron las bases de la formalización matemática de la investigación en reconocimiento del habla. Investigadores en IBM, liderados por Fred Jelinek [6], fueron pioneros en el reconocimiento del habla estadístico, lo que supuso el inicio de la cuarta generación de sistemas. En los Bell Labs se puso el foco en la automa-tización de los servicios de telecomunicación, lo que requería investigar, entre otros, sistemas de reco-nocimiento del habla independiente del hablante y el recoreco-nocimiento de palabras o frases clave en una locución, permitiendo así reducir la rigidez de las gramáticas de comandos, aceptando un modelo de comunicación más natural.
La década de 1980 supuso la convergencia de los sistemas de reconocimiento del habla hacia la aproximación estadística, la universalización de la investigación y el inicio de la comercialización de los sistemas de reconocimiento del habla. El uso generalizado de la modelización de la dinámica de la voz mediante modelos ocultos de Markov y el uso de gramáticas estocásticas de n-gramas para modelar el lenguaje permitieron dar un salto muy significativo de vocabularios de cientos de palabras a decenas de miles de palabras, independientes del hablante y flujo de habla continua. El hándicap de esta aproximación estadística es la necesidad de grandes bases de datos de habla para el aprendizaje de los modelos. La disponibilidad por los grupos de investigación de estas grandes bases de datos marcó, y está marcando igualmente en la actualidad, las diferencias en el avance tanto en la investigación básica como en la aplicación de estas tecnologías. Esta aproximación es-tadística ha perdurado hasta nuestros días, y es la base de prácticamente todos los sistemas comerciales de reconocimiento del habla. Esta década de los ochenta se caracteriza por el inicio de la investigación en reconocimiento del habla en diversas universidades españolas. Cabe destacar entre las pioneras, las Universidades Politécnicas de Valencia (Facultad de Informática), Madrid y Barcelona (Escuelas Superiores de Ingenieros de Telecomunicación) y la Universidad de Granada (Facultad de Ciencias).
con-sorcio. En Europa, se creó en 1995 una asociación (ELRA, European Language Resources Association) y una agencia (ELDA, Evaluations and Language resources Distribution Agency) para la distribución de recursos lingüísticos.
La falta de recursos lingüísticos en castellano, al igual que en el resto de lenguas oficiales españolas (catalán, euskera y gallego), suponía un gran hándicap para el progreso de estas tecnologías en len-guas españolas. Al inicio de la década de 1990 se constituyó un consorcio de seis grupos de investiga-ción en tecnologías del habla para el diseño y producinvestiga-ción de un corpus de habla en castellano. Finan-ciado por la Comisión Interministerial de Ciencia y Tecnología (CICYT), se inició el proyecto Albayzín [7] cuyo resultado final fue la creación de tres corpus de habla en castellano, uno para el aprendizaje y reconocimiento fonético, otro geográfico para el desarrollo de aplicaciones y un tercero para entornos ruidosos con efecto Lombard.
La disponibilidad del corpus Albayzín a mediados de los años noventa permitió el inicio de nuevos grupos de investigación en las tecnologías del habla y más concretamente en el reconocimiento auto-mático del habla. El proyecto Albayzín fue una primera apuesta de esfuerzo conjunto por los grupos nacionales más relevantes en reconocimiento de voz del momento para la creación de un corpus ha-blado del castellano. Posteriormente, ha habido otras iniciativas de adquisición de corpus multilingües europeos en los que se han incluido lenguas oficiales españolas.
En esta década de 1990, se inició el periodo de adolescencia de las tecnologías del habla o cuarta ge-neración. Los sistemas de reconocimiento se empiezan a sacar de los laboratorios gracias a las mejo-ras logradas en el procesado de señal y de modelado acústico y de lenguaje. La capacidad de cálculo de los nuevos procesadores permite empezar a desarrollar aplicaciones en tiempo real con vocabularios de varios miles de palabras.
Un hito relevante de esta década es el inicio del desarrollo de sistemas de reconocimiento híbridos utilizando la potencialidad de los modelos ocultos de Markov y de las redes neuronales. En la segunda mitad de la década aparecen aplicaciones comerciales en ofimática y telecomunicación. En ofimática aparecen los sistemas de dictado de flujo de habla continua de uso tanto general como específico (p. ej., informes médicos, informes legales…). En el sector de la telecomunicación aparecen los portales de voz interactivos con reconocimiento y síntesis de voz. Esta década finaliza con el inicio de la estanda-rización de un lenguaje de marcas, VoiceXML, para el desarrollo de portales de voz [8].
En el ámbito nacional, la década de 1990 se caracteriza por la creación de nuevos grupos de investiga-ción en tecnologías del habla; el reconocimiento automático del habla es uno de los principales objeti-vos de investigación de estos grupos. Muestra de ello son las primeras jornadas en Tecnología del Ha-bla celebradas en Sevilla en noviembre de 2000. En dichas jornadas participaron 21 universidades españolas. Se presentaron 38 artículos, de los cuales doce se correspondían con investigaciones en reconocimiento del habla y nueve en sistemas de diálogo hablado.
Mac OS X. Sin embargo, muy pocos usuarios han hecho uso real de esta posibilidad, que ha sido más bien motivo de situaciones cómicas.
La apuesta de las grandes empresas de la información por estas tecnologías ha propiciado un cambio significativo. Actualmente, nos encontramos en un periodo de madurez de los sistemas de reconoci-miento del habla que se caracteriza por las posibilidades de transferencia tecnológica de la I+D a pro-ductos comerciales. Ejemplo de ello son algunas spin-off creadas por grupos universitarios y que en la actualidad son referente internacional. Estas posibilidades de negocio han hecho que grandes compa-ñías como Microsoft, Apple, Nuance, Google y otras hayan iniciado un proceso de posicionamiento fuerte en el sector, tanto en la I+D como en la comercialización. La aparición del cómputo en la nube (cloud computing), la posibilidad de acceso a ingentes cantidades de datos por parte de estas empre-sas y la mejora en la tecnología han propiciado la incorporación de sistemas de reconocimiento del habla en aplicaciones multilingües orientadas a dispositivos móviles o portátiles.
En la década actual nos encontramos ante compañías que disponen de grandes bases de datos, lo que ha permitido reducir las tasas de error de los sistemas de reconocimiento, de modo que esta tecnolo-gía empieza a ser aceptada por el usuario. Tecnológicamente, esta década se va a caracterizar por la introducción de las técnicas de aprendizaje profundo en el modelado acústico y de lenguaje. Estas técnicas provenientes de la disciplina del aprendizaje automático han demostrado que, disponiendo de suficientes datos, son capaces de mejorar significativamente las prestaciones de los mejores siste-mas de reconocimiento construidos hasta la actualidad.
¿Hacia dónde vamos? Hoy en día la disponibilidad de datos no es un problema para las grandes corpo-raciones, pero sí que lo es el modelado. La investigación se dirige hacia la mejora de:
• las representaciones de la voz, investigando en los modelos de producción y percepción; • los modelos acústicos, para lo que se requiere investigar en nuevos paradigmas de modelado de
los rasgos extraídos de la señal de voz;
• los modelos de lenguaje y diálogo, para lo que se requiere investigar en la comprensión y cogni-ción del lenguaje.
A la vez, es necesario estudiar con detalle la causa de los errores que cometen los sistemas de recono-cimiento del habla para poder avanzar en la resolución de los mismos.
Figura 1.1 Evolución de la tasa de error en palabras en diversas tareas
1 10 100
1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
% Error en palabras
leída 1.000 palabras
leída
20.000 palabras espontánea
noticiarios
conversacional
reuniones
margen humano
1.3 La tecnología
Los sistemas de reconocimiento automático del habla (RAH) que se han desarrollado hasta la fecha se basan en dos fuentes de conocimiento: acústico y gramatical. Hasta el momento, la inmensa mayoría de los sistemas ha integrado el conocimiento acústico a través de parametrizaciones en un dominio cepstral [9] y mediante el uso de modelos ocultos de Markov (HMM, Hidden Markov Model) [10] con probabilidades de observación basadas en modelos de mezclas de Gaussianas (GMM, Gaussina Mixture Model). El modelado del lenguaje es la segunda de las fuentes de conocimiento de las que se nutre un sistema de reconocimiento automático del habla. Su función es efectuar predicciones precisas acerca de la secuencia de palabras más probable que va a suceder a las que actualmente se han propuesto como hipótesis. Tradicionalmente han existido dos aproximaciones para el modelado del lenguaje, esta-dístico y basado en gramáticas, el uso más común en los sistemas actuales es el primero de ellos [11]. La figura 1.2 muestra el diagrama de bloques conceptual de un sistema de reconocimiento automático del habla. Se distinguen dos etapas, una de aprendizaje o entrenamiento donde a partir de muestras de voz y texto se estiman los modelos acústicos, léxico y de lenguaje y otra de reconocimiento donde se realiza la conversión de voz a texto a partir de un algoritmo de búsqueda de la secuencia más probable de palabras dados los modelos acústicos y de lenguaje.
1.3.1 Características acústicas
El uso de rasgos acústicos compactos, informativos y discriminativos ha sido desde siempre una meta trascendente en el desarrollo de los sistemas de reconocimiento automático del habla. Fundamental-mente, se han extendido entre la comunidad científica dos métodos de extracción de características
acústicas basados en análisis cepstral: Mel-Frequency Cepstral Coefficients (MFCC) [9] y Perceptual Linear Prediction (PLP) [12].
Para el cálculo de los coeficientes MFCC, se hace uso de un análisis espectral localizado a través de un banco de filtros que sigue una escala frecuencial inspirada en el sistema perceptual humano llamada Mel y una última etapa de transformación lineal ortogonal que busca decorrelar los diferentes pará-metros acústicos y reducir la dimensionalidad de la representación. Por otro lado, los coeficientes PLP hacen uso de otra escala perceptual llamada Bark y su obtención pasa por la estimación del espectro de potencia localizado y un análisis LPC para llegar al dominio cepstral. También existen otras pro-puestas para la representación acústica de la señal de entrada como pueden ser los coeficientes obte-nidos a través de la técnica conocida como Frequency Filtering [13].
Figura 1.2 Diagrama de bloques de un sistema de reconocimiento automático del habla
HABLA
EXTR ACTOR DE CARACTERÍSTICAS
ACÚSTICAS
ETAPA DE ENTRENAMIENTO
TRANSCRIPCIÓN TEXT0
ANÁLISIS LÉXICO
SECUENCIA DE PALABRAS ANÁLISIS GRAMATICAL
ENTRENAMIENTO DEL MODELO
ACÚSTICO
MODELO
ACÚSTICO MODELO DELENGUAJE
ETAPA DE RECONOCIMIENTO
EXTRACTOR DE CARACTERÍSTICAS
ACÚSTICAS
HABLA BÚSQUEDA DE LA SECUENCIA DE
PALABRAS
Fuente: Elaboración propia de los autores.
reempla-zado por matrices de proyección lineal específicamente diseñadas para maximizar la separación entre clases fonéticas a través de análisis discriminante lineal (LDA) [15] o análisis discriminante lineal he-teroscedástico (HLDA) y variantes [16].
Para aumentar la robustez de los sistemas de RAH frente a la posible degradación que sufren debido a condicionantes ambientales, se han desarrollado diversas técnicas. Entre ellas, las más sencillas y ex-tendidas son la normalización en media (CMN) [17] y en varianza (CVN) de los coeficientes acústicos [18]. Sin embargo, existen otras más complejas y potentes como son la normalización del tracto vocal (VTLN) [19] o el uso de regresión lineal de máxima verosimilitud en el espacio de características (fMLLR) [20]. Para el reconocimiento automático del habla en entornos ruidosos, existe un gran traba-jo que se ha mantenido a lo largo del tiempo y que ha dado lugar a un conjunto de técnicas capaces de minimizar el impacto de éste en las prestaciones del sistema. Entre estas técnicas que trabajan en el dominio de las características acústicas, cabe destacar SPLICE [21], MEMLIN [22] o HEQ [23]. Desde otro enfoque, existen sistemas de RAH que hacen uso de características acústicas obtenidas a través de un procedimiento de entrenamiento discriminativo como fMPE (Feature-Space Minimum Phone Error)[24] que consiguen, bajo determinadas circunstancias, mejoras significativas en las pres-taciones del sistema. En este mismo sentido, recientemente se ha avanzado en el uso de redes neuro-nales (NN) para la obtención de características acústicas discriminativas [25], bien a través del mode-lado de las probabilidades a posteriori de los diferentes fonemas obtenidas mediante MLP (Multilayer Perceptron) o mediante técnicas conocidas como bottleneck [26] en las que se introducen constriccio-nes en la red neuronal que se usan para conseguir parámetros acústicos discriminativos.
1.3.2 Modelado acústico
Uno de los aspectos importantes en el modelado acústico para RAH es la selección de las unidades acústicas que van a ser sujeto de dicho modelado. Para ello, debe tenerse en cuenta la precisión de las unidades seleccionadas, la facilidad para entrenar dichas unidades y su capacidad generalizadora. En RAH, las unidades acústicas más frecuentemente usadas son los fonemas contextuales. Consisten en unidades que modelan estadísticamente cada uno de los fonemas de la lengua en cuestión pero añadiéndoles rasgos propios del contexto en el que se enmarcan, es decir, características del fonema que les precede y del fonema que les sigue. De este modo, dos instancias de un mismo fonema pero con diferente contexto derecho y/o izquierdo serán consideradas unidades diferentes.
Por otro lado, el modo de representación más extendido hoy en día en los sistemas de RAH es el mo-delo oculto de Markov gracias a que ofrecen una forma muy útil de unir una secuencia de observacio-nes acústicas con la secuencia de palabras que forma el mensaje que contiene. Un modelo oculto de Markov es un modelo generativo que asume que la secuencia de observaciones acústicas ha sido ge-nerada por una máquina de estados finitos de modo que, en cada instante de tiempo, se genera un vector de parámetros acústicos por cada estado del HMM, el cual tiene una función de densidad de probabilidad asociada. Dichas funciones de densidad de probabilidad se suelen modelar mediante modelos de mezclas de gaussianas multidimensionales. En la estimación de los parámetros del mode-lo se sigue el objetivo de maximizar la verosimilitud sobre el conjunto de observaciones de entrena-miento y para ello se hace uso del conocido algoritmo EM (Expectation-Maximization) [27]. Sin em-bargo, existen otros criterios que han sido más recientemente incluidos en los actuales sistemas de RAH como son los métodos de entrenamiento discriminativo, cuyo objetivo es no ya modelar el pro-ceso de generación de las observaciones sino maximizar la precisión en la clasificación de dichas ob-servaciones para en última instancia lograr una tasa de error mínima. Para ello, se usa el criterio de mínimo error de clasificación (MCE) [28], el de máxima información mutua entre la secuencia de ob-servaciones y la secuencia de palabras [29] o el de mínimo error de fonema (MPE) [30].
Recientemente, con la disponibilidad de grandes bases de datos de aprendizaje, se han ido introducien-do técnicas de aprendizaje automático basadas en el uso de redes neuronales profundas (DNN, Deep Neural Networks) [31] para el modelado acústico en los sistemas de RAH. El término «profunda» hace referencia al uso de un número elevado de capas intermedias en la topología de la red neuronal. El uso de las DNN ha supuesto un avance significativo en la reducción de la tasa de error en los sistemas de RAH.
Independientemente de cuál sea el modelo concreto que se ha usado en la parte acústica, muchos de los sistemas de RAH hacen uso de un proceso de adaptación de los parámetros de su modelo acústico para hacerlos más eficaces cuando deben ser usados para reconocer la voz de una persona en concreto. Estas técnicas reciben el nombre de adaptación al locutor. Existen múltiples técnicas que permiten llegar a este objetivo contando con un conjunto reducido de datos para realizar la adaptación. Entre ellas, destacan las técnicas de Maximum a Posteriori (MAP) [32], maximum
likeli-hood linear regression y sus variantes [33-36]. También existen los métodos basados en el
modela-do a través de subespacios, como la técnica de eigenvoices. Por último, se encuentran en la literatu-ra propuestas de adaptación que siguen criterios discriminativos como Aggregate a Posteriori (AAP) [37] en las que el criterio se establece mediante agregación, sumando las probabilidades a
posterio-ri de las clases a nivel de frase, Maximal Mutual Information (MMI) [38] o Minimum Phone Error
(MPE) [39].
1.3.3 Modelado de lenguaje
La mayor parte de los modelos de lenguaje de los actuales sistemas de reconocimiento automático del habla están basados en modelos estocásticos. Éstos aportan una descripción probabilística de manera que las secuencias de palabras más apropiadas en cada momento (en función del contexto) van a tener asignada una mayor probabilidad dentro del modelo. Una de las ventajas de este tipo de modelos es que cuanto mejor sea, más restringirá el espacio de búsqueda en la etapa de reconoci-miento sin por ello incrementar la tasa de error del sistema. Un aspecto importante en cuanto al modelo de lenguaje es que éste debe cubrir todas las secuencias de palabras que puedan llegar a darse.
Los modelos de lenguaje más extendidos en cuanto a su uso son los denominados modelos de n-gra-mas. Dado que un modelo de lenguaje es una distribución de probabilidad a priori sobre secuencias de palabras, el valor que el modelo asigna a una secuencia de palabras en concreto se puede interpretar como una medida de la frecuencia de aparición de dicha secuencia de palabras. De este modo, la apa-rición de una palabra en concreto dependerá de las palabras que le han precedido. Así, los modelos de n-gramas asignan la probabilidad de aparición de una palabra en función de cuál haya sido la palabra previa, bigrama, cuáles hayan sido las dos palabras previas, trigrama, o cuáles hayan sido las n-1 pala-bras previas, n-grama.
Sin embargo, los modelos de lenguaje de n-gramas pueden presentar problemas a la hora de estimar estas probabilidades, es decir, a la hora del entrenamiento. Para ello, existen técnicas de suavizado que tratan de compensar la no aparición de ciertas secuencias de palabra en el corpus de entrena-miento, de manera que sea posible asignar una probabilidad distinta de cero a dichas secuencias de palabras a pesar de no haberse visto nunca en el entrenamiento. Entre las técnicas de suavizado más extendidas, podemos citar el suavizado Kneser-Ney [40] y su variantes interpolada IKN y modificada MKN [41]. Por otro lado, existe una interpretación de las anteriores técnicas desde una perspectiva bayesiana que las convierte en un caso particular de los modelos de lenguaje jerárquicos de Pitman-Yor (HPYLM) [42].
Otro de los problemas que pueden llegar a plantear los modelos de lenguaje de n-gramas es el pobre modelado de dependencias de larga distancia. Para ello, se ha avanzado en el modelado de la informa-ción semántica latente de palabras [43]. Dicha informainforma-ción latente se ha modelado mediante espa-cios vectoriales de dimensión reducida obteniendo el modelo de lenguaje a través de medidas de simi-litud basadas en el producto escalar entre una palabra dada y su contexto histórico en el espacio semántico común. Sin embargo, los modelos basados en análisis semántico latente (LSA) no poseen buenas propiedades de generalización y se comportan mal frente a datos no vistos. Para resolver esto, se han estudiado técnicas que doten al anterior análisis de propiedades probabilísticas (PLSALM) [44] a través del uso de distribuciones de Dirichlet como distribuciones a priori, tanto de las secuencias de palabras que posteriormente se verán en el entrenamiento como de aquellas otras secuencias que fi-nalmente no están incluidas dentro del corpus de entrenamiento.
1.3.4 Algoritmos de búsqueda
Dentro de la etapa de reconocimiento, el sistema debe devolver a su salida la secuencia de palabras que ha sido pronunciada con mayor probabilidad, dado el conjunto de observaciones acústicas que se le han presentado a su entrada. Para ello, ha sido necesario desarrollar algoritmos que de forma eficaz y eficiente sean capaces de calcular la secuencia más probable de palabras, de entre todo el conjunto de palabras que maneja el reconocedor (vocabulario) dado el conjunto de vectores de características de entrada. El principal avance en este campo se centra en el uso de transductores de estados finitos ponderados (WFST), lo que ha posibilitado aunar en una representación compacta la información acústica y la información léxico-gramatical [49-51].
1.4 ¿Quién es quién?
El mercado del reconocimiento de voz está dividido en grandes compañías que abarcan todas las tec-nologías del habla en múltiples idiomas y que están moviendo sus motores de reconocimiento hacia aplicaciones en la nube y empresas que aportan soluciones concretas y locales en un conjunto redu-cido de idiomas. Uno de los grandes problemas con los que se encuentra una compañía que ofrece motores y servicios de reconocimiento de voz es la extensión multilingüe, lo que reduce su cuota de mercado.
En la página web http://en.wikipedia.org/wiki/List_of_speech_recognition_software puede encon-trarse una lista actualizada de motores de reconocimiento tanto comerciales como de libre distribu-ción. El mercado mundial de motores de reconocimiento de voz está liderado por una gran mayoría de empresas con la sede localizada en Estados Unidos; Nuance, AT&T, Microsoft, Google y Apple son un ejemplo.
Nuance (www.nuance.com) es una empresa creada en 1992 con sede en Burlington, Massachusetts. El producto estrella es el sistema de dictado Dragon NaturallySpeaking, pero su tecnología se incorpo-ra en multitud de aplicaciones. Un ejemplo es el asistente virtual Siri (http://en.wikipedia.org/wiki/ Siri) que ha incorporado Apple en su sistema operativo para móviles iOS y que utiliza el motor de reco-nocimiento de voz de Nuance. Siri ha sido un producto resultado de la investigación de SRI Internatio-nal (www.sri.com). En 2008 creó la startup Siri Inc. para comercializar el producto, que fiInternatio-nalmente fue adquirido por Apple en 2010.
AT&T Labs (antes AT&T Bell Labs y pioneros en la I+D en tecnologías del habla) ha desarrollado la pla-taforma multimodal Watson (www.research.att.com/projects/WATSON), que incorpora un motor de reconocimiento para el desarrollo de asistentes virtuales. Watson proporciona un API basado en voz y otras modalidades para crear aplicaciones y servicios con reconocimiento de voz.
Apple, utilizando tecnología de SRI International y de Nuance, introdujo en 2011 el asistente virtual Siri integrado en iOS e incluido en los iPhone 4S. Siri ha sido un producto con éxito gracias a las buenas prestaciones del sistema de reconocimiento del habla.
Finalmente, Google ha desarrollado un potente motor de reconocimiento dando, posiblemente, los mejores resultados alcanzados hasta la actualidad en términos de exactitud, coste, satisfacción de uso y facilidad de integración. Dada la posición dominante de Google en Internet y su política abierta de uso de sus sistemas, consigue que los propios usuarios del sistema aporten datos para la mejora continua de su motor de reconocimiento.
Recientemente, compañías como Amazon y Facebook han iniciado su posicionamiento en estas tec-nologías. Amazon ha creado un laboratorio de I+D en tecnologías del habla y Facebook ha adquirido una compañía del sector. Nos encontramos en una fase donde la tecnología del habla empieza a dar una rentabilidad importante, y por ello las grandes empresas tecnológicas están posicionándose den-tro del sector.
Desafortunadamente, y como está ocurriendo en otros sectores, las empresas europeas mejor posi-cionadas han sido o están siendo absorbidas por las compañías estadounidenses, quedando única-mente empresas de ámbito más nacional que aportan soluciones más particulares.
En cuanto a I+D universitario, la lista es muy extensa. Aproximadamente dos quintas partes de los grupos de I+D se encuentran en Estados Unidos, otros dos quintos en Europa y el quinto restante se reparte básicamente entre China, Japón y Australia. Aunque estas cifras están cambiando con el alza pujante de China. Como ejemplos podemos destacar en Estados Unidos los grupos de Carnegie Mellon University, Massachusetts Institute of Technology, International Computer Science Institute en la University of California at Berkeley, SRI International, University of Colorado-Boulder, Oregon Gra-duate Institute o Georgia Tech. En Canadá destacan los grupos en la University of Toronto, McGill Uni-versity o el Institut national de la recherche scientifiques-INRS. En Japón también hay mucha activi-dad y grupos en reconocimiento del habla, entre los que destaca el Tokyo Institute of Technology, University of Kyoto, Nagoya Institute of Technology o Nara Institute of Science and Technology. En China la Chinese Academy of Sciences. En Europa podemos destacar los grupos de Cambridge Univer-sity, Sheffield UniverUniver-sity, RWTH Aachen UniverUniver-sity, Université d’Avignon et des pays de Vaucluse, Computer Science Laboratory for Mechanics and Engineering Sciences (LIMSI), Instituto de Engenha-ria de Sistemas e Computadores (INESC-ID), Politecnico di Torino, Fondazione Bruno Kessler, KTH Ro-yal Institute of Technology, Aalborg University, Swiss Federal Institute of Technology at Lausanne, University of Nijmegen, Faculté polytechnique de Mons, ENST(Ecole National Superieure des Tele-communications) o University of Edinburgh.