Tecnolog´ıas de la Traducci ´on:
T ´ecnicas de traducci ´on autom ´atica
Felipe S ´anchez Mart´ınez, Mikel L. Forcada, Miquel Espl `a Gomis
Departament de Llenguatges i Sistemes Inform `atics Universitat d’Alacant
Curs 2019–2020
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal 4 Resumen
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal 4 Resumen
Traducci ´on palabra por palabra
Aproximaci ´on extremadamente b ´asica: traducci ´on palabra por palabra
I have just started my translation project
↓ ↓ ↓ ↓ ↓ ↓ ↓
Yo haber solo empezado m´ıo traducci ´on proyecto
Cada palabra es traducida independientemente del resto En la asignatura denominamos a esta estrategiamodelo cero
M ´as all ´a del modelo cero
Dos enfoques posibles para solucionar las limitaciones del modelo cero:
Basado en reglas: un experto codifica su conocimiento ling ¨u´ıstico y traductol ´ogico en un programa que har ´a las traducciones
Basado en corpus: un programa aprende a traducir autom ´aticamente a partir de un conjunto de textos ya traducidos
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal 4 Resumen
Traducci ´on autom ´atica basada en reglas
¿Qu ´e tipo de informaci ´on ling ¨u´ıstica necesitar´ıamos del texto a traducir?
¿Qu ´e informaci ´on necesitamos asociar a cada palabra?
¿De donde podemos sacar esta informaci ´on?
¿C ´omo se usar´ıa esta informaci ´on sistem ´aticamente para traducir?
¿Se podr´ıa separar el trabajo inform ´atico del traductol ´ogico y ling ¨u´ıstico?
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal 4 Resumen
Ejemplo 1
(en)Tony books a room in the hotel
↓
(es)Tony libros un habitaci ´on dentro el hotel
Ejemplo 1
(en)Tonybooksa roominthe hotel
↓
(es)Tonylibrosun habitaci ´ondentroel hotel
Ejemplo 1
(en)Tonybooksa roominthe hotel
↓
(es)Tonylibrosun habitaci ´ondentroel hotel
Problema: Las siguientes palabras son hom ´ografas y tienen m ´as de una traducci ´on a la lengua meta:
bookpuede serlibro(substantivo) oreservar(verbo) inpuede seren(preposici ´on) odentro(adverbio)
Ejemplo 1
(en)Tonybooksa roominthe hotel
↓
(es)Tonylibrosun habitaci ´ondentroel hotel
Problema: Las siguientes palabras son hom ´ografas y tienen m ´as de una traducci ´on a la lengua meta:
bookpuede serlibro(substantivo) oreservar(verbo) inpuede seren(preposici ´on) odentro(adverbio) Soluci ´on:
an ´alisis morfol ´ogico para determinar las posibles categorias l ´exicas de cada palabra
uso de reglas o de modelos estad´ısticos para determinar la categoria l ´exica m ´as adecuada en caso de ambig ¨uedad
Ejemplo 1
(en)Tony books a room in the hotel NP N/VB DT N/VB PR/ADV DT N
NP VB DT N PR DT N
↓
Tonyreserva un habitaci ´onen el hotel
NP VB DT N PR DT N
Podemos resolver la ambig ¨uedad l ´exica categorial (homograf´ıa) mirando las categorias l ´exicas de las palabras vecinas
Ahora la traducci ´on es m ´as abstracta: en lugar de formas superficiales (p.e. books) usamos formas l ´exicas (p.e.
book -VB.pres.3p.sg)
Ejemplo 2
(en)The expert’s large table is full
↓
(es)El experto - grande mesa es lleno
Ejemplo 2
(en)The expert’slarge tableis full
↓
(es)El experto -grande mesaes lleno
Problema: El orden de las palabrasgrandeymesaes incorrecto, pero, ¿c ´omo lo sabemos?
Ejemplo 2
(en)The expert’s large tableis full
DT N GS ADJ N VB ADJ
↓
(es)El experto - mesa grandees lleno
DT N GS N ADJ VB ADJ
Problema: El orden de las palabrasgrandeymesaes incorrecto, pero, ¿c ´omo lo sabemos?
Soluci ´on: Si conocemos las categor´ıas l ´exicas (mesa=N, large=ADJ) podremos escribir reglas del tipo:
(en)ADJ N → (es) N ADJ
Ejemplo 2
(en)The expert’s large tableis full
DT N GS ADJ N VB ADJ
↓
(es)El experto - mesa grandees lleno
DT N GS N ADJ VB ADJ
Problema: El orden de las palabrasgrandeymesaes incorrecto, pero, ¿c ´omo lo sabemos?
Soluci ´on: Si conocemos las categor´ıas l ´exicas (mesa=N, large=ADJ) podremos escribir reglas del tipo:
(en)ADJ N → (es) N ADJ
Las representaciones abstractas nos permiten crear reglas gen ´ericas para cubrir cualquier ejemplo parecido (p.e. red car → coche rojo)
Ejemplo 3
(en)The red houses are more expensive
↓ (es)El rojo casas es mas caro
Ejemplo 3
(en)The red housesare moreexpensive
↓ (es)El rojo casases mascaro
Ejemplo 3
(en)The red housesare moreexpensive
↓ (es)El rojo casases mascaro
Problema: Falta de concordancia de g ´enero y n ´umero entre el nombre (casas), el determinante (El) y los adjetivos (rojoycaro)
Ejemplo 3
(en)The red housesare moreexpensive
DT ADJ N VB ADV ADJ
↓ (es)El rojo casases mas caro
DT ADJ N VB ADV ADJ
Problema: Falta de concordancia de g ´enero y n ´umero entre el nombre (casas), el determinante (El) y los adjetivos (rojoycaro)
Soluci ´on: Ampliar las reglas para que contemplen los aspectos de la concordancia:
(en)DT ADJ N → (es) DT N ADJ asigna g ´enero meta:N → ADJ
asigna g ´enero meta:N → DT asigna n ´umero meta:N → ADJ
asigna n ´umero meta:N → DT
Ejemplo 4
(en)As a matter of fact, he picked it up
↓
(es)Cuando un asunto de hecho, ´el elegido ´el arriba
Ejemplo 4
(en)As a matter of fact, hepickeditup
↓
(es)Cuando un asunto de hecho, ´elelegido ´elarriba
Ejemplo 4
(en)As a matter of fact, hepickeditup
↓
(es)Cuando un asunto de hecho, ´elelegido ´elarriba Problema: Las palabras coloreadas forman parte de expresiones multipalabra, es decir, se tienen que traducir como si fueron una sola palabra
Ejemplo 4
(en)As a matter of fact, hepickedit up
↓
(es)Cuando un asunto de hecho, ´el elegido ´el arriba
Problema: Las palabras coloreadas forman parte de expresiones multipalabra, es decir, se tienen que traducir como si fueron una sola
Soluci ´on:
La expresi ´on en rojo solo requiere de una regla sencilla, dado que es invariante (siempre aparecer ´a igual):
(en) as a matter of fact → (es) de hecho La expresi ´on en azul tiene que contemplar quepick se puede conjugar y que entre esta palabra yup puede aparecer “algo”:
(en)pick[VB] X up → (es) recoger[VB] X
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal 4 Resumen
Traducci ´on autom ´atica indirecta por transferencia
Los sistemas de TA basados en reglas (p.e. Apertium, Lucy, etc.) usan estrategias como las que hemos visto Son sistemas de traducci ´on autom ´atica indirecta por transferencia, que se componen de tres m ´odulos:
An ´alisis: monoling ¨ue; hace los an ´alisis correspondientes (morfol ´ogico, sint ´actico, etc.) para obtener la
representaci ´on abstracta del texto origen (RATO)
Transferencia: biling ¨ue; usa un diccionario biling ¨ue y reglas estructurales (reordenamiento, concordancia, etc.) a la RATO para obtener la representaci ´on abstracta del texto meta (RATM)
Generaci ´on: monoling ¨ue; transforma la RATM en una secuencia de formas superficiales
Niveles de an ´alisis
Niveles de an ´alisis:
Morfol ´ogico: categor´ıas l ´exicas, informaci ´on de flexi ´on (g ´enero, n ´umero, persona, caso, tiempo, etc.)
Sint ´actico: constituyentes (sintagmas: sintagma nomimal, sintagma preposicional, etc.) o relaciones de dependencia entre palabras, etc.
Sem ´antico: roles sem ´anticos (agente, paciente, beneficiario, etc.)
Dependencia del par de idiomas: para idiomas
parecidos, un an ´alisis m ´as superficial puede ser suficiente;
para idiomas muy diferentes har ´a falta un an ´alisis m ´as profundo
Compromiso inteligencia – memoria
Análisis TO
Generación TM
Traducción directa Transf. morfológica Transf. sintáctica
Transf.
semántica
TO TM
Compromiso entrenivel de an ´alisis y complejidad de las reglas de transferencia:
a mayor an ´alisis, menos reglas y m ´as generales a menor an ´alisis, m ´as reglas y m ´as especializadas
Traducci ´on autom ´atica indirecta por transferencia
Transferencia morfol ´ogica
TO the professor ’s house
Traducci ´on autom ´atica indirecta por transferencia
Transferencia morfol ´ogica
TO the professor ’s house
RATO the-DT.def professor-N.sg ’s-POS house-N.sg
An ´alisis: De formas superficiales en LO (p.e. house) a formas l ´exicas en LO (p.e. house-N.sg)
Traducci ´on autom ´atica indirecta por transferencia
Transferencia morfol ´ogica
TO the professor ’s house
RATO the-DT.def professor-N.sg ’s-POS house-N.sg RATM el-DT.def.f.sg casa-N.f.sg de-PR + el-DT.def.m.sg profesor N.m.sg
An ´alisis: De formas superficiales en LO (p.e. house) a formas l ´exicas en LO (p.e. house-N.sg)
Transferencia
De lemas en LO (p.e. house) a lemas en LM (p.e. casa) Procesamiento depatrones de formas l ´exicasque necesitan ser procesadas conjuntamente; p.e.
DT N1 POS N2→ el-DT N2de-PR DT N1
Traducci ´on autom ´atica indirecta por transferencia
Transferencia morfol ´ogica
TO the professor ’s house
RATO the-DT.def professor-N.sg ’s-POS house-N.sg RATM el-DT.def.f.sg casa-N.f.sg de-PR + el-DT.def.m.sg profesor N.m.sg
TM la casa del profesor
An ´alisis: De formas superficiales en LO (p.e. house) a formas l ´exicas en LO (p.e. house-N.sg)
Transferencia
De lemas en LO (p.e. house) a lemas en LM (p.e. casa) Procesamiento depatrones de formas l ´exicasque necesitan ser procesadas conjuntamente; p.e.
DT N1 POS N2→ el-DT N2de-PR DT N1
Generaci ´o: De formes l `exiques en LM a formas superficiales en LM
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal 4 Resumen
Modularidad
Los componentes del sistema de TA son modulares, es decir, funcionan con una cierta independencia
en → Aen → Ten→es → Ges → es
Los m ´odulos de an ´alisis y generaci ´on (monoling ¨ues) pueden compartirse entre m ´as de un sistema; por ejemplo:
el sistema en→es de arriba y uno en→fr pueden compartir el m ´odulo de an ´alisis;
en → Aen → Ten→fr → Gfr → fr
el sistema en→es de arriba y un sistema ca→es pueden compartir el m ´odulo de generaci ´on.
ca → Aca → Tca→es → Ges → es
Cadena de montaje
Cadena de montaje: cuando traducimos un texto, los m ´odulos pueden ejecutarse en paralelo:
Cada uno de los m ´odulos funciona de forma
independiente: permite que cada m ´odulo vaya avanzando con la salida de las anteriores
Reversibilidad parcial
Si se separan los datos ling ¨u´ısticos de la l ´ogica de los m ´odulos (el programa que aplica las reglas),
en → dAen
A → dTen→es
T → dGes
G → es
se pueden usar para crear nuevos sistemas de TA los datos del m ´odulo de an ´alisis se pueden invertir para crear un m ´odulo de generaci ´on: dAes'dGes, dGen'dAen
cambiando el diccionario morfol ´ogico: pasar´ıa de leer formas superficiales y producir formas l ´exicas a leer formas l ´exicas y producir formas superficiales
el m ´odulo de transferencia se podr´ıa invertir tambi ´en, como quien utiliza un diccionario biling ¨ue para traducir de ingl ´es a espa ˜nol y de espa ˜nol a ingl ´es: dTes→en'dTen→es.
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal
4 Resumen
Traducci ´on autom ´atica basada en corpus /1
“Existing translations contain more solutions to more translation problems than any other existing resource” — Pierre Isabelle Objetivo
Aprender a traducir a partir de traducciones existentes (bitextos)
Para aprender a traducir a partir de bitextos:
1 Los textos deben estarsegmentadosen oraciones Los signos de puntuaci ´on y la informaci ´on de formato pueden ser ´utiles
2 Las oraciones deben estaralineadas, es decir, deben identificarse las oraciones que son traducci ´on mutua
Traducci ´on autom ´atica basada en corpus /1
“Existing translations contain more solutions to more translation problems than any other existing resource” — Pierre Isabelle Objetivo
Aprender a traducir a partir de traducciones existentes (bitextos)
Para aprender a traducir a partir de bitextos:
1 Los textos deben estarsegmentadosen oraciones Los signos de puntuaci ´on y la informaci ´on de formato pueden ser ´utiles
2 Las oraciones deben estaralineadas, es decir, deben identificarse las oraciones que son traducci ´on mutua
Traducci ´on autom ´atica basada en corpus /2
El alineamiento puede ser 1-1, 1-N o N-1
Imagen de Koehn (2010)
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal 4 Resumen
Traducci ´on autom ´atica estad´ıstica /1
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
Necesitamos saber que palabras son traducci ´on de qu ´e palabras: alineamientos
Traducci ´on autom ´atica estad´ıstica /1
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
Inicializaci ´on: Todos los alineamientos son igualmente probables
Traducci ´on autom ´atica estad´ıstica /1
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
Iteraci ´on 1: El alineamiento entre yn y gur gana fuerza
Traducci ´on autom ´atica estad´ıstica /1
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
Iteraci ´on 2: El alineamiento entre pifo y ubhfo gana fuerza
Traducci ´on autom ´atica estad´ıstica /1
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
Fin: La estructural de alineamiento que estaba “oculta”
queda al descubierto
Traducci ´on autom ´atica estad´ıstica /1
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
the house the white house the flower
la casa la casa blanca la flor
Fin: La estructural de alineamiento que estaba “oculta”
queda al descubierto
Traducci ´on autom ´atica estad´ıstica /2
the house the white house the flower
la casa la casa blanca la flor
A partir de los alineamientos a nivel de palabras se obtiene un diccionario biling ¨ue probabil´ıstico
p(la|the) = 0, 453 p(el|the) = 0, 334 p(casa|house) = 0, 876 p(blanco|white) = 0, 763
...
Traducci ´on autom ´atica estad´ıstica /3
Advertencia
Utilizar siempre el equivalente m ´as probable proporcionado por un diccionario probabil´ıstico es traducirpalabra por palabra
Traducciones poco inteligibles
el osos apareci ´o tarde −→ the I dare appeared afternoon the computer expert’s large desk is full −→ el ordenador experto grande escritorio es lleno
menos mal que s ´olo sesenta y cinco personas murieron
−→ less wrong that only sixty and five persons died
Traducci ´on autom ´atica estad´ıstica /4
¿C ´omo podr´ıamos mejorar la inteligibilidad?
Una pista. ¿C ´omo usar´ıais un buscador de Internet para resolver dudas de traducci ´on?
Resultados encontrados en la web para las traducciones de: (1) the bank of the river, (2) el oso apareci ´o y
(3) cinco personas murieron
(1) “el banco del r´ıo” 4.500 “la rivera del r´ıo” 372.000 (2) “the I dare appeared” 0 “the bear appeared” 245.000 (3) “five persons died” 69.300 “five people died” 1.090.000
Traducci ´on autom ´atica estad´ıstica /4
¿C ´omo podr´ıamos mejorar la inteligibilidad?
Una pista. ¿C ´omo usar´ıais un buscador de Internet para resolver dudas de traducci ´on?
Resultados encontrados en la web para las traducciones de:
(1) the bank of the river, (2) el oso apareci ´o y (3) cinco personas murieron
(1) “el banco del r´ıo” 4.500 “la rivera del r´ıo” 372.000 (2) “the I dare appeared” 0 “the bear appeared” 245.000 (3) “five persons died” 69.300 “five people died” 1.090.000
Traducci ´on autom ´atica estad´ıstica /5
¿C ´omo podr´ıamos mejorar la inteligibilidad?
Modelo de lenguaje
Permite medir la probabilidad (fluidez) de un segmento de texto en una lengua dada
Modelo estad´ıstico basado en n-gramas (normalmente trigramas)
Se entrena a partir de un texto de la lengua a modelar suficientemente grande
F ´acil de obtener: s ´olo hay que calcular la frecuencia de aparici ´on de los n-gramas
Traducci ´on autom ´atica estad´ıstica /6
Traducci ´on autom ´atica estad´ıstica basada en palabras El modelo de traducci ´on y el modelo de lengua se combinan para mejorar la calidad de las traducciones
ptranslation model(source|target) × planguage model(target) El equivalente m ´as probable seg ´un el modelo de traducci ´on se elige s ´olo cuando la traducci ´on resultante sea fluida
Traducci ´on autom ´atica estad´ıstica /7
Ejemplo de TA estad´ıstica basada en palabras LO: the red car
Opciones de traducci ´on (las m ´as probables primero):
the → la, el, las, los, . . .
red → rojo, rojas, roja, rojos, . . . car → coche, autom ´ovil, auto, . . . Hip ´otesis de traducci ´on:
MT ML Puntuaci ´on
la rojo coche 0.82 0.15 0.12
el rojas coche 0.75 0.09 0.08
el rojo coche 0.78 0.45 0.35
el coche roja 0.69 0.52 0.36
el coche rojo 0.78 0.81 0.63 el autom ´ovil rojo 0.66 0.85 0.56 . . .
Traducci ´on autom ´atica estad´ıstica /8
Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:
La unidad de traducci ´on es la palabra y el contexto se tiene en cuenta s ´olo indirectamente por parte del modelo de lengua
Phrasal verbs: fall out, fall apart, fall back, go over, go out, . . .
Expresiones multipalabra: as a matter of fact, as soon as possible, all in all, (es) echar de menos, (ca) direcci ´o general, . . .
Colocaciones: dream of, make a decision, fast food, quick meal, make money, . . .
. . .
Los modelos basados en palabras ya no son el estado de la cuesti ´on pero se usan para calcular alineamientos a nivel de palabras
Traducci ´on autom ´atica estad´ıstica /8
Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:
La unidad de traducci ´on es la palabra y el contexto se tiene en cuenta s ´olo indirectamente por parte del modelo de lengua
Phrasal verbs: fall out, fall apart, fall back, go over, go out, . . .
Expresiones multipalabra: as a matter of fact, as soon as possible, all in all, (es) echar de menos, (ca) direcci ´o general, . . .
Colocaciones: dream of, make a decision, fast food, quick meal, make money, . . .
. . .
Los modelos basados en palabras ya no son el estado de la cuesti ´on pero se usan para calcular alineamientos a nivel de palabras
Traducci ´on autom ´atica estad´ıstica /8
Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:
La unidad de traducci ´on es la palabra y el contexto se tiene en cuenta s ´olo indirectamente por parte del modelo de lengua
Phrasal verbs: fall out, fall apart, fall back, go over, go out, . . .
Expresiones multipalabra: as a matter of fact, as soon as possible, all in all, (es) echar de menos, (ca) direcci ´o general, . . .
Colocaciones: dream of, make a decision, fast food, quick meal, make money, . . .
. . .
Los modelos basados en palabras ya no son el estado de la cuesti ´on pero se usan para calcular alineamientos a nivel de palabras
Traducci ´on autom ´atica estad´ıstica /9
Soluci ´on
Considerar segmentos de longitud variable como unidades de traducci ´on
Estos segmentos se pueden obtener de distintas maneras: A partir de los alineamientos a nivel de palabra
A partir de informaci ´on sint ´actica ...
Traducci ´on autom ´atica estad´ıstica /9
Soluci ´on
Considerar segmentos de longitud variable como unidades de traducci ´on
Estos segmentos se pueden obtener de distintas maneras:
A partir de los alineamientos a nivel de palabra
A partir de informaci ´on sint ´actica ...
Traducci ´on autom ´atica estad´ıstica /9
Soluci ´on
Considerar segmentos de longitud variable como unidades de traducci ´on
Estos segmentos se pueden obtener de distintas maneras:
A partir de los alineamientos a nivel de palabra
A partir de informaci ´on sint ´actica
...
Traducci ´on autom ´atica estad´ıstica /9
Soluci ´on
Considerar segmentos de longitud variable como unidades de traducci ´on
Estos segmentos se pueden obtener de distintas maneras:
A partir de los alineamientos a nivel de palabra
A partir de informaci ´on sint ´actica ...
Traducci ´on autom ´atica estad´ıstica /10
Los sistemas basados en segmentos combinan diferentes modelos:
Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable
Modelo de lengual de la LM; como el usado por los sistemas basados en palabras
Modelo de reordenamiento; para condicionar el posicionamiento de las palabras en LM
. . .
Traducci ´on autom ´atica estad´ıstica /11
Diferencias entre la TA basada en reglas y la TA estad´ıstica a la hora de posteditar:
Sistemas basados en reglas
Comportamiento m ´as predictible. El sistema tiende a cometer los mismos errores de forma repetitiva
Traducci ´on autom ´atica estad´ıstica /11
Diferencias entre la TA basada en reglas y la TA estad´ıstica a la hora de posteditar:
Sistemas basados en reglas
Comportamiento m ´as predictible. El sistema tiende a cometer los mismos errores de forma repetitiva
Traducci ´on autom ´atica estad´ıstica /12
Diferencias entre la TA basada en reglas y la TA estad´ıstica a la hora de posteditar:
Sistemas estad´ısticos
Comportamiento menos predecible. El sistema puede producir traducciones muy naturales pero poco fieles al original
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal
4 Resumen
Traducci ´on autom ´atica neuronal /1
TA neuronal o basada en deep learning:
Basada en corpus (suele necesitar m ´as que la TA estad´ıstica)
Primeras ideas en los a ˜nos noventa1
Se abandona por falta de potencia de c ´omputo Primeras implementaciones comerciales en 2016
Google Translate
Compite con la TA estad´ıstica en muchas aplicaciones
1Casta ˜no y Casacuberta, EuroSpeech 1997; Forcada y ˜Neco, ICANN 1997
Traducci ´on autom ´atica neuronal /2
Red neuronal artificial
Gran cantidad deunidadesinterconectadas que se asemejan a las neuronas del cerebro
S₄ = F (w₁×S₁ + w₂×S₂ + w₃×S₃) S₄ S₂
S₁
S₃ w₁
w₂ w₃
-1 -0.5 0 0.5 1
-4 -2 0 2 4
F(x)
Traducci ´on autom ´atica neuronal /3
Red neuronal artificial
Gran cantidad deunidadesinterconectadas que se asemejan a las neuronas del cerebro
Laactivaci ´onde cada neurona depende de la activaci ´on de otras neuronas y de lospesosde las conexiones Elsignoy lamagnitudde los pesos determinan el comportamiento de la red:
pesopositivo⇒ neuronas conectadas se activan a la vez pesonegativo⇒ neuronas conectadas, estados opuestos El efecto aumenta con lamagnituddel peso
Entrenamiento: Aprendizaje de los valores de los pesos
Traducci ´on autom ´atica neuronal /4
Red neuronal con 3 entradas, 3 neuronas en una capa oculta, y 2 neuronas de salida.
Se habla de aprendizaje profundo (deep learning) cuando la informaci ´on se procesa usando muchas capas ocultas.
Traducci ´on autom ´atica neuronal /5
Representaciones
Los valores de excitaci ´on de determinados grupos de neuronas forman representaciones de la informaci ´on que procesan.
Por ejemplo,
(0,35, 0,28, −0,15, 0,76, . . . , 0,88)
podr´ıa ser la representaci ´on de la palabra ”estudiar”, y (0,93, −0,78, 0,22, 0,31, . . . , −0,71)
la de la palabra ”barba”.
Traducci ´on autom ´atica neuronal /6
Representaciones l ´exicas con solo tres neuronas:
Palabras con significados similares ocupan regiones pr ´oximas
Traducci ´on autom ´atica neuronal /7
Representaciones
A veces incluso se puede haceraritm ´etica sem ´anticacon las representaciones (sumando y restando valores neurona a neurona):
[rey] − [hombre] + [mujer] ' [reina]
TA neuronal: Arq. codificador–descodificador /1
La mayor´ıa de los sistemas de TA neuronal usan la arquitectura codificador–descodificador:2
Elcodificador(encoder) lee, una a una, las
representaciones de las palabras de la oraci ´on original y construye una representaci ´on de la oraci ´on
Eldescodificador(decoder) predice, una a una, las palabras de la oraci ´on meta
Funcionamiento similar al del teclado predictivo de un tel ´efono m ´ovil
2Hay otras como la transformer
TA neuronal: Arq. codificador–descodificador /2
Codificador (encoder)
Entrada: “Myflight is delayed .”
E(“”)
e(“my”)
encoder E(“My”)
TA neuronal: Arq. codificador–descodificador /3
Codificador (encoder)
Entrada: “Myflightis delayed .”
E(“My”)
e(“flight”)
E(“My
flight”)
encoder
TA neuronal: Arq. codificador–descodificador /4
Codificador (encoder)
Entrada: “My flightisdelayed .”
E(“My flight”)
E(“My flight is”) e(“is”)
encoder
TA neuronal: Arq. codificador–descodificador /5
Codificador (encoder)
Entrada: “My flight isdelayed.”
E(“My
flight is”) E(“My
flight is delayed”) e(“delayed”)
encoder
TA neuronal: Arq. codificador–descodificador /6
Codificador (encoder)
Entrada: “My flight is delayed.”
E(“My flight is
delayed”) E(“My
flight is delayed.”) e(“.”)
encoder
TA neuronal: Arq. codificador–descodificador /7
Codificador (encoder)
Codificaci ´on de la oraci ´on original “My flight is delayed .” a partir de las representaciones de de las palabras.
E(“”)
e(“my”)
encoder E(“My”)
e(“flight”) E(“My
flight is
delayed”) E(“My
flight is delayed.”) e(“.”)
encoder
encoder [...]
TA neuronal: Arq. codificador–descodificador /8
Decodificador (decoder)
Descodificando “My flight is delayed .” → “Mivuelo est ´a retrasado .”
E(“My flight is delayed”)
START
D(“My flight is delayed”,
“”) decoder
P(x,”My flight is delayed”|START),
x=“mi” 0.125 x=“vuelo” 0.078
x=“su” 0.027 x=“avión” 0.011
…
mi
TA neuronal: Arq. codificador–descodificador /9
Decodificador (decoder)
Descodificando “My flight is delayed .” → “M´ıvueloest ´a retrasado .”
D(“My flight is delayed”,
“”) mi
decoder
D(“My flight is delayed”,
“Mi”)
P(x,”My flight is delayed”|”Mi”), x=“vuelo” 0.315
x=“avión” 0.088 x=“escala” 0.071
x=“está” 0.009
…
vuelo
TA neuronal: Arq. codificador–descodificador /10
Decodificador (decoder)
Descodificando “My flight is delayed .” → “M´ı vueloest ´a retrasado .”
D(“My flight is delayed”,
“Mi”) vuelo
decoder
P(x,”My flight is delayed”|”Mi vuelo”),
x=“está” 0.415 x=“es” 0.218 x=“tarde” 0071
x=“hay” 0.009
…
D(“My flight is delayed”,
“Mi vuelo”) está
TA neuronal: Arq. codificador–descodificador /11
Decodificador (decoder)
Descodificando “My flight is delayed .” → “M´ı vuelo est ´a retrasado.”
D(“My flight is delayed”,
“Mi vuelo”) está
decoder
P(x,”My flight is delayed”|”Mi vuelo está”),
x=“listo” 0.048 x=“tardando” 0.112 x=“retrasado” 0.683
x=“cancelado” 0.092
…
D(“My flight is delayed”,
“Mi vuelo está”)
retrasado
TA neuronal: Arq. codificador–descodificador /12
Decodificador (decoder)
Descodificando “My flight is delayed .” → “M´ı vuelo est ´a retrasado.”
D(“My flight is delayed”, “Mi vuelo está”)
retrasado
decoder
P(x,”My flight is delayed”|”Mi vuelo está retrasado”),
x=“.” 0.773 x=“porque” 0.038
x=“dos” 0.011 x=“hasta” 0.001
…
D(“My flight is delayed”,
“Mi vuelo está retrasado”)
.
TA neuronal: Arq. codificador–descodificador /13
Decodificador (decoder)
Descodificaci ´on de la traducci ´on de “My flight is delayed .”: “M´ı vuelo est ´a retrasado .”.
E(“My flight is delayed”) START
D(“My flight is delayed”,
“”) decoder
P(x,”My flight is delayed”|START),
x=“mi” 0.125 x=“vuelo” 0.078
x=“su” 0.027 x=“avión” 0.011
…
mi
decoder
D(“My flight is delayed”,
“Mi”)
P(x,”My flight is delayed”|”Mi”), x=“vuelo” 0.315
x=“avión” 0.088 x=“escala” 0.071 x=“está” 0.009
…
vuelo
decoder
P(x,”My flight is delayed”|”Mi vuelo”),
x=“está” 0.415 x=“es” 0.218 x=“tarde” 0071
x=“hay” 0.009
…
D(“My flight is delayed”,
“Mi vuelo”) está
[…]
TA neuronal: comportamiento
La traducci ´on autom ´atica neuronal:
Trabaja con representaciones de toda la oraci ´on es dif´ıcil saber de qu ´e palabra en LO proviene cada palabra en LM
Producen textos gramaticalmente muy naturales en LM
Comenten errores con motivaci ´on sem ´antica: palabras no vistas durante el entrenamiento, se sustituyen. . .
. . . por otras similares: palacio → castillo
. . . por par ´afrasis: Michael Jordan → el jugador de los Bulls a veces, con resultados peligrosos: T ´unez → Noruega Pueden inventarse palabras cuando trabajan con unidades m ´as peque ˜nas que las palabras (algo habitual)
Quien postedita debe ir con cuidado(carga cognitiva alta)
TA neuronal: comportamiento
La traducci ´on autom ´atica neuronal:
Trabaja con representaciones de toda la oraci ´on es dif´ıcil saber de qu ´e palabra en LO proviene cada palabra en LM
Producen textos gramaticalmente muy naturales en LM Comenten errores con motivaci ´on sem ´antica: palabras no vistas durante el entrenamiento, se sustituyen. . .
. . . por otras similares: palacio → castillo
. . . por par ´afrasis: Michael Jordan → el jugador de los Bulls a veces, con resultados peligrosos: T ´unez → Noruega Pueden inventarse palabras cuando trabajan con unidades m ´as peque ˜nas que las palabras (algo habitual)
Quien postedita debe ir con cuidado(carga cognitiva alta)
TA neuronal: comportamiento
La traducci ´on autom ´atica neuronal:
Trabaja con representaciones de toda la oraci ´on es dif´ıcil saber de qu ´e palabra en LO proviene cada palabra en LM
Producen textos gramaticalmente muy naturales en LM Comenten errores con motivaci ´on sem ´antica: palabras no vistas durante el entrenamiento, se sustituyen. . .
. . . por otras similares: palacio → castillo
. . . por par ´afrasis: Michael Jordan → el jugador de los Bulls a veces, con resultados peligrosos: T ´unez → Noruega Pueden inventarse palabras cuando trabajan con unidades m ´as peque ˜nas que las palabras (algo habitual)
Quien postedita debe ir con cuidado(carga cognitiva alta)
Contenidos
1 Introducci ´on al modelo cero de traducci ´on autom ´atica
2 Traducci ´on autom ´atica basada en reglas
Problemas traducci ´on modelo cero y soluci ´on basada en reglas Traducci ´on autom ´atica indirecta por transferencia
Caracter´ısticas de las arquitecturas de transferencia
3 Traducci ´on autom ´atica basada en corpus Traducci ´on autom ´atica estad´ıstica Traducci ´on autom ´atica neuronal 4 Resumen
Resumiendo: Tipos de traducci ´on autom ´atica
Hemos estudiado dos tipos principales de traducci ´on autom ´atica (TA):
La traducci ´onautom ´atica basada en reglas La traducci ´onautom ´atica basada en corpus
Resumiendo: TA basada en reglas
La TAbasada en reglas (Lucy, ProMT, Apertium, etc.):
Trabaja con representaciones abstractas de los textos en LO y LM
El nivel de an ´alisis (morfol ´ogico, sint ´actico, sem ´antico) depende del par de lenguas
Expertos en traducci ´on escriben diccionarios de traducci ´on y reglas que transforman estructuras de la LO en estructuras de la LM
El conocimiento sobre la tarea de traducci ´on debe convertirse en reglas y codificarse de forma computacionalmente eficiente
Expertos inform ´aticos escriben programas que consultan esos diccionarios y aplican esas reglas al texto original
Resumiendo: TA basada en corpus
Los programas de TAbasada en corpus aprenden a traducir a partir de corpus con centenares de miles o millones de
segmentos traducidos:
TAestad´ıstica (1995–2015)
Aprende y usa modelosprobabil´ısticos que se estiman contando sucesos en el corpus biling ¨ue de entrenamiento TAneuronal (2015–)
Se basa enredes neuronales artificiales inspiradas en la forma en que el cerebro aprende y generaliza
Es posible que haya lenguas o ´ambitos tem ´aticos para los que no haya corpus de suficiente tama ˜no
La salida puede ser enga ˜nosamente natural (infiel)
Tecnolog´ıas de la Traducci ´on:
T ´ecnicas de traducci ´on autom ´atica
Felipe S ´anchez Mart´ınez, Mikel L. Forcada, Miquel Espl `a Gomis
Departament de Llenguatges i Sistemes Inform `atics Universitat d’Alacant
Curs 2019–2020