Computacional:
Traducci ´on Autom ´atica
Felipe S ´anchez Mart´ınez yMiquel Espl `a Gomis
Dep. de Llenguatges i Sistemes Inform `atics Universitat d’Alacant
Curso 2020/21
´Indice
1 Traducci ´on autom ´atica
Aplicaciones de la traducci ´on autom ´atica Automatizaci ´on del proceso de traducci ´on
2 Evaluaci ´on de la traducci ´on autom ´atica
Evaluaci ´on humana de la traducci ´on autom ´atica Evaluaci ´on autom ´atica de la traducci ´on autom ´atica Deficiencias de las medidas de evaluaci ´on autom ´atica 3 Los problemas de la traducci ´on autom ´atica
4 Funcionamiento de la traducci ´on autom ´atica
5 T ´ecnicas de traducci ´on autom ´atica
Traducci ´on autom ´atica basada en reglas Traducci ´on autom ´atica basada en corpus
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 67/106
1 Traducci ´on autom ´atica
Aplicaciones de la traducci ´on autom ´atica Automatizaci ´on del proceso de traducci ´on
2 Evaluaci ´on de la traducci ´on autom ´atica
Evaluaci ´on humana de la traducci ´on autom ´atica Evaluaci ´on autom ´atica de la traducci ´on autom ´atica Deficiencias de las medidas de evaluaci ´on autom ´atica 3 Los problemas de la traducci ´on autom ´atica
4 Funcionamiento de la traducci ´on autom ´atica
5 T ´ecnicas de traducci ´on autom ´atica
Traducci ´on autom ´atica basada en reglas Traducci ´on autom ´atica basada en corpus
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 67/106
Traducci ´on autom ´atica basada en reglas /1
La traducci ´on autom ´atica basada en reglas es como usar un diccionario y una gram ´atica descriptiva para traducir desde un idioma que no conoces a otro
Arquitectura de transferencia:
SL text Analysis
Transfer
Generation SL IR
TL IR
TL text
IR = Intermediate Representation
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 68/106
Diferentes niveles de an ´alisis, representaciones intermedias diferentes:
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 69/106
Traducci ´on autom ´atica basada en reglas /3
Larepresentaci ´on intermedia(RI) proporciona un abstracci ´on que permite la escritura de reglas de traducci ´on
Traducci ´on directa: No hay RI
Transferencia morfol ´ogica: La RI suele consistir en formas l ´exicas (combinaciones de lemas y cat. l ´exicas) Transferencia sint ´actica: La RI suele ser un ´arbol de an ´alisis
sint ´actico o un ´arbol de dependencias Semantic transfer: La RI consta de predicados
sem ´anticos
Interlingua: La misma RI (un predicado) es compartida por todos
los pares de idiomas
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 70/106
Sobre la representaci ´on intermedia
Como sugiere el tri ´angulo, cuanto m ´as se asciende hacia la c ´uspide, . . .
. . .menos transferencia hay que hacer . . .m ´as datos de la LO hacen falta . . .menos fiablees elan ´alisis
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 71/106
Traducci ´on autom ´atica basada en reglas /5
Traducci ´on directa
Mars satellites may have been created by third moon
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on directa
Mars satellites may have been created by third moon Marte
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on autom ´atica basada en reglas /5
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites mayo
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on autom ´atica basada en reglas /5
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites mayo tener
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on autom ´atica basada en reglas /5
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado por
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on autom ´atica basada en reglas /5
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado por tercero
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado por tercero luna
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Traducci ´on autom ´atica basada en reglas /5
Traducci ´on directa
Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado por tercero luna
Traducci ´on palabra por palabra No hay an ´alisis gramatical
Errores flagrantes, p.ej. tercero luna en lugar de tercera luna
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106
Transferencia morfol ´ogica avanzada
LO the professor ’s house
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 73/106
Traducci ´on autom ´atica basada en reglas /6
Transferencia morfol ´ogica avanzada
LO the professor ’s house
RILO the-DT.def professor-N.sg ’s-POS house-N.sg
An ´alisis: De formas superficiales en LO (p. ej. house) a formas l ´exicas en LO (p.ej. house N.sg)
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 73/106
Transferencia morfol ´ogica avanzada
LO the professor ’s house
RILO the-DT.def professor-N.sg ’s-POS house-N.sg
RILM el-DT.def.f.sg casa-N.f.sg de-PR + el-DT.def.m.sg profesor N.m.sg
An ´alisis: De formas superficiales en LO (p. ej. house) a formas l ´exicas en LO (p.ej. house N.sg)
Transferencia
De lemas en LO (p.ej. house) a lemas en LM (p.ej. casa) Procesamiento depatrones de formas l ´exicasque necesitan ser procesadas conjuntamente; p.ej.
DT N1 POS N2→ el-DT N2de-PR DT N1
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 73/106
Traducci ´on autom ´atica basada en reglas /6
Transferencia morfol ´ogica avanzada
LO the professor ’s house
RILO the-DT.def professor-N.sg ’s-POS house-N.sg
RILM el-DT.def.f.sg casa-N.f.sg de-PR + el-DT.def.m.sg profesor N.m.sg
LM la casa del profesor
An ´alisis: De formas superficiales en LO (p. ej. house) a formas l ´exicas en LO (p.ej. house N.sg)
Transferencia
De lemas en LO (p.ej. house) a lemas en LM (p.ej. casa) Procesamiento depatrones de formas l ´exicasque necesitan ser procesadas conjuntamente; p.ej.
DT N1 POS N2→ el-DT N2de-PR DT N1 Generaci ´on: De formas l ´exicas en LM a formas superficiales en LM
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 73/106
Transferencias morfol ´ogica avanzada
LO the professor ’s house
RILO the-DT.def professor-N.sg ’s-POS house-N.sg
RILM el-DT.def.f.sg casa-N.f.sg de-PR + el-DT.def.m.sg profesor N.m.sg
LM la casa del profesor
La calidad de las traducciones depende de:
La calidad delan ´alisis morfol ´ogico
Lospatrones de formas l ´exicasque son procesados conjuntamente
Es necesaria una regla para cada patr ´on de formas l ´exicas, p.ej.
DT ADJ N→ DT N ADJ
DT ADJ1 ADJ2 N→ DT N ADJ1y-CNJ ADJ2
. . .
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 74/106
Traducci ´on autom ´atica basada en reglas /8
Transferencia sint ´actica
LO: the old professor’s smart girlfriend’s red car
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 75/106
Transferencia sint ´actica
LO: the old professor’s smart girlfriend’s red car
An ´alisis: De formas l ´exicas en LO a un ´arbol de an ´alisis en LO
NP
GP
NP
GP
NP
ADJ old
NP N professor
POS
’s
NP
ADJ smart
NP N
girlfriend POS
’s
NP ADJ
red NP
N car
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 75/106
The transfer approach /5
Transferencia sint ´actica
LO: the old professor’s smart girlfriend’s red car
NP
GP NP . . .
POS
’s
NP ADJ
red NP
N car
An ´alisis: De formas l ´exicas en LO a un ´arbol de an ´alisis en LO
Transferencia: Reglas que operan sobre los nodos del ´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM
Movimiento de adjetivos:
NP1 ADJ NP2
−→ NP1
NP2 ADJ
Traducci ´on de la construcci ´on del genitivo saj ´on como un sintagma preposicional:
NP1
GP NP2 POS
’s NP3
−→ NP1
NP3 PP
PR de
NP2
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 76/106
Transferencia sint ´actica
LO: the old professor’s smart girlfriend’s red car
An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del
´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM
Arbol en LO:´
NP
GP
NP
GP
NP ADJ
old NP
N professor
POS
’s
NP ADJ smart
NP N girlfriend
POS
’s
NP ADJ
red NP
N car
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 77/106
Traducci ´on autom ´atica basada en reglas /9
Transferencia sint ´actica
LO: the old professor’s smart girlfriend’s red car
An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del
´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM
Arbol en LM (antes transferencia l ´exica):´
NP
NP NP
N car
ADJ red
PP
PR de
NP
NP NP
N girlfriend
ADJ smart
PP
P de
NP NP N professor
ADJ old
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 77/106
Transferencia sint ´actica
LO: the old professor’s smart girlfriend’s red car
An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del
´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM
Arbol en LM (despu ´es transferencia l ´exica):´
NP
NP NP
N coche
ADJ rojo
PP
PR de
NP
NP NP
N novia
ADJ inteligente
PP
PR de
NP NP N catedr ´atico
ADJ viejo
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 77/106
Traducci ´on autom ´atica basada en reglas /10
Transferencia sint ´actica
LO: the old professor’s smart girlfriend’s red car
An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del
´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM
Arbol en LM (despu ´es de la transferencia l ´exica):´
NP
NP NP
N coche
ADJ rojo
PP PR de
NP . . .
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 78/106
Transferencia sint ´actica
LO: the old professor’s smart girlfriend’s red car
An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del
´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM
Generaci ´on: De un ´arbol de an ´alisis en LM a formas superficiales en LM
Arbol en LM (despu ´es de la transferencia l ´exica):´
NP
NP NP
N coche
ADJ rojo
PP PR de
NP . . .
LM: el coche rojo de la novia inteligente del catedr ´atico viejo
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 78/106
Traducci ´on autom ´atica basada en reglas /11
Transferencia sint ´actica
La calidad de las traducciones depende de la calidad del an ´alisis morfol ´ogicoy delan ´alisis sint ´actico
An ´alisis sint ´acticos err ´oneos puede producir traducciones sorprendentes
Produce traducciones err ´oneas cuando los roles
sem ´anticos tienen distribuciones sint ´acticas diferentes en la LO y la LM (p.ej. me gusta nadar, I like swimming)
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 79/106
Transferencia sem ´antica
LO A Elisa le gustan mucho las flores
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 80/106
Traducci ´on autom ´atica basada en reglas /12
Transferencia sem ´antica
LO A Elisa le gustan mucho las flores
gustar[object=[Elisa], subject=[las flores], adv=[mucho]]
RI LO gustar[ experiencer=[Elisa], theme=[las flores], quant.=[mucho]]
An ´alisis: De un ´arbol de an ´alisis en LO a un predicado sem ´antico en LO
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 80/106
Transferencia sem ´antica
LO A Elisa le gustan mucho las flores
gustar[object=[Elisa], subject=[las flores], adv=[mucho]]
RI LO gustar[ experiencer=[Elisa], theme=[las flores], quant.=[mucho]]
RI LM like[ experiencer=[Elisa], theme=[flowers], quant.=[very much]]
like[ object=[flowers], subject=[Elisa], adv=[very much]]
An ´alisis: De un ´arbol de an ´alisis en LO a un predicado sem ´antico en LO
Transferencia: De un predicado sem ´antico en LO a un predicado sem ´antico en LM
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 80/106
Traducci ´on autom ´atica basada en reglas /12
Transferencia sem ´antica
LO A Elisa le gustan mucho las flores
gustar[object=[Elisa], subject=[las flores], adv=[mucho]]
RI LO gustar[ experiencer=[Elisa], theme=[las flores], quant.=[mucho]]
RI LM like[ experiencer=[Elisa], theme=[flowers], quant.=[very much]]
like[ object=[flowers], subject=[Elisa], adv=[very much]]
LM Elisa likes flowers very much
An ´alisis: De un ´arbol de an ´alisis en LO a un predicado sem ´antico en LO
Transferencia: De un predicado sem ´antico en LO a un predicado sem ´antico en LM Generaci ´on: De un predicado sem ´antico en LM a formas superficiales en LM
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 80/106
Transferencia sem ´antica
La calidad depende de la calidad delan ´alisis morfol ´ogico, delan ´alisis sint ´acticoy delan ´alisis sem ´antico
SL analysis
TL generation
direct translation shallow transfer syntactic transfer
semantic transfer interlingua
SL TL
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 81/106
Traducci ´on autom ´atica basada en reglas /14
Sistemas basados en reglas reales
Estos tipos de sistemas est ´an idealizados
La mayor´ıa de los sistemas son en realidad una mezcla de los diferentes tipos
Incluso un sistema sem ´antico puede usar traducci ´on directa para determinada secuencias de palabras
Un sistema de transferencia morfol ´ogica avanzada puede identificar la funci ´on sint ´actica en algunos contextos limitados
Un sistema sint ´actico puede realizar an ´alisis sem ´antico de roles para ciertos verbos dif´ıciles
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 82/106
Tarea: Averigua el tipo de sistema basado en reglas Intenta averiguar qu ´e tipo de sistema basado en reglas es Apertium (https://apertium.org):
1 Piensa en un divergencia entre la LO y LM (p.ej. orden lo de los adjetivos en los sintagmas nominales)
2 Prop ´on una oraci ´on sencilla (p.ej. “the red car”)
3 Compara su traducci ´on con la trad. palabra por palabra Para obtener la traducci ´on palabra por palabra, traduce las palabras de forma aislada introduciendo puntos y l´ıneas en blanco entre ellas
4 Complica en ejemplo (p.ej. a ˜nadiendo adjetivos) y vuelve al paso 3
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 83/106
Traducci ´on autom ´atica basada en reglas /16
Postedici ´on de la salida de un traductor basado en reglas
Las traducciones son m ´as predecibles que las producidas por sistemas basados en corpus
El sistema suele producir los mismos errores
Conocer errores t´ıpicos permite una postedici ´on m ´as r ´apida Suelen permitir personalizar diccionarios (terminolog´ıa)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 84/106
1 Traducci ´on autom ´atica
Aplicaciones de la traducci ´on autom ´atica Automatizaci ´on del proceso de traducci ´on
2 Evaluaci ´on de la traducci ´on autom ´atica
Evaluaci ´on humana de la traducci ´on autom ´atica Evaluaci ´on autom ´atica de la traducci ´on autom ´atica Deficiencias de las medidas de evaluaci ´on autom ´atica 3 Los problemas de la traducci ´on autom ´atica
4 Funcionamiento de la traducci ´on autom ´atica
5 T ´ecnicas de traducci ´on autom ´atica
Traducci ´on autom ´atica basada en reglas Traducci ´on autom ´atica basada en corpus
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 84/106
Traducci ´on autom ´atica basada en corpus /1
“Existing translations contain more solutions to more translation problems than any other existing resource” — Pierre Isabelle Objetivo
Aprender a traducir a partir de traducciones existentes (bitextos)
Para aprender a traducir a partir de bitextos:
1 Los textos deben estarsegmentadosen oraciones Los signos de puntuaci ´on y la informaci ´on de formato pueden ser ´utiles
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 85/106
“Existing translations contain more solutions to more translation problems than any other existing resource” — Pierre Isabelle Objetivo
Aprender a traducir a partir de traducciones existentes (bitextos)
Para aprender a traducir a partir de bitextos:
1 Los textos deben estarsegmentadosen oraciones Los signos de puntuaci ´on y la informaci ´on de formato pueden ser ´utiles
2 Las oraciones deben estaralineadas, es decir, deben identificarse las oraciones que son traducci ´on mutua
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 85/106
Traducci ´on autom ´atica basada en corpus /2
El alineamiento puede ser 1-1, 1-N o N-1
Imagen de Koehn (2010)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 86/106
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
Necesitamos saber que palabras son traducci ´on de qu ´e palabras: alineamientos
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106
Traducci ´on autom ´atica estad´ıstica /1
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
Inicializaci ´on: Todos los alineamientos son igualmente probables
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
Contamos “co-ocurrencias”
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106
Traducci ´on autom ´atica estad´ıstica /1
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
El alineamiento m ´as probable: nos vamos quedando con las traducciones m ´as probables
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106
¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?
gur ubhfo gur juvga ubhfo gur subjre
yn pifo yn pifo oynapi yn sybe
El alineamiento m ´as probable: la estructura de
alineamiento que estaba “oculta” queda al descubierto
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106
Traducci ´on autom ´atica estad´ıstica /2
the house the white house the flower
la casa la casa blanca la flor
A partir de los alineamientos a nivel de palabras se obtiene un diccionario biling ¨ue probabil´ıstico
p(la|the) = 0, 453 p(el|the) = 0, 334 p(casa|house) = 0, 876 p(blanco|white) = 0, 763
...
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 88/106
Advertencia
Utilizar siempre el equivalente m ´as probable proporcionado por un diccionario probabil´ıstico es traducirpalabra por palabra
Traducciones poco inteligibles
el oso apareci ´o tarde−→ the I dare appeared afternoon the computer expert’s large desk is full−→ el ordenador experto grande escritorio es lleno
menos mal que s ´olo sesenta y cinco personas murieron
−→ less wrong that only sixty and five persons died
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 89/106
Traducci ´on autom ´atica estad´ıstica /4
¿C ´omo podr´ıamos mejorar la inteligibilidad?
Una pista. Resultados encontrados en la web para las traducciones de:
(1) the bank of the river, (2) el oso apareci ´o y (3) cinco personas murieron
(1) “el banco del r´ıo” 4.500 “la rivera del r´ıo” 372.000 (2) “the I dare appeared” 0 “the bear appeared” 245.000 (3) “five persons died” 69.300 “five people died” 1.090.000
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 90/106
¿C ´omo podr´ıamos mejorar la inteligibilidad?
Modelo de lenguaje
Permite medir la probabilidad (fluidez) de un segmento de texto en una lengua dada
Modelo estad´ıstico basado en n-gramas (normalmente trigramas)
Se entrena a partir de un texto de la lengua a modelar suficientemente grande
F ´acil de obtener: s ´olo hay que calcular la frecuencia de aparici ´on de los n-gramas
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 91/106
Traducci ´on autom ´atica estad´ıstica /6
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
The potential of machine translation is clear
p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
Thepotential of machine translation is clear
p(The potential of machine translation is clear) = p(The)× p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Traducci ´on autom ´atica estad´ıstica /6
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
The potentialof machine translation is clear
p(The potential of machine translation is clear) = p(The) ×p(potential|The)× p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
The potential ofmachine translation is clear
p(The potential of machine translation is clear) = p(The) × p(potential|The) ×p(of|The potential)× p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Traducci ´on autom ´atica estad´ıstica /6
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
Thepotential of machinetranslation is clear
p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of)× p(translation|of machine) × p(is|machine translation) × p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
The potentialof machine translationis clear
p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) ×p(translation|of machine)× p(is|machine translation) × p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Traducci ´on autom ´atica estad´ıstica /6
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
The potential ofmachine translation isclear
p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation)× p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
The potential of machinetranslation is clear
p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) ×p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Traducci ´on autom ´atica estad´ıstica /6
Modelo de lengua de 3-gramas:
p(house|the red) = count(the red house) count(the red ∗)
¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)
p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106
Traducci ´on autom ´atica estad´ıstica basada en palabras El modelo de traducci ´on y el modelo de lengua se combinan para mejorar la calidad de las traducciones
ptranslation model(source|target) × planguage model(target) El equivalente m ´as probable seg ´un el modelo de traducci ´on se elige s ´olo cuando la traducci ´on resultante sea fluida
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 93/106
Traducci ´on autom ´atica estad´ıstica /8
Ejemplo de TA estad´ıstica basada en palabras LO: the red car
Opciones de traducci ´on (las m ´as probables primero):
the→ la, el, las, los, . . .
red→ rojo, rojas, roja, rojos, . . . car→ coche, autom ´ovil, auto, . . . Hip ´otesis de traducci ´on:
MT ML Puntuaci ´on
la rojo coche 0.82 0.15 0.12
el rojas coche 0.75 0.09 0.08
el rojo coche 0.78 0.45 0.35
el coche roja 0.69 0.52 0.36
el coche rojo 0.78 0.81 0.63
el autom ´ovil rojo 0.66 0.85 0.56 . . .
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 94/106
Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 95/106
Traducci ´on autom ´atica estad´ıstica /9
Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:
La unidad de traducci ´on es la palabra y el contexto se tiene en cuenta s ´olo indirectamente por parte del modelo de lengua
Phrasal verbs: fall out, fall apart, fall back, go over, go out, . . .
Expresiones multipalabra: as a matter of fact, as soon as possible, all in all, (es) echar de menos, (es) direcci ´on general, . . .
Colocaciones: dream of, make a decision, fast food, quick meal, make money, . . .
. . .
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 95/106
Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:
La unidad de traducci ´on es la palabra y el contexto se tiene en cuenta s ´olo indirectamente por parte del modelo de lengua
Phrasal verbs: fall out, fall apart, fall back, go over, go out, . . .
Expresiones multipalabra: as a matter of fact, as soon as possible, all in all, (es) echar de menos, (es) direcci ´on general, . . .
Colocaciones: dream of, make a decision, fast food, quick meal, make money, . . .
. . .
Los modelos basados en palabras ya no son el estado de la cuesti ´on pero se usan para calcular alineamientos a nivel de palabras
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 95/106
Traducci ´on autom ´atica estad´ıstica /10
Soluci ´on
Considerar segmentos de longitud variable como unidades de traducci ´on
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 96/106
Soluci ´on
Considerar segmentos de longitud variable como unidades de traducci ´on
Estos segmentos se pueden obtener de distintas maneras:
A partir de los alineamientos a nivel de palabra A partir de informaci ´on sint ´actica
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 96/106
Traducci ´on autom ´atica estad´ıstica /10
Soluci ´on
Considerar segmentos de longitud variable como unidades de traducci ´on
Estos segmentos se pueden obtener de distintas maneras:
A partir de los alineamientos a nivel de palabra A partir de informaci ´on sint ´actica
...
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 96/106
Traducci ´on autom ´atica estad´ıstica basada en segmentos La unidad de traducci ´on son segmentos de longitud variable sin ning ´un significado sint ´actico
Mart´ın se divierte con el juego nuevo
Martin has fun with the new game
Ventajas:
Puede traducir unidades multipalabra
Uso directo del contexto local (dentro de cada segmento) Cuanto m ´as grande es el bitexto, m ´as fiables es la traducci ´on de los segmentos largos
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 97/106
Traducci ´on autom ´atica estad´ıstica /12
Los sistemas basados en segmentos combinan diferentes modelos:
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106
Los sistemas basados en segmentos combinan diferentes modelos:
Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106
Traducci ´on autom ´atica estad´ıstica /12
Los sistemas basados en segmentos combinan diferentes modelos:
Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable
Modelo de lengualde la LM; como el usado por los sistemas basados en palabras
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106
Los sistemas basados en segmentos combinan diferentes modelos:
Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable
Modelo de lengualde la LM; como el usado por los sistemas basados en palabras
N ´umero de palabras en LM; para penalizar traducciones muy cortas
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106
Traducci ´on autom ´atica estad´ıstica /12
Los sistemas basados en segmentos combinan diferentes modelos:
Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable
Modelo de lengualde la LM; como el usado por los sistemas basados en palabras
N ´umero de palabras en LM; para penalizar traducciones muy cortas
N ´umero de segmentos biling ¨uesusados; para fomentar el uso de segmentos largos
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106
Los sistemas basados en segmentos combinan diferentes modelos:
Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable
Modelo de lengualde la LM; como el usado por los sistemas basados en palabras
N ´umero de palabras en LM; para penalizar traducciones muy cortas
N ´umero de segmentos biling ¨uesusados; para fomentar el uso de segmentos largos
Modelo de reordenamiento; para condicionar el posicionamiento de las palabras en LM
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106
Traducci ´on autom ´atica estad´ıstica /12
Los sistemas basados en segmentos combinan diferentes modelos:
Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable
Modelo de lengualde la LM; como el usado por los sistemas basados en palabras
N ´umero de palabras en LM; para penalizar traducciones muy cortas
N ´umero de segmentos biling ¨uesusados; para fomentar el uso de segmentos largos
Modelo de reordenamiento; para condicionar el posicionamiento de las palabras en LM
. . .
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106
Postedici ´on de la salida de un traductor estad´ıstico
Comportamiento menos predecible que el de los sistemas basados en reglas
Traducciones parecidas a las que se encuentran en los corpus de entrenamiento (posibilidad de personalizaci ´on) El sistema puede producir traducciones muy fluida pero no fieles al original (p.ej. se pierde una part´ıcula negativa) Presta siempre atenci ´on a la oraci ´on en LO, incluso cuando la traducci ´on parezca perfecta
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 99/106
Traducci ´on autom ´atica neuronal /1
Red neuronal artificial
Gran cantidad deunidadesinterconectadas que se asemejan a las neuronas del cerebro
Cada neurona recibe varias entradas y produce una salida oactivaci ´on
Las neuronas se distribuyen en capas
La salida de una neurona se convierte en la entrada de muchas otras neuronas
La activaci ´on de una neurona depende de las entradas y de lafuerzade lasconexiones
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 100/106
Representaciones
Imaginad que con la activaci ´on de 3 neuronas representamos todo el vocabulario, una representaci ´on gr ´afica 3D podr´ıa ser:
Palabras sem ´anticamente relacionadas cercanas en elespacio M ´as ejemplos:
https://rakeshchada.github.io/Neural-Embedding-Animation.html
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 101/106
Traducci ´on autom ´atica neuronal /3
Arquitectura codificador–descodificador
Una de las primeras arquitecturas de TA neuronal moderna:
codificador–descodificador:
Elcodificadorlee, una a una, las representaciones de las palabras de la oraci ´on en LO y va construyendo una representaci ´on de la oraci ´on
Eldescodificadorpredice, una a una, las palabras de la oraci ´on en LM a partir de la representaci ´on de la oraci ´on en LO y las palabras que ya ha producido
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 102/106
Codificador
Codificaci ´on de la oraci ´on en LO “My flight is delayed .” a partir de las representaciones de las palabras:
Un buen recurso para leer m ´as:
http://jalammar.github.io/visualizing-neural
-machine-translation-mechanics-of-seq2seq-models-with-attention/
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 103/106
Traducci ´on autom ´atica neuronal /5
Descodificador
Decodificaci ´on de la traducci ´on: “Mi vuelo est ´a retrasado .”
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 104/106
Nueva tecnolog´ıa, nuevo comportamiento La traducci ´on autom ´atica neuronal:
Trabaja con representaciones de toda la oraci ´on es dif´ıcil saber de qu ´e palabra en LO proviene cada palabra de la LM
Producen textos gramaticalmente muy naturales en LM Comenten errores con motivaci ´on sem ´antica: si una palabra no ha sido vista durante el entrenamiento, se sustituye. . .
. . . por otra similar: palacio→ castillo
. . . o por una par ´afrasis: Michael Jordan→ el jugador de los Bulls
a veces, con resultados peligrosos: T ´unez→ Noruega
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 105/106
El Ingl ´es y el Espa ˜nol en la Ling ¨u´ıstica Computacional:
Traducci ´on Autom ´atica
Felipe S ´anchez Mart´ınez yMiquel Espl `a Gomis
Dep. de Llenguatges i Sistemes Inform `atics Universitat d’Alacant
Curso 2020/21
Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 106/106