• No se han encontrado resultados

El Ingl ´es y el Espa ˜nol en la Ling ¨u´ıstica Computacional: Traducci ´on Autom ´atica

N/A
N/A
Protected

Academic year: 2022

Share "El Ingl ´es y el Espa ˜nol en la Ling ¨u´ıstica Computacional: Traducci ´on Autom ´atica"

Copied!
86
0
0

Texto completo

(1)

Computacional:

Traducci ´on Autom ´atica

Felipe S ´anchez Mart´ınez yMiquel Espl `a Gomis

Dep. de Llenguatges i Sistemes Inform `atics Universitat d’Alacant

Curso 2020/21

(2)

´Indice

1 Traducci ´on autom ´atica

Aplicaciones de la traducci ´on autom ´atica Automatizaci ´on del proceso de traducci ´on

2 Evaluaci ´on de la traducci ´on autom ´atica

Evaluaci ´on humana de la traducci ´on autom ´atica Evaluaci ´on autom ´atica de la traducci ´on autom ´atica Deficiencias de las medidas de evaluaci ´on autom ´atica 3 Los problemas de la traducci ´on autom ´atica

4 Funcionamiento de la traducci ´on autom ´atica

5 T ´ecnicas de traducci ´on autom ´atica

Traducci ´on autom ´atica basada en reglas Traducci ´on autom ´atica basada en corpus

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 67/106

(3)

1 Traducci ´on autom ´atica

Aplicaciones de la traducci ´on autom ´atica Automatizaci ´on del proceso de traducci ´on

2 Evaluaci ´on de la traducci ´on autom ´atica

Evaluaci ´on humana de la traducci ´on autom ´atica Evaluaci ´on autom ´atica de la traducci ´on autom ´atica Deficiencias de las medidas de evaluaci ´on autom ´atica 3 Los problemas de la traducci ´on autom ´atica

4 Funcionamiento de la traducci ´on autom ´atica

5 T ´ecnicas de traducci ´on autom ´atica

Traducci ´on autom ´atica basada en reglas Traducci ´on autom ´atica basada en corpus

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 67/106

(4)

Traducci ´on autom ´atica basada en reglas /1

La traducci ´on autom ´atica basada en reglas es como usar un diccionario y una gram ´atica descriptiva para traducir desde un idioma que no conoces a otro

Arquitectura de transferencia:

SL text Analysis

Transfer

Generation SL IR

TL IR

TL text

IR = Intermediate Representation

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 68/106

(5)

Diferentes niveles de an ´alisis, representaciones intermedias diferentes:

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 69/106

(6)

Traducci ´on autom ´atica basada en reglas /3

Larepresentaci ´on intermedia(RI) proporciona un abstracci ´on que permite la escritura de reglas de traducci ´on

Traducci ´on directa: No hay RI

Transferencia morfol ´ogica: La RI suele consistir en formas l ´exicas (combinaciones de lemas y cat. l ´exicas) Transferencia sint ´actica: La RI suele ser un ´arbol de an ´alisis

sint ´actico o un ´arbol de dependencias Semantic transfer: La RI consta de predicados

sem ´anticos

Interlingua: La misma RI (un predicado) es compartida por todos

los pares de idiomas

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 70/106

(7)

Sobre la representaci ´on intermedia

Como sugiere el tri ´angulo, cuanto m ´as se asciende hacia la c ´uspide, . . .

. . .menos transferencia hay que hacer . . .m ´as datos de la LO hacen falta . . .menos fiablees elan ´alisis

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 71/106

(8)

Traducci ´on autom ´atica basada en reglas /5

Traducci ´on directa

Mars satellites may have been created by third moon

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(9)

Traducci ´on directa

Mars satellites may have been created by third moon Marte

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(10)

Traducci ´on autom ´atica basada en reglas /5

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(11)

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites mayo

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(12)

Traducci ´on autom ´atica basada en reglas /5

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites mayo tener

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(13)

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(14)

Traducci ´on autom ´atica basada en reglas /5

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(15)

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado por

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(16)

Traducci ´on autom ´atica basada en reglas /5

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado por tercero

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(17)

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado por tercero luna

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(18)

Traducci ´on autom ´atica basada en reglas /5

Traducci ´on directa

Mars satellites may have been created by third moon Marte sat ´elites mayo tener estado creado por tercero luna

Traducci ´on palabra por palabra No hay an ´alisis gramatical

Errores flagrantes, p.ej. tercero luna en lugar de tercera luna

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 72/106

(19)

Transferencia morfol ´ogica avanzada

LO the professor ’s house

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 73/106

(20)

Traducci ´on autom ´atica basada en reglas /6

Transferencia morfol ´ogica avanzada

LO the professor ’s house

RILO the-DT.def professor-N.sg ’s-POS house-N.sg

An ´alisis: De formas superficiales en LO (p. ej. house) a formas l ´exicas en LO (p.ej. house N.sg)

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 73/106

(21)

Transferencia morfol ´ogica avanzada

LO the professor ’s house

RILO the-DT.def professor-N.sg ’s-POS house-N.sg

RILM el-DT.def.f.sg casa-N.f.sg de-PR + el-DT.def.m.sg profesor N.m.sg

An ´alisis: De formas superficiales en LO (p. ej. house) a formas l ´exicas en LO (p.ej. house N.sg)

Transferencia

De lemas en LO (p.ej. house) a lemas en LM (p.ej. casa) Procesamiento depatrones de formas l ´exicasque necesitan ser procesadas conjuntamente; p.ej.

DT N1 POS N2→ el-DT N2de-PR DT N1

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 73/106

(22)

Traducci ´on autom ´atica basada en reglas /6

Transferencia morfol ´ogica avanzada

LO the professor ’s house

RILO the-DT.def professor-N.sg ’s-POS house-N.sg

RILM el-DT.def.f.sg casa-N.f.sg de-PR + el-DT.def.m.sg profesor N.m.sg

LM la casa del profesor

An ´alisis: De formas superficiales en LO (p. ej. house) a formas l ´exicas en LO (p.ej. house N.sg)

Transferencia

De lemas en LO (p.ej. house) a lemas en LM (p.ej. casa) Procesamiento depatrones de formas l ´exicasque necesitan ser procesadas conjuntamente; p.ej.

DT N1 POS N2→ el-DT N2de-PR DT N1 Generaci ´on: De formas l ´exicas en LM a formas superficiales en LM

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 73/106

(23)

Transferencias morfol ´ogica avanzada

LO the professor ’s house

RILO the-DT.def professor-N.sg ’s-POS house-N.sg

RILM el-DT.def.f.sg casa-N.f.sg de-PR + el-DT.def.m.sg profesor N.m.sg

LM la casa del profesor

La calidad de las traducciones depende de:

La calidad delan ´alisis morfol ´ogico

Lospatrones de formas l ´exicasque son procesados conjuntamente

Es necesaria una regla para cada patr ´on de formas l ´exicas, p.ej.

DT ADJ N→ DT N ADJ

DT ADJ1 ADJ2 N→ DT N ADJ1y-CNJ ADJ2

. . .

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 74/106

(24)

Traducci ´on autom ´atica basada en reglas /8

Transferencia sint ´actica

LO: the old professor’s smart girlfriend’s red car

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 75/106

(25)

Transferencia sint ´actica

LO: the old professor’s smart girlfriend’s red car

An ´alisis: De formas l ´exicas en LO a un ´arbol de an ´alisis en LO

NP

GP

NP

GP

NP

ADJ old

NP N professor

POS

’s

NP

ADJ smart

NP N

girlfriend POS

’s

NP ADJ

red NP

N car

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 75/106

(26)

The transfer approach /5

Transferencia sint ´actica

LO: the old professor’s smart girlfriend’s red car

NP

GP NP . . .

POS

’s

NP ADJ

red NP

N car

An ´alisis: De formas l ´exicas en LO a un ´arbol de an ´alisis en LO

Transferencia: Reglas que operan sobre los nodos del ´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM

Movimiento de adjetivos:

NP1 ADJ NP2

−→ NP1

NP2 ADJ

Traducci ´on de la construcci ´on del genitivo saj ´on como un sintagma preposicional:

NP1

GP NP2 POS

’s NP3

−→ NP1

NP3 PP

PR de

NP2

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 76/106

(27)

Transferencia sint ´actica

LO: the old professor’s smart girlfriend’s red car

An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del

´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM

Arbol en LO:´

NP

GP

NP

GP

NP ADJ

old NP

N professor

POS

’s

NP ADJ smart

NP N girlfriend

POS

’s

NP ADJ

red NP

N car

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 77/106

(28)

Traducci ´on autom ´atica basada en reglas /9

Transferencia sint ´actica

LO: the old professor’s smart girlfriend’s red car

An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del

´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM

Arbol en LM (antes transferencia l ´exica):´

NP

NP NP

N car

ADJ red

PP

PR de

NP

NP NP

N girlfriend

ADJ smart

PP

P de

NP NP N professor

ADJ old

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 77/106

(29)

Transferencia sint ´actica

LO: the old professor’s smart girlfriend’s red car

An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del

´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM

Arbol en LM (despu ´es transferencia l ´exica):´

NP

NP NP

N coche

ADJ rojo

PP

PR de

NP

NP NP

N novia

ADJ inteligente

PP

PR de

NP NP N catedr ´atico

ADJ viejo

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 77/106

(30)

Traducci ´on autom ´atica basada en reglas /10

Transferencia sint ´actica

LO: the old professor’s smart girlfriend’s red car

An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del

´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM

Arbol en LM (despu ´es de la transferencia l ´exica):´

NP

NP NP

N coche

ADJ rojo

PP PR de

NP . . .

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 78/106

(31)

Transferencia sint ´actica

LO: the old professor’s smart girlfriend’s red car

An ´alisis: De formas l ´exicas a un ´arbol de an ´alisis en LO Transferencia: Reglas que operan sobre los nodos del

´arbol de an ´alisis en LO para obtener un ´arbol de an ´alisis en LM

Generaci ´on: De un ´arbol de an ´alisis en LM a formas superficiales en LM

Arbol en LM (despu ´es de la transferencia l ´exica):´

NP

NP NP

N coche

ADJ rojo

PP PR de

NP . . .

LM: el coche rojo de la novia inteligente del catedr ´atico viejo

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 78/106

(32)

Traducci ´on autom ´atica basada en reglas /11

Transferencia sint ´actica

La calidad de las traducciones depende de la calidad del an ´alisis morfol ´ogicoy delan ´alisis sint ´actico

An ´alisis sint ´acticos err ´oneos puede producir traducciones sorprendentes

Produce traducciones err ´oneas cuando los roles

sem ´anticos tienen distribuciones sint ´acticas diferentes en la LO y la LM (p.ej. me gusta nadar, I like swimming)

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 79/106

(33)

Transferencia sem ´antica

LO A Elisa le gustan mucho las flores

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 80/106

(34)

Traducci ´on autom ´atica basada en reglas /12

Transferencia sem ´antica

LO A Elisa le gustan mucho las flores

gustar[object=[Elisa], subject=[las flores], adv=[mucho]]

RI LO gustar[ experiencer=[Elisa], theme=[las flores], quant.=[mucho]]

An ´alisis: De un ´arbol de an ´alisis en LO a un predicado sem ´antico en LO

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 80/106

(35)

Transferencia sem ´antica

LO A Elisa le gustan mucho las flores

gustar[object=[Elisa], subject=[las flores], adv=[mucho]]

RI LO gustar[ experiencer=[Elisa], theme=[las flores], quant.=[mucho]]

RI LM like[ experiencer=[Elisa], theme=[flowers], quant.=[very much]]

like[ object=[flowers], subject=[Elisa], adv=[very much]]

An ´alisis: De un ´arbol de an ´alisis en LO a un predicado sem ´antico en LO

Transferencia: De un predicado sem ´antico en LO a un predicado sem ´antico en LM

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 80/106

(36)

Traducci ´on autom ´atica basada en reglas /12

Transferencia sem ´antica

LO A Elisa le gustan mucho las flores

gustar[object=[Elisa], subject=[las flores], adv=[mucho]]

RI LO gustar[ experiencer=[Elisa], theme=[las flores], quant.=[mucho]]

RI LM like[ experiencer=[Elisa], theme=[flowers], quant.=[very much]]

like[ object=[flowers], subject=[Elisa], adv=[very much]]

LM Elisa likes flowers very much

An ´alisis: De un ´arbol de an ´alisis en LO a un predicado sem ´antico en LO

Transferencia: De un predicado sem ´antico en LO a un predicado sem ´antico en LM Generaci ´on: De un predicado sem ´antico en LM a formas superficiales en LM

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 80/106

(37)

Transferencia sem ´antica

La calidad depende de la calidad delan ´alisis morfol ´ogico, delan ´alisis sint ´acticoy delan ´alisis sem ´antico

SL analysis

TL generation

direct translation shallow transfer syntactic transfer

semantic transfer interlingua

SL TL

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 81/106

(38)

Traducci ´on autom ´atica basada en reglas /14

Sistemas basados en reglas reales

Estos tipos de sistemas est ´an idealizados

La mayor´ıa de los sistemas son en realidad una mezcla de los diferentes tipos

Incluso un sistema sem ´antico puede usar traducci ´on directa para determinada secuencias de palabras

Un sistema de transferencia morfol ´ogica avanzada puede identificar la funci ´on sint ´actica en algunos contextos limitados

Un sistema sint ´actico puede realizar an ´alisis sem ´antico de roles para ciertos verbos dif´ıciles

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 82/106

(39)

Tarea: Averigua el tipo de sistema basado en reglas Intenta averiguar qu ´e tipo de sistema basado en reglas es Apertium (https://apertium.org):

1 Piensa en un divergencia entre la LO y LM (p.ej. orden lo de los adjetivos en los sintagmas nominales)

2 Prop ´on una oraci ´on sencilla (p.ej. “the red car”)

3 Compara su traducci ´on con la trad. palabra por palabra Para obtener la traducci ´on palabra por palabra, traduce las palabras de forma aislada introduciendo puntos y l´ıneas en blanco entre ellas

4 Complica en ejemplo (p.ej. a ˜nadiendo adjetivos) y vuelve al paso 3

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 83/106

(40)

Traducci ´on autom ´atica basada en reglas /16

Postedici ´on de la salida de un traductor basado en reglas

Las traducciones son m ´as predecibles que las producidas por sistemas basados en corpus

El sistema suele producir los mismos errores

Conocer errores t´ıpicos permite una postedici ´on m ´as r ´apida Suelen permitir personalizar diccionarios (terminolog´ıa)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 84/106

(41)

1 Traducci ´on autom ´atica

Aplicaciones de la traducci ´on autom ´atica Automatizaci ´on del proceso de traducci ´on

2 Evaluaci ´on de la traducci ´on autom ´atica

Evaluaci ´on humana de la traducci ´on autom ´atica Evaluaci ´on autom ´atica de la traducci ´on autom ´atica Deficiencias de las medidas de evaluaci ´on autom ´atica 3 Los problemas de la traducci ´on autom ´atica

4 Funcionamiento de la traducci ´on autom ´atica

5 T ´ecnicas de traducci ´on autom ´atica

Traducci ´on autom ´atica basada en reglas Traducci ´on autom ´atica basada en corpus

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 84/106

(42)

Traducci ´on autom ´atica basada en corpus /1

“Existing translations contain more solutions to more translation problems than any other existing resource” — Pierre Isabelle Objetivo

Aprender a traducir a partir de traducciones existentes (bitextos)

Para aprender a traducir a partir de bitextos:

1 Los textos deben estarsegmentadosen oraciones Los signos de puntuaci ´on y la informaci ´on de formato pueden ser ´utiles

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 85/106

(43)

“Existing translations contain more solutions to more translation problems than any other existing resource” — Pierre Isabelle Objetivo

Aprender a traducir a partir de traducciones existentes (bitextos)

Para aprender a traducir a partir de bitextos:

1 Los textos deben estarsegmentadosen oraciones Los signos de puntuaci ´on y la informaci ´on de formato pueden ser ´utiles

2 Las oraciones deben estaralineadas, es decir, deben identificarse las oraciones que son traducci ´on mutua

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 85/106

(44)

Traducci ´on autom ´atica basada en corpus /2

El alineamiento puede ser 1-1, 1-N o N-1

Imagen de Koehn (2010)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 86/106

(45)

¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?

gur ubhfo gur juvga ubhfo gur subjre

yn pifo yn pifo oynapi yn sybe

Necesitamos saber que palabras son traducci ´on de qu ´e palabras: alineamientos

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106

(46)

Traducci ´on autom ´atica estad´ıstica /1

¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?

gur ubhfo gur juvga ubhfo gur subjre

yn pifo yn pifo oynapi yn sybe

Inicializaci ´on: Todos los alineamientos son igualmente probables

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106

(47)

¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?

gur ubhfo gur juvga ubhfo gur subjre

yn pifo yn pifo oynapi yn sybe

Contamos “co-ocurrencias”

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106

(48)

Traducci ´on autom ´atica estad´ıstica /1

¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?

gur ubhfo gur juvga ubhfo gur subjre

yn pifo yn pifo oynapi yn sybe

El alineamiento m ´as probable: nos vamos quedando con las traducciones m ´as probables

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106

(49)

¿C ´omo aprender´ıais un diccionario biling ¨ue a partir de un bitexto como el siguiente?

gur ubhfo gur juvga ubhfo gur subjre

yn pifo yn pifo oynapi yn sybe

El alineamiento m ´as probable: la estructura de

alineamiento que estaba “oculta” queda al descubierto

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 87/106

(50)

Traducci ´on autom ´atica estad´ıstica /2

the house the white house the flower

la casa la casa blanca la flor

A partir de los alineamientos a nivel de palabras se obtiene un diccionario biling ¨ue probabil´ıstico

p(la|the) = 0, 453 p(el|the) = 0, 334 p(casa|house) = 0, 876 p(blanco|white) = 0, 763

...

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 88/106

(51)

Advertencia

Utilizar siempre el equivalente m ´as probable proporcionado por un diccionario probabil´ıstico es traducirpalabra por palabra

Traducciones poco inteligibles

el oso apareci ´o tarde−→ the I dare appeared afternoon the computer expert’s large desk is full−→ el ordenador experto grande escritorio es lleno

menos mal que s ´olo sesenta y cinco personas murieron

−→ less wrong that only sixty and five persons died

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 89/106

(52)

Traducci ´on autom ´atica estad´ıstica /4

¿C ´omo podr´ıamos mejorar la inteligibilidad?

Una pista. Resultados encontrados en la web para las traducciones de:

(1) the bank of the river, (2) el oso apareci ´o y (3) cinco personas murieron

(1) “el banco del r´ıo” 4.500 “la rivera del r´ıo” 372.000 (2) “the I dare appeared” 0 “the bear appeared” 245.000 (3) “five persons died” 69.300 “five people died” 1.090.000

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 90/106

(53)

¿C ´omo podr´ıamos mejorar la inteligibilidad?

Modelo de lenguaje

Permite medir la probabilidad (fluidez) de un segmento de texto en una lengua dada

Modelo estad´ıstico basado en n-gramas (normalmente trigramas)

Se entrena a partir de un texto de la lengua a modelar suficientemente grande

F ´acil de obtener: s ´olo hay que calcular la frecuencia de aparici ´on de los n-gramas

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 91/106

(54)

Traducci ´on autom ´atica estad´ıstica /6

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

The potential of machine translation is clear

p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(55)

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

Thepotential of machine translation is clear

p(The potential of machine translation is clear) = p(The)× p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(56)

Traducci ´on autom ´atica estad´ıstica /6

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

The potentialof machine translation is clear

p(The potential of machine translation is clear) = p(The) ×p(potential|The)× p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(57)

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

The potential ofmachine translation is clear

p(The potential of machine translation is clear) = p(The) × p(potential|The) ×p(of|The potential)× p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(58)

Traducci ´on autom ´atica estad´ıstica /6

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

Thepotential of machinetranslation is clear

p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of)× p(translation|of machine) × p(is|machine translation) × p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(59)

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

The potentialof machine translationis clear

p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) ×p(translation|of machine)× p(is|machine translation) × p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(60)

Traducci ´on autom ´atica estad´ıstica /6

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

The potential ofmachine translation isclear

p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation)× p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(61)

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

The potential of machinetranslation is clear

p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) ×p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(62)

Traducci ´on autom ´atica estad´ıstica /6

Modelo de lengua de 3-gramas:

p(house|the red) = count(the red house) count(the red ∗)

¿C ´omo se calcula la verosimilitud de una traducci ´on usando n-gramas? (p.ej. con 3-gramas)

p(The potential of machine translation is clear) = p(The) × p(potential|The) × p(of|The potential) × p(machine|potential of) × p(translation|of machine) × p(is|machine translation) × p(clear|translation is)

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 92/106

(63)

Traducci ´on autom ´atica estad´ıstica basada en palabras El modelo de traducci ´on y el modelo de lengua se combinan para mejorar la calidad de las traducciones

ptranslation model(source|target) × planguage model(target) El equivalente m ´as probable seg ´un el modelo de traducci ´on se elige s ´olo cuando la traducci ´on resultante sea fluida

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 93/106

(64)

Traducci ´on autom ´atica estad´ıstica /8

Ejemplo de TA estad´ıstica basada en palabras LO: the red car

Opciones de traducci ´on (las m ´as probables primero):

the→ la, el, las, los, . . .

red→ rojo, rojas, roja, rojos, . . . car→ coche, autom ´ovil, auto, . . . Hip ´otesis de traducci ´on:

MT ML Puntuaci ´on

la rojo coche 0.82 0.15 0.12

el rojas coche 0.75 0.09 0.08

el rojo coche 0.78 0.45 0.35

el coche roja 0.69 0.52 0.36

el coche rojo 0.78 0.81 0.63

el autom ´ovil rojo 0.66 0.85 0.56 . . .

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 94/106

(65)

Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 95/106

(66)

Traducci ´on autom ´atica estad´ıstica /9

Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:

La unidad de traducci ´on es la palabra y el contexto se tiene en cuenta s ´olo indirectamente por parte del modelo de lengua

Phrasal verbs: fall out, fall apart, fall back, go over, go out, . . .

Expresiones multipalabra: as a matter of fact, as soon as possible, all in all, (es) echar de menos, (es) direcci ´on general, . . .

Colocaciones: dream of, make a decision, fast food, quick meal, make money, . . .

. . .

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 95/106

(67)

Problemas de la traducci ´on autom ´atica estad´ıstica basada en palabras:

La unidad de traducci ´on es la palabra y el contexto se tiene en cuenta s ´olo indirectamente por parte del modelo de lengua

Phrasal verbs: fall out, fall apart, fall back, go over, go out, . . .

Expresiones multipalabra: as a matter of fact, as soon as possible, all in all, (es) echar de menos, (es) direcci ´on general, . . .

Colocaciones: dream of, make a decision, fast food, quick meal, make money, . . .

. . .

Los modelos basados en palabras ya no son el estado de la cuesti ´on pero se usan para calcular alineamientos a nivel de palabras

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 95/106

(68)

Traducci ´on autom ´atica estad´ıstica /10

Soluci ´on

Considerar segmentos de longitud variable como unidades de traducci ´on

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 96/106

(69)

Soluci ´on

Considerar segmentos de longitud variable como unidades de traducci ´on

Estos segmentos se pueden obtener de distintas maneras:

A partir de los alineamientos a nivel de palabra A partir de informaci ´on sint ´actica

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 96/106

(70)

Traducci ´on autom ´atica estad´ıstica /10

Soluci ´on

Considerar segmentos de longitud variable como unidades de traducci ´on

Estos segmentos se pueden obtener de distintas maneras:

A partir de los alineamientos a nivel de palabra A partir de informaci ´on sint ´actica

...

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 96/106

(71)

Traducci ´on autom ´atica estad´ıstica basada en segmentos La unidad de traducci ´on son segmentos de longitud variable sin ning ´un significado sint ´actico

Mart´ın se divierte con el juego nuevo

Martin has fun with the new game

Ventajas:

Puede traducir unidades multipalabra

Uso directo del contexto local (dentro de cada segmento) Cuanto m ´as grande es el bitexto, m ´as fiables es la traducci ´on de los segmentos largos

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 97/106

(72)

Traducci ´on autom ´atica estad´ıstica /12

Los sistemas basados en segmentos combinan diferentes modelos:

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106

(73)

Los sistemas basados en segmentos combinan diferentes modelos:

Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106

(74)

Traducci ´on autom ´atica estad´ıstica /12

Los sistemas basados en segmentos combinan diferentes modelos:

Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable

Modelo de lengualde la LM; como el usado por los sistemas basados en palabras

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106

(75)

Los sistemas basados en segmentos combinan diferentes modelos:

Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable

Modelo de lengualde la LM; como el usado por los sistemas basados en palabras

N ´umero de palabras en LM; para penalizar traducciones muy cortas

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106

(76)

Traducci ´on autom ´atica estad´ıstica /12

Los sistemas basados en segmentos combinan diferentes modelos:

Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable

Modelo de lengualde la LM; como el usado por los sistemas basados en palabras

N ´umero de palabras en LM; para penalizar traducciones muy cortas

N ´umero de segmentos biling ¨uesusados; para fomentar el uso de segmentos largos

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106

(77)

Los sistemas basados en segmentos combinan diferentes modelos:

Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable

Modelo de lengualde la LM; como el usado por los sistemas basados en palabras

N ´umero de palabras en LM; para penalizar traducciones muy cortas

N ´umero de segmentos biling ¨uesusados; para fomentar el uso de segmentos largos

Modelo de reordenamiento; para condicionar el posicionamiento de las palabras en LM

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106

(78)

Traducci ´on autom ´atica estad´ıstica /12

Los sistemas basados en segmentos combinan diferentes modelos:

Modelo de traducci ´on de segmentos: diccionario biling ¨ue probabil´ıstico de segmentos de longitud variable

Modelo de lengualde la LM; como el usado por los sistemas basados en palabras

N ´umero de palabras en LM; para penalizar traducciones muy cortas

N ´umero de segmentos biling ¨uesusados; para fomentar el uso de segmentos largos

Modelo de reordenamiento; para condicionar el posicionamiento de las palabras en LM

. . .

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 98/106

(79)

Postedici ´on de la salida de un traductor estad´ıstico

Comportamiento menos predecible que el de los sistemas basados en reglas

Traducciones parecidas a las que se encuentran en los corpus de entrenamiento (posibilidad de personalizaci ´on) El sistema puede producir traducciones muy fluida pero no fieles al original (p.ej. se pierde una part´ıcula negativa) Presta siempre atenci ´on a la oraci ´on en LO, incluso cuando la traducci ´on parezca perfecta

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 99/106

(80)

Traducci ´on autom ´atica neuronal /1

Red neuronal artificial

Gran cantidad deunidadesinterconectadas que se asemejan a las neuronas del cerebro

Cada neurona recibe varias entradas y produce una salida oactivaci ´on

Las neuronas se distribuyen en capas

La salida de una neurona se convierte en la entrada de muchas otras neuronas

La activaci ´on de una neurona depende de las entradas y de lafuerzade lasconexiones

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 100/106

(81)

Representaciones

Imaginad que con la activaci ´on de 3 neuronas representamos todo el vocabulario, una representaci ´on gr ´afica 3D podr´ıa ser:

Palabras sem ´anticamente relacionadas cercanas en elespacio M ´as ejemplos:

https://rakeshchada.github.io/Neural-Embedding-Animation.html

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 101/106

(82)

Traducci ´on autom ´atica neuronal /3

Arquitectura codificador–descodificador

Una de las primeras arquitecturas de TA neuronal moderna:

codificador–descodificador:

Elcodificadorlee, una a una, las representaciones de las palabras de la oraci ´on en LO y va construyendo una representaci ´on de la oraci ´on

Eldescodificadorpredice, una a una, las palabras de la oraci ´on en LM a partir de la representaci ´on de la oraci ´on en LO y las palabras que ya ha producido

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 102/106

(83)

Codificador

Codificaci ´on de la oraci ´on en LO “My flight is delayed .” a partir de las representaciones de las palabras:

Un buen recurso para leer m ´as:

http://jalammar.github.io/visualizing-neural

-machine-translation-mechanics-of-seq2seq-models-with-attention/

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 103/106

(84)

Traducci ´on autom ´atica neuronal /5

Descodificador

Decodificaci ´on de la traducci ´on: “Mi vuelo est ´a retrasado .”

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 104/106

(85)

Nueva tecnolog´ıa, nuevo comportamiento La traducci ´on autom ´atica neuronal:

Trabaja con representaciones de toda la oraci ´on es dif´ıcil saber de qu ´e palabra en LO proviene cada palabra de la LM

Producen textos gramaticalmente muy naturales en LM Comenten errores con motivaci ´on sem ´antica: si una palabra no ha sido vista durante el entrenamiento, se sustituye. . .

. . . por otra similar: palacio→ castillo

. . . o por una par ´afrasis: Michael Jordan→ el jugador de los Bulls

a veces, con resultados peligrosos: T ´unez→ Noruega

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 105/106

(86)

El Ingl ´es y el Espa ˜nol en la Ling ¨u´ıstica Computacional:

Traducci ´on Autom ´atica

Felipe S ´anchez Mart´ınez yMiquel Espl `a Gomis

Dep. de Llenguatges i Sistemes Inform `atics Universitat d’Alacant

Curso 2020/21

Felipe S ´anchez Mart´ınez & Miquel Espl `a Gomis (Univ. d’Alacant) 106/106

Referencias

Documento similar

[r]

[r]

El siguiente paso natural hacia la traducci´ on integral (es decir, la traducci´ on de un objeto multimedia.. como si hubiese sido producido originalmente en el idioma destino) es

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

El nuevo Decreto reforzaba el poder militar al asumir el Comandante General del Reino Tserclaes de Tilly todos los poderes –militar, político, económico y gubernativo–; ampliaba

De acuerdo con Harold Bloom en The Anxiety of Influence (1973), el Libro de buen amor reescribe (y modifica) el Pamphihis, pero el Pamphilus era también una reescritura y

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,