Evaluaci´ on del sistema IMT - Aprendizaje online en IMT

2. Aprendizaje online en IMT

3.3. Evaluaci´ on del sistema IMT

Para la estrategia descrita en la sección 2.2.2 y la aproximación que emplea el algoritmo DRR adaptado a IMT, el cual puede verse en la sección 2.2.1.2, se ha empleado Λ con un tamaño de 501 conjuntos de pesos, o lo que es lo mismo, de 501 grafos de palabras, incluyendo el grafo de palabras que emplea el conjunto de pesos dado por MERT.

La creación de la lista de “N -best” grafos de palabras para cada una de las oraciones a traducir del conjunto de prueba a partir de estas dos estrategias es, con diferencia, el proceso con mayor coste de los experimentos realizados. Esto es debido a que se deben generar las caracter´ısticas de cada una de las hipótesis además de simular al usuario tantas veces como talla de la lista de “N -best” grafos de palabras por el número de oraciones del conjunto de prueba, generando por tanto para este trabajo cerca de un millón y medio de traducciones (junto con su consecuente generación del grafo de palabras y cálculo del mejor camino) con su posterior cálculo de WSR.

Los valores de BLEU, TER y WSR de los experimentos reportados se corresponden con el valor dado para todo el conjunto de prueba. Además todos los experimentos se han realizado dentro del marco IMT, por lo que las oraciones de referencia fueron empleadas para adaptar los parámetros del sistema después de haber realizado la traducción de la oración de entrada y evaluado su calidad. Esto hace que la calidad de la traducción reportada para todo el conjunto de prueba se corresponda con la media de cada oración del conjunto de prueba, incluidas las primeras traducciones en las cuales el sistema IMT no estaba todav´ıa adaptado.

Para los experimentos preliminares que utilizan la estrategia descrita en la sec- ción 2.2.1.1 se han empleado en la mayor´ıa de experimentos 8 caracter´ısticas en el modelo log-lineal, aunque también se ha obtenido un resultado con 14 para verificar los resultados de la aproximación.

Por otra parte, los diferentes algoritmos de la sección 2.2 utilizan un cierto número de parámetros libres los cuales han sido obtenidos basándose en los experimentos previos de [Mart´ınez-Gómez et al., 2012]:

Algoritmo DRR definido para post-edici´on en la secci´on 2.2.1.1: α = 0,02 y β = 0,01.

Algoritmo DRR definido para IMT en la secci´on 2.2.1.2: α = 0,02 y β = 0,01, muestreo basado en una distribuci´on gaussiana con σ2= 0,01 y µ = λM ERT, en

donde λM ERT es el conjunto de pesos obtenido empleando la t´ecnica MERT en

el conjunto de desarrollo descrito arriba.

Algoritmo Primera aproximación en la sección 2.2.2: α = 0,02, muestreo basado en una distribución gaussiana con σ2 = 0,01 y µ = λM ERT, en donde λM ERT

es el conjunto de pesos obtenido empleando la t´ecnica MERT en el conjunto de desarrollo descrito arriba.

3.3. Evaluaci´on del sistema IMT

Hoy en d´ıa la evaluación automática de las traducciones es un problema muy dif´ıcil en traducción automática, provocando que la evaluación automática haya evolucionado a

un campo de investigación con identidad propia. Esto se debe al hecho de que dada una oración de entrada puede existir un gran número diferente de oraciones correctas como salida. Por lo tanto, no hay una oración que pueda ser considerada como exclusivamente correcta, como si ocurre en el caso de reconocimiento del habla o texto. Del mismo modo este problema es aplicable al marco IMT, en el cual se basa este trabajo fin de máster.

En este TFM, las métricas de calidad empleadas para evaluar el rendimiento de los distintos sistemas, o empleadas a lo largo de las diferentes estrategias de adaptación como métrica a optimizar por el algoritmo DRR definido para post-edición, son las siguientes:

WSR (Word Stroke Rate) [Toselli et al., 2011]: WSR se calcula como el co- ciente entre el número de número de palabras tecleadas o word-stroke, es decir, las palabras que el usuario necesitar´ıa introducir para obtener la traducción que tiene en mente y el número total de palabras en la oración. En este contexto, una palabra tecleada se interpreta como una sola acción, en la cual el usuario teclea una palabra completa que se asume de coste constante. Además cada palabra tecleada también incluye el coste incurrido por el usuario cuando lee el nuevo sufijo proporcionado por el sistema.

WER (Word Error Rate): WER calcula el m´ınimo número de ediciones (sustituciones, inserciones y borrados) necesarios para convertir las oraciones dadas como traducción en la oración de referencia. Suele ser una medida pesimista al aplicarla a traducción automática.

BLEU (BiLingual Evaluation Understudy) [K. Papineni and Zhu, 2002]: Esta puntuación mide la precisión de unigramas, bigramas, trigramas y 4-gramas con respecto al conjunto de traducciones de referencia, aplicando una penaliza- ción a las oraciones demasiado cortas, denominada brevity-penalty. BLEU no es una tasa de error, por lo que es mejor cuanto mayor es el valor. BLEU puede ser multi-referencia o mono-referencia, pero debido a las restricciones del corpus hemos empleado BLEU mono-referencia.

TER (Translation Edit Rate) [Snover et al., 2006]: TER es una métrica de error empleada en traducción automática que mide el número de ediciones ne- cesarias para modificar la salida del sistema de modo que se convierta en la referencia. Se calcula como el m´ınimo número de ediciones requeridas para modificar las hipótesis del sistema de forma que estas coincidan con la traducción de referencia, normalizado por el número de palabras de la referencia. En este caso, las posibles ediciones incluyen inserciones, borrados, sustituciones por una sola palabra o reordenamiento de secuencias de palabras. En el art´ıculo original, los autores afirman que el TER mono-referencia se correlaciona tan bien con el juicio humano sobre la calidad de la traducción automática como la variante 4- referencia del BLEU. Al igual que el BLEU, el TER puede ser multi-referencia, aunque hemos empleado en este trabajo TER mono-referencia.

In document Aprendizaje online de los pesos del modelo log-lineal en traducción automática interactiva (página 45-47)