Resumen - M´etodo de clasificaci´on multi-etapa 33

4. M´etodo de clasificaci´on multi-etapa 33

4.6. Resumen

El m´etodo propuesto en esta tesis consta de dos partes principales.

Un esquema de pesado el cual provee un valor útil para la extracción de caracter´ısticas, además de ser discriminativo y ayudar a diferenciar entre clases.

Un método de clasificación multi-etapa, el cual busca reducir el número de instancias que son rechazadas durante la clasificación.

En el siguiente cap´ıtulo se detallan las pruebas destinadas a caracterizar los datos.

También se muestran los experimentos enfocados a proveer una base para la evalua- ción del esquema de pesado y el método de clasificación multi-etapa presentados en este cap´ıtulo.

Los experimentos descritos nos permiten evaluar el desempeño de nuestro trabajo as´ı como compararlo con otros trabajos los existentes en el área. Estos experimentos demuestran el impacto del pesado en la precisión y el efecto de la clasificación multi- etapa para la reducción del rechazo.

Cap´ıtulo 5

Corpus y Resultados

En este cap´ıtulo se presentan los resultados obtenidos en esta tesis y su comparación con los métodos existentes actualmente. Para poder presentar los resultados, primero se dará una descripción del corpus que se utilizó para realizar las pruebas. Posteriormen- te se detallan las métricas de evaluación utilizadas en esta tesis. Al haber sentado el entorno de trabajo se explican los experimentos base (o de referencia). Finalmente se presentan los resultados alcanzados demostrando el desempeño del método presentado en este trabajo.

5.1. Descripci´on del corpus

Para esta tesis usamos un corpus de 24,638 transcripciones automáticas en es- pañol (recolectado por Nuance¹ utilizando la técnica del Mago de Oz). El cual nos brindó ejemplos tales como los mostrados en la tabla 5.1 en la página siguiente. Todas las instancias fueron manualmente etiquetadas y distribuidas en 24 clases de acuerdo al criterio de Nuance. Estos datos fueron obtenidos para el centro de llamadas de una compañ´ıa que provee servicios de televisión, internet y telefon´ıa.

1Nuance es un fabricante de soluciones para procesamiento de im´agenes y voz.

http://spain.nuance.com/company/

Clase asignada en el corpus Ejemplo de instancia perteneciente a la clase

Payment Necesito hacer un pago

Operator servicio al cliente

NewService con departamento de ventas por favor

NewPhone Cuanto cuesta un nuevo tel´efono

Balance preguntas acerca de pago

TechHelp No se por que falla

NewInternet Quisiera contratar internet

NewCable quiero saber cuanto cuesta el costo del cable

Cancel quiero cortar la la linea

ChangeService quiero saber sobre las promociones

TechInternet ya estoy harto de tratar de que reparen mi internet

Internet es relacionado con el internet

TechCable bajar el cable

Billing necesito aclarar un pago

Phone servicio al cliente telefonos

ChangePhone quiero contratar larga distancia

Cable alta definicion cable de alta definicion

Move necesito cambiar mi direccion para pago

PaymentArrangement un arreglo de pago

ChangeCable yo quiero servicio de alta definicion

TechPhone necesito mejorar mi servicio de telefono

PPV pago por evento

Appointment estoy esperando un tecnico

unknown El motivo de su llamada

Tabla 5.1: Esta tabla muestra ejemplos de las instancias en las clases del corpus. Es f´acil observa que palabras representativas como pago, se encuentra en varias clases por lo que un enfoque de keyword spotting no resulta eficiente.

Las primeras 23 clases son posibles destinos para una petición del usuario. La clase restante denominada “unknown” corresponde a los ejemplos que fueron imposibles de clasificar por el humano. La imposibilidad de clasificar los datos se debió a que la peti- ción fue ambigua, incompleta o un error en el reconocedor de voz. Todos los ejemplos que pertenecen a esta clase deben ser rechazados por el sistema. Por esta razón en las evaluaciones se tomarán en cuenta la precisión promedio, el rechazo, el rechazo correc- to y el rechazo erróneo.

5.2. M´etricas de evaluaci´on

5.2.1. Precisi´on promedio

Para calcular la precisión promedio es necesario calcular la precisión para cada clase tal como se muestra en la fórmula 5.1:

P_c_i = |T D_c_i|

|T D_c_i|+|F D_c_i| (5.1)

dondeP_c_i es la precisión de la clasec_i,|T D_c_i|es el total de documentos de la clase c_i que se clasificaron correctamente y |F D_c_i| es el número de documentos que se clasificaron erróneamente como de la clasec_i. La precisión promedio del clasificador es el promedio de las precisiones de cada una de las clases.

En nuestro caso la precisi´on promedio es calculada a partir de las precisiones de las 23 clases posibles para una petici´on del usuario (excluyendo la clase unknown).

5.2.2. Rechazo

El rechazo es el porcentaje de documentos clasificados como unknown, y es calculado de la siguiente manera:

Rechazo= |T D_c_u|+|F D_c_u| X

|c_i| (5.2)

donde |T D_c_u| es el total de documentos clasificados correctamente como unknown y

|F D_c_u| es el total de documentos err´oneamente clasificados como unknown, entre el total de documentos del corpusX

|c_i|.

Rechazo correcto

El rechazo correcto es el porcentaje de documentos correctamente asociados a la clase unknown. Para calcularlo se utiliz´o la f´ormula 5.3

Rechazo correcto= |T D_c_u|

|c_u| (5.3)

donde |T D_c_u| es el total de documentos clasificados correctamente como unknown y

|c_u|es el total de documentos de la clase unknown.

Rechazo incorrecto

El rechazo incorrecto es el porcentaje de documentos erróneamente clasificados como unknown. El cálculo de este porcentaje se hizo mediante la fórmula 5.4 :

Rechazo incorrecto= |F D_c_u| X

|c_i| (5.4)

En esta f´ormula|F D_c_u|es el total de documentos clasificados como unknown sin real- mente serlos entre el total de documentos del corpusX

|c_i|.

5.2.3. Divisi´on del corpus

Para la evaluación del método se utilizó un esquema 80-20, es decir, para la fase de pruebas del método y esquema de pesado, el 20 % de los ejemplos de cada clase en el corpus fueron seleccionados de manera aleatoria (un total de 4,944 instancias). El 80 % restante fue usado para el entrenamiento de los distintos clasificadores (un total de 19,694 instancias). La distribución de instancias por clase se presenta en la figura 5.1. Como puede observarse, se trata de un corpus no balanceado y la forma en que se dividió el corpus mantuvo el desbalanceo para as´ı presentar un esquema de pruebas lo

m´as cercano a la realidad².

El esquema de evaluación fue escogido con la intención de aproximarnos a una situación real, donde es posible encontrar en las instancias a clasificar palabras desco- nocidas por el clasificador. De esta manera en particular nuestros experimentos sobre el corpus de prueba y entrenamiento representan este caso. Esta representación se logra debido a que los vocabularios del corpus de entrenamiento y prueba difieren entre s´ı.

El corpus de prueba cuenta con 334 t´erminos ausentes del corpus de entrenamiento, es decir un 13.50 %.

5.3. Experimentos base

Como un primer paso para mostrar el comportamiento del corpus se utiliza un pesado booleano y una matriz de ocurrencia (bolsa de palabras binaria). Al vocabulario se agregaron todas las palabras contenidas en el corpus de entrenamiento, aún cuando estas aparecieran sólo una vez en toda la colección. Esto sirve como una base espec´ıfi- ca del corpus, dado que aunque se presentan comparaciones de esta tesis con otros trabajos, estos utilizan otros corpus. En este primer grupo de experimentos utilizamos diferentes clasificadores, pero utilizando en todos los casos el mismo pesado booleano descrito en el párrafo anterior.

La tabla 5.2 muestra la precisión de los clasificadores usados³. Como puede observarse los clasificadores probabil´ısticos y los métodos de boosting obtienen las precisiones más altas. As´ı mismo puede observarse que un enfoque de clasificación basado en árboles de decisión generados con el algoritmo ID3 es insuficiente para realizar la clasificación, situación esperada debido a que el vocabulario de las clases se encuentra traslapado en varios casos.

2También se realizaron experimentos utilizando el esquema de evaluación 10 cross-validation. Los resultados alcanzados se reportan en el apéndice B.

3Los clasificadores utilizados en las pruebas son los ofrecidos por WEKA y Matlab

Figura 5.1: Distribución de las clases en el corpus. Esta figura muestra el desbalance existente en las clases del corpus. La clase mayoritaria “Payment” es la más grande con casi un 25 % del total de los ejemplos en el corpus. Es importante recalcar que la tercera clase más grande es la clase unknown, la cual contiene ejemplos de peticiones imposibles de clasificar por etiquetadores humanos, lo que ilustra el porqué es necesario rechazar instancias correctamente.

Durante la explicación del método propuesto en esta tesis se mencionó que en la primera etapa de clasificación, debido a las caracter´ısticas del pesado, un clasificador probabil´ıstico ser´ıa el que mejor desempeño diera.

M´etodo Precisi´on promedio Rechazo

NaiveBayes 78.10 % 8.00 %

VFI 63.51 % 0.16 %

LogitBoost 78.71 % 8.20 %

AdaBoost(NaiveBayes seed) 78.87 % 8.10 %

AdaBoost(ID3 seed) ⁴no puede realizar clasificaci´on -

SVM 72.71 % 8.30 %

Tabla 5.2: Experimentos base utilizando todo el vocabulario presente en el corpus.

Para estos experimentos se utilizó un pesado booleano de los atributos y una matriz documentos×vocabulario para todos los casos. Todos los métodos recibieron como entrada el mismo corpus de entrenamiento y el mismo corpus de prueba. Los clasificadores elegidos son los más representativos de los enfoques revisados en el cap´ıtulo del estado del arte.

Para demostrar los efectos que la selección de atributos tiene en este problema, realizamos experimentos con el clasificador simple de Bayes (NaiveBayes), utilizando el mismo pesado que en los experimentos de 5.2 pero esta vez, eliminamos palabras del vocabulario. En la clasificación de textos suelen eliminarse palabras vac´ıas, o que ten- gan una frecuencia menor a un umbral. En este problema en particular, los textos son cortos, en general frases pequeñas de un renglón. Esto genera que eliminar palabras por la repetición en un documento no sea una buena opción, debido a que la mayor´ıa de los ejemplos no contienen palabras repetidas. Por esta razón, eliminamos palabras según un umbral de frecuencia, pero calculando las frecuencias sobre todo el corpus.

La tabla 5.3 muestra el desempe˜no del clasificador baseyiano simple (NaiveBayes) con diferentes umbrales de frecuencia. Como puede observarse el comportamiento del cla-

4El método ID3 calcula la entrop´ıa de cada término y utiliza la diferencia entre ellas para construir un árbol de decisión, dado que los términos se encuentran repartidos en varias clases la diferencia entre sus entrop´ıas no es suficiente para poder realizar una clasificación.

sificador empeoró inmediatamente cuando se eliminaron algunas palabras. Aunque al incrementar el umbral la precisión comenzó a mejorar, nunca alcanzó la precisión promedio al no eliminar atributos. Como mencionamos en el cap´ıtulo anterior, la selección de atributos es importante, y definir los criterios de selección depende del problema.

M´etodo Precisi´on promedio Umbral de Frecuencia

NaiveBayes 78.10 % 0

NaiveBayes 68.30 % 1

NaiveBayes 47.53 % 2

NaiveBayes 59.40 % 3

NaiveBayes 61.89 % 4

NaiveBayes 58.91 % 12

Tabla 5.3: En este experimento se eliminaron palabras con base a la frecuencia en la que aparec´ıan en el corpus. Esta tabla muestra que la selecci´on de atributos es importante.

Incluso eliminar palabras ´unicas afecto la precisi´on del clasificador.

En los experimentos realizados hasta este punto se utilizó un pesado booleano, el cual no es suficiente. Para demostrar el efecto del pesado, utilizamos ahora el mismo clasificador simple de Bayes (NaiveBayes) con los pesos calculados por la función de ganancia de información (InfoGain) alcanzando los resultados reportados en la tabla 5.4. La columnaumbrales el valor m´ınimo de ganancia de información para conside- rar un atributo.

En un primer experimento utilizamos un umbral de 0, dado que la ganancia de in- formación es una medida asociada a la entrop´ıa y sus valores pueden ser negativos, pues un atributo puede no dar información alguna a la distinción entre clases. Como puede observarse el resultado es malo, por lo cual realizamos un segundo experimen- to. En esta ocasión fijamos el umbral a -1. Aunque el resultado fue ligeramente mejor, sigue resultando mucho menos eficiente que un simple pesado booleano. Este resultado no es extraño pues las clases y en espec´ıfico las instancias por separado tienen un vocabulario muy similar, por lo cual analizadas de esa forma no ayuda a caracterizarlas.

Pesado Precisi´on promedio Umbral Rechazo No. de Atributos

InfoGain 09.20 % 0 8.2 % 213

InfoGain 11.45 % -1 9.1 % 450

Tabla 5.4: Eliminando palabras con base a InfoGain (Ganancia de informaci´on) y utilizando su valor como peso. El umbral es el valor m´ınimo de entrop´ıa que un atributo deb´ıa tener para ser seleccionado. Como puede verse debido a las caracter´ısticas del corpus los valores de entrop´ıa son bajos pues incluso utilizando un umbral de -1, obtu- vimos muy pocos atributos y la precisi´on se vio afectada.

Debido a los resultados mostrado en la tabla 5.4 se pensó en pesar cada palabra de acuerdo a como ésta se relaciona con el resto de los documentos del corpus. De ah´ı que se tomará el pesado tfidf. El cálculo del tfidf se realizó por clase para obtener un punto de referencia más adecuado a la forma de ver las instancias que ésta tesis propone. Los resultados, como muestra la tabla 5.5, sea mejores que los de la ganancia de información, aunque no son mejores que los obtenidos con un pesado booleano.

Pesado Precisi´on promedio Rechazo No. Atributos

tfidf por clase 76.0 % 19.0 % 2451

Tabla 5.5: En este experimento se calculó el tfidf por clase (ver fórmula 4.4 en la pági- na 36) para obtener el peso de los atributos.

5.4. Experimentos con el pesado propuesto

En la sección anterior mostramos el desempeño de los métodos tradicionales de clasificación de textos. A continuación mostraremos el desempeño del método de cla- sificación propuesto en esta tesis.

Para los experimentos se utilizaron los mismos corpus de prueba y entrenamiento que los utilizados para las pruebas previas.

5.4.1. Utilizando un paso

El primer experimento tiene por objetivo demostrar el efecto del pesado propuesto.

Para ello, se presentan los resultados al usar un clasificador simple de Bayes (Naive- Bayes) sin aplicar el esquema multi-etapa propuesto. Como explicamos en el cap´ıtulo anterior, el pesado representa la relevancia de una palabra para una clase dada. La tabla 5.6 muestra el comportamiento del clasificador al ir incrementando el umbral para eliminar atributos poco relevantes. Se observa que el aumento del umbral mejora la precisi´on del clasificador con un aumento en el rechazo. Los resultados obtenidos en estos experimentos demuestran la utilidad de una segunda etapa, la cual este orientada a disminuir el rechazo y buscar un compromiso con la precisi´on de la primera etapa.

Tomando en cuenta el comportamiento del clasificador, y al observar las matrices de confusi´on, decidimos utilizar un umbralμde 0.3 para el primer paso del m´etodo.

Umbralμ Atributos Vocabulario Promedio por Clase

Precisi´on promedio Rechazo

0 2474 316.46 64.9 % 1.0 %

0.1 2473 191.08 71.6 % 0.9 %

0.2 2431 144.04 87.5 % 24.2 %

0.3 2290 121.79 97.4 % 31.5 %

0.4 2074 99.66 99.5 % 40.7 %

0.5 1712 74.08 99.9 % 50.9 %

Tabla 5.6: Comportamiento del clasificador bayesiano simple utilizando el peso propuesto. En cada paso se seleccionan aquellos atributos cuyo peso normalizado sea su- perior al umbralμ.

5.4.2. Utilizando dos pasos

Para el segundo paso de clasificaci´on el cual consiste en extraer las instancias de la clase unknown y tratar de recuperar instancias rechazadas en el primer paso, utilizamos dos clasificadores m´as. Ambos clasificadores utilizan el mismo pesado que el primer

clasificador y un clasificador Bayesiano simple. Las diferencias radican en que el segundo clasificador es un clasificador binario con el peso calculado s ´olo para 2 clases:

unknown y el resto (las otras 23 clases). En la tabla 5.7 observamos los resultados de los 2 pasos, en la cual se aprecia que si bien la precisión disminuyó en un 1.9 % con respecto a utilizar un único paso, el rechazo disminuyó un 23.3 %. Esto es una mejora considerable respecto al desempeño global en la clasificación.

Correctamente Clasificadas

Primer Paso Segundo Paso Precisi´on promedio Rechazo

3396 938 95.5 % 8.2 %

Tabla 5.7: Comportamiento del m´etodo multi-etapa propuesto.

La tabla 5.7 muestra el número de instancias clasificadas correctamente en cada paso. Dicha tabla muestra la utilidad del uso de un esquema multi-etapa. Se puede ver que el primer paso clasificó 3396 ejemplos correctamente y el segundo paso 938, incrementando el total de ejemplos clasificados correctamente. Esta tabla muestra además una reducción relativa del rechazo del 384.14 % con respecto del uso de un sólo paso como se muestra en la tabla 5.6 en la página anterior.

Por último, realizamos un experimento para demostrar la pertinenecia del método al compararlo con otros métodos de clasificación usados en otros trabajos. Espec´ıfica- mente nos comparamos contra el método Adaboost usando nuestro pesado as´ı como tfidf. Los resultados se muestran en la tabla 5.8

Esquema de Clasificaci´on Precisi´on promedio

Rechazo Rechazo Correcto

Rechazo incorrecto

M´etodo propuesto 95.5 % 8.2 % 100 % 2.1 %

Adaboost(Pesado propuesto) 98.9 % 29.7 % 100 % 23.6 %

Adaboost(tfidf ) 78.2 % 6.8 % 60 % 4.08 %

Tabla 5.8: M´etodo propuesto comparado con el algoritmo de Adaboost usando el pesado propuesto en vez del pesado tfidf.

5.5. An´alisis de los resultados

Como puede observarse en la tabla 5.8, se presenta una tabla comparativa entre el método multi-etapa propuesto y el método de Adaboost. Seleccionamos Adaboost por ser un método que utiliza un clasificador base y de ah´ı intenta construir uno más po- tente, haciendo as´ı un clasificador final que utiliza varios clasificadores. Esto es una de las caracter´ısticas del boosting y el levering, caracter´ıstica que el método propuesto también explora al utilizar 3 clasificadores para construir una clasificación final. Co- mo puede observarse las mejoras en el desempeño, mostradas por el método sobre los enfoques estándar de boosting, son claras al obtener un mejor compromiso entre la pre- cisión y el rechazo. As´ı mismo la tabla 5.8 en la página anterior muestra el desempeño de Adaboost usando tfidf, de esta manera también se ilustra la importancia del peso propuesto en esta tesis.

Con base en lo mostrado en la tabla 5.5 en la página 51 y la tabla 5.6 en la página 52, podemos afirmar que el método de pesado es una aportación clave de este trabajo. Esto en combinación con el uso del esquema multi-etapa propuesto se tiene un método de clasificación con una importante reducción en la tasa de rechazo, como puede verse en las tablas 5.6 en la página 52 y 5.7 en la página anterior.

Cap´ıtulo 6

Conclusiones y Trabajo Futuro

6.1. Recapitulaci´on

En este trabajo de tesis se abordo el problema del direccionamiento de llamadas (call routing), el cual consiste en tomar la transcripción de una petición telefónica y clasificarla. En esta tesis se desarrolló un método basado en clasificación de textos para abordar este problema. El principal objetivo del método fue encontrar un balance apro- piado entre la precisión de clasificación y la tasa de rechazo. El método desarrollado utiliza un esquema de clasificación multi-etapa el cual es capaz de lograr un balance adecuado. Con este esquema se alcanzó un 95.5 % de precisión promedio, as´ı como un 100 % de rechazo correcto y sólo un 2.1 % de rechazo incorrecto. Una mejora importante al compararnos con otros métodos (como se puede observar en la tabla 5.8 en la página 53). Aunado a este esquema de clasificación se propuso un método de pesado de los atributos, con el cual no sólo se cuantifica el valor discriminativo de cada atributo, sino también sirve para reducir la dimensionalidad del problema de aprenidzaje.

6.2. Conclusiones

Las conclusiones de nuestro trabajo pueden resumirse en las siguientes:

In document M´etodo de clasificaci´on multi-etapa para el (página 60-63)