Experimentos base - Corpus y Resultados 43

5. Corpus y Resultados 43

5.3. Experimentos base

Como un primer paso para mostrar el comportamiento del corpus se utiliza un pesado booleano y una matriz de ocurrencia (bolsa de palabras binaria). Al vocabulario se agregaron todas las palabras contenidas en el corpus de entrenamiento, aún cuando estas aparecieran sólo una vez en toda la colección. Esto sirve como una base espec´ıfi- ca del corpus, dado que aunque se presentan comparaciones de esta tesis con otros trabajos, estos utilizan otros corpus. En este primer grupo de experimentos utilizamos diferentes clasificadores, pero utilizando en todos los casos el mismo pesado booleano descrito en el párrafo anterior.

La tabla 5.2 muestra la precisión de los clasificadores usados³. Como puede observarse los clasificadores probabil´ısticos y los métodos de boosting obtienen las preci- siones más altas. As´ı mismo puede observarse que un enfoque de clasificación basado en árboles de decisión generados con el algoritmo ID3 es insuficiente para realizar la clasificación, situación esperada debido a que el vocabulario de las clases se encuentra traslapado en varios casos.

2También se realizaron experimentos utilizando el esquema de evaluación 10 cross-validation. Los resultados alcanzados se reportan en el apéndice B.

3Los clasificadores utilizados en las pruebas son los ofrecidos por WEKA y Matlab

Figura 5.1: Distribución de las clases en el corpus. Esta figura muestra el desbalance existente en las clases del corpus. La clase mayoritaria “Payment” es la más grande con casi un 25 % del total de los ejemplos en el corpus. Es importante recalcar que la tercera clase más grande es la clase unknown, la cual contiene ejemplos de peticiones imposibles de clasificar por etiquetadores humanos, lo que ilustra el porqué es necesario rechazar instancias correctamente.

Durante la explicación del método propuesto en esta tesis se mencionó que en la primera etapa de clasificación, debido a las caracter´ısticas del pesado, un clasificador probabil´ıstico ser´ıa el que mejor desempeño diera.

M´etodo Precisi´on promedio Rechazo

NaiveBayes 78.10 % 8.00 %

VFI 63.51 % 0.16 %

LogitBoost 78.71 % 8.20 %

AdaBoost(NaiveBayes seed) 78.87 % 8.10 %

AdaBoost(ID3 seed) ⁴no puede realizar clasificaci´on -

SVM 72.71 % 8.30 %

Tabla 5.2: Experimentos base utilizando todo el vocabulario presente en el corpus.

Para estos experimentos se utilizó un pesado booleano de los atributos y una matriz documentos×vocabulario para todos los casos. Todos los métodos recibieron como entrada el mismo corpus de entrenamiento y el mismo corpus de prueba. Los clasificadores elegidos son los más representativos de los enfoques revisados en el cap´ıtulo del estado del arte.

Para demostrar los efectos que la selección de atributos tiene en este problema, realizamos experimentos con el clasificador simple de Bayes (NaiveBayes), utilizando el mismo pesado que en los experimentos de 5.2 pero esta vez, eliminamos palabras del vocabulario. En la clasificación de textos suelen eliminarse palabras vac´ıas, o que ten- gan una frecuencia menor a un umbral. En este problema en particular, los textos son cortos, en general frases pequeñas de un renglón. Esto genera que eliminar palabras por la repetición en un documento no sea una buena opción, debido a que la mayor´ıa de los ejemplos no contienen palabras repetidas. Por esta razón, eliminamos palabras según un umbral de frecuencia, pero calculando las frecuencias sobre todo el corpus.

La tabla 5.3 muestra el desempe˜no del clasificador baseyiano simple (NaiveBayes) con diferentes umbrales de frecuencia. Como puede observarse el comportamiento del cla-

4El método ID3 calcula la entrop´ıa de cada término y utiliza la diferencia entre ellas para construir un árbol de decisión, dado que los términos se encuentran repartidos en varias clases la diferencia entre sus entrop´ıas no es suficiente para poder realizar una clasificación.

sificador empeoró inmediatamente cuando se eliminaron algunas palabras. Aunque al incrementar el umbral la precisión comenzó a mejorar, nunca alcanzó la precisión promedio al no eliminar atributos. Como mencionamos en el cap´ıtulo anterior, la selección de atributos es importante, y definir los criterios de selección depende del problema.

M´etodo Precisi´on promedio Umbral de Frecuencia

NaiveBayes 78.10 % 0

NaiveBayes 68.30 % 1

NaiveBayes 47.53 % 2

NaiveBayes 59.40 % 3

NaiveBayes 61.89 % 4

NaiveBayes 58.91 % 12

Tabla 5.3: En este experimento se eliminaron palabras con base a la frecuencia en la que aparec´ıan en el corpus. Esta tabla muestra que la selecci´on de atributos es importante.

Incluso eliminar palabras ´unicas afecto la precisi´on del clasificador.

En los experimentos realizados hasta este punto se utilizó un pesado booleano, el cual no es suficiente. Para demostrar el efecto del pesado, utilizamos ahora el mismo clasificador simple de Bayes (NaiveBayes) con los pesos calculados por la función de ganancia de información (InfoGain) alcanzando los resultados reportados en la tabla 5.4. La columnaumbrales el valor m´ınimo de ganancia de información para conside- rar un atributo.

En un primer experimento utilizamos un umbral de 0, dado que la ganancia de in- formación es una medida asociada a la entrop´ıa y sus valores pueden ser negativos, pues un atributo puede no dar información alguna a la distinción entre clases. Como puede observarse el resultado es malo, por lo cual realizamos un segundo experimen- to. En esta ocasión fijamos el umbral a -1. Aunque el resultado fue ligeramente mejor, sigue resultando mucho menos eficiente que un simple pesado booleano. Este resultado no es extraño pues las clases y en espec´ıfico las instancias por separado tienen un vocabulario muy similar, por lo cual analizadas de esa forma no ayuda a caracterizarlas.

Pesado Precisi´on promedio Umbral Rechazo No. de Atributos

InfoGain 09.20 % 0 8.2 % 213

InfoGain 11.45 % -1 9.1 % 450

Tabla 5.4: Eliminando palabras con base a InfoGain (Ganancia de informaci´on) y utilizando su valor como peso. El umbral es el valor m´ınimo de entrop´ıa que un atributo deb´ıa tener para ser seleccionado. Como puede verse debido a las caracter´ısticas del corpus los valores de entrop´ıa son bajos pues incluso utilizando un umbral de -1, obtu- vimos muy pocos atributos y la precisi´on se vio afectada.

Debido a los resultados mostrado en la tabla 5.4 se pensó en pesar cada palabra de acuerdo a como ésta se relaciona con el resto de los documentos del corpus. De ah´ı que se tomará el pesado tfidf. El cálculo del tfidf se realizó por clase para obtener un punto de referencia más adecuado a la forma de ver las instancias que ésta tesis propone. Los resultados, como muestra la tabla 5.5, sea mejores que los de la ganancia de información, aunque no son mejores que los obtenidos con un pesado booleano.

Pesado Precisi´on promedio Rechazo No. Atributos

tfidf por clase 76.0 % 19.0 % 2451

Tabla 5.5: En este experimento se calculó el tfidf por clase (ver fórmula 4.4 en la pági- na 36) para obtener el peso de los atributos.

In document M´etodo de clasificaci´on multi-etapa para el (página 65-69)