Utilizando dos pasos - Experimentos con el pesado propuesto

5. Corpus y Resultados 43

5.4. Experimentos con el pesado propuesto

5.4.2. Utilizando dos pasos

Para el segundo paso de clasificaci´on el cual consiste en extraer las instancias de la clase unknown y tratar de recuperar instancias rechazadas en el primer paso, utilizamos dos clasificadores m´as. Ambos clasificadores utilizan el mismo pesado que el primer

clasificador y un clasificador Bayesiano simple. Las diferencias radican en que el segundo clasificador es un clasificador binario con el peso calculado s ´olo para 2 clases:

unknown y el resto (las otras 23 clases). En la tabla 5.7 observamos los resultados de los 2 pasos, en la cual se aprecia que si bien la precisión disminuyó en un 1.9 % con respecto a utilizar un único paso, el rechazo disminuyó un 23.3 %. Esto es una mejora considerable respecto al desempeño global en la clasificación.

Correctamente Clasificadas

Primer Paso Segundo Paso Precisi´on promedio Rechazo

3396 938 95.5 % 8.2 %

Tabla 5.7: Comportamiento del m´etodo multi-etapa propuesto.

La tabla 5.7 muestra el número de instancias clasificadas correctamente en cada paso. Dicha tabla muestra la utilidad del uso de un esquema multi-etapa. Se puede ver que el primer paso clasificó 3396 ejemplos correctamente y el segundo paso 938, incre- mentando el total de ejemplos clasificados correctamente. Esta tabla muestra además una reducción relativa del rechazo del 384.14 % con respecto del uso de un sólo paso como se muestra en la tabla 5.6 en la página anterior.

Por último, realizamos un experimento para demostrar la pertinenecia del método al compararlo con otros métodos de clasificación usados en otros trabajos. Espec´ıfica- mente nos comparamos contra el método Adaboost usando nuestro pesado as´ı como tfidf. Los resultados se muestran en la tabla 5.8

Esquema de Clasificaci´on Precisi´on promedio

Rechazo Rechazo Correcto

Rechazo incorrecto

M´etodo propuesto 95.5 % 8.2 % 100 % 2.1 %

Adaboost(Pesado propuesto) 98.9 % 29.7 % 100 % 23.6 %

Adaboost(tfidf ) 78.2 % 6.8 % 60 % 4.08 %

Tabla 5.8: M´etodo propuesto comparado con el algoritmo de Adaboost usando el pesado propuesto en vez del pesado tfidf.

5.5. An´alisis de los resultados

Como puede observarse en la tabla 5.8, se presenta una tabla comparativa entre el método multi-etapa propuesto y el método de Adaboost. Seleccionamos Adaboost por ser un método que utiliza un clasificador base y de ah´ı intenta construir uno más po- tente, haciendo as´ı un clasificador final que utiliza varios clasificadores. Esto es una de las caracter´ısticas del boosting y el levering, caracter´ıstica que el método propuesto también explora al utilizar 3 clasificadores para construir una clasificación final. Co- mo puede observarse las mejoras en el desempeño, mostradas por el método sobre los enfoques estándar de boosting, son claras al obtener un mejor compromiso entre la pre- cisión y el rechazo. As´ı mismo la tabla 5.8 en la página anterior muestra el desempeño de Adaboost usando tfidf, de esta manera también se ilustra la importancia del peso propuesto en esta tesis.

Con base en lo mostrado en la tabla 5.5 en la página 51 y la tabla 5.6 en la página 52, podemos afirmar que el método de pesado es una aportación clave de este trabajo. Esto en combinación con el uso del esquema multi-etapa propuesto se tiene un método de clasificación con una importante reducción en la tasa de rechazo, como puede verse en las tablas 5.6 en la página 52 y 5.7 en la página anterior.

Cap´ıtulo 6

Conclusiones y Trabajo Futuro

6.1. Recapitulaci´on

En este trabajo de tesis se abordo el problema del direccionamiento de llamadas (call routing), el cual consiste en tomar la transcripción de una petición telefónica y clasificarla. En esta tesis se desarrolló un método basado en clasificación de textos para abordar este problema. El principal objetivo del método fue encontrar un balance apro- piado entre la precisión de clasificación y la tasa de rechazo. El método desarrollado utiliza un esquema de clasificación multi-etapa el cual es capaz de lograr un balance adecuado. Con este esquema se alcanzó un 95.5 % de precisión promedio, as´ı como un 100 % de rechazo correcto y sólo un 2.1 % de rechazo incorrecto. Una mejora importante al compararnos con otros métodos (como se puede observar en la tabla 5.8 en la página 53). Aunado a este esquema de clasificación se propuso un método de pesado de los atributos, con el cual no sólo se cuantifica el valor discriminativo de cada atributo, sino también sirve para reducir la dimensionalidad del problema de aprenidzaje.

6.2. Conclusiones

Las conclusiones de nuestro trabajo pueden resumirse en las siguientes:

Se logr´o definir un esquema de pesado de atributos propio para este problema, el cual ayudo a enfrentar el desbalanceo de clases as´ı como la peque˜na longitud de las instancias a clasificar.

El esquema de pesado propuesto también permitió la selección de los atributos más relevantes para la clasificación, es decir, permitió la reducción de la dimensionalidad de nuestro problema de aprendizaje.

Fue posible atribuir un peso relevante a todas las palabras discriminativas incluso a aquellas palabras cuya frecuencia era m´ınima, por presentarse una sola vez, pero de utilidad para determinar la clase.

El esquema de pesado propuesto permite determinar la relevancia de una palabra con respecto a una clase dada, es decir, es posible establecer diferentes relevan- cias seg´un la importancia de la palabra en cada clase.

El método de clasificación multi-etapa propuesto permitió reducir el rechazo sin sacrificar la precisión, lo cual fue comprobado con un corpus recolectado en si- tuaciones reales y de gran tamaño.

6.3. Trabajo Futuro

El método propuesto en esta tesis fue probado con un corpus en español para un dominio espec´ıfico. Como trabajo ser´ıa relevante analizar el comportamiento del méto- do con otros corpus en otros dominios as´ı como en otros idiomas. Estos experimentos ayudarán a demostrar el alcance del método.

As´ı mismo el método fue evaluado usando transcripciones automáticas cortas pro- pias de un sistema de direccionamiento de llamadas. Las transcripciones automáticas cortas existen en otros dominios. El control de computadoras por voz o la solicitud de acciones a robots son áreas que requieren de la correcta clasificación de la intención

del usuario. Estas tareas pueden modelarse como peticiones orales a ser clasificadas.

La forma en la que est´a planteado el m´etodo y el sistema de pesado lo hace flexible para abordar estos problemas.

Otro trabajo futuro es la evaluación del método de pesado de atributos en la cla- sificación de documentos ya sean estos cortos o no. Incluso esta evaluación podr´ıa extenderse a la clasificación no-temática de documentos, como lo es la atribución de autor´ıa o la clasificación de opiniones.

Ap´endice A

Comportamiento del umbral μ

En este anexo se presenta de forma detallada el comportamiento del primer clasificador ha medida que se incrementa el umbral μ. La tabla A.1 muestra el comportamiento del primer clasificador cuando el umbral μ es 0.0. Obs´ervese que las clases mayoritarias (“a” y “m”) absorben instancias de todas las clases. La clase unknown (“x”) no absorbe las peticiones ambiguas del resto de las clases, incluso, no recupera todos las instancias que corresponden a ella.

a b c d e f g h i j k l m n o p q r s t u v w x

1160 0 0 1 4 0 0 1 1 0 0 0 1 0 0 0 0 0 7 0 0 0 0 0

9 419 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0

15 7 94 45 9 0 0 0 0 1 0 0 6 0 0 0 0 0 25 0 2 0 0 0

38 5 6 110 3 0 0 0 0 0 0 0 1 0 0 0 0 0 7 0 9 0 0 0

82 10 4 7 224 0 0 1 0 0 0 0 30 12 0 0 0 0 8 0 0 0 0 0

35 22 1 0 15 137 0 1 0 0 4 0 55 0 0 0 0 0 28 0 2 0 1 0

41 2 2 5 6 0 110 0 0 0 1 58 5 0 0 0 0 0 0 0 1 0 0 0

35 4 7 4 6 0 0 114 0 0 0 0 22 0 0 0 0 0 1 0 0 0 0 0

6 1 0 1 2 0 0 2 138 0 0 1 6 0 0 0 1 0 9 0 0 0 0 0

35 0 3 2 8 0 0 0 2 40 0 0 8 0 0 0 0 4 7 0 1 0 0 0

15 30 1 0 16 15 0 0 0 0 3 7 55 0 0 0 0 0 3 0 1 0 0 0

6 9 10 0 7 0 0 0 0 0 0 82 7 0 0 0 0 0 0 0 0 0 0 0

19 12 0 0 5 5 0 12 0 1 0 0 225 0 0 0 0 0 1 2 0 1 0 0

25 1 0 3 45 0 0 0 0 0 0 0 18 33 0 0 0 0 4 0 0 1 0 0

12 5 0 24 2 0 0 0 0 0 0 0 4 0 0 3 0 0 6 0 3 0 0 0

11 0 2 8 0 0 0 0 1 9 0 0 2 0 0 9 0 2 0 0 1 0 0 0

11 4 2 0 4 0 0 32 0 0 0 0 5 0 0 0 0 0 2 0 0 0 0 0

10 0 0 0 0 0 0 0 0 2 0 0 1 0 0 0 0 48 1 0 0 0 0 0

30 1 0 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 9 0 0 0 0 0

21 1 4 2 3 0 0 3 7 9 0 0 17 0 0 0 0 0 1 13 0 3 0 0

6 7 0 13 4 3 0 0 0 0 0 0 35 0 0 2 0 0 2 0 3 0 0 0

1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 28 0 0

4 1 0 0 0 3 0 1 7 1 0 0 5 0 0 0 0 0 0 1 0 0 10 0

72 17 6 1 14 0 0 0 1 4 0 0 58 0 0 2 1 0 79 1 2 0 1 48

Tabla A.1: Matriz de confusi´on sin umbral 0.0

La tabla A.2 en la p´agina siguiente muestra el comportamiento del clasificador uti-

lizando un umbral deμ0.1. Nótese que ahora las clases mayoritarias ya no absorben a las otras clases. Sin embargo, la clase con el mayor número de palabras no únicas en su vocabulario (“i”) es ahora la que absorbe los ejemplos ambiguos del resto de las clases.

a b c d e f g h i j k l m n o p q r s t u v w x

1161 0 0 0 0 0 0 0 10 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0

2 410 0 0 0 0 0 0 24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 122 62 0 0 0 0 110 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 147 0 0 0 0 16 0 0 0 0 0 0 1 0 0 0 0 15 0 0 0

1 0 6 0 283 0 0 0 51 0 0 0 16 21 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 152 0 0 101 0 16 0 31 1 0 0 0 0 0 0 0 0 0 0

0 0 0 2 0 0 116 0 3 0 110 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 2 4 0 0 0 180 2 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 167 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 32 77 0 0 0 0 0 0 0 0 0 1 0 0 0 0

0 13 0 0 0 11 0 0 6 0 83 0 33 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 4 0 117 0 0 0 0 0 0 0 0 0 0 0 0 0

0 10 0 0 13 5 0 13 4 0 0 0 238 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 26 0 0 0 34 0 0 0 0 70 0 0 0 0 0 0 0 0 0 0

0 0 0 36 0 0 0 0 13 0 0 0 0 0 0 3 0 0 0 0 7 0 0 0

0 0 0 0 0 0 0 0 16 11 0 0 0 0 0 11 0 1 0 0 6 0 0 0

0 0 0 0 0 0 0 53 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 5 48 0 0 0 0 0 0 0 9 0 0 0 0 0 0

0 0 0 0 0 0 0 0 19 0 0 0 0 0 0 0 0 0 25 0 0 0 0 0

0 0 0 0 0 0 0 0 35 13 0 0 18 0 0 0 0 0 0 16 0 2 0 0

0 0 0 45 0 1 0 0 6 0 0 0 13 0 0 1 0 0 0 0 9 0 0 0

0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 0 0 0 0 22 0 0

0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 21 0

0 0 0 0 0 0 0 0 260 0 0 0 0 0 0 5 0 0 2 0 0 0 0 40

Tabla A.2: Matriz de confusi´on con umbral 0.1

En la tabla A.3 se muestra el desempe˜no del clasificador para el umbralμen 0.2.

Como puede observarse, la clase UNKOWN (“x”) es ahora la que absorbe las instancias ambiguas de las otras clases. Son estas instancias las que el sistema rechazará y a su vez servirán de entrada al segundo nivel de clasificación.

a b c d e f g h i j k l m n o p q r s t u v w x

1156 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 19

0 412 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24

0 0 124 62 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 108

0 0 0 147 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 32

0 0 0 0 297 0 0 0 0 0 0 0 0 18 0 0 0 0 0 0 0 0 0 63

0 0 0 0 0 156 0 0 0 0 21 0 5 0 0 0 0 0 0 0 0 0 0 119

0 0 0 2 0 0 116 0 0 0 110 0 0 0 0 0 0 0 0 0 0 0 0 3

0 0 0 0 0 0 0 181 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12

0 0 0 0 0 0 0 0 146 0 0 0 0 0 0 0 0 0 0 0 0 0 0 21

0 0 0 0 0 0 0 0 0 77 0 0 0 0 0 0 0 0 0 0 0 0 0 33

0 0 0 0 0 14 0 0 0 0 110 0 12 0 0 0 0 0 0 0 0 0 0 10

0 0 0 0 0 0 0 0 0 0 117 0 0 0 0 0 0 0 0 0 0 0 0 4

0 0 0 0 0 0 0 26 0 0 5 0 238 0 0 0 0 0 0 0 0 0 0 14

0 0 0 0 0 0 0 0 0 0 0 0 0 55 0 0 0 0 0 0 0 0 0 75

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 59

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 1 0 0 0 0 0 24

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 60

0 0 0 0 0 0 0 0 0 49 0 0 0 0 0 0 0 9 0 0 0 0 0 4

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 25 0 0 0 0 19

0 0 0 0 0 0 0 0 0 1 0 0 24 0 0 0 0 0 0 13 0 0 0 46

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 25 0 0 47

0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 0 9

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 11

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 307

Tabla A.3: Matriz de confusi´on con umbral 0.2

Observando la tabla A.4 es claro que el umbralμde 0.3 tiene una mejor precisi´on y es la clase unknown la que absorbe los ejemplos ambiguos del resto de las clases. A su vez esta tabla muestra la necesidad del segundo paso dedicado a recuperar instancias rechazadas en este, puesto que, la clase con el menor n´umero de palabras en su vocabulario es confundida al 100 % con unknown.

a b c d e f g h i j k l m n o p q r s t u v w x

1155 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20

0 412 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24

0 0 128 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 166

0 0 0 135 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 44

0 0 0 0 298 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 64

0 0 0 0 0 167 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 134

0 0 0 0 0 0 228 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3

0 0 0 0 0 0 0 181 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12

0 0 0 0 0 0 0 0 146 0 0 0 0 0 0 0 0 0 0 0 0 0 0 21

0 0 0 0 0 0 0 0 0 77 0 0 0 0 0 0 0 0 0 0 0 0 0 33

0 0 0 0 0 0 0 0 0 0 42 0 0 0 0 0 0 0 0 0 0 0 0 104

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 121

0 0 0 0 0 0 0 0 0 0 11 0 228 0 0 0 0 0 0 0 0 0 0 44

0 0 0 0 0 0 0 0 0 0 0 0 0 67 0 0 0 0 0 0 0 0 0 63

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 59

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 25

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 60

0 0 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 22 0 0 0 0 0 7

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 25 0 0 0 0 19

0 0 0 0 0 0 0 0 0 1 0 0 25 0 0 0 0 0 0 13 0 0 0 45

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 72

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 0 7

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 28 5

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 307

Tabla A.4: Matriz de confusi´on con umbral 0.3

Los experimentos mostrados en este apéndice ilustran la repercusión del umbralμ en la precisión, as´ı como también la capacidad de éste de rechazar instancias ambiguas o ruidosas para su posterior reclasificación.

Un umbralμalto, incrementará la precisión del sistema, pero también aumentará la cantidad de instancias que son rechazadas.

Ap´endice B

Comparaci´on del presente trabajo con 10 cross-validation

En este apéndice se muestra el desempeño del método propuesto utilizando la divi- sión 80 %-20 % del corpus y utilizando un esquema de evaluación 10 cross-validation.

Umbralμ precisión división 80 %-20 % Precisión 10 Cross Validation

0 64.90 % 71.60 %

0.1 71.60 % 82.00 %

0.2 87.50 % 97.00 %

0.3 97.40 % 98.60 %

0.4 99.50 % 99.80 %

0.5 99.90 % 100 %

Tabla B.1: Comparación del rechazo obtenido por el clasificador utilizando la división del 80 %-20 % el corpus contra el método de evaluación 10 cross-validation.

En la tabla B.1 puede observarse como al utilizar 10 cross-validation el trabajo incrementa su precisión más rápidamente que utilizando la división del corpus. Este comportamiento se debe principalmente a que 10 cross-validation utiliza un 10 % diferente del corpus para cada iteración. Este tamaño de división reduce el vocabulario desconocido e incluso en ciertos casos no se encontró vocabulario desconocido.

Umbralμ Rechazo divisi´on 80 %-20 % Rechazo 10 Cross Validation

0 1.0 % 2.77 %

0.1 0.9 % 2.5 %

0.2 24.2 % 18.60 %

0.3 31.50 % 28.5 %

0.4 40.70 % 36.8 %

0.5 50.09 % 59.6 %

Tabla B.2: Comparación de la precisión obtenida por el clasificador utilizando la divi- sión del 80 %-20 % el corpus contra el método de evaluación 10 cross-validation.

La tabla B.2 muestra el rechazo obtenido en 10 cross-validation y la división 80 %- 20 %. En este caso el comportamiento del trabajo muestra que 10 cross-validation tiene tasas de rechazo que en principio parecieran más altas que las obtenidas por la división del corpus, pero comparandolas con la precisión obtenida en el mismo caso, tenemos que, para una precisión de 97.00 % en 10 cross-validation obtuvimos un 18.60 % de rechazo y en el 80 %-20 % para un 97.40 % de precisi ón obtuvimos un 37.5 %. Lo que muestra que el tener menos palabras desconocidas influye tanto en la precisión del clasificador como en su tasa de rechazo.

En esta tesis decidimos utilizar la división 80 %-20 % por ser un entorno más próxi- mo a la realidad. Donde la diversidad de usuarios y problemas de reconocimiento, ge- neran que las peticiones contengan palabras desconocidas para el clasificador durante la fase de entrenamiento.

Referencias

Aizerman, M., Braverman, E., y Rozonoer, L. (1964). Theoretical foundations of the potential function method in pattern recognition learning. In Automation and Remote Control, pages 821–837.

Alshawi, H. (2003). Effective utterance classification with unsupervised phonotactic models. In Proceedings of HLT-NAACL 2003, pages 1–7.

Balakrishna, M., Cerovic, C., Moldovan, D., y Cave, E. (2006). Automatic generation of statistical language models for interactive voice response applications. In ICSLP- INTERSPEECH, pages 1648–Wed2CaP.12.

Barnard, G. A. (1958). Studies in the history of probability and statistics: Ix. thomas bayes’ essay towards solving a problem in the doctrine of chances. In Biometrika, volume 45, pages 293–295.

Boser, B. E., Guyon, I. M., y Vapnik, V. (1992). A training algorithm for optimal margin classifiers. In Haussler, editor, Annual ACM Workshop on COLT, volume 5, pages 144–152. ACM Press.

Burges, C. J. C. (1998). A tutorial on support vector machines for pattern recognition.

In Data Mining and Knowledge Discovery, volume 2, pages 121–167.

Carpenter, B. y Chu-carroll, J. (1998). Natural language call routing: A robust, self- organizing approach. In ICSLP.

Demiriz, A., Bennett, K., y Shawe-Taylor, J. (2002). Linear programming boosting via column generation. In Kluwer Machine Learning, pages 225–254.

Demir¨oz, G. y G¨uvenir, H. A. (1997). Classification by voting feature intervals. In Heidelberg, S. B. ., editor, Machine Learning: ECML-97, pages 85–92.

Drucker, H., Burges, C. J., Kaufman, L., Smola, A., y Vapnik, V. (1997). Support vector regression machines. In Advances in Neural Information Processing Systems, volume 9, pages 155–161. MIT Press.

Duffy, N. y Helmbold, D. (1999). A geometric approach to leveraging weak learners.

In Heidelberg, S. B. ., editor, Computational Learning Theory, page 638.

Durston, P. y Kuo, J. (2001). Oasis natural language call steering trial. In Proceedings of Eurospeech, volume 2, pages 1323–1326.

Fellbaum, C. (1998). Wordnet:an electronic lexical database. In MIT Press.

Freund, Y. (1990). Boosting a weak learning algorithm by majority. In Annual Works- hop on Computational Learning Theory, pages 202 – 216.

Freund, Y. (2001). An adaptive version of the boost by majority algorithm. In Machine Learning, volume 43, pages 293–318.

Freund, Y. y Schapire, R. E. (1997). A decision-theoretic generalization of on-line learning and an application to boosting. In Journal of Computer and System Sciences, number 55, pages 119 – 139.

Friedman, J., Hastie, T., y Tibshirani, R. (2000). Additive logistic regression: a statistical view of boosting. In Annals of Statistics, volume 28, pages 337–407.

Garfield, S. y Wermter, S. (2005). Call classification using recurrent neural networks, support vector machines and finite state automata. In Knowledge and Information Systems, pages 131 – 156.

Gorin, A. L., Parker, B. A., Sachs, R. M., y Wilpon, J. G. (1997). How may i help you.

In Speech Communication, volume 23, pages 113–127.

Hern´andez, L., Caminero, J., de la Torre, C., y Villarrubia, L. (1994). Estado del arte en tecnolog´ıa del habla. In Comunicaciones de Telef´onica I+D, volume 5, pages 3–27.

Huang, Q. y Cox, S. (2004). Automatic call routing with multiple language models.

In Workshop on Spoken Language Understanding for Conversational Systems, page 2530.

Jones, K. S. (1972). A statistical interpretation of term specificity and its application in retrieval. In Journal of Documentation, volume 28, pages 11–21.

Kearns, M. (1988). Thoughts on hypothesis boosting. In Unpublished manuscript, http://www.cis.upenn.edu/ mkearns/ visitada el 20 de abril de 2008. Project for Ron Rivest’s machine learning course at MIT.

Kearns, M. y Vazirani, U. (1994). An introduction to computational learning theory. In MIT Press.

Kim, J., Jung, H., y Chung, H. (2004). A keyword spotting approach based on pseudo n-gram language model. In SPECOM, pages 256–259. ISCA Archive.

Kullback, S. y Leibler, R. A. (1951). On information and sufficiency. In Annals of Mathematical Statistics 22, pages 79–86.

McCallum, A. K. (1996). Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering. In http://www.cs.cmu.edu/ mccallum/bow. visitado el 16 de octubre de 2007.

Minsky, M. y Papert, S. (1969). In Perceptrons; an introduction to computational geo- metry, page Chapter 12. MIT Press. Una de las primeras referencias sobre la defini- cion e implementacion de un clasificador bayesiano ingenuo(NaiveBayes).

Rabiner, L. R. (1989). A tutorial on hidden markov models and selected applications in speech recognition. In Proceedings of the IEEE, 77 (2), pages 257–286.

Roche, E. (1997). Compact factorization of finite-state transducers and finite-state automata. In Nord. J. Comput., volume 4, pages 187–216.

Roget, D. P. M. (created 1805, released 1852). Roget’s thesaurus.

http://thesaurus.reference.com/. English thesaurus.

Salton, G. (1960). Smart (salton’s magic automatic retriever of text). disponible para descargar bajo la licencia GNU en ftp://ftp.cs.cornell.edu/pub/smart/. Creado en Cornell University.

Salton, G. (1989). Automatic text processing:the transformation, analysis and retrieval of information by computer. Addison-Wesley.

Salton, G. y Buckley, C. (1988). Term-weighting approaches in automatic text retrieval.

In Information Processing and Management 24(5), pages 513–523.

Salton, G., Wong, A., y Yang, C. S. (1975). A vector space model for automatic inde- xing. In Communications of the ACM, volume 18, pages 613–620.

Schapire, R. (1990). Strength of weak learnability. In Journal of Machine Learning, volume 5, pages 197–227.

Sebastiani, F. (2002). Machine learning in automated text categorization. In ACM Computing Surveys, volume 34(1), pages 1–47.

Tang, M., Pellom, B., y Hacioglu, K. (2003). Call-type classification and unsupervised training for the call center domain. In Automatic Speech Recognition and Unders- tanding IEEE Workshop, pages 204– 208.

Tetko, I., Livingstone, D., y Luik, A. (1995). Comparison of overfitting and overtrai- ning. In J. Chem. Inf. Comput. Sci., volume 35, pages 826–833.

In document M´etodo de clasificaci´on multi-etapa para el (página 70-87)