• No se han encontrado resultados

Utilizando dos pasos

5. Corpus y Resultados 43

5.4. Experimentos con el pesado propuesto

5.4.2. Utilizando dos pasos

Para el segundo paso de clasificaci´on el cual consiste en extraer las instancias de la clase unknown y tratar de recuperar instancias rechazadas en el primer paso, utilizamos dos clasificadores m´as. Ambos clasificadores utilizan el mismo pesado que el primer

clasificador y un clasificador Bayesiano simple. Las diferencias radican en que el se- gundo clasificador es un clasificador binario con el peso calculado s ´olo para 2 clases:

unknown y el resto (las otras 23 clases). En la tabla 5.7 observamos los resultados de los 2 pasos, en la cual se aprecia que si bien la precisi´on disminuy´o en un 1.9 % con respecto a utilizar un ´unico paso, el rechazo disminuy´o un 23.3 %. Esto es una mejora considerable respecto al desempe˜no global en la clasificaci´on.

Correctamente Clasificadas

Primer Paso Segundo Paso Precisi´on promedio Rechazo

3396 938 95.5 % 8.2 %

Tabla 5.7: Comportamiento del m´etodo multi-etapa propuesto.

La tabla 5.7 muestra el n´umero de instancias clasificadas correctamente en cada paso. Dicha tabla muestra la utilidad del uso de un esquema multi-etapa. Se puede ver que el primer paso clasific´o 3396 ejemplos correctamente y el segundo paso 938, incre- mentando el total de ejemplos clasificados correctamente. Esta tabla muestra adem´as una reducci´on relativa del rechazo del 384.14 % con respecto del uso de un s´olo paso como se muestra en la tabla 5.6 en la p´agina anterior.

Por ´ultimo, realizamos un experimento para demostrar la pertinenecia del m´etodo al compararlo con otros m´etodos de clasificaci´on usados en otros trabajos. Espec´ıfica- mente nos comparamos contra el m´etodo Adaboost usando nuestro pesado as´ı como tfidf. Los resultados se muestran en la tabla 5.8

Esquema de Clasificaci´on Precisi´on promedio

Rechazo Rechazo Correcto

Rechazo incorrecto

M´etodo propuesto 95.5 % 8.2 % 100 % 2.1 %

Adaboost(Pesado propuesto) 98.9 % 29.7 % 100 % 23.6 %

Adaboost(tfidf ) 78.2 % 6.8 % 60 % 4.08 %

Tabla 5.8: M´etodo propuesto comparado con el algoritmo de Adaboost usando el pesa- do propuesto en vez del pesado tfidf.

5.5. An´alisis de los resultados

Como puede observarse en la tabla 5.8, se presenta una tabla comparativa entre el m´etodo multi-etapa propuesto y el m´etodo de Adaboost. Seleccionamos Adaboost por ser un m´etodo que utiliza un clasificador base y de ah´ı intenta construir uno m´as po- tente, haciendo as´ı un clasificador final que utiliza varios clasificadores. Esto es una de las caracter´ısticas del boosting y el levering, caracter´ıstica que el m´etodo propuesto tambi´en explora al utilizar 3 clasificadores para construir una clasificaci´on final. Co- mo puede observarse las mejoras en el desempe˜no, mostradas por el m´etodo sobre los enfoques est´andar de boosting, son claras al obtener un mejor compromiso entre la pre- cisi´on y el rechazo. As´ı mismo la tabla 5.8 en la p´agina anterior muestra el desempe˜no de Adaboost usando tfidf, de esta manera tambi´en se ilustra la importancia del peso propuesto en esta tesis.

Con base en lo mostrado en la tabla 5.5 en la p´agina 51 y la tabla 5.6 en la p´agina 52, podemos afirmar que el m´etodo de pesado es una aportaci´on clave de este trabajo. Esto en combinaci´on con el uso del esquema multi-etapa propuesto se tiene un m´etodo de clasificaci´on con una importante reducci´on en la tasa de rechazo, como puede verse en las tablas 5.6 en la p´agina 52 y 5.7 en la p´agina anterior.

Cap´ıtulo 6

Conclusiones y Trabajo Futuro

6.1. Recapitulaci´on

En este trabajo de tesis se abordo el problema del direccionamiento de llamadas (call routing), el cual consiste en tomar la transcripci´on de una petici´on telef´onica y clasificarla. En esta tesis se desarroll´o un m´etodo basado en clasificaci´on de textos para abordar este problema. El principal objetivo del m´etodo fue encontrar un balance apro- piado entre la precisi´on de clasificaci´on y la tasa de rechazo. El m´etodo desarrollado utiliza un esquema de clasificaci´on multi-etapa el cual es capaz de lograr un balance adecuado. Con este esquema se alcanz´o un 95.5 % de precisi´on promedio, as´ı como un 100 % de rechazo correcto y s´olo un 2.1 % de rechazo incorrecto. Una mejora impor- tante al compararnos con otros m´etodos (como se puede observar en la tabla 5.8 en la p´agina 53). Aunado a este esquema de clasificaci´on se propuso un m´etodo de pesado de los atributos, con el cual no s´olo se cuantifica el valor discriminativo de cada atributo, sino tambi´en sirve para reducir la dimensionalidad del problema de aprenidzaje.

6.2. Conclusiones

Las conclusiones de nuestro trabajo pueden resumirse en las siguientes:

Se logr´o definir un esquema de pesado de atributos propio para este problema, el cual ayudo a enfrentar el desbalanceo de clases as´ı como la peque˜na longitud de las instancias a clasificar.

El esquema de pesado propuesto tambi´en permiti´o la selecci´on de los atributos m´as relevantes para la clasificaci´on, es decir, permiti´o la reducci´on de la dimen- sionalidad de nuestro problema de aprendizaje.

Fue posible atribuir un peso relevante a todas las palabras discriminativas incluso a aquellas palabras cuya frecuencia era m´ınima, por presentarse una sola vez, pero de utilidad para determinar la clase.

El esquema de pesado propuesto permite determinar la relevancia de una palabra con respecto a una clase dada, es decir, es posible establecer diferentes relevan- cias seg´un la importancia de la palabra en cada clase.

El m´etodo de clasificaci´on multi-etapa propuesto permiti´o reducir el rechazo sin sacrificar la precisi´on, lo cual fue comprobado con un corpus recolectado en si- tuaciones reales y de gran tama˜no.

6.3. Trabajo Futuro

El m´etodo propuesto en esta tesis fue probado con un corpus en espa˜nol para un dominio espec´ıfico. Como trabajo ser´ıa relevante analizar el comportamiento del m´eto- do con otros corpus en otros dominios as´ı como en otros idiomas. Estos experimentos ayudar´an a demostrar el alcance del m´etodo.

As´ı mismo el m´etodo fue evaluado usando transcripciones autom´aticas cortas pro- pias de un sistema de direccionamiento de llamadas. Las transcripciones autom´aticas cortas existen en otros dominios. El control de computadoras por voz o la solicitud de acciones a robots son ´areas que requieren de la correcta clasificaci´on de la intenci´on

del usuario. Estas tareas pueden modelarse como peticiones orales a ser clasificadas.

La forma en la que est´a planteado el m´etodo y el sistema de pesado lo hace flexible para abordar estos problemas.

Otro trabajo futuro es la evaluaci´on del m´etodo de pesado de atributos en la cla- sificaci´on de documentos ya sean estos cortos o no. Incluso esta evaluaci´on podr´ıa extenderse a la clasificaci´on no-tem´atica de documentos, como lo es la atribuci´on de autor´ıa o la clasificaci´on de opiniones.

Ap´endice A

Comportamiento del umbral μ

En este anexo se presenta de forma detallada el comportamiento del primer cla- sificador ha medida que se incrementa el umbral μ. La tabla A.1 muestra el compor- tamiento del primer clasificador cuando el umbral μ es 0.0. Obs´ervese que las clases mayoritarias (“a” y “m”) absorben instancias de todas las clases. La clase unknown (“x”) no absorbe las peticiones ambiguas del resto de las clases, incluso, no recupera todos las instancias que corresponden a ella.

a b c d e f g h i j k l m n o p q r s t u v w x

1160 0 0 1 4 0 0 1 1 0 0 0 1 0 0 0 0 0 7 0 0 0 0 0

9 419 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0

15 7 94 45 9 0 0 0 0 1 0 0 6 0 0 0 0 0 25 0 2 0 0 0

38 5 6 110 3 0 0 0 0 0 0 0 1 0 0 0 0 0 7 0 9 0 0 0

82 10 4 7 224 0 0 1 0 0 0 0 30 12 0 0 0 0 8 0 0 0 0 0

35 22 1 0 15 137 0 1 0 0 4 0 55 0 0 0 0 0 28 0 2 0 1 0

41 2 2 5 6 0 110 0 0 0 1 58 5 0 0 0 0 0 0 0 1 0 0 0

35 4 7 4 6 0 0 114 0 0 0 0 22 0 0 0 0 0 1 0 0 0 0 0

6 1 0 1 2 0 0 2 138 0 0 1 6 0 0 0 1 0 9 0 0 0 0 0

35 0 3 2 8 0 0 0 2 40 0 0 8 0 0 0 0 4 7 0 1 0 0 0

15 30 1 0 16 15 0 0 0 0 3 7 55 0 0 0 0 0 3 0 1 0 0 0

6 9 10 0 7 0 0 0 0 0 0 82 7 0 0 0 0 0 0 0 0 0 0 0

19 12 0 0 5 5 0 12 0 1 0 0 225 0 0 0 0 0 1 2 0 1 0 0

25 1 0 3 45 0 0 0 0 0 0 0 18 33 0 0 0 0 4 0 0 1 0 0

12 5 0 24 2 0 0 0 0 0 0 0 4 0 0 3 0 0 6 0 3 0 0 0

11 0 2 8 0 0 0 0 1 9 0 0 2 0 0 9 0 2 0 0 1 0 0 0

11 4 2 0 4 0 0 32 0 0 0 0 5 0 0 0 0 0 2 0 0 0 0 0

10 0 0 0 0 0 0 0 0 2 0 0 1 0 0 0 0 48 1 0 0 0 0 0

30 1 0 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 9 0 0 0 0 0

21 1 4 2 3 0 0 3 7 9 0 0 17 0 0 0 0 0 1 13 0 3 0 0

6 7 0 13 4 3 0 0 0 0 0 0 35 0 0 2 0 0 2 0 3 0 0 0

1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 28 0 0

4 1 0 0 0 3 0 1 7 1 0 0 5 0 0 0 0 0 0 1 0 0 10 0

72 17 6 1 14 0 0 0 1 4 0 0 58 0 0 2 1 0 79 1 2 0 1 48

Tabla A.1: Matriz de confusi´on sin umbral 0.0

La tabla A.2 en la p´agina siguiente muestra el comportamiento del clasificador uti-

lizando un umbral deμ0.1. N´otese que ahora las clases mayoritarias ya no absorben a las otras clases. Sin embargo, la clase con el mayor n´umero de palabras no ´unicas en su vocabulario (“i”) es ahora la que absorbe los ejemplos ambiguos del resto de las clases.

a b c d e f g h i j k l m n o p q r s t u v w x

1161 0 0 0 0 0 0 0 10 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0

2 410 0 0 0 0 0 0 24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 122 62 0 0 0 0 110 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 147 0 0 0 0 16 0 0 0 0 0 0 1 0 0 0 0 15 0 0 0

1 0 6 0 283 0 0 0 51 0 0 0 16 21 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 152 0 0 101 0 16 0 31 1 0 0 0 0 0 0 0 0 0 0

0 0 0 2 0 0 116 0 3 0 110 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 2 4 0 0 0 180 2 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 167 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 32 77 0 0 0 0 0 0 0 0 0 1 0 0 0 0

0 13 0 0 0 11 0 0 6 0 83 0 33 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 4 0 117 0 0 0 0 0 0 0 0 0 0 0 0 0

0 10 0 0 13 5 0 13 4 0 0 0 238 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 26 0 0 0 34 0 0 0 0 70 0 0 0 0 0 0 0 0 0 0

0 0 0 36 0 0 0 0 13 0 0 0 0 0 0 3 0 0 0 0 7 0 0 0

0 0 0 0 0 0 0 0 16 11 0 0 0 0 0 11 0 1 0 0 6 0 0 0

0 0 0 0 0 0 0 53 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 5 48 0 0 0 0 0 0 0 9 0 0 0 0 0 0

0 0 0 0 0 0 0 0 19 0 0 0 0 0 0 0 0 0 25 0 0 0 0 0

0 0 0 0 0 0 0 0 35 13 0 0 18 0 0 0 0 0 0 16 0 2 0 0

0 0 0 45 0 1 0 0 6 0 0 0 13 0 0 1 0 0 0 0 9 0 0 0

0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 0 0 0 0 22 0 0

0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 21 0

0 0 0 0 0 0 0 0 260 0 0 0 0 0 0 5 0 0 2 0 0 0 0 40

Tabla A.2: Matriz de confusi´on con umbral 0.1

En la tabla A.3 se muestra el desempe˜no del clasificador para el umbralμen 0.2.

Como puede observarse, la clase UNKOWN (“x”) es ahora la que absorbe las instancias ambiguas de las otras clases. Son estas instancias las que el sistema rechazar´a y a su vez servir´an de entrada al segundo nivel de clasificaci´on.

a b c d e f g h i j k l m n o p q r s t u v w x

1156 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 19

0 412 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24

0 0 124 62 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 108

0 0 0 147 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 32

0 0 0 0 297 0 0 0 0 0 0 0 0 18 0 0 0 0 0 0 0 0 0 63

0 0 0 0 0 156 0 0 0 0 21 0 5 0 0 0 0 0 0 0 0 0 0 119

0 0 0 2 0 0 116 0 0 0 110 0 0 0 0 0 0 0 0 0 0 0 0 3

0 0 0 0 0 0 0 181 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12

0 0 0 0 0 0 0 0 146 0 0 0 0 0 0 0 0 0 0 0 0 0 0 21

0 0 0 0 0 0 0 0 0 77 0 0 0 0 0 0 0 0 0 0 0 0 0 33

0 0 0 0 0 14 0 0 0 0 110 0 12 0 0 0 0 0 0 0 0 0 0 10

0 0 0 0 0 0 0 0 0 0 117 0 0 0 0 0 0 0 0 0 0 0 0 4

0 0 0 0 0 0 0 26 0 0 5 0 238 0 0 0 0 0 0 0 0 0 0 14

0 0 0 0 0 0 0 0 0 0 0 0 0 55 0 0 0 0 0 0 0 0 0 75

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 59

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 1 0 0 0 0 0 24

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 60

0 0 0 0 0 0 0 0 0 49 0 0 0 0 0 0 0 9 0 0 0 0 0 4

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 25 0 0 0 0 19

0 0 0 0 0 0 0 0 0 1 0 0 24 0 0 0 0 0 0 13 0 0 0 46

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 25 0 0 47

0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 0 9

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 11

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 307

Tabla A.3: Matriz de confusi´on con umbral 0.2

Observando la tabla A.4 es claro que el umbralμde 0.3 tiene una mejor precisi´on y es la clase unknown la que absorbe los ejemplos ambiguos del resto de las clases. A su vez esta tabla muestra la necesidad del segundo paso dedicado a recuperar instancias rechazadas en este, puesto que, la clase con el menor n´umero de palabras en su voca- bulario es confundida al 100 % con unknown.

a b c d e f g h i j k l m n o p q r s t u v w x

1155 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20

0 412 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24

0 0 128 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 166

0 0 0 135 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 44

0 0 0 0 298 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 64

0 0 0 0 0 167 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 134

0 0 0 0 0 0 228 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3

0 0 0 0 0 0 0 181 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12

0 0 0 0 0 0 0 0 146 0 0 0 0 0 0 0 0 0 0 0 0 0 0 21

0 0 0 0 0 0 0 0 0 77 0 0 0 0 0 0 0 0 0 0 0 0 0 33

0 0 0 0 0 0 0 0 0 0 42 0 0 0 0 0 0 0 0 0 0 0 0 104

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 121

0 0 0 0 0 0 0 0 0 0 11 0 228 0 0 0 0 0 0 0 0 0 0 44

0 0 0 0 0 0 0 0 0 0 0 0 0 67 0 0 0 0 0 0 0 0 0 63

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 59

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 25

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 60

0 0 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 22 0 0 0 0 0 7

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 25 0 0 0 0 19

0 0 0 0 0 0 0 0 0 1 0 0 25 0 0 0 0 0 0 13 0 0 0 45

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 72

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 0 7

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 28 5

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 307

Tabla A.4: Matriz de confusi´on con umbral 0.3

Los experimentos mostrados en este ap´endice ilustran la repercusi´on del umbralμ en la precisi´on, as´ı como tambi´en la capacidad de ´este de rechazar instancias ambiguas o ruidosas para su posterior reclasificaci´on.

Un umbralμalto, incrementar´a la precisi´on del sistema, pero tambi´en aumentar´a la cantidad de instancias que son rechazadas.

Ap´endice B

Comparaci´on del presente trabajo con 10 cross-validation

En este ap´endice se muestra el desempe˜no del m´etodo propuesto utilizando la divi- si´on 80 %-20 % del corpus y utilizando un esquema de evaluaci´on 10 cross-validation.

Umbralμ precisi´on divisi´on 80 %-20 % Precisi´on 10 Cross Validation

0 64.90 % 71.60 %

0.1 71.60 % 82.00 %

0.2 87.50 % 97.00 %

0.3 97.40 % 98.60 %

0.4 99.50 % 99.80 %

0.5 99.90 % 100 %

Tabla B.1: Comparaci´on del rechazo obtenido por el clasificador utilizando la divisi´on del 80 %-20 % el corpus contra el m´etodo de evaluaci´on 10 cross-validation.

En la tabla B.1 puede observarse como al utilizar 10 cross-validation el trabajo incre- menta su precisi´on m´as r´apidamente que utilizando la divisi´on del corpus. Este com- portamiento se debe principalmente a que 10 cross-validation utiliza un 10 % diferente del corpus para cada iteraci´on. Este tama˜no de divisi´on reduce el vocabulario descono- cido e incluso en ciertos casos no se encontr´o vocabulario desconocido.

Umbralμ Rechazo divisi´on 80 %-20 % Rechazo 10 Cross Validation

0 1.0 % 2.77 %

0.1 0.9 % 2.5 %

0.2 24.2 % 18.60 %

0.3 31.50 % 28.5 %

0.4 40.70 % 36.8 %

0.5 50.09 % 59.6 %

Tabla B.2: Comparaci´on de la precisi´on obtenida por el clasificador utilizando la divi- si´on del 80 %-20 % el corpus contra el m´etodo de evaluaci´on 10 cross-validation.

La tabla B.2 muestra el rechazo obtenido en 10 cross-validation y la divisi´on 80 %- 20 %. En este caso el comportamiento del trabajo muestra que 10 cross-validation tiene tasas de rechazo que en principio parecieran m´as altas que las obtenidas por la divisi´on del corpus, pero comparandolas con la precisi´on obtenida en el mismo caso, tenemos que, para una precisi´on de 97.00 % en 10 cross-validation obtuvimos un 18.60 % de rechazo y en el 80 %-20 % para un 97.40 % de precisi ´on obtuvimos un 37.5 %. Lo que muestra que el tener menos palabras desconocidas influye tanto en la precisi´on del cla- sificador como en su tasa de rechazo.

En esta tesis decidimos utilizar la divisi´on 80 %-20 % por ser un entorno m´as pr´oxi- mo a la realidad. Donde la diversidad de usuarios y problemas de reconocimiento, ge- neran que las peticiones contengan palabras desconocidas para el clasificador durante la fase de entrenamiento.

Referencias

Aizerman, M., Braverman, E., y Rozonoer, L. (1964). Theoretical foundations of the potential function method in pattern recognition learning. In Automation and Remote Control, pages 821–837.

Alshawi, H. (2003). Effective utterance classification with unsupervised phonotactic models. In Proceedings of HLT-NAACL 2003, pages 1–7.

Balakrishna, M., Cerovic, C., Moldovan, D., y Cave, E. (2006). Automatic generation of statistical language models for interactive voice response applications. In ICSLP- INTERSPEECH, pages 1648–Wed2CaP.12.

Barnard, G. A. (1958). Studies in the history of probability and statistics: Ix. thomas bayes’ essay towards solving a problem in the doctrine of chances. In Biometrika, volume 45, pages 293–295.

Boser, B. E., Guyon, I. M., y Vapnik, V. (1992). A training algorithm for optimal margin classifiers. In Haussler, editor, Annual ACM Workshop on COLT, volume 5, pages 144–152. ACM Press.

Burges, C. J. C. (1998). A tutorial on support vector machines for pattern recognition.

In Data Mining and Knowledge Discovery, volume 2, pages 121–167.

Carpenter, B. y Chu-carroll, J. (1998). Natural language call routing: A robust, self- organizing approach. In ICSLP.

Demiriz, A., Bennett, K., y Shawe-Taylor, J. (2002). Linear programming boosting via column generation. In Kluwer Machine Learning, pages 225–254.

Demir¨oz, G. y G¨uvenir, H. A. (1997). Classification by voting feature intervals. In Heidelberg, S. B. ., editor, Machine Learning: ECML-97, pages 85–92.

Drucker, H., Burges, C. J., Kaufman, L., Smola, A., y Vapnik, V. (1997). Support vector regression machines. In Advances in Neural Information Processing Systems, volume 9, pages 155–161. MIT Press.

Duffy, N. y Helmbold, D. (1999). A geometric approach to leveraging weak learners.

In Heidelberg, S. B. ., editor, Computational Learning Theory, page 638.

Durston, P. y Kuo, J. (2001). Oasis natural language call steering trial. In Proceedings of Eurospeech, volume 2, pages 1323–1326.

Fellbaum, C. (1998). Wordnet:an electronic lexical database. In MIT Press.

Freund, Y. (1990). Boosting a weak learning algorithm by majority. In Annual Works- hop on Computational Learning Theory, pages 202 – 216.

Freund, Y. (2001). An adaptive version of the boost by majority algorithm. In Machine Learning, volume 43, pages 293–318.

Freund, Y. y Schapire, R. E. (1997). A decision-theoretic generalization of on-line learning and an application to boosting. In Journal of Computer and System Sciences, number 55, pages 119 – 139.

Friedman, J., Hastie, T., y Tibshirani, R. (2000). Additive logistic regression: a statisti- cal view of boosting. In Annals of Statistics, volume 28, pages 337–407.

Garfield, S. y Wermter, S. (2005). Call classification using recurrent neural networks, support vector machines and finite state automata. In Knowledge and Information Systems, pages 131 – 156.

Gorin, A. L., Parker, B. A., Sachs, R. M., y Wilpon, J. G. (1997). How may i help you.

In Speech Communication, volume 23, pages 113–127.

Hern´andez, L., Caminero, J., de la Torre, C., y Villarrubia, L. (1994). Estado del arte en tecnolog´ıa del habla. In Comunicaciones de Telef´onica I+D, volume 5, pages 3–27.

Huang, Q. y Cox, S. (2004). Automatic call routing with multiple language models.

In Workshop on Spoken Language Understanding for Conversational Systems, page 2530.

Jones, K. S. (1972). A statistical interpretation of term specificity and its application in retrieval. In Journal of Documentation, volume 28, pages 11–21.

Kearns, M. (1988). Thoughts on hypothesis boosting. In Unpublished manuscript, http://www.cis.upenn.edu/ mkearns/ visitada el 20 de abril de 2008. Project for Ron Rivest’s machine learning course at MIT.

Kearns, M. y Vazirani, U. (1994). An introduction to computational learning theory. In MIT Press.

Kim, J., Jung, H., y Chung, H. (2004). A keyword spotting approach based on pseudo n-gram language model. In SPECOM, pages 256–259. ISCA Archive.

Kullback, S. y Leibler, R. A. (1951). On information and sufficiency. In Annals of Mathematical Statistics 22, pages 79–86.

McCallum, A. K. (1996). Bow: A toolkit for statistical language modeling, text retrie- val, classification and clustering. In http://www.cs.cmu.edu/ mccallum/bow. visitado el 16 de octubre de 2007.

Minsky, M. y Papert, S. (1969). In Perceptrons; an introduction to computational geo- metry, page Chapter 12. MIT Press. Una de las primeras referencias sobre la defini- cion e implementacion de un clasificador bayesiano ingenuo(NaiveBayes).

Rabiner, L. R. (1989). A tutorial on hidden markov models and selected applications in speech recognition. In Proceedings of the IEEE, 77 (2), pages 257–286.

Roche, E. (1997). Compact factorization of finite-state transducers and finite-state auto- mata. In Nord. J. Comput., volume 4, pages 187–216.

Roget, D. P. M. (created 1805, released 1852). Roget’s thesaurus.

http://thesaurus.reference.com/. English thesaurus.

Salton, G. (1960). Smart (salton’s magic automatic retriever of text). disponible pa- ra descargar bajo la licencia GNU en ftp://ftp.cs.cornell.edu/pub/smart/. Creado en Cornell University.

Salton, G. (1989). Automatic text processing:the transformation, analysis and retrieval of information by computer. Addison-Wesley.

Salton, G. y Buckley, C. (1988). Term-weighting approaches in automatic text retrieval.

In Information Processing and Management 24(5), pages 513–523.

Salton, G., Wong, A., y Yang, C. S. (1975). A vector space model for automatic inde- xing. In Communications of the ACM, volume 18, pages 613–620.

Schapire, R. (1990). Strength of weak learnability. In Journal of Machine Learning, volume 5, pages 197–227.

Sebastiani, F. (2002). Machine learning in automated text categorization. In ACM Computing Surveys, volume 34(1), pages 1–47.

Tang, M., Pellom, B., y Hacioglu, K. (2003). Call-type classification and unsupervised training for the call center domain. In Automatic Speech Recognition and Unders- tanding IEEE Workshop, pages 204– 208.

Tetko, I., Livingstone, D., y Luik, A. (1995). Comparison of overfitting and overtrai- ning. In J. Chem. Inf. Comput. Sci., volume 35, pages 826–833.

Documento similar