Capítulo 6: Experimentación
6.1. Configuración
En esta sección se abarcan todos los detalles relacionados a los conjuntos de datos empleados en este trabajo de grado. Como bien se indicó en el Capítulo 4 con la proposición de la solución, el objetivo es el armado de perfiles de usuario a partir de un conjunto de mensajes provistos por un usuario. A partir de dichos mensajes, se obtiene una categorización de cada uno de ellos, que en este caso constituye una conducta IPA. Esto quiere decir que, el modelo predictivo tiene como entrada un determinado mensaje, mientras que como salida tiene una conducta. Al momento de entrenar las redes neuronales que realicen esta categorización, se empleó un dataset con este formato. Es decir, que el dataset utilizado consistió de un listado de mensajes, estando cada uno de ellos etiquetados con su correspondiente conducta IPA, que va del 1 al 12. El origen de los mismos proviene de un trabajo de grado realizado por Martín Mineo [47] en donde, entre las tareas que componen el trabajo que realizó, se encuentra un listado de casi 2500 mensajes etiquetados, provenientes de diversos grupos de trabajo.
107
Una de las características salientes de las técnicas de aprendizaje profundo, es la cantidad de datos que necesita. Una red neuronal por más afinada que tenga su arquitectura e hiperparámetros, no podrá ajustarse correctamente a los datos si la cantidad de los mismos no es la adecuada. En caso de no lograrse, las métricas de precisión y costo no serán lo suficientemente óptimas como para poner el modelo en producción, debido a la existencia de overfitting o underfitting. Para paliar esta cuestión, es decir para mejorar las métricas que el entrenamiento de la red arrojaba, se recurrió a diversas técnicas de preprocesamiento del dataset, en donde se eliminaron mensajes duplicados, errores de ortografía, entre otras cosas. No obstante, las métricas no mejoraron en demasía, por lo que la cuestión original se hizo más notoria: se necesitaban más datos.
A partir de esta problemática se recurrió a lo que se conoce como data augmentation14, que consiste
en realizar operaciones sobre los datos existentes a fin de producir más ejemplos. Un ejemplo de esto es tomar por ejemplo una imagen, e invertirla, para así contar con más ejemplos disponibles. Se trata de un procedimiento complejo, que debe realizarse cuidadosamente para que se puedan obtener resultados positivos. En casos de no realizarse correctamente, las métricas que se pueden obtener pueden ser peores debido a la reducción de la capacidad de aprendizaje por causa de la repetición de los datos de entrada.
En este caso, al trabajar con texto, se optó por duplicar la cantidad de ejemplos mediante la técnica que se describe a continuación. Se tomó cada mensaje, y se lo tradujo a otro idioma utilizando un servicio especializado en esa tarea. Una vez que se tiene el dataset traducido, se lo vuelve a traducir al español. El detalle en cuestión es que, en los servicios de traducción, el proceso no es simétrico. Esto quiere decir que en caso de tener un mensaje A, y se lo traduce a su correspondiente B en otro idioma, al querer traducirlo nuevamente al idioma original, es muy probable que la traducción sea equivalente, pero no igual. De esta manera, se tiene el dataset duplicado a aproximadamente 5000 mensajes, en donde si bien hay mensajes con el mismo significado, textualmente son diferentes. Esta técnica resultó ser muy útil y determinante al momento de entrenar las redes neuronales, repercutiendo en una capacidad de aprendizaje sumamente mejorada, en comparación con la versión original del dataset.
Otro aspecto a destacar de los dataset es la distribución de las conductas. En un grupo de trabajo, los integrantes que componen al mismo tienen una determinada tarea en común, y se supone que todos interactúan de forma tal que se garantice el cumplimiento la tarea en cuestión. Este tipo de contexto provoca que el dataset con el que se cuenta, esté desbalanceado en cuanto a la cantidad de mensajes etiquetados de cada conducta. Por ejemplo, la cantidad de mensajes etiquetados de conductas negativas, es mucho menor que la cantidad de mensajes de conductas positivas o de respuesta. Esto provocó que se haya tenido que efectuar un leve balanceo de clases, eliminando ejemplos redundantes que pertenezcan a categorías con ejemplos excesivos. Esta decisión también contribuyó al entrenamiento de las redes, permitiendo que aprendan mejor a predecir aquellas categorías con menor cantidad de ejemplos.
14https://medium.com/nanonets/how-to-use-deep-learning-when-you-have-limited-data-part-2-data-
108
A continuación, se proveen tablas para indicar el balanceo que se realizó sobre el dataset ya aumentado, es decir ya habiendo sido sometido al servicio de traducción. En dichas tablas se muestran las distribuciones de categorizaciones para el dataset sin balancear, y balanceado, respectivamente. Además de las distribuciones para cada conducta, se muestra una tabla más, agrupando las conductas por reacciones, a fin de facilitar la visualización del desbalance de clases. Como se podrá observar en las tablas 6.1 y 6.2, si bien para algunas categorías se eliminaron mensajes redundantes, en otras se duplicaron o triplicaron los mensajes. Esta técnica si bien puede ser peligrosa, fue necesaria para obtener un dataset más balanceado. El overfitting que puede producir la duplicación de estas clases se solucionó mediante una regularización (léase Dropout rate, etc.) más fuerte al momento de desarrollar las arquitecturas de las redes neuronales.
A modo de evitar comparar permanentemente las primeras dos tablas con las dos últimas, se agrega la cantidad original de mensajes seguido a la cantidad nueva, en las Tablas 6.1 y 6.2. Para el caso de los mensajes etiquetados con la conducta C1 y C2, no se realizó balanceo alguno.
Conducta IPA Cantidad de Mensajes
C1. Muestra Solidaridad 540 C2. Muestra Relajamiento 194
C3. Muestra Acuerdo 436 (antes 636) C4. Da Sugerencia 540 (antes 640) C5. Da Opinión 534 (antes 634) C6. Da Información 576 (antes 1076) C7. Pide Información 548 (antes 274)
C8. Pide Opinión 500 (antes 250) C9. Pide Sugerencia 144 (antes 72) C10. Muestra Desacuerdo 402 (antes 134)
C11. Muestra Tensión 498 (antes 166) C12. Muestra Antagonismo 78 (antes 26)
109
Reacción Cantidad de Mensajes Proporción ACTUAL Proporción Original (Antes)
Positiva 1170 (antes 1370) 0.234 0.295 Responde 1650 (antes 2350) 0.331 0.506 Pregunta 1192 (antes 596) 0.239 0.128 Negativa 978 (antes 326) 0.196 0.071
Tabla 6.2. Distribución de reacciones del dataset habiendo aplicado balanceo de clases. Se trata de una agrupación de las conductas por reacciones, para facilitar la visualización.
En esta última tabla puede apreciarse claramente el balanceo de clases obtenido con respecto a la distribución original. La tercer columna se utiliza para comparar las proporciones de cada clase, en este caso se utilizó la tabla con las reacciones debido a que facilita más la comprensión de la técnica aplicada.
Por último, se detallan las métricas a emplear en la siguiente sección, las cuales consisten en: accuracy, recall, precision, y F1 Score.
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑇𝑃 + 𝑇𝑁
𝑃 + 𝑁
=
𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃
𝑃
=
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
𝐹1 𝑆𝑐𝑜𝑟𝑒 = 2 ∗
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
=
2 ∗ 𝑇𝑃
2 ∗ 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁
110
A modo de clarificación, se tienen las siguientes referencias: - TP: True Positives (Verdaderos Positivos)
- TN: True Negatives (Verdaderos Negativos) - FP: False Positives (Falsos Positivos)
- FN: False Negatives (Falsos Negativos) - P: Positives (Suma de los positivos) - N: Negatives (Suma de los negativos)