Experimento 1 de aprendizaje autom´ atico
5. RESULTADOS Y DISCUSI ´ ON
5.2. An´ alisis de sentimiento final
5.2.2. Carga emocional del mensajes final
Para la realizaci´on de este proceso del modelo se han valorado distintos experimentos, estos experimentos seleccionados han sido los m´as eficaces realizados con las dos tipos de t´ecnicas m´as desarrolladas actualmente:
Aprendizaje autom´atico
Enfoque basado en el l´exico - Diccionarios
A continuaci´on, en la Tabla 5.8 se muestran la fiabilidad de cada uno de estos experi- mentos.
TIPO T´ECNICA EXPERIMENTO % ACIERTO
Experimento 1 de aprendizaje autom´atico 67 Aprendizaje autom´atico Experimento 2 de aprendizaje autom´atico 72 Experimento 3 de aprendizaje autom´atico 85 L´exico - Diccionarios Experimento de enfoque basado en el l´exico 82
82 5.2. An´alisis de sentimiento final Tal y como se puede observar en laTabla 5.8, el modelo m´as fiable es el del Experimento 3 de aprendizaje autom´atico, el cual posee un porcentaje de acierto del 85 %, significativamente superior al de los otros dos experimentos de aprendizaje autom´atico y ligeramente mejor que el experimento de enfoque basado en el l´exico.
A pesar de que cada unos de estos m´etodos funcionan de forma diferente, en todos ellos trata de analizarse la polaridad de cada uno de los mensajes, la cual se suele dividir en 6 en funci´on del sentimiento que estos transmitan:
N: Polaridad negativa de baja intensidad N+: Polaridad negativa de alta intensidad P: Polaridad positiva de baja intensidad P+: Polaridad positiva de intensidad NEU: Polaridad neutra
NONE: Ausencia de polaridad
La propuesta que se sugiere es una mezcla de las t´ecnicas utilizada en el modelo 3 de aprendizaje autom´atico y de las usadas en el experimento de enfoque basado en el l´exico.
5.2.2.1. Propuesta Carga emocional del mensaje
La finalidad principal de este m´etodo es la mencionada anteriormente, clasificar los men- sajes en funci´on del sentimiento (o polaridad) que transmiten (N, N+, P, P+, NEU, NO- NE).Para llegar a esto, se deben utilizar las herramientas WEKA y scikit-leran (incluyen una serie de algoritmos de aprendizaje autom´atico y ambas se complementan) con el algo- ritmo SVM (consiste en un conjunto de algoritmos de aprendizaje supervisado) tipo lineal (Hurtado et al., 2015 [25]) a trav´es de las librer´ıas y clasificadoresLibSVM yLibLinear, cuyo software a sido desarrollado en Python. A la hora de implementar esto, inicialmente se debe
5. RESULTADOS Y DISCUSI ´ON 83 utilizar la aproximaci´on bag of words (representa cada uno de los mensajes como un vector de caracter´ısticas que contiene las frecuencias de las propiedades seleccionadas) as´ı como se deben tener en cuenta las siguientes caracter´ısticas:
1. Considerar ´unicamente unigramas (un unigrama equivale a una palabra del mensaje del tweet) de lemas obtenidos en el preproceso de los tweets con una m´ınima frecuencia establecida anteriormente (f).
2. Considerar loshashtags (#tag) como una caracter´ıstica.
3. Considerar las menciones a usuarios (@user) como una caracter´ıstica. 4. Unificar el conjunto de los n´umeros como una caracter´ıstica.
5. Unificar todas las fechas como una caracter´ısticas.
6. Unificar los signos de puntuaci´on como una caracter´ıstica.
7. Sustituir cada emoticono por su categor´ıa previamente establecida (happy, sad, tongue, wink y other, en espa˜nol, contento, triste, lengua, gui˜no y otro respectivamente). 8. Considerar s´olo como caracter´ıstica los tokens de cierta categor´ıa morfosint´actica prees-
tablecida (selPOS).
9. Utilizar como recurso externo, l´exicos de polaridad de lemas y palabras (DIC). 10. Excluir t´erminos pertenecientes a ciertas categor´ıas morfosint´acticas poco significativas
para el an´alisis de sentimiento.
Una vez esto claro, lo primero que se debe hacer es determinar el contexto de cada aspecto a trav´es de una ventana fija definida, de longitud 3 palabras tanto a la derecha como a la izquierda del aspecto que se quiere analizar (Pla y Hurtado, 2014 [28]).
Este sistema propuesto necesita un entrenamiento previo del clasificador, aunque lo m´as eficiente es utilizar el realizado por Carlos Hern´andez, Ferran Pla, Llu´ıs-F. y Jaime Guzm´an, 2017 [27].
84 5.2. An´alisis de sentimiento final Una vez realizado este procedimiento, se ha pensado que lo mejor es comparar los resul- tados obtenidos con los que se van a obtener mediante un enfoque basado en el l´exico, es decir con diccionarios.
Para analizar la carga emocional a partir de estos diccionarios, se propone la herramien- ta SentiStrength (Thelwall, Buckley, Paltoglou y Cai, 2010 [47] ; Thelwall, Buckley y Paltoglou, 2012 [48]), la cual utiliza los siguientes lexicones:
SentiWordNet (Esuli y Sebastianini, 2006 [33]; Baccianella, Esuli y Sebastianini, 2010 [34]).
Corpus de expresiones subjetivas Multi-perspective Question Answering (MPQA)(Wilson, Wiebe y Hoffmann, 2005 [35]).
Esta herramienta dota cada mensaje de un ´ındice que variar´a de 1 a 5 tanto para pola- ridades positivas como para negativas (en este caso el ´ındice ser´a negativo). Por lo que para compararlo con la nomenclatura propuesta en el m´etodo de aprendizaje autom´atico se ha decidido equiparar cada tipo de polaridad tal y como se detalla en la Tabla 5.9
´Indice de polaridad (-5 a 5) Equiparaci´on polaridad
-5 y -4 N+ -3 y -2 N -1 y 1 NEU 2 y 3 P 4 y 5 P+ No se sabe NONE
Tabla 5.9: Adecuaci´on de la nomenclatura seg´un la intensidad de la polaridad.Fuente: Elaboraci´on propia
A la hora de ejecutar esta herramienta se debe verificar que se ejecutan el conjunto de archivos que se presentan a continuaci´on:
5. RESULTADOS Y DISCUSI ´ON 85
EmotionLookUpTable.txt: Listado de palabras donde cada una de ella va dotada de un valor num´erico que corresponde con el nivel de intensidad de sentimiento (valor entre -5 y 5, donde los valores negativos corresponden a t´erminos con un sentimiento negativo y los positivos con un sentimiento positivo).
EmoticonLookUpTable.txt: Listado de emoticonos donde a cada uno de ellos se le da un valor de intensidad de sentimiento entre -5 y 5.
NegatingWordList.txt: Listado de palabras de negaci´on, es decir, de t´erminos que se utilizan para invertir el sentimiento de la siguiente palabra. Por ejemplo:No, nadie...
IdiomLookUpTable.txt: Listado de expresiones idiom´aticas con su ap´endice de sen- timiento. Por ejemplo: a duras penas...
SlangLookUpTable.txt: Listado de traducciones de expresiones coloquiales o vulga- res. Por ejemplo: q equivale a que.
BoosterWordList.txt: Listado de modificadores de la intensidad del sentimiento. Por ejemplo: estremadamente, muy...
Una de las principales ventajas de los diccionarios que utiliza esta herramienta es que son f´acilmente editables por cualquier usuario (sin necesidad de conocimiento de programaci´on), as´ı como estos tienen la posibilidad de ajustar los pesos de cada uno de los t´erminos.
Una vez finalizado este segundo experimento, se deben contrastar los dos m´etodos em- pleados y en funci´on de los resultados que se obtengan en esta comparaci´on, al tweet se le va a asignar definitivamente una polaridad u otra. A continuaci´on, en la Tabla 5.10 se muestran las posibles comparativas as´ı como su asignaci´on final, donde las polaridades X e Y se refieren a cualquiera de las nombradas anteriormente (N, P, NEU, NONE).