Carga emocional del mensajes final - An´ alisis de sentimiento final

Experimento 1 de aprendizaje autom´ atico

5. RESULTADOS Y DISCUSI ´ ON

5.2. An´ alisis de sentimiento final

5.2.2. Carga emocional del mensajes final

Para la realización de este proceso del modelo se han valorado distintos experimentos, estos experimentos seleccionados han sido los más eficaces realizados con las dos tipos de técnicas más desarrolladas actualmente:

Aprendizaje autom´atico

Enfoque basado en el l´exico - Diccionarios

A continuaci´on, en la Tabla 5.8 se muestran la fiabilidad de cada uno de estos experimentos.

TIPO T´ECNICA EXPERIMENTO % ACIERTO

Experimento 1 de aprendizaje automático 67 Aprendizaje automático Experimento 2 de aprendizaje automático 72 Experimento 3 de aprendizaje automático 85 Léxico - Diccionarios Experimento de enfoque basado en el léxico 82

82 5.2. Análisis de sentimiento final Tal y como se puede observar en laTabla 5.8, el modelo más fiable es el del Experimento 3 de aprendizaje automático, el cual posee un porcentaje de acierto del 85 %, significativamente superior al de los otros dos experimentos de aprendizaje automático y ligeramente mejor que el experimento de enfoque basado en el léxico.

A pesar de que cada unos de estos m´etodos funcionan de forma diferente, en todos ellos trata de analizarse la polaridad de cada uno de los mensajes, la cual se suele dividir en 6 en funci´on del sentimiento que estos transmitan:

N: Polaridad negativa de baja intensidad N+: Polaridad negativa de alta intensidad P: Polaridad positiva de baja intensidad P+: Polaridad positiva de intensidad NEU: Polaridad neutra

NONE: Ausencia de polaridad

La propuesta que se sugiere es una mezcla de las técnicas utilizada en el modelo 3 de aprendizaje automático y de las usadas en el experimento de enfoque basado en el léxico.

5.2.2.1. Propuesta Carga emocional del mensaje

La finalidad principal de este método es la mencionada anteriormente, clasificar los mensajes en función del sentimiento (o polaridad) que transmiten (N, N+, P, P+, NEU, NO- NE).Para llegar a esto, se deben utilizar las herramientas WEKA y scikit-leran (incluyen una serie de algoritmos de aprendizaje automático y ambas se complementan) con el algo- ritmo SVM (consiste en un conjunto de algoritmos de aprendizaje supervisado) tipo lineal (Hurtado et al., 2015 [25]) a través de las librer´ıas y clasificadoresLibSVM yLibLinear, cuyo software a sido desarrollado en Python. A la hora de implementar esto, inicialmente se debe

5. RESULTADOS Y DISCUSI ´ON 83 utilizar la aproximaci´on bag of words (representa cada uno de los mensajes como un vector de caracter´ısticas que contiene las frecuencias de las propiedades seleccionadas) as´ı como se deben tener en cuenta las siguientes caracter´ısticas:

1. Considerar ´unicamente unigramas (un unigrama equivale a una palabra del mensaje del tweet) de lemas obtenidos en el preproceso de los tweets con una m´ınima frecuencia establecida anteriormente (f).

2. Considerar loshashtags (#tag) como una caracter´ıstica.

3. Considerar las menciones a usuarios (@user) como una caracter´ıstica. 4. Unificar el conjunto de los n´umeros como una caracter´ıstica.

5. Unificar todas las fechas como una caracter´ısticas.

6. Unificar los signos de puntuaci´on como una caracter´ıstica.

7. Sustituir cada emoticono por su categor´ıa previamente establecida (happy, sad, tongue, wink y other, en español, contento, triste, lengua, guiño y otro respectivamente). 8. Considerar sólo como caracter´ıstica los tokens de cierta categor´ıa morfosintáctica prees-

tablecida (selPOS).

9. Utilizar como recurso externo, léxicos de polaridad de lemas y palabras (DIC). 10. Excluir términos pertenecientes a ciertas categor´ıas morfosintácticas poco significativas

para el an´alisis de sentimiento.

Una vez esto claro, lo primero que se debe hacer es determinar el contexto de cada aspecto a trav´es de una ventana fija definida, de longitud 3 palabras tanto a la derecha como a la izquierda del aspecto que se quiere analizar (Pla y Hurtado, 2014 [28]).

Este sistema propuesto necesita un entrenamiento previo del clasificador, aunque lo más eficiente es utilizar el realizado por Carlos Hernández, Ferran Pla, Llu´ıs-F. y Jaime Guzmán, 2017 [27].

84 5.2. An´alisis de sentimiento final Una vez realizado este procedimiento, se ha pensado que lo mejor es comparar los resultados obtenidos con los que se van a obtener mediante un enfoque basado en el l´exico, es decir con diccionarios.

Para analizar la carga emocional a partir de estos diccionarios, se propone la herramienta SentiStrength (Thelwall, Buckley, Paltoglou y Cai, 2010 [47] ; Thelwall, Buckley y Paltoglou, 2012 [48]), la cual utiliza los siguientes lexicones:

SentiWordNet (Esuli y Sebastianini, 2006 [33]; Baccianella, Esuli y Sebastianini, 2010 [34]).

Corpus de expresiones subjetivas Multi-perspective Question Answering (MPQA)(Wilson, Wiebe y Hoffmann, 2005 [35]).

Esta herramienta dota cada mensaje de un ´ındice que variará de 1 a 5 tanto para polaridades positivas como para negativas (en este caso el ´ındice será negativo). Por lo que para compararlo con la nomenclatura propuesta en el método de aprendizaje automático se ha decidido equiparar cada tipo de polaridad tal y como se detalla en la Tabla 5.9

´Indice de polaridad (-5 a 5) Equiparaci´on polaridad

-5 y -4 N+ -3 y -2 N -1 y 1 NEU 2 y 3 P 4 y 5 P+ No se sabe NONE

Tabla 5.9: Adecuación de la nomenclatura según la intensidad de la polaridad.Fuente: Elaboración propia

A la hora de ejecutar esta herramienta se debe verificar que se ejecutan el conjunto de archivos que se presentan a continuaci´on:

5. RESULTADOS Y DISCUSI ´ON 85

EmotionLookUpTable.txt: Listado de palabras donde cada una de ella va dotada de un valor num´erico que corresponde con el nivel de intensidad de sentimiento (valor entre -5 y 5, donde los valores negativos corresponden a t´erminos con un sentimiento negativo y los positivos con un sentimiento positivo).

EmoticonLookUpTable.txt: Listado de emoticonos donde a cada uno de ellos se le da un valor de intensidad de sentimiento entre -5 y 5.

NegatingWordList.txt: Listado de palabras de negaci´on, es decir, de t´erminos que se utilizan para invertir el sentimiento de la siguiente palabra. Por ejemplo:No, nadie...

IdiomLookUpTable.txt: Listado de expresiones idiom´aticas con su ap´endice de sentimiento. Por ejemplo: a duras penas...

SlangLookUpTable.txt: Listado de traducciones de expresiones coloquiales o vulga- res. Por ejemplo: q equivale a que.

BoosterWordList.txt: Listado de modificadores de la intensidad del sentimiento. Por ejemplo: estremadamente, muy...

Una de las principales ventajas de los diccionarios que utiliza esta herramienta es que son fácilmente editables por cualquier usuario (sin necesidad de conocimiento de programación), as´ı como estos tienen la posibilidad de ajustar los pesos de cada uno de los términos.

Una vez finalizado este segundo experimento, se deben contrastar los dos métodos em- pleados y en función de los resultados que se obtengan en esta comparación, al tweet se le va a asignar definitivamente una polaridad u otra. A continuación, en la Tabla 5.10 se muestran las posibles comparativas as´ı como su asignación final, donde las polaridades X e Y se refieren a cualquiera de las nombradas anteriormente (N, P, NEU, NONE).

In document Mejora de la interpretabilidad de mensajes de Twitter (página 81-86)