Clasificaci´ on del mensaje - An´ alisis de sentimiento

Experimento 1 de interpretabilidad de mensajes

4.2. An´ alisis de sentimiento

4.2.1. Clasificaci´ on del mensaje

Una vez corregido el tweet y antes de pasar a analizar su carga emocional, este mensaje suele ser clasificado en funci´on de su categor´ıa (paso no siempre necesario a la hora de analizar un conjuntos de tweets).

Esta categor´ıa puede ser muy variable, ya que bien puede referirse a una activad (o t´opico) o a un conjunto de actividades o bien a una empresa o departamento en concreto u otro tipo de categor´ıa, dependiendo de lo que se quiera analizar.

En este apartado se analizarán con un amplio nivel de detalle las mejores soluciones exis- tentes actualmente para realizar esta clasificación, as´ı como posteriormente se especificarán algunos de los problemas que surgen a la hora de realizar esto y sus posibles soluciones. Tal y como se ha comentado en el párrafo anterior, en función del tipo de clasificación que se quiera realizar, se van a diferenciar dos categor´ıas (las dos más comunes):

En función de un tópico. En función de una empresa.

En ambos casos, el modelo es prácticamente el mismo, ya que lo único que varia es especificar al principio las categor´ıas deseadas as´ı como seleccionar sus palabras claves o bien en que consistirá su aprendizaje automático o semiautomático. A continuación se detalla uno de los métodos más efectivos a la hora de realizar este tipo de clasificación con un ejemplo concreto.

El equipo ELiRF-UPV durante el Taller de Análisis de Sentimientos (TASS) [12], deta- llado anteriormente, diseñó un modelo que permit´ıa clasificar cada tweet en función de un

4. ESTADO DEL ARTE 49 campo (o tópico). Para la realización de este modelo propuesto. Primeramente, se deben especificar cada uno de los tópicos. Para este experimento se han establecido los que aparecen en la Tabla 4.5 (poniendo un ejemplo de cada).

T´opico Ejemplo

Cine Ayer fuimos a ver Saw VIII

Deportes Me encanto la competici´on de nataci´on de ayer Entretenimiento Luc´ıa siempre juega al monopoli

Econom´ıa El PIB de Espa˜na es de 1,232 billones de euros Literatura Os recomiendo que os le´ais el libroLa sombra del viento

Fútbol El mejor jugador del mundo es Cristiano Ronaldo Música Nos gustó mucho el concierto de Maluma Pol´ıtica No entiendo como la gente puede votar a Podemos

Tecnolog´ıa El nuevo Iphone es una pasada

Otros Estoy cansado

Tabla 4.5: Tópicos utilizados en Experimento 1 de Clasificación.Fuente: Elaboración propia

Para esta clasificación se ha utilizado la herramienta WEKA [21] [22] (Waikato Envi- ronment for Knowledge Analysis, entorno para análisis del conocimiento de la Universidad de Waikato en español), la cual consiste en una plataforma de software para el aprendizaje automático y la miner´ıa de datos escrito en Java, a su vez el método empleado es el SMO . Este modelo se ha realizado mediante un clasificador binario, el cual funciona tal y como se puede observar en la Figura 4.3, es decir, el modelo lo que hace es analizar primero si pertenece al primer tópico, si es as´ı, este se clasifica como Tópico 1 y deja de analizar el mensaje, en cambio si no lo es se clasifica como No Tópico 1 y pasa a analizar si pertenece al tópico 2 y as´ı sucesivamente.

50 4.2. An´alisis de sentimiento

Figura 4.3:Clasificador binario del experimento 1 de Clasificaci´on.Fuente: Elaboraci´on propia

El principal inconveniente de este método (SMO) es que es posible que a veces a algún mensaje no se le llegue a asignar ningún tópico, ya que este, únicamente asigna 1 si pertenece a un tópico o 0 si no. Una alternativa para tratar de resolver este problema es la de utilizar la librer´ıa libSVM, la cual en vez de fijar 1 o 0 si es o no es correcta respectivamente, asigna una probabilidad a todas las clases, por lo que si a un tweet no se le asigna ninguna clase mediante el método SMO, este mensaje se clasifica en la clase más probable proporcionada por los clasificadores obtenidos con libSVM.

Para analizar estos mensajes para su posterior clasificaci´on se utilizan los lemas de los tweets cuya frecuencia en un conjunto representativo de entrenamiento sea mayor o igual a 1 (f≥1) y cuya categor´ıa gramatical sea verbo o nombre.

Mediante este método se ha obtenido un porcentaje de acierto del75,6 %. Este porcentaje es muy variable ya que depende mucho del tipo de categor´ıas en las que se quieran clasificar los mensajes, ya bien sea por la cantidad de categor´ıas o por lo espec´ıficas que sean éstas. De todas formas con este método se están obteniendo aciertos entre un 72 % y un 85 %, con los cual, se puede afirmar que son bastante fiables.

A pesar de que el modelo esta claro, hay veces que al aplicarlo surgen problemas. El problema más común y que afecta directamente a la hora de realizar esta clasificación es el caso en que el nombre de una empresa (u otro tipo de organización) tiene un significado ambiguo, es decir, que la propia palabra no siempre se refiere a la empresa. La forma de resolver este problema se explica a continuación:

4. ESTADO DEL ARTE 51

Nombre con significado ambiguo

Actualmente, controlar la reputación de una empresa a través de Internet es algo esen- cial. A la hora de realizar este control uno de los problemas más comunes es el nombrado anteriormente, nombres de empresas con significados ambiguos. Este es por ejemplo el caso deSantander, puede referirse al banco o a la ciudad.

Este problema es especialmente dif´ıcil de resolver enmicroblogging (servicios en los que se env´ıan mensajes breves como por ejemplo la plataforma Twitter), ya que existe un contexto demasiado corto, lo cual muchas veces es un problema a la hora de desambiguar ese nombre. La mejor solución para resolver este problema es la propuesta por Spina, Amigó y Gonzalo (2012) [23], la cual consiste básicamente en seleccionar todos los tweets en los que aparece el nombre de la empresa y posteriormente elaborar una clasificación binaria de relacionados (+) y no relacionados (-). En la práctica, esto podr´ıa ser un componente de filtrado para servicios comoSocialMention.com, donde si por ejemplo consultasSantander aparecen cifras de:

Fuerza: (Strenght-72 %)

Sentimiento: (Sentiment-6,2 %)

Pasi´on:(Passion-47 %)

Alcance:(Reach-43 %)

Esta observaci´on se basa en otras dos observaciones intuitivas:

1. Filtro de palabras clave:Consiste en recolectar las palabras clave, las cuales pueden ser positivas (+) o negativas (-), con la finalidad de aislar informaci´on. Un ejemplo podr´ıa ser el que aparece en laTabla 4.6

52 4.2. An´alisis de sentimiento

Nombre empresa Palabra clave Relaci´on Financiaci´on + Santander

Jardines -

Tabla 4.6: Ejemplo de palabras clave relacionadas con Santander.Fuente: Elaboraci´on propia

2. Clase mayoritaria: La relación entre + y - no sigue una distribución normal (es muy variable), sino que sigue una distribución sesgada (por lo menos si se considera a corto plazo), normalmente, bien la mayor´ıa de los tweets son sobre la empresa o bien la mayor´ıa de estos no tienen relación alguna con ella. Predecir cual es cada una de estas situaciones puede ser una entrada valiosa para buscar soluciones algor´ıtmicas al problema.

El objetivo del modelo es proporcionar una evidencia cuantitativa que respalde (o rechace) las intuiciones. Para esto se utiliza el WePS-3 (primer conjunto de datos construido para abordar este problema) y una especie de técnica de representación de huella dactilar, que consiste en la visualización de los resultados del sistema que son útiles para comprender el comportamiento del sistema (sesgos variables).

Aplicando todo esto, el sistema final realizado por LSIR obtuvo un porcentaje de acierto del 83 %. Esto se ha conseguido seleccionando previamente un conjunto clave de palabras para cada empresa objeto de estudio, y tal y como se ha explicado previamente en función de si aparecen esas palabras o no, se manifiesta si el mensaje está relacionado con el tema o si por el contrario no lo está. Todo esto realizado con un clasificador SVM (su funcionamiento se explica en la sección 4.2.2)

Otro buen sistema es el desarrollado por ITC-UT (75 %), el cual se basa en una clasificaci´on de dos etapas:

1. Predice la clase de cada empresa de acuerdo con la proporci´on de tweets relacionados con nombre de empresa.

4. ESTADO DEL ARTE 53 2. Aplicar una heur´ıstica por cada clase, bas´andose principalmente en el etiquetado PoS

y la etiqueta de la entidad nombrada del nombre de la empresa.

Este ´ultimo modelo se ha decidido no desarrollarlo en profundidad a causa de que su fiabilidad es perceptiblemente inferior al modelo anteriormente analizado.

In document Mejora de la interpretabilidad de mensajes de Twitter (página 48-53)