• No se han encontrado resultados

Clasificaci´ on del mensaje

Experimento 1 de interpretabilidad de mensajes

4.2. An´ alisis de sentimiento

4.2.1. Clasificaci´ on del mensaje

Una vez corregido el tweet y antes de pasar a analizar su carga emocional, este mensaje suele ser clasificado en funci´on de su categor´ıa (paso no siempre necesario a la hora de analizar un conjuntos de tweets).

Esta categor´ıa puede ser muy variable, ya que bien puede referirse a una activad (o t´opico) o a un conjunto de actividades o bien a una empresa o departamento en concreto u otro tipo de categor´ıa, dependiendo de lo que se quiera analizar.

En este apartado se analizar´an con un amplio nivel de detalle las mejores soluciones exis- tentes actualmente para realizar esta clasificaci´on, as´ı como posteriormente se especificar´an algunos de los problemas que surgen a la hora de realizar esto y sus posibles soluciones. Tal y como se ha comentado en el p´arrafo anterior, en funci´on del tipo de clasificaci´on que se quiera realizar, se van a diferenciar dos categor´ıas (las dos m´as comunes):

En funci´on de un t´opico. En funci´on de una empresa.

En ambos casos, el modelo es pr´acticamente el mismo, ya que lo ´unico que varia es especificar al principio las categor´ıas deseadas as´ı como seleccionar sus palabras claves o bien en que consistir´a su aprendizaje autom´atico o semiautom´atico. A continuaci´on se detalla uno de los m´etodos m´as efectivos a la hora de realizar este tipo de clasificaci´on con un ejemplo concreto.

El equipo ELiRF-UPV durante el Taller de An´alisis de Sentimientos (TASS) [12], deta- llado anteriormente, dise˜n´o un modelo que permit´ıa clasificar cada tweet en funci´on de un

4. ESTADO DEL ARTE 49 campo (o t´opico). Para la realizaci´on de este modelo propuesto. Primeramente, se deben es- pecificar cada uno de los t´opicos. Para este experimento se han establecido los que aparecen en la Tabla 4.5 (poniendo un ejemplo de cada).

T´opico Ejemplo

Cine Ayer fuimos a ver Saw VIII

Deportes Me encanto la competici´on de nataci´on de ayer Entretenimiento Luc´ıa siempre juega al monopoli

Econom´ıa El PIB de Espa˜na es de 1,232 billones de euros Literatura Os recomiendo que os le´ais el libroLa sombra del viento

F´utbol El mejor jugador del mundo es Cristiano Ronaldo M´usica Nos gust´o mucho el concierto de Maluma Pol´ıtica No entiendo como la gente puede votar a Podemos

Tecnolog´ıa El nuevo Iphone es una pasada

Otros Estoy cansado

Tabla 4.5: T´opicos utilizados en Experimento 1 de Clasificaci´on.Fuente: Elaboraci´on propia

Para esta clasificaci´on se ha utilizado la herramienta WEKA [21] [22] (Waikato Envi- ronment for Knowledge Analysis, entorno para an´alisis del conocimiento de la Universidad de Waikato en espa˜nol), la cual consiste en una plataforma de software para el aprendizaje autom´atico y la miner´ıa de datos escrito en Java, a su vez el m´etodo empleado es el SMO . Este modelo se ha realizado mediante un clasificador binario, el cual funciona tal y como se puede observar en la Figura 4.3, es decir, el modelo lo que hace es analizar primero si pertenece al primer t´opico, si es as´ı, este se clasifica como T´opico 1 y deja de analizar el mensaje, en cambio si no lo es se clasifica como No T´opico 1 y pasa a analizar si pertenece al t´opico 2 y as´ı sucesivamente.

50 4.2. An´alisis de sentimiento

Figura 4.3:Clasificador binario del experimento 1 de Clasificaci´on.Fuente: Elaboraci´on propia

El principal inconveniente de este m´etodo (SMO) es que es posible que a veces a alg´un mensaje no se le llegue a asignar ning´un t´opico, ya que este, ´unicamente asigna 1 si pertenece a un t´opico o 0 si no. Una alternativa para tratar de resolver este problema es la de utilizar la librer´ıa libSVM, la cual en vez de fijar 1 o 0 si es o no es correcta respectivamente, asigna una probabilidad a todas las clases, por lo que si a un tweet no se le asigna ninguna clase mediante el m´etodo SMO, este mensaje se clasifica en la clase m´as probable proporcionada por los clasificadores obtenidos con libSVM.

Para analizar estos mensajes para su posterior clasificaci´on se utilizan los lemas de los tweets cuya frecuencia en un conjunto representativo de entrenamiento sea mayor o igual a 1 (f≥1) y cuya categor´ıa gramatical sea verbo o nombre.

Mediante este m´etodo se ha obtenido un porcentaje de acierto del75,6 %. Este porcentaje es muy variable ya que depende mucho del tipo de categor´ıas en las que se quieran clasificar los mensajes, ya bien sea por la cantidad de categor´ıas o por lo espec´ıficas que sean ´estas. De todas formas con este m´etodo se est´an obteniendo aciertos entre un 72 % y un 85 %, con los cual, se puede afirmar que son bastante fiables.

A pesar de que el modelo esta claro, hay veces que al aplicarlo surgen problemas. El problema m´as com´un y que afecta directamente a la hora de realizar esta clasificaci´on es el caso en que el nombre de una empresa (u otro tipo de organizaci´on) tiene un significado ambiguo, es decir, que la propia palabra no siempre se refiere a la empresa. La forma de resolver este problema se explica a continuaci´on:

4. ESTADO DEL ARTE 51

Nombre con significado ambiguo

Actualmente, controlar la reputaci´on de una empresa a trav´es de Internet es algo esen- cial. A la hora de realizar este control uno de los problemas m´as comunes es el nombrado anteriormente, nombres de empresas con significados ambiguos. Este es por ejemplo el caso deSantander, puede referirse al banco o a la ciudad.

Este problema es especialmente dif´ıcil de resolver enmicroblogging (servicios en los que se env´ıan mensajes breves como por ejemplo la plataforma Twitter), ya que existe un contexto demasiado corto, lo cual muchas veces es un problema a la hora de desambiguar ese nombre. La mejor soluci´on para resolver este problema es la propuesta por Spina, Amig´o y Gonzalo (2012) [23], la cual consiste b´asicamente en seleccionar todos los tweets en los que aparece el nombre de la empresa y posteriormente elaborar una clasificaci´on binaria de relacionados (+) y no relacionados (-). En la pr´actica, esto podr´ıa ser un componente de filtrado para servicios comoSocialMention.com, donde si por ejemplo consultasSantander aparecen cifras de:

Fuerza: (Strenght-72 %)

Sentimiento: (Sentiment-6,2 %)

Pasi´on:(Passion-47 %)

Alcance:(Reach-43 %)

Esta observaci´on se basa en otras dos observaciones intuitivas:

1. Filtro de palabras clave:Consiste en recolectar las palabras clave, las cuales pueden ser positivas (+) o negativas (-), con la finalidad de aislar informaci´on. Un ejemplo podr´ıa ser el que aparece en laTabla 4.6

52 4.2. An´alisis de sentimiento

Nombre empresa Palabra clave Relaci´on Financiaci´on + Santander

Jardines -

Tabla 4.6: Ejemplo de palabras clave relacionadas con Santander.Fuente: Elaboraci´on propia

2. Clase mayoritaria: La relaci´on entre + y - no sigue una distribuci´on normal (es muy variable), sino que sigue una distribuci´on sesgada (por lo menos si se considera a corto plazo), normalmente, bien la mayor´ıa de los tweets son sobre la empresa o bien la mayor´ıa de estos no tienen relaci´on alguna con ella. Predecir cual es cada una de estas situaciones puede ser una entrada valiosa para buscar soluciones algor´ıtmicas al problema.

El objetivo del modelo es proporcionar una evidencia cuantitativa que respalde (o rechace) las intuiciones. Para esto se utiliza el WePS-3 (primer conjunto de datos construido para abordar este problema) y una especie de t´ecnica de representaci´on de huella dactilar, que consiste en la visualizaci´on de los resultados del sistema que son ´utiles para comprender el comportamiento del sistema (sesgos variables).

Aplicando todo esto, el sistema final realizado por LSIR obtuvo un porcentaje de acierto del 83 %. Esto se ha conseguido seleccionando previamente un conjunto clave de palabras para cada empresa objeto de estudio, y tal y como se ha explicado previamente en funci´on de si aparecen esas palabras o no, se manifiesta si el mensaje est´a relacionado con el tema o si por el contrario no lo est´a. Todo esto realizado con un clasificador SVM (su funcionamiento se explica en la secci´on 4.2.2)

Otro buen sistema es el desarrollado por ITC-UT (75 %), el cual se basa en una clasifi- caci´on de dos etapas:

1. Predice la clase de cada empresa de acuerdo con la proporci´on de tweets relacionados con nombre de empresa.

4. ESTADO DEL ARTE 53 2. Aplicar una heur´ıstica por cada clase, bas´andose principalmente en el etiquetado PoS

y la etiqueta de la entidad nombrada del nombre de la empresa.

Este ´ultimo modelo se ha decidido no desarrollarlo en profundidad a causa de que su fiabilidad es perceptiblemente inferior al modelo anteriormente analizado.

Documento similar