• No se han encontrado resultados

Asignaci´ on de categor´ıas a los textos

2.7 An´ alisis de sentimiento

3.1.2 Detecci´ on de temas

3.1.2.3 Asignaci´ on de categor´ıas a los textos

A partir de la matriz de caracter´ısticas se pueden determinar las palabras que describen mejor cada uno de los temas. Las filas de esta matriz representan las distintas categor´ıas encontradas y las columnas indican el peso de cada palabra en esa categor´ıa (tomando las de mayor peso se tienen las m´as influyentes).

Analizando la matriz de pesos, los textos poseen un valor para cada categor´ıa que indica el grado de pertenencia del texto dentro de ella. Otro m´etodo que tambi´en se emple´o para determinar la pertenencia de un texto a una categor´ıa consisti´o en usar la medida de similitud coseno entre las filas de la matriz de caracter´ısticas y las de la matriz inicial. Estas dos formas de determinar las categor´ıas de los textos arrojaron resultados similares (del orden del 95 % de coincidencia en las pruebas realizadas). Se opt´o por usar la matriz de pesos, ya que de ese modo los valores elevados se manten´ıan, mientras que realizando la similitud coseno todos los valores obtenidos eran menores que uno. Para determinar las relaciones entre categor´ıas y textos se han realizado dos aproximaciones distintas en funci´on de la definici´on de pertenencia considerada. Ambas aproximaciones se especifican a continuaci´on:

Primera aproximaci´on: Se ha considerado que un texto pertenece s´olo a una categor´ıa, de forma cada texto pertenece s´olo a la categor´ıa en la que

tiene un valor mayor. En los casos en los que todos los valores son cero, se indica que el texto es no relevante. Esto se da cuando ninguna de las palabras del texto se encuentra entre las palabras que se obtuvieron tras el preproceso. Para diferenciar la importancia de cada texto en las distintas categor´ıas se han discretizado estos valores atendiendo a la siguiente escala en funci´on del valor

pdel peso de cada texto:

No relevante: p= 0

Muy poco relevante: 0< p <0,1

Poco relevante: 0,1≤p <0,3

Relevante: 0,3≤p <0,6

Muy relevante: p > 0,8

Esta escala se ha determinado de forma emp´ırica analizando la distribuci´on de los elementos de la matriz de pesos y realizando pruebas en distintos corpus. Segunda aproximaci´on: Se ha considerado que un texto puede pertenecer

a diferentes categor´ıas. Para determinar los textos incluidos en cada categor´ıa se tiene en cuenta la discretizaci´on anterior. Todos los textos no relevantes o muy poco relevantes no se incluyen en ninguna categor´ıa. El n´umero de textos relevantes en cada categor´ıa aumenta, debido a la inclusi´on de un mismo texto en varias categor´ıas. As´ı se modeliza mejor la pertenencia de un texto a una categor´ıa, ya que se recoge informaci´on que antes se estaba perdiendo.

3.1.3

An´alisis de sentimiento

El principal problema al realizar una herramienta que detectase autom´aticamente el sentimiento en lostweets ha sido la gran escasez de recursos en espa˜nol. Seg´un la literatura, la t´ecnica que ofrece mejores resultados es el aprendizaje autom´atico, pero para llevarlo a cabo se necesita un corpus etiquetado. Como no se ha encontrado ning´un corpus etiquetado en funci´on de su polaridad de caracter´ısticas similares al de este estudio, se ha tenido que abordar el problema usando un diccionario con el valor afectivo de ciertas palabras. Se ha escogido una ampliaci´on de ANEW11, un referente en este tipo de diccionarios. Fue elaborado por Bradley y Lang [23] en 1999 y consta de 1034 palabras. La ampliaci´on usada ha sido realizada por Warriner et al. [24], donde se han recogido cerca de 14000 palabras. Aunque este corpus estaba tambi´en en ingl´es, se ha usado el trabajo del profesor Daniel Gayo-Avello de la Universidad de Oviedo, que proporciona en su blog [25] una conversi´on semi-autom´atica de dicho corpus al castellano (realiza una traducci´on al castellano y una segunda traducci´on al ingl´es como validaci´on, adem´as de ciertas comprobaciones manuales). Tras esta

traducci´on se cuenta con m´as de 9181 palabras (que quedan reducidas a 7901 tras la fase destemming).

Se han utilizado los tres componentes que se emplean normalmente a la hora de distinguir emociones:

Valencia12: Indica el agrado ante un est´ımulo. Permite determinar si un sujeto se siente contento o triste al leer una determinada palabra. En un extremo de esta escala se encuentran las emociones de felicidad, satisfacci´on o deseo. En el otro, emociones como infelicidad, molestia, melancol´ıa, desesperaci´on o aburrimiento.

Excitaci´on13: Indica la intensidad de la emoci´on que provoca el est´ımulo. Per- mite identificar si un sujeto se muestra calmado o excitado al leer una palabra. En un extremo, el lector se encuentra estimulado, excitado, fren´etico, nervioso, despierto o atento. En el otro, el sujeto manifiesta relajaci´on, calma, somno- lencia, aburrimiento o lentitud.

Dominaci´on14: Indica el grado de control que ejerce el est´ımulo sobre el indivi- duo. En un extremo, el lector se encuentra controlado, influenciado, sumiso o sometido. En el otro extremo, las emociones implicadas son control, autonom´ıa o autoridad.

En la Figura 3.1 se muestra el formulario15 empleado a la hora de asignar un valor a cada uno de los indicadores anteriores. Fue utilizado en la confecci´on del corpus ANEW por Bardley y Lang y fue rellenado por cada uno de los participantes.

12En ingl´es,valence 13En ingl´es,arousal 14En ingl´es,dominance

Figura 3.1: Escalas para asignar los valores de valencia, excitaci´on y dominaci´on (SAM)[26].

Un gran n´umero de investigadores, entre los cuales se encuentran Mehrabian y Russell [27], Wundt [28] o Tellegen [29], han defendido una visi´on dimensional de las emociones. El modelo propuesto por Russell [30] afirma que todos los estados afec- tivos del individuo surgen a partir de dos sistemas neuropsicol´ogicos denominados valencia y excitaci´on.

Debido al car´acter bidimensional de esta aproximaci´on se pueden representar las distintas emociones con la ayuda de una circunferencia. A esta circunferencia se la conoce como modelo circumplejo de Russell. En la Figura 3.2 aparece representado este modelo junto con otros tres posteriores basados en ´el.

Figura 3.2: Cuatro modelos circumplejos de la afecci´on [31].

En el diccionario usado, cada uno de los indicadores anteriores (valencia, exci- taci´on y dominaci´on) presenta un valor comprendido entre 1 y 9. Este n´umero se corresponde con la media de los valores obtenidos a partir de los sujetos a los que se les realiz´o el estudio. Se cuenta tambi´en con la desviaci´on t´ıpica correspondiente a esa media.

Documento similar