Índice de Fórmulas
Capítulo 5. Propuesta de un Método Heurístico de Análisis de Sentimientos
5.4 Descripción de la propuesta
5.4.1 Preprocesamiento de tweets
Las prácticas comunes de los usuarios de Twitter mediante las que deforman el lenguaje natural, convierten los mensajes de este medio social, conocidos como tweets, en un reto para el análisis de sentimientos (Liu B. , 2010). Por lo anterior, desde la etapa del diseño de la propuesta se puso especial atención en las distintas tareas que son necesaria
División de oraciones Elementos del lenguaje Etiquetado POS Twitter
Análisis sintáctico
Identificación del objeto Calificación de Frases Análisis de dependencias Calificación de oraciones Evaluación de neutralidad Errores ortográficos Repetición de letras Acrónimos y Jerga Modismos Limpieza y corrección Tweets Originales Tweets Clasificados
98
para transformar un tweet común en un mensaje lo más legible y comprensible posible con la finalidad de facilitar y hacer más eficientes las tareas posteriores.
5.5.1.1. Emoticonos
Se ha demostrado en investigaciones previas que los emoticonos pueden ser utilizados como indicadores de polaridad (Read, 2005; Go, Bhayani, & Huang, 2009). Sin embargo, estas investigaciones han utilizado esta característica especial de los tweets como una etiqueta especial de los datos de entrenamiento en propuestas probabilísticas utilizando métodos de aprendizaje automático. En la presente propuesta, los emoticonos se consideran como indicadores adicionales de orientación de sentimiento, no como etiquetas especiales para el entrenamiento. Por esta razón la existencia de los emoticonos se evalúa al final de la clasificación para aumentar el sentimiento positivo, en caso de tratarse de una sonrisa (smiley) o el sentimiento negativo, en caso de ser un ceño fruncido (frown).
Como una medida de simplificación al inicio del proceso, todos los emoticonos considerados positivos se convirtieron a la sonrisa tradicional y los considerados como negativos se convirtieron al ceño fruncido tradicional. La tabla 5.1 muestra la lista de emoticonos considerados y su correspondiente conversión.
Polaridad Nombre Clásico Emoticonos redireccionados
+ Smiley :) :-) : ) :D =) :=) :-D ;) ;-) (:
- Frown :( :-( : ( X( X-( b( ;( ):
Tabla 5.1. Emoticonos positivos y negativos
5.5.1.2 Diccionarios
Con la finalidad de realizar una limpieza y normalización de los Tweets para obtener mensajes más legibles, se utilizaron 3 diccionarios cuya información fue recopilada de diferentes sitios:
a) Diccionario de errores ortográficos comunes: contiene la lista de 4.279 términos mal escritos más comunes utilizados para identificar y corregir errores ortográficos en Wikipedia[5]. Estos errores son muy comunes y se generar cuando se añade u omite una letra en una palabra o cuando se cambian de posición algunas letras. Ejemplos de entradas en este diccionario son:
99
Error tipográfico Palabra correcta
Abilty ability Abbout about Beggins begins Beleif belief Candiate candidate Cannister canister
Tabla 5.2. Ejemplos de errores ortográficos comunes
b) Diccionario de palabras con doble letra: contiene una lista de 43.866 palabras correctas que contienen doble letra. Esta lista es un subconjunto de ENABLE2K que es la lista oficial de palabras correctas adoptado por los jugadores de Scrabble en Estados Unidos[40]. El diccionario de palabras correctas con doble letra en este proyecto fue creado con la finalidad de corregir dos tipos de problemas: El primer problema es un error tipográfico, en este sentido este diccionario es complementario del diccionario anterior y se utiliza para identificar palabras correctamente escritas que contienen doble letra en uno (p.ej. “bubble”) o varios casos de la misma palabra (p. ej. ”address”). El segundo problema que se presenta es la práctica común de los usuarios de Twitter de repetir las letras en las palabras como una forma de hacer énfasis o de simular el grito de esa palabra. Para corregir ambos problemas, el software primero detecta alguna repetición de letras en la palabra. Si se encuentran más de dos letras repetidas se dejan dos y se suprimen el resto, se busca la palabra con dos letras repetidas y si se encuentra se considera como correcta si no se encuentra se deja sólo una letra. Ejemplos de entradas en este diccionario se muestran en la siguiente tabla:
Example of tweet Correct word
“feeeeeeling to bad” Feeling
“I Neeeed my aspirin now!!” Need
“I hope your betttteeer!” Better
Tabla 5.3. Ejemplos de repetición de letras
c) Acrónimos y Jerga: Este diccionario incluye una lista de 1.193 acrónimos, siglas, abreviaturas irregulares y expresiones en jerga común de Twitter. La tabla 5.4 muestra algunos ejemplos:
100
Acrónimo, jerga o expresión Equivalente en lenguaje común
2l8 Too late
4ever Forever
4u For you
Asap As soon as possible
B Be
B4 Before
FTW For the win
Gonna Going to
HF Have fun
HK Hugs and kisses
IHU I hate you
LOL Laughing out loud
The shit The best
On deck Ready
Tabla 5.4. Ejemplos de Acrónimos, siglas y jerga
5.5.1.3 Limpieza y normalización del texto
Se adoptaron prácticas de limpieza de los mensajes utilizadas por otros investigadores tales como la eliminación de signos ortográficos repetidos, la sustitución del destinatario del mensaje (identificado por @), sustitución de URLs en el mensaje, eliminación de información de reemisión de tweet (retweeting-RT) y eliminación de la almohadilla (#) al principio del nombre del objeto de opinión.
Los nombres de usuario que comúnmente adoptan el formato @username fueron sustituidos por USERNAMEn, donde n es un número consecutivo en el mensaje; las
direcciones Web que redireccionan a un sitio relacionado con el tweet se sustituyeron por URL. De esta forma un mensaje como:
“@FourinHand Do you use a #thermomix in your kitchen like @jaymasterchef? Creme patisserie in 7 mins, NO LUMPS!!!!!”
Se transforma en el siguiente mensaje:
“USERNAME1 Do you use a thermomix in your kitchen like USERNAME2? Creme patisserie in 7 mins, NO LUMPS!”
101
La finalidad de estas cambios es que las herramientas de análisis léxico y sintáctico reconozcan los nombres de usuarios y los URL como sustantivo y determinen correctamente su función en la oración.