Índice de Fórmulas
2.3. Configuración de los experimentos
2.3.1 Confiabilidad de las herramientas de análisis de sentimientos
En concordancia con el objetivo O1, se realizó una exploración exhaustiva en Internet para localizar aquellas herramientas de análisis de sentimientos de uso libre. Con la finalidad de acotar el ámbito del experimento, se buscó que tales herramientas cumplieran con los siguientes criterios:
16 a) Uso de Twitter como fuente de corpus. b) Acceso público y gratuito.
c) Herramientas basadas en Web.
d) Resultados que mostraran porcentajes de polaridad del sentimiento (positivo y negativo, al menos).
Algunas herramientas emiten resultados identificando los sentimientos concretos, en lugar del porcentaje global de polaridad del sentimiento. La clasificación adicional de tales sentimientos en las categorías positivo, negativo y neutro puede aumentar el sesgo y la subjetividad en el proceso, lo que complica la comparación con el resto de las herramientas. Por lo tanto, la intención de buscar que las herramientas emitieran resultados expresados en porcentajes positivo y negativo en función de un objeto (p.ej. un producto o servicio) buscaba evitar estas complicaciones y hacer una mejor comparación de estos resultados.
Aunque algunas de las herramientas seleccionadas para el experimento fueron localizadas de forma individual, la mayoría se identificaron mediante una lista completa y bien organizada de herramientas localizada en sentiment140.com[6].
Para llevar a cabo los experimentos se seleccionaron 20 objetos (productos y servicios). Con la finalidad de reducir la ambigüedad, la lista de objetos se elaboró en coordinación con el grupo de investigadores del IERU (Information Engineering Research Unit) de la Universidad de Alcalá. Estos productos y servicios fueron utilizados en una serie de pruebas realizadas en 3 semanas con las herramientas de análisis de sentimientos seleccionadas.
Los tweets revisados por las herramientas fueron etiquetados (es decir clasificados) por tres expertos humanos. Con esta clasificación cuantificada en porcentajes se realizó una comparación con la finalidad de evaluar la confiabilidad de los resultados de las herramientas. Para este propósito se utilizó el alfa de Cronbach como método estadístico de valoración del acuerdo entre evaluadores.
Las herramientas y sus características, los productos y servicios seleccionados y los experimentos realizados y sus resultados se detallan en el capítulo 4.
17
2.3.2 Propuesta de software de análisis de sentimientos específico para Tweets.
El alcance del segundo objetivo específico (O2) plantea la necesidad de usar herramientas y recursos disponibles que combinados sirvan para el desarrollo de un software para análisis de sentimientos. Principalmente fue necesario un léxico de sentimientos del cual partir para el cálculo de la orientación de sentimientos predominante en los tweets; una suite de herramientas de procesamiento de lenguaje natural y un modelo de etiquetado POS (part-of-speech tagging model) adecuado para los tweets.
Para el caso del léxico de sentimientos, el resultado del estudio del estado del arte reveló a SentiWordNet (derivado de WordNet) como el léxico más recurrido en diferentes investigaciones (Véase más detalles en el capítulo 3).
En el caso de las herramientas de procesamiento del lenguaje natural, las más completas y disponibles de forma gratuita son principalmente: openNLP, NLTK y coreNLP. Existen además LingPipe, GATE y JTextPro. Se realizó un breve estudio para determinar la mejor opción para los experimentos y se seleccionó la suite Stanford coreNLP, véanse más detalles en la sección 3.1.3.2.
Se eligieron herramientas de software libre por dos razones: a) Su disponibilidad pública de uso ilimitado y b) Por ser herramientas presentadas en trabajos de investigación que han sido citadas y utilizadas en otros trabajos de investigación.
Con los recursos necesarios seleccionados se desarrolló un software de análisis de sentimientos (que se describe a detalle en el capítulo 5) en concordancia con el objetivo O2. Este software se evaluó utilizando como banco de pruebas aquellos tweet listados por las herramientas en línea que trabajan con Twitter utilizadas en el experimento descrito a detalle en el capítulo 4.
2.3.3 Predicción de calificaciones de hoteles.
Con la finalidad de reunir un conjunto de datos suficientemente grande para realizar distintos experimentos de análisis de sentimientos, se desarrolló un Web crawler especializado en recuperar críticas de hoteles del sitio TripAdvisor.com.
18
A fin de alcanzar el objetivo específico (O3) de esta investigación, se utilizaron dos herramientas de análisis de sentimientos disponibles públicamente para analizar los sentimientos de más de un millón de críticas a 3535 hoteles de 7 de las ciudades más visitadas del mundo. La primera herramienta, OpinionFinder[9] es un compendio de programas que en un principio se desarrollaron de forma independiente y cuya función es en realidad la de detectar subjetividad (Wilson, y otros, 2005). Esta herramienta fue desarrollada por un equipo de investigadores de la universidad de Pittsburg, la universidad Cornell y la universidad de Utha. Entre sus funciones está la de localizar palabras con orientación positiva y negativa. Para realizar esta tarea utiliza un léxico de sentimientos y un algoritmo que evalúa el sentimiento basado en el contexto. Esta característica ha permitido que sus resultados sean utilizados para el análisis de sentimientos (Bollen, Mao, & Zeng, 2011; O'Connor, Balasubramanyan, Routledge, & Smith, 2010; He, Macdonald, & Ounis, 2008). La segunda herramienta, RNTN (The Recursive Neural Tensor Network – Red Tensora Neural Recursiva) fue desarrollada por investigadores de la universidad de Stanford y funciona generando árboles sintácticos de oraciones utilizando una estructura de datos propuesta por los mismos investigadores denominada sentiment treebank. Esta herramienta se encuentra adjunta a la suite coreNLP como un módulo (annotator) denominado sentiment.
Con los recursos utilizados para el desarrollo del programa de análisis de sentimientos descritos en la sección anterior (coreNLP y SentiWordNet), se desarrolló otro programa basado en el método de aprendizaje automático naive Bayes combinado con el uso de léxico de sentimientos para analizar los sentimientos de las mismas críticas a hoteles mencionadas en el párrafo anterior. La finalidad de desarrollar este programa no fue mejorar la eficiencia sino estar en condiciones de comparar el algoritmo naive Bayes con algoritmos más complejos del análisis de sentimientos.
Se desarrolló un modelo de predicción de calificaciones a hoteles basado en los resultados del análisis de sentimientos y se evaluó la confiabilidad de estos comparándolos con las calificaciones reales descargadas también de TripAdvisor.com. La configuración de los experimentos mencionados, las ciudades elegidas para la descarga de críticas, las herramientas utilizadas para los experimentos y los resultados de estos se describen en el capítulo 6.
19