Índice de Fórmulas
Capítulo 3. Contextualización y Estado del Arte
3.1. Análisis de sentimientos 1 Definición
3.1.5. Análisis de sentimientos basado en características
Además de la clasificación de los documentos de texto por su orientación semántica (positiva o negativa) y de acuerdo con sentimientos concretos, hay una tarea especial a la que se asocia el análisis de sentimientos: el análisis basado en características (o
feature-level analysis, como se conoce en inglés). No se trata de un análisis más fino y por esa razón no se incluye en la clasificación de la sección anterior. El análisis basado en características tiene un propósito distinto al nivel de detalle en el análisis de sentimientos (Pang & Lee, 2008). Tanto los análisis a nivel de documento, como a nivel de oración y de frase tienen la finalidad de identificar la orientación semántica (polaridad del sentimiento) o los sentimientos mismos de los documentos pero no identificar qué es lo que les gusta o lo que nos les gusta a los autores de los documentos de texto con opinión (Liu B. , 2012). El análisis de características, o de aspectos como también se le conoce (aspect-level), se basa en la idea de que una opinión se compone de un sentimiento y de un objeto de opinión (target en la terminología sajona del análisis de sentimientos). Asumiendo que la opinión emitida hacia una característica específica del objeto de opinión es también una opinión hacia el objeto en sí, el análisis basado en características extiende su ámbito a todos los aspectos opinados del objeto (Hu & Liu, 2004). Por lo tanto otra meta importante de este tipo de análisis es encontrar aquellas características de los objetos de opinión, que están siendo calificados positiva o negativamente. La siguiente oración es un ejemplo ilustrativo de este problema:
“La Toshiba Tecra trabaja bien pero tiene un teclado que frecuentemente falla”
El autor de esta crítica claramente emite dos opiniones, una general y positiva hacia el objeto de opinión y otra negativa hacia una característica concreta del objeto, su teclado. Otro ejemplo más completo sería la siguiente crítica a un hotel:
“El personal fue muy atento y amable, la habitación cómoda, bien iluminada y muy bonita, el servicio de limpieza de lo mejor, el único problema fue el acceso a Internet, que era muy lento o no estaba disponible”.
El autor de la crítica está calificando cuatro características del hotel: El personal, la habitación, el servicio de limpieza y el acceso a Internet. Un análisis a nivel de frases, a nivel de oraciones o a nivel de documento clasificaría esta crítica como positiva por su predominante orientación del sentimiento. Sin embargo, un análisis basado en
30
características tendría que identificar cuáles atributos le gustan a los usuarios y cuáles no, ya que la opinión no es uniformemente positiva para todas ellas.
La investigación sobre análisis de sentimientos que se basa en la identificación de características es diversa. (Yu, Wu, Chang, & Chu, 2013) presentan una propuesta en relación con el análisis de sentimientos que además de clasificar documentos según su orientación semántica busca identificar emociones concretas y sus intensidades tratándolas como características del sentimiento. Esta propuesta se describe con mayor detalle en la sección 3.2.3 de aprendizaje semisupervisado.
Otros investigadores (Duric & Song, 2012) proponen un modelo de clasificación a nivel de documento en la que las características son los términos que expresan orientación semántica, principalmente adjetivos, adverbios, verbos y sustantivos. Trabajando con un conjunto de críticas a películas, su propuesta separa objetos de opinión y expresiones subjetivas utilizando el modelo oculto de Markov (Hidden Markov Model - HMM) y asignación Dirichlet latente (Latent Dirichlet Allocation - LDA). HMM-LDA es una técnica que modela tópicos y estructuras sintácticas simultáneamente de un grupo de documentos. Mediante esta técnica los autores identifican las expresiones más significativas de opinión positiva o negativa y las etiquetan. Utilizan esas expresiones identificadas con orientación semántica como datos de entrenamiento para clasificar otro conjunto de críticas con un algoritmo de entropía máxima. Su propuesta obtiene una eficiencia competitiva con otros métodos de aprendizaje completamente supervisado.
(Ganu, Elhadad, & Marian, 2009) utilizaron críticas a restaurantes para hacer un análisis de sentimientos basado en los principales servicios detectados como características. Clasificaron estas características en seis categorías: comida, servicio, precio, ambiente, anécdotas y otros. Con estas categorías realizaron un análisis a nivel de oraciones utilizando el porcentaje positivo de oraciones (PSP – positive sentence percentage) para calcular las estrellas, de 1 a 5, para cada restaurante. Para la evaluación de sus resultados utilizaron la calificación que los usuarios asignan a los restaurantes alcanzando buena eficiencia (hasta de un 79.42%).
La propuesta de (Reyes & Rosso, 2012) es aún más ambiciosa, puesto que utiliza el análisis basado en características para detectar la ironía en un conjunto de críticas de productos. Los autores utilizaron un determinado conjunto de críticas que se asumieron
31
como irónicas por ser bien conocidas en Amazon por tener esa tendencia, y las etiquetaron manualmente con la finalidad de buscar en éstas elementos de ironía. Su objetivo fue definir un modelo de características que representara la información subjetiva contenida en estas críticas e intentar describir aquellos rasgos representativos de ironía. Considerando a la ironía como una expresión de crítica negativa expresada en términos positivos y habiendo identificado los rasgos representativos de ironía, clasificaron otro conjunto de datos por su orientación semántica. Para esta clasificación utilizaron tres algoritmos de aprendizaje supervisado: naive Bayes, máquinas de vectores de soporte y árboles de decisión, obteniendo resultados satisfactorios entre 72% hasta 89% de eficiencia (accuracy).
Otra investigación sobre el análisis de características con el propósito de clasificar críticas de productos (en este caso de un libro particular) en función de su orientación semántica es la realizada por (Chen, Ibekwe-SanJuan, SanJuan, & Weaver, 2006), quienes identifican los términos más representativos de las opiniones tanto positivas como negativas. Por la naturaleza del algoritmo utilizado (árbol de decisión) este trabajo se describe con más detalle en la sección de aprendizaje supervisado (3.2.1).
(Fan & Chang, 2011) analizaron blogs en función de las características para detectar los intereses de los usuarios y mejorar la publicidad contextual. Para este análisis utilizaron datos que los mismos usuarios proporcionaron ya que los proveedores de servicios de blogs solicitan dichos datos durante el proceso de registro con la finalidad de establecer su perfil. Tales datos indican preferencias en música, películas y lectura, entre otros. Puesto que estos investigadores utilizaron máquina de vectores de soporte para la clasificación de los tweets en base al sentimiento, su trabajo se describe en la sección de aprendizaje supervisado.
Un análisis basado en características puede producir un resumen y agrupación estructurada acerca de los objetos y de sus características sobre las que se está opinando, que incluya la orientación semántica positiva o negativa o los sentimientos concretos asociados a estas características. Esto puede convertir un texto no estructurado en datos estructurados que pueden ser usados para varios tipos de análisis cualitativo y cuantitativo. Resultados como estos pueden ser útiles para estrategias de mercadotecnia tales como el boca a boca electrónico (Liu B. , 2010).
32
La idea de que una opinión se conforma por un sentimiento y un objeto de opinión sirvió de motivación para el objetivo O2.2 que se documenta en el capítulo 5. Si es posible identificar las características del objeto que le gustan o que no le gustan al autor de las críticas, también puede ser posible que se identifique el vocabulario concreto que se usa cuando un objeto de opinión es calificado positiva o negativamente.