Mejora de la interpretabilidad de mensajes de Twitter
107
0
0
Texto completo
(2)
(3) Autor: Luis Buades Pérez Tutor: Joaquı́n Ordieres Meré. Agradecimientos A todas las personas que me han apoyado a lo largo de estos años..
(4)
(5) Resumen. La sociedad en la que vivimos cada vez esta más digitalizada. Ha llegado a tal extremo que a dı́a de hoy, no se concibe un mundo sin la tecnologı́a. Esta tecnologı́a abarca desde máquinas robóticas hasta plataformas de microblogging como puede ser Twitter, en la que cada vez más personas expresan sus opiniones y sentimientos. Es por eso, que estas últimas, cada vez tienen una mayor relevancia tanto a nivel personal como empresarial. Tanto es ası́, que actualmente, tanto las grandes como las medianas y pequeñas empresas tienen una gran dependencia de las redes sociales, ya sea para promocionarse, para vender o para extraer información acerca de los gustos y opiniones de los usuarios. Este Trabajo Final de Grado se centra en el análisis e interpretación de los mensajes a través de la plataforma Twitter, tanto de los procedimientos ya existentes como en el diseño de una nueva propuesta aplicando distintas técnicas aprendidas, ası́ como proponiendo una serie de mejoras complementarias (las cuales permitan mejorar el modelo) hasta ahora no desarrolladas, como son:. Interpretación de imágenes Interpretación de mensajes irónicos Interpretación de mensajes en otro idioma cooficial del territorio español.. A la hora de analizar un tweet de forma exhaustiva se deben seguir dos procedimientos, los cuales, a su vez están subdivididos en uno y dos subprocesos respectivamente: 5.
(6) 6 1. Preproceso: a) Interpretabilidad de los mensajes 2. Análisis de sentimiento: a) Clasificación de los mensajes b) Carga emocional de los mensajes. Para que sea más fácil su entendimiento, se considerarán a la par los tres procedimientos, los cuales se detallarán de forma breve y concisa (interpretabilidad, clasificación y carga emocional).. Interpretabilidad de los mensajes Para poder clasificar y analizar un mensaje es esencial que este sea entendible y coherente, es decir, que sea interpretable. En numerosas ocasiones, los usuarios de las plataformas tipo Twitter expresan su opinión mediante expresiones gramaticalmente incorrectas, es por eso que surge este procedimiento, el cual consiste en la adaptación de las expresiones léxicas incorrectas del mensaje a unas normalizadas y por tanto entendibles. Las técnicas aquı́ utilizadas se basan especialmente en dos procesos secuenciales:. 1. Diferenciación de la expresiones léxicas IV (In vocabulary, formas léxicas correctamente escritas) de las OOV (Out Of Vocabulary, expresiones léxicas mal escritas). 2. Corrección de las expresiones OOV.. Clasificación de los mensajes Una vez corregido el mensaje y antes de pasar a analizar su carga emocional, este suele clasificarse en función de una categorı́a, ya bien sea porque solo interesa analizar esa,.
(7) 7 descartar alguna o simplemente por el hecho de realizar distintos análisis en función de su categorı́a. Las técnicas empleadas en este procedimiento se basan en un clasificador binario, cuya función es analizar si el mensaje pertenece a un tópico o por si al contrario, se debe descartar esa categorı́a.. Carga emocional del mensaje La finalidad de este proceso es la de asignarle una carga emocional a cada mensaje en función del sentimiento que este transmite. A pesar de que muchas veces este análisis se diferencia en polaridad, intensidad y emoción, en este trabajo se ha decidido realizar un análisis combinado de estas técnicas al cual se le ha denominado simplemente como polaridad. Esta polaridad se determina en seis niveles:. N: Polaridad negativa de baja intensidad N+: Polaridad negativa de alta intensidad P: Polaridad positiva de baja intensidad P+: Polaridad positiva de intensidad NEU: Polaridad neutra NONE: Ausencia de polaridad. A la hora de analizar diferentes modelos que permitan obtener esta información de forma fiable se han analizado dos técnicas distintas:. Aprendizaje automático: Sistema automático que busca entre los datos para detectar patrones, con la finalidad de ajustar las acciones de un programa establecido previamente..
(8) 8 Enfoque basado en léxicos - Diccionarios: Sistema cuya finalidad es la de dotar a las expresiones de una polaridad previamente preestablecida comparándolas con un listado de términos..
(9) Índice general. Índice general. 9. Índice de figuras. 13. Índice de tablas. 15. 1. INTRODUCCIÓN. 19. 1.1. Importancia de las redes sociales. . . . . . . . . . . . . . . . . . . . . . . . .. 19. 1.2. Tipos de redes sociales y explicación de Twitter . . . . . . . . . . . . . . . .. 21. 1.3. Encuestas en Twitter. 23. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. OBJETIVOS. 25. 3. METODOLOGÍA. 27. 4. ESTADO DEL ARTE. 31. 4.1. Preproceso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. 33.
(10) 10. ÍNDICE GENERAL 4.1.1. Interpretabilidad del mensajes. . . . . . . . . . . . . . . . . . . . . .. 33. Experimento 1 de interpretabilidad de mensajes . . . . . . . .. 34. Experimento 2 de interpretabilidad de mensajes . . . . . . . .. 38. Experimento 3 de interpretabilidad de mensajes . . . . . . . .. 45. 4.2. Análisis de sentimiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.2.1. Clasificación del mensaje. 47. . . . . . . . . . . . . . . . . . . . . . . . .. 48. 4.2.2. Carga emocional del mensaje . . . . . . . . . . . . . . . . . . . . . .. 53. 4.2.2.1. Aprendizaje automático . . . . . . . . . . . . . . . . . . . .. 55. Experimento 1 de aprendizaje automático . . . . . . . . . . . .. 56. Experimento 2 de aprendizaje automático . . . . . . . . . . . .. 58. Experimento 3 de aprendizaje automático . . . . . . . . . . . .. 60. 4.2.2.2. Enfoque basado en el léxico- Diccionarios . . . . . . . . . .. 61. 5. RESULTADOS Y DISCUSIÓN 5.1. Preproceso final. 69. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.1.1. Interpretabilidad del mensaje final. 70. . . . . . . . . . . . . . . . . . . .. 70. 5.1.1.1. Propuesta Interpretabilidad del mensaje . . . . . . . . . . .. 71. 5.2. Análisis de sentimiento final . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. 5.2.1. Clasificación del mensaje final . . . . . . . . . . . . . . . . . . . . . .. 79. 5.2.1.1. Propuesta Clasificación del mensaje . . . . . . . . . . . . . .. 80.
(11) ÍNDICE GENERAL. 11. 5.2.2. Carga emocional del mensajes final . . . . . . . . . . . . . . . . . . .. 81. 5.2.2.1. Propuesta Carga emocional del mensaje . . . . . . . . . . .. 82. 5.3. Fiabilidad del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 86. 5.4. Discusión de otras propuestas de mejora . . . . . . . . . . . . . . . . . . . .. 88. 5.4.1. Interpretación de imágenes . . . . . . . . . . . . . . . . . . . . . . . .. 88. 5.4.2. Interpretación de mensajes irónicos . . . . . . . . . . . . . . . . . . .. 89. 5.4.3. Interpretación de mensajes en otro idioma cooficial del territorio español 91. 6. CONCLUSIÓN. 93. 7. LÍNEAS FUTURAS. 95. 8. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO. 99. Bibliografı́a. 103.
(12)
(13) Índice de figuras. 1.1. Porcentaje de uso de las redes sociales en el mundo. Fuente: TreceBits [1] . .. 20. 1.2. Crecimiento redes sociales en los últimos años. Fuente: Revista Redes Sociales [2] 20 1.3. Número de usuarios de las redes sociales más importantes. Fuente: Statista [3] 22. 4.1. Secuencia que de debe seguir para analizar un mensaje. Fuente: Elaboracón propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2. Gráfica comparativa entre divergencia KL y precisión. Fuente: Spanish Text Normalisation [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 4.3. Clasificador binario del experimento 1 de Clasificación. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 50. 4.4. Tipos de técnicas de Análisis de Sentimiento. Fuente: Tecnhiques for sentiment analysis in Twitter: Supervised Learning and SentiStrength [5] . . . . . . . .. 54. 5.1. Ejemplo de imagen de un iPhone extraı́da de Internet. Fuente: Amazon [6] .. 89. 5.2. Mapa con lenguas oficiales de cada territorio español. Fuente: Slide Player [7]. 91. 8.1. Diagrama de Gantt del presente proyecto. Fuente: Elaboración propia . . . . 100. 13.
(14)
(15) Índice de tablas. 4.1. Cambios de caracteres utilizados para la lectura de léxico en español mediante Double Metaphone. Fuente: GitHub [8] . . . . . . . . . . . . . . . . . . . . .. 40. 4.2. Ejemplo de expresiones mal escritas. Fuente: Elaboración propia . . . . . . .. 42. 4.3. Divergencia KL para los cinco principales candidatos para las palabras callendo y guau. Fuente: Spanish Text Normalisation [4] . . . . . . . . . . . . . . .. 43. 4.4. Porcentaje de cada uno de los tipos de error obtenidos en la normalización. Fuente: Spanish Text Normalisation [4] . . . . . . . . . . . . . . . . . . . . .. 45. 4.5. Tópicos utilizados en Experimento 1 de Clasificación. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 4.6. Ejemplo de palabras clave relacionadas con Santander. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7. Ejemplo de clasificación por polaridad. Fuente: Elaboración propia. . . . . .. 52 53. 4.8. Resultados del experimento 1 de carga emocional (polaridad). Fuente: ELiRFUPV en TASS-2013 Análisis de Sentimientos en Twitter [9] . . . . . . . . .. 58. 4.9. Resultados del experimento 3 de carga emocional (polaridad). Fuente: Análisis de sentimientos a nivel de aspecto usando ontologı́as y aprendizaje automático [10] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. 61.
(16) 16. ÍNDICE DE TABLAS 4.10. Comparación de enfoque entre Bing Liu’s Opinion Lexicon y SentiWordNet. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 5.1. Porcentaje de acierto de cada experimento de Interpretabilidad. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. 5.2. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 1. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 5.3. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 2. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . .. 75. 5.4. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 3. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 5.5. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 4. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . .. 77. 5.6. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 5 78 5.7. Porcentaje de acierto de cada experimento de Clasificación. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 80. 5.8. Porcentaje de acierto de cada experimento de Carga emocional. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 81. 5.9. Adecuación de la nomenclatura según la intensidad de la polaridad. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84. 5.10. Resultados posibles obtenidos a la hora de dotar de una carga emocional a un mensaje. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . . .. 86. 5.11. Probabilidad de acierto de cada uno de los métodos de forma independiente. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87.
(17) ÍNDICE DE TABLAS. 17. 5.12. Probabilidad de acierto en función de los procedimientos que se quieran implementar. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . .. 87. 5.13. Ejemplo de expresión irónica. Fuente: Elaboración propia . . . . . . . . . . .. 90. 8.1. Lista de plazos y dedicación de las tareas relativas al presente TFG. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. 8.2. Costes del trabajo realizado por el alumno. Fuente: Elaboración propia . . . 101 8.3. Costes del material utilizado. Fuente: Elaboración propia . . . . . . . . . . . 101 8.4. Costes totales del proyecto. Fuente: Elaboración propia . . . . . . . . . . . . 102.
(18)
(19) Capı́tulo 1 INTRODUCCIÓN. 1.1.. Importancia de las redes sociales. La redes sociales se definen como canales de comunicación en lı́nea dedicados a la entrada, la interacción, el intercambio de contenido y la colaboración hacia la comunidad. Hoy en dı́a las redes sociales son una parte muy importante de nuestras vidas, hasta tal punto que podrı́an llegar a considerarse como algo imprescindible. Para darse cuenta del poder y la influencia que este medio tiene sobre los habitantes (no solo en España, sino que también a nivel mundial), basta con fijarse en la Figura 1.1 que aparece en la siguiente página, la cual muestra en porcentaje, la cantidad de gente que las utiliza. En esta, se puede comprobar que en las zonas más desarrolladas, el porcentaje de población que utiliza las redes sociales ronda el 50 %. La redes sociales existen desde hace relativamente poco tiempo, pero desde que se crearon, el nivel de conexión a estas ha crecido de forma exponencial hasta alcanzar lı́mites inimaginables. Tanto es ası́, que han conseguido ser uno de los principales motores de la economı́a mundial, ası́ como una excelente fuente de información. 19.
(20) 20. 1.1. Importancia de las redes sociales. Figura 1.1: Porcentaje de uso de las redes sociales en el mundo. Fuente: TreceBits [1]. Figura 1.2: Crecimiento redes sociales en los últimos años. Fuente: Revista Redes Sociales [2].
(21) 1. INTRODUCCIÓN. 21. Este rápido crecimiento de las redes sociales, a causado que la mayorı́a de las empresas empezasen a interesarse en el funcionamiento de este medio y que se dieran cuenta de la importancia que estas conllevan a la hora de realizar campañas publicitarias, encuestas... Además, la publicidad a través de este tipo de plataformas es muy económica en comparación con los costos incurridos por la impresión, televisión u otros medios tradicionales.. 1.2.. Tipos de redes sociales y explicación de Twitter. Cabe destacar que dentro de las redes sociales existen numerosas plataformas. Tales como:. Facebook Whatsapp Instagram Linkedin Google+ Twitter. Cada una de las cuales son independientes y no todas van destinadas al mismo grupo de población. En nuestro caso vamos a analizar a fondo la red social Twitter, que es sobre la que se va a trabajar en este proyecto. Twitter fue fundado el 21 de marzo de 2006 por la compañı́a Odeo y consiste en un servicio gratuito de microblogging (el microblogging es un sistema que permite a los usuarios enviar y publicar mensajes breves) que permite a los usuarios registrados difundir mensajes cortos (como máximo de 140 caracteres) llamados tweets. Lo bueno que tiene esta red social, es que sus miembros a parte de transmitir sus tweets, pueden seguir los de otros usuarios mediante múltiples plataformas y dispositivos (ordenador, móvil...). La aplicación te permite.
(22) 22. 1.2. Tipos de redes sociales y explicación de Twitter. seguir a quien quieras, ya sea un amigo, una persona famosa,una empresa... ası́ como todas sus publicaciones. Gracias a estas caracterı́sticas es por lo que Twitter es una de las redes sociales más utilizadas a nivel internacional. A continuación se muestra una foto figura: 1.3 en la que aparece una tabla con las redes sociales más utilizadas actualmente. Tal y como se puede observar, Twitter aparece en la octava posición con un total de 330 millones de usuarios.. Figura 1.3: Número de usuarios de las redes sociales más importantes. Fuente: Statista [3]. A causa de todo esto es por lo que actualmente es una herramienta esencial para las empresas, tanto para realizar campañas publicitarias como para analizar la opinión y gustos de los distintos usuarios..
(23) 1. INTRODUCCIÓN. 1.3.. 23. Encuestas en Twitter. Tal y como se ha comentado en los apartados anteriores, Twitter es una plataforma esencial para extraer conocimiento desde opiniones a tiempo real (sobre productos, personas, ideas, sentimiento...), frente a las encuestas directas. Esto no solo es favorable para las empresas, sino que es interesante para otros tipos de organizaciones, Gobiernos o incluso a la hora de realizar experimentos. Es a partir de esto donde surgen una serie de problemas e inconvenientes a la hora de recopilar e interpretar la información más relevante. Esto es debido a:. Interpretabilidad de los mensajes: Los tweets escritos por los usuarios en numerosas ocasiones no siguen las expresiones gramaticales formales, lo cual supone una severa cortapisa para la comprensión de lo que la opinión expresada está diciendo (ironı́as con emoticonos, errores sintácticos, abreviaturas...). Análisis de sentimiento: No siempre es fácil saber interpretar de forma automática la opinión de los usuarios, ya sea por el problema anteriormente nombrado, por la ambigüedad de las palabras o bien por lo difı́cil de extraer la información más relevante.. Este trabajo tratará de buscar la mejor solución para resolver cada uno de los problemas que surgen a partir de los puntos enumerados anteriormente, de tal forma que esta interpretabilidad tenga la menor tasa de error posible y ası́ poder extraer la máxima información posible..
(24)
(25) Capı́tulo 2 OBJETIVOS. Hoy en dı́a conseguir extraer conocimiento a partir de las opiniones es algo esencial para las organizaciones. Una buenas forma para obtener estas opiniones es a través de las plataformas de microblogging (servicios en los que se envı́an mensajes breves, por ejemplo: Twitter, Facebook, Google+...). El principal inconveniente que surge a las hora de sacar conclusiones a partir de éstos es que en numerosas ocasiones no se siguen las expresiones gramaticales formales y ello supone una severa cortapisa para su comprensión, ası́ como muchas veces es muy complejo analizarlos sentimentalmente. El objetivo principal de este Trabajo de Fin de Grado ha sido el de realizar una investigación exhaustiva acerca de la eficacia y eficiencia de los actuales métodos que existen de interpretabilidad y análisis de mensajes de Twitter en español (aunque también podrı́a ser aplicable a otros sistemas basados en el microblogging), tanto en la parte de preproceso (intrepretabilidad) como en el análisis de sentimiento (clasificación en función de un tópico o empresa y carga emocional). Todo esto se ha realizado con el finalidad de obtener las soluciones existentes más efectivas para cada posible caso, realizando una guı́a en la que se explica con un amplio nivel de detalle que método aplicar en función del caso que se tenga.. 25.
(26)
(27) Capı́tulo 3 METODOLOGÍA. Se ha realizado un estudio completo de los métodos existentes en la actualidad para obtener información a través de los mensajes de Twitter en español (tanto de métodos realizados directamente para el español como tratando de adaptar a este idioma algunos diseñados para el inglés). Esto ha permitido agrupar los mejores procesos que existen para cada caso concreto y ası́ conseguir un mejor rendimiento (en cuanto a fiabilidad) a la hora de realizar un estudio sobre la opinión de un conjunto de personas de interés para una organización... Toda esta información ha sido extraı́da a través de distintos artı́culos (tanto en español como en inglés), páginas web o trabajos de otras personas, verificando siempre que la información es correcta, ya sea comparándolo con otras fuentes fiables o comprobándolo personalmente. La metodologı́a que se ha empleado para realizar este trabajo final de grado se puede dividir en los siguientes pasos: 1. Búsqueda de artı́culos y trabajos relacionados con la interpretabilidad de mensajes de plataformas de microblogging. Esta búsqueda se ha realizado principalmente a través del buscador Google scholar, en el se han obtenido un gran número de artı́culos técnicos acerca de este tema. Todos estos artı́culos están especificados en 27.
(28) 28 la bibliografı́a que aparece al final del trabajo. 2. Lectura de toda esta información, en la que aparecen numerosos métodos distintos para esta interpretabilidad y análisis. Se ha realizado una lectura en profundidad de todos los artı́culos y trabajos antes descargados. 3. Asimilación, análisis, verificación y comparación de todos estos métodos. En esta parte del trabajo, se ha extraı́do la información más relevante de cada documento. 4. Selección de los mejores métodos existentes para cada caso, teniendo en cuenta tanto los desarrollados especı́ficamente para el español como los realizados para el inglés que se ha creı́do que adaptándolos al español pudieran tener un mejor rendimiento. 5. Explicación de todos los métodos seleccionados, separándolos en función de la parte del proceso al que corresponden. Todos estos métodos han sido desarrollados con un amplio nivel de detalle, de tal forma que únicamente con lo expuesto en el trabajo se pueda aplicar sin dificultades cada método. El proceso se ha separado en estas 2 fases con sus respectivos procesos: a) Preproceso: 1) Interpretabilidad de los mensajes b) Análisis de sentimiento: 1) Clasificación del mensaje 2) Carga emocional del mensaje 6. Comparación en cada ámbito de cada uno de estos métodos. Todas estas comparaciones se han realizado a partir de los distintos Experimentos desarrollados en las (subsecciones 4.1.1, 4.2.1 y 4.2.2). 7. Selección y desarrollo del mejor sistema posible con toda la información disponible. Dentro de alguno de los procesos a la hora de encontrar la mejor solución se ha combinado más de un método distinto. 8. Redacción de la memoria, o lo que es lo mismo, del trabajo completo. Cumpliendo siempre la normativa de la UPM en cuanto a redacción de un Trabajo Final de.
(29) 3. METODOLOGÍA. 29. Grado, con estructura y demás procedimientos exigidos. Dentro de este apartado, la metodologı́a seguida (orden de redacción de la memoria) ha sido la siguiente: a) Introducción b) Estado del arte c) Objetivos d ) Resultados y discusión e) Conclusión f ) Lı́neas futuras g) Planificación temporal y presupuesto h) Resumen i ) Bibliografı́a.
(30)
(31) Capı́tulo 4 ESTADO DEL ARTE. El estado del arte es una compilación de resultados de otras investigaciones que se han realizado sobre el tema de investigación escogido. Se trata de establecer qué se ha hecho recientemente sobre el tema seleccionado. En este capı́tulo se van a analizar los modelos tanto para la interpretabilidad de los mensajes, incluido dentro del procedimiento que a partir de ahora se va a llamar preproceso (sección 4.1) como para el análisis de sentimiento (sección 4.2) para Twitter existentes actualmente. A partir de todo esto se extraerán las mejores soluciones existentes para cada caso y se creará el modelo más fiable con cada una de las técnicas más efectivas. Es posible que algunos modelos tengan ciertas ventajas sobre otros en unos aspectos pero que sean significativamente peores en otros, por lo que a la hora de diseñar el modelo final, se extraerá información de más de un modelo en un mism o proceso. A la hora de analizar un tweet es imprescindible tener claro cual es el orden de los procedimientos nombrados en el párrafor anterior que se debe seguir (Figura 4.1), ya que a la hora de realizar un análisis exhaustivo estos suelen ser complementarios.. 31.
(32) 32. Figura 4.1: Secuencia que de debe seguir para analizar un mensaje. Fuente: Elaboracón propia. Cada uno de los procesos nombrados en la (Figura 4.1) trata un aspecto diferente a la hora de este análisis, explicación que se adjunta a continuación:. 1. Preproceso: Es una parte esencial que se debe realizar previamente antes del análisis del tweet. Consiste en adaptar las expresiones léxicas incorrectas del mensaje a unas normalizadas. Este proceso consta únicamente de un procedimiento: Interpretabilidad de los mensajes. 2. Análisis de sentimiento: Este apartado es el del análisis del mensaje propiamente dicho. Consiste en la obtención de información relacionándolo con un tópico en concreto. En este proceso se pueden distinguir dos procedimientos: a) Clasificación del mensaje: Procedimiento donde a cada tweet se le asigna una categorı́a para posteriormente relacionar la información extraı́da con ésta. b) Carga emocional del mensaje: A cada tweet se le dota de una carga emocional en función del sentimiento que transmite, analizando tres aspectos: Polaridad. Intensidad. Emoción.. Todos estos procesos se detallan en los posteriores apartados, ası́ como a cada uno de ellos se les adjunta el porcentaje de acierto que tienen..
(33) 4. ESTADO DEL ARTE. 4.1.. 33. Preproceso. 4.1.1.. Interpretabilidad del mensajes. Para poder clasificar y analizar los mensajes es esencial que estos sean entendibles y coherentes, es decir, que se puedan interpretar. Esto no siempre es algo trivial, ya que actualmente la mayorı́a de usuarios no suelen seguir las expresiones gramaticales formales a la hora de manifestar su opinión en un tweet. Este problema es especialmente significativo para el español. Actualmente, para solucionar este problema de interpretabilidad existen diferentes métodos: Aplicar métodos con herramientas utilizadas en inglés únicamente adaptándolos al español [4] . Diseñar nuevos métodos con aplicación directa para el español [11] [9] [12]. Aunque como se acaba de afirmar existen diferentes métodos para realizar este proceso, todos ellos tienen algunas cosas en común como son la de realizar una primera clasificación separando dos grupos: formas léxicas correctamente escritas a las que se les suelen llamar IV (In Vocabulary) y otro con las expresiones mal escritas, también conocidas como OOV (Out Of Vocabulary). Otro dato que se deberı́a adelantar es que en la actualidad para este tipo de tarea en inglés se están obteniendo unos porcentajes de acierto (P orcentajeAcierto =. DecisionesCorrectas ) T otalP alabrasOOV. cer-. canos al 80 %, y como ejemplo y para hacerse una primera idea de como se puede realizar un modelo que resuelva este tipo de problemas en inglés con un acierto del 75 % a continuación se presentan resumidos los 3 pasos que se siguen en el modelo realizado por Han y Baldwin (2011) [4]: 1. Generar del conjunto de confusión, donde para cada OOV se generan distintos candidatos..
(34) 34. 4.1. Preproceso 2. Identificar las palabras a normalizar mediante un clasificador (donde se deben distinguir las que deben modificarse y las que no). 3. Selección de los candidatos.. Para tratar de encontrar la mejor solución disponible actualmente con la tecnologı́a y sistemas existentes se han decidido analizar distintos métodos considerados a priori provechosos, con la finalidad de obtener las mejores soluciones disponibles para cada caso en especı́fico.. Experimento 1 de interpretabilidad de mensajes La Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) organizó un taller de Normalización Lingüı́stica en el año 2013, sobre al cual se va a realizar este experimento con la información recopilada por Alegria, Aranberri, Fresno, Gamallo, Padró, San Vicente, Turmo y Zubiaga, 2013 [11]. Para realizar este taller se han obtenido un conjunto de 227.855 tweets, de los cuales se han repartido de forma aleatoria dos conjuntos de 6.000 a cada equipo (el primero constituye el conjunto de entrenamiento mientras que el segundo es el definitivo). Primeramente se deben diferenciar las expresiones léxicas IV de las OOV dentro de cada tweet para lo cual se utiliza el analizador morfológico de la librerı́a FreeLing (Padró y Stanilovsky, 2012 [13]). Esta parte del proceso en la que se utiliza esta librerı́a se debe realizar en tres pasos distintos:. 1. Se extraen todas las cadenas de caracteres de tipo @usuario, #etiqueta, e-mail, URLs y emoticonos y se descartan como OOV. 2. Se analiza cada una de las palabras de todos los tweets con los módulos básicos (diccionarios, detector de números, fechas, sufijos...) y en el caso de que alguna palabra no sea reconocida pasa a considerarse OOV..
(35) 4. ESTADO DEL ARTE. 35. 3. Se aplica un analizador morfológico básico con los módulos por defecto (a excepción de los reconocedores de multipalabras, entidades con nombre y de probabilidades léxicas) y en el caso de que alguna palabra no sea reconocida se considera OOV.. Una vez finalizada esta primera clasificación, se debe pasar a la parte del proceso que se conoce como Proceso de anotación. En esta parte se empieza anotando cada OOV obtenida anteriormente. Una vez terminadas esta anotación cada una de las OOV se etiqueta (existen tres probabilidades) y posteriormente en función de la etiqueta que se le ha dado se realiza un procedimiento u otro. El tipo de etiquetas que existe, ası́ como el procedimiento que se debe realizar en función de estas se presenta en los siguientes puntos:. Correcta: no se debe modificar. Variante: se le asigna su forma normalizada. NoEs (otro idioma): no se debe modificar.. En esta parte del proceso, a la hora de la anotación se deben seguir los siguientes criterios en función del tipo de palabra:. Palabra incluida en la RAE La palabra se anotará directamente como Correcta.. Nombre propio no incluido en la RAE Existen dos opciones:. Si es un acrónimo originalmente compuesto, todo en mayúscula o con alguna letra en minúscula (p.e: CoNLL, I.B.M, IBM) se clasifica directamente como Correcta..
(36) 36. 4.1. Preproceso Si no es acrónimo, existen dos opciones: • Si lleva las letras requeridas, inicial en mayúscula y los acentos requeridos (p.e: Luis, Castellón), entonces se clasifica como Correcta. • Si tiene alguna falta de ortografı́a o le falta algo del punto anterior (p.e: Madriz, sevilla), entonces se clasificará como Variante y se especificará su forma correcta (Madrid, Sevilla).. Palabra no incluida en la RAE sin ser nombre propio En este caso existen siete opciones:. Si es un neologismo o extranjerismo compuesto correctamente y cumple las reglas (p.e: retuitear, parking), se clasificará como Correcta. Diminutivo o Superlativo escrito correctamente (p.e: grandı́simo, supergrande), se clasificará como Correcta. Si existe alguna falta de ortografı́a (repetición, permutación de letras, eliminación...) (p.e: cllaro, comia), se clasificará como Variante y se especificará su forma correcta (claro, comı́a). Acortamiento o abreviatura (p.e: Mr, result), se clasificará como Variante y se especificará su forma correcta (Mı́ster, resultado). Onomatopeya con alguna alteración, dependiendo del caso se etiquetará de una forma u otra: • Si se simplifica y existe según la RAE (p.e: jejejejeje → je), entonces se clasificará como Variante y se especificará su forma correcta. • Si una vez simplificado se comprueba que no existe en la RAE (p.e: tssssssssss → ts), entonces se clasifica como Correcta..
(37) 4. ESTADO DEL ARTE. 37. Concatenación de palabras, se clasificará como Variante y se especificará su forma correcta. Expresión léxica proveniente de otro idioma, se clasificará como NoEs. Emoticono, se clasificará como NoEs.. A pesar de que toda esta teorı́a es simple de entender, a la hora de implementarla es cuando realmente surgen los problemas, puesto que por ejemplo el lı́mite entre palabras extranjeras y términos ya aceptados en español no siempre está tan claro, a veces el contexto del tweet no es suficiente para descifrar una abreviatura o acortamiento o que en numerosas ocasiones no esta clara cual es la intención de una determinada onomatopeya. El equipo que diseñó un mejor modelo fue el de la RAE (Porta y Sancho, 2013 [14]), el cual obtuvo un porcentaje de acierto del 78 %, lo cual es un resultado similar al que se tiene actualmente en el inglés y por tanto se podrı́a considerar como un método fiable. Este resultado se obtuvo mediante un sistema basado en transductores de estados finitos (consiste en autómatas finitos (modelos computacionales que realizan cómputos de forma automática sobre una entrada para producir una salida con pesos estipulados en función de la composición (variantes, posibles variantes y modelo del lenguaje), o explicado con otras palabras, se debe definir un dominio para cada uno de los estados y configurarlo de tal forma que si no se cumple ese dominio, el modelo no debe pasar al siguiente estado y ası́ sucesivamente). Implementando las reglas explicadas anteriormente generan transductores para los fenómenos descritos en el siguiente párrafo ası́ como un modelo de lenguaje basado en trigramas de palabras. Para analizar las palabras utiliza el siguiente lexicón:. Diccionario RAE [15]. Las 100.000 palabras más frecuentes del BNC [16]. Un corpues de páginas web (Wacky) [17].. Para obtener estos resultados, aparte de realizar todo lo descrito en el anterior párrafo,.
(38) 38. 4.1. Preproceso. se han tenido en cuenta una serie de fenómenos (o errores) habituales. Estos fenómenos son los que se muestran a continuación:. Errores ortográficos habituales (h → ∅). Omisión de tildes (é → e). Cambios fonológicos habituales (k → c, qué). Abreviaturas o acortamientos (p.e: admin → administración). Omisión de letras (p.e: amargao → amargado). Repetición de caracteres (p.e: graaaacias → gracias). Unión de palabras que en teorı́a van separadas (p.e: esque → es que). Onomatopeyas (p.e: jajajajaja → ja).. Otros equipos que también obtuvieron unos buenos resultados fueron Citius-Imaxin (Gamallo, Garcı́a y Pichel, 2013 [18]) y UPC (Ageno et al., 2013 [19]) con un porcentaje de acierto de 66,3 % y 65,3 % respectivamente. Aunque tal y como se puede comprobar la diferencia entre estos y el equipo ganador (RAE [14]) fue muy significativa (existe una diferencia de más de 10 puntos), por lo que se ha decidido no analizar esos modelos, ya que al tratarse del mismo concurso (con las mismas pautas), estos no aportarán nada nuevo. Otro hecho que se deberı́a resaltar, es que el modelo RAE fue realizado mediante la herramienta Freeling, la cual se entrenó hasta conseguir alcanzar esta fiabilidad [14].. Experimento 2 de interpretabilidad de mensajes A la hora de comenzar a diseñar el modelo, para realizar una primera aproximación se ha tratado de comparar este problema con el existente para el inglés, ya que a dı́a de hoy es en el que se ha investigado más sobre este tema. Para esto se ha utilizado una normalización basada en el léxico realizada por Han, Cook y Baldwin (2012) [4]..
(39) 4. ESTADO DEL ARTE. 39. Primeramente, para confeccionar este experimento se ha tratado de identificar una serie de factores clave:. Ortografı́a: El español posee muchos más caracteres que el inglés. Algunos de estos pueden cambiar totalmente el significado de una palabra. Un ejemplo de uno de estos caracteres es el del acento (una palabara puede variar su significado únicamente con añadir o suprimir un acento), este es por ejemplo, el caso de la palabra mas, ya que sin acento (mas) en ingles es but, mientras que si se le añade el acento (más) esta se traduce como more. El método de Han, Cook y Baldwin (2012) [4] utiliza la distancia de Levenshtein (o distancia entre palabras, es el número mı́nimo de operaciones requeridas para transformar una cadena de caracteres en otra) para medir la similitud de las cadenas. Esto se realiza convirtiendo cada uno de los caracteres en puntos de Unicode (estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas), tratando las letras con y sin acento (por ejemplo, á o a) como caracteres diferentes y finalmente se calcula la distancia de Levenshtein sobre estas formas.. Segmentación de palabras: En español y en inglés se utiliza de forma similar la segmentación mediante un espacio en blanco de palabras compuestas, por lo que se pueden aplicar técnicas de tokenización similares.. Morfofonémica: Consiste en un modelado fonético de palabras. Es un método modelados por Han, Cook y Baldwin (2012) [4], pero existe una implementación estándar en español disponible de Double Metaphone (https://github.com/amsqr/Spanish-Metaphone). Este ha sido traducido directamente del inglés, aunque hay que destacar que además se han implementado una serie de modificaciones, las cuales se pueden apreciar en la Tabla 4.1.. Recursos léxicos: Ya existen diccionarios de léxico para español. Cabe recalcar que en este tipo de modelo se suelen ignorar las letras mayúsculas..
(40) 40. 4.1. Preproceso. Caracteres afectados. Original. Cambio. a. á. a. ch. ch. x. ç. ç. s. e. é. e. i. ı́. i. o. ó. o. u. ú. u. ü. u. ñ. ñ. ny. gü. gü. w. b. b. v. z. z. s. ll. ll. y. c. cc. x. ci, ce. z. si nada. k. g. ge, gi. j. h. si nada. g. es muda. ∅. si no muda. h. qu. q. si nada. k. es. es. si nada. s. q. s. x. s ex x. Tabla 4.1: Cambios de caracteres utilizados para la lectura de léxico en español mediante Double Metaphone. Fuente: GitHub [8].
(41) 4. ESTADO DEL ARTE. 41. A grandes rasgos, la función primera del modelo debe ser la de separar cada cadena de caracteres en dos grupos diferenciados, dependiendo si están correctamente escritas o si no:. IV: In Vocabulary OOV: Out Of Vocabulary. Una vez agrupadas en IV las palabras correctas y en OOV las que no, en el siguiente procedimiento se deben mantener las palabras IV mientras que las OV se deben modificar, este proceso consta de dos pasos:. 1. Descifrar todos los OOV y normalizarlos basándose en un léxico de normalización que combina los léxicos existentes y lo aprendido de forma automática de un corpus de Twitter (lo cual se explicará con un amplio nivel de detalle en los siguientes subapartados). 2. Restauración de las palabras normalizadas.. A continuación, se explica con un amplio nivel de detalle cada uno de estos procedimientos nombrados en la anterior enumeración:. Recursos Existen algunas listas con recopilaciones de frases y palabras que se suelen escribir de forma incorrecta con sus respectivas formas correctas. Algún ejemplo de estos diccionarios es el diccionario Freeling 3.0 (Padró y Stanilovsky, 2012 [13]), el cual contiene más de 600.000 palabras ası́ como una serie de expresiones y abreviaturas utilizadas asiduamente en Internet, por último también aparece una lista de 277 nombres comunes en español con sus respectivas abreviaturas. A continuación, en laTabla 4.2 se muestra un ejemplo de distintas expresiones incorrectas que se suelen utilizar a la hora de expresarse mediante Twitter, recopiladas de dicha plataforma de forma manual..
(42) 42. 4.1. Preproceso. Original. Significado. Traducción inglés. 100pre. siempre. always. a10. adiós. goodbye. a2. adiós. goodbye. ac. hace. (form of hacer ). aki. aquı́. here. amr. amor. love. aora. ahora. now. Tabla 4.2: Ejemplo de expresiones mal escritas. Fuente: Elaboración propia. Léxico derivado del corpus El problema que tiene idea propuesta en el subapartado anterior (Recursos) de generar una lista manual con las expresiones incorrectas más utilizadas con sus respectivos significados es poco representativo comparándolo con el total de las expresiones no estándar que se utilizan. Para complementar esto, una opción es la de adaptar el método de Han, Cook y Baldwin (2012) [4] explicado anteriormente al español. Para realizar este experimento, se han recolectado 283 millones de tweets en español, los cuales han sido tokenizados mediante un tokenizador de Twitter en inglés (O’Connor, Krieger y Ahn, 2010 [20]). Para llegar a esto, inicialmente se decidieron realizar dos aproximaciones:. Las repeticiones seguidas excesivas de caracteres (≥3) en una palabra se acortan a un único caracter. Solo los OOV con ≥4 caracteres se han consideraron para la normalización.. Para cada uno de los OOV obtenidos se define su conjunto de confusión para ası́ conseguir que todo sean palabras de IV con una distancia de Levenshtein ≤ 2 para términos de.
(43) 4. ESTADO DEL ARTE. 43. caracteres y ≤ 1 para términos de código de Double Metaphone. Para su posterior clasificación (y por tanto, para la obtención de su significado real) se utiliza un método similar al de Han, Cook y Baldwin (2012), donde el contexto es representado por bigramas de posiciónı́ndices mediante una ventana de tamaño de ±2 tokens, donde la similitud se mide usando la divergencia KL (Kullback-Leibler, consiste en una medida no simétrica de la semejanza o diferencia entre dos funciones de distribución P y Q, es decir, mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P). Para tratar de analizar de forma concisa y clara los resultados que se obtienen utilizando el método basado en la divergencia KL anteriormente explicado se ha decidido adjuntar tanto la Tabla 4.3 como la Figura 4.2 que se muestran seguidamente, cabe resaltar que ambas han sido resultados obtenidos por Han, Cook y Baldwin, 2012. En la Tabla 4.3, analizando los términos callendo y guau se observa que a partir de los datos de desarrollo, cuando se identifica una correcta normalización entonces aparece una gran diferencia en la divergencia KL entre el IV del primer y segundo término del ranking, mientras que si la divergencia KL entre el primer y el segundo término son similares, la normalización suele ser menos fiable. Al observarse esto, se ha decidido realizar un gráfico en el cual se quiso comparar la relación del valor de la distribución KL entre los dos primeros términos y la precisión de acierto en cuanto a acertar la IV correcta. Tal y como se muestra en la Figura 4.2 se puede concluir que la mejor precisión es de 94 % y que se obtiene cuando esta relación es de 1,9.. Ranking. callendo. guau. 1. cayendo. 0.713. y. 1.756. 2. saliendo. 3.896. que. 1.873. 3. fallando. 4.303. la. 2.488. 4. rallando. 6.761. a. 2.649. 5. valiendo. 6.878. no. 3.206. Tabla 4.3: Divergencia KL para los cinco principales candidatos para las palabras callendo y guau. Fuente: Spanish Text Normalisation [4].
(44) 44. 4.1. Preproceso. Figura 4.2: Gráfica comparativa entre divergencia KL y precisión. Fuente: Spanish Text Normalisation [4]. La precisión ha sido calculada como: P recision =. N ormalizacionescorrectas N ormalizaciones. Restauración de normalizaciones. Se han establecido todos los tokens que se normalizaron tal y como se ha explicado en los subapartados anteriores ası́ como se ha decidido normalizar todos los tokens que aparecen al comienzo de un tweet o después de un punto o signo de interrogación.. Resultados. Finalmente, después de realizar el experimento se ha llegado a alcanzar un porcentaje de acierto del 54 %, aún muy lejos del nivel de acierto que actualmente se alcanza en el inglés (80 %) y del que se podrı́a considerar como fiable. Del 46 % de OOVs que no se han corregido bien, en la Tabla 4.4 se puede comprobar como se han dividido en porcentaje cada uno de los tipos de los errores..
(45) 4. ESTADO DEL ARTE. 45. Tipo Error. Porcentaje ( %). Forma léxica. 37. No disponible. 32. Acentos. 17. Caso erróneo. 8. Otros. 6. Tabla 4.4: Porcentaje de cada uno de los tipos de error obtenidos en la normalización. Fuente: Spanish Text Normalisation [4]. En la tabla se puede observar que la mayor parte de los errores han sido debidos a causa un error en la forma léxica (37 %), cosa que es difı́cil de predecir, ya que muchas veces los usuarios se equivocan marcando las caracteres intercalando letras que no son y eso puedo conllevar a la confusión como podrı́a ser el caso por ejemplo de elgerooo el cual fue normalizado como algero cuando realmente querı́a referirse a alegra. Otro tipo de error que también ha aparecido en numerosas ocasiones ha sido el de que la forma léxica correcta no apareciera como solución (32 %).. Experimento 3 de interpretabilidad de mensajes ELIRF-UPV (Group of Natural Language Engineering and Pattern Recognition de la Universidad Politécnica de Valencia) [9] es un equipo que participó en el concurso del TASS (Taller de Análisis de Sentimientos), el cual consiste en la realización de un análisis de sentimiento por lo que el resultado final de este se comentará posteriormente. Para la realización de esta parte de interpretabilidad este equipo se decidió por utilizar y adaptar herramientas disponibles en la red para la tokenización, la lematización y el etiquetado morfosintáctico (POS tagging). Primeramente, al igual que en los otros experimentos se comienza con la clasificación de las expresiones léxicas en IV o OOV en función de si estas están normalizadas o no.
(46) 46. 4.1. Preproceso. respectivamente. Y una vez conseguida esta clasificación ya se ha pasado a la corrección automática de las palabras OOV. Todo esto se ha realizado mediante los tokenizadores Tweetmotif (O’Connor, Kriegger y Ahn, 2010 [20]) y Freeling (Padró y Stanilovsky, 2012 [13]), este último sobretodo se ha utilizado para agrupar ciertos grupos de palabras de interés. Además de como tokenizador, la herramienta Freeling se ha utilizado tanto como lematizador (para sacar la raı́z de las palabras, por ejemplo: perrito→perro, leerá→leer) como etiquetador morfosintáctico. Para poder utilizar de forma fiable estas herramientas para el español se deben realizar una serie de modificaciones. Estas modificaciones realizadas para cada uno de los tokenizadores se presentan a continuación:. Tweetmotif Reescribir algunas expresiones regulares con el fin de contemplar el uso de acentos, diéresis y letras especı́ficas en español como la ñ. Crear una función para clasificar los emoticonos en cinco categorı́as: happy (en español, contento), sad (triste), tongue (lengua), wink (guiño) y other (otro). Crear una función con para normalizar ciertas palabras y abreviaciones usuales en Twitter, como por ejemplo: d→de, q→que, pq→porque, dl→del.. Freeling Su funcionamiento detallado viene especificado en el Experimento 1 de Interpretabilidad de mensajes y los cambios aquı́ propuestos han sido los siguientes:. Modificación de ficheros de configuración para que se mantuviera la tokenización producida por Tweetmotif, como pueden ser las menciones de usuarios (user), hashtags (#temas), emoticonos, www, http, signos de puntuación..
(47) 4. ESTADO DEL ARTE. 47. Crear una función para permitir algunas agrupaciones, como pudieran ser: • Palabras: (p.e: sin embargo) • Nombres propios: Luis Buades • Lugares: Palma de Mallorca • Fechas: 1 de Febrero de 1994. Además de todo esto, se ha decidido modificar los diccionarios para que a ciertos tokens se les asigne una categorı́a fija, como por ejemplo, #tema, usuario, emoticonos, www, http, signos de puntuación. Por último, con todo esto se debe realizar una tokenización y lematización de los tweets. Para simplificar esto, también se han desarrollado una serie de funciones que permiten unificar ciertos tokens, como por ejemplo agrupar todos los hashtags en un único token, agrupar todas las direcciones www y url en una o bien considerar los números, signos de puntuación o fechas como un único token. Mediante este método se ha obtenido un porcentaje de acierto aproximado del 70 %, por lo que a pesar de ser un valor bastante elevado no puede llegar a considerarse como un método fiable, ya que dista significativamente de los 76 % que se necesitan para poder considerarse ası́.. 4.2.. Análisis de sentimiento. Hoy en dı́a poder analizar y procesar la información de las redes sociales a tiempo real es extremadamente útil. Para esto, estos últimos años se han desarrollado distintas herramientas de monitorización que permiten realizar un análisis de sentimiento. Dicho esto, este tipo de análisis consiste primeramente en asignar el mensaje una categorı́a especı́fica (subsección 4.2.1) (empresa, ONG, polı́tica, deporte...) y posteriormente en asignarle una carga emocional a cada mensaje (subsección 4.2.2), de tal forma que después de analizar suficientes mensajes.
(48) 48. 4.2. Análisis de sentimiento. se pueda sacar una conclusión acerca de la opinión de los usuarios sobre una empresa, producto, Gobierno.... 4.2.1.. Clasificación del mensaje. Una vez corregido el tweet y antes de pasar a analizar su carga emocional, este mensaje suele ser clasificado en función de su categorı́a (paso no siempre necesario a la hora de analizar un conjuntos de tweets). Esta categorı́a puede ser muy variable, ya que bien puede referirse a una activad (o tópico) o a un conjunto de actividades o bien a una empresa o departamento en concreto u otro tipo de categorı́a, dependiendo de lo que se quiera analizar. En este apartado se analizarán con un amplio nivel de detalle las mejores soluciones existentes actualmente para realizar esta clasificación, ası́ como posteriormente se especificarán algunos de los problemas que surgen a la hora de realizar esto y sus posibles soluciones. Tal y como se ha comentado en el párrafo anterior, en función del tipo de clasificación que se quiera realizar, se van a diferenciar dos categorı́as (las dos más comunes):. En función de un tópico. En función de una empresa.. En ambos casos, el modelo es prácticamente el mismo, ya que lo único que varia es especificar al principio las categorı́as deseadas ası́ como seleccionar sus palabras claves o bien en que consistirá su aprendizaje automático o semiautomático. A continuación se detalla uno de los métodos más efectivos a la hora de realizar este tipo de clasificación con un ejemplo concreto. El equipo ELiRF-UPV durante el Taller de Análisis de Sentimientos (TASS) [12], detallado anteriormente, diseñó un modelo que permitı́a clasificar cada tweet en función de un.
(49) 4. ESTADO DEL ARTE. 49. campo (o tópico). Para la realización de este modelo propuesto. Primeramente, se deben especificar cada uno de los tópicos. Para este experimento se han establecido los que aparecen en la Tabla 4.5 (poniendo un ejemplo de cada).. Tópico. Ejemplo. Cine. Ayer fuimos a ver Saw VIII. Deportes. Me encanto la competición de natación de ayer. Entretenimiento. Lucı́a siempre juega al monopoli. Economı́a. El PIB de España es de 1,232 billones de euros. Literatura. Os recomiendo que os leáis el libro La sombra del viento. Fútbol. El mejor jugador del mundo es Cristiano Ronaldo. Música. Nos gustó mucho el concierto de Maluma. Polı́tica. No entiendo como la gente puede votar a Podemos. Tecnologı́a. El nuevo Iphone es una pasada. Otros. Estoy cansado. Tabla 4.5: Tópicos utilizados en Experimento 1 de Clasificación. Fuente: Elaboración propia. Para esta clasificación se ha utilizado la herramienta WEKA [21] [22] (Waikato Environment for Knowledge Analysis, entorno para análisis del conocimiento de la Universidad de Waikato en español), la cual consiste en una plataforma de software para el aprendizaje automático y la minerı́a de datos escrito en Java, a su vez el método empleado es el SMO . Este modelo se ha realizado mediante un clasificador binario, el cual funciona tal y como se puede observar en la Figura 4.3, es decir, el modelo lo que hace es analizar primero si pertenece al primer tópico, si es ası́, este se clasifica como Tópico 1 y deja de analizar el mensaje, en cambio si no lo es se clasifica como No Tópico 1 y pasa a analizar si pertenece al tópico 2 y ası́ sucesivamente..
(50) 50. 4.2. Análisis de sentimiento. Figura 4.3: Clasificador binario del experimento 1 de Clasificación. Fuente: Elaboración propia. El principal inconveniente de este método (SMO) es que es posible que a veces a algún mensaje no se le llegue a asignar ningún tópico, ya que este, únicamente asigna 1 si pertenece a un tópico o 0 si no. Una alternativa para tratar de resolver este problema es la de utilizar la librerı́a libSVM, la cual en vez de fijar 1 o 0 si es o no es correcta respectivamente, asigna una probabilidad a todas las clases, por lo que si a un tweet no se le asigna ninguna clase mediante el método SMO, este mensaje se clasifica en la clase más probable proporcionada por los clasificadores obtenidos con libSVM. Para analizar estos mensajes para su posterior clasificación se utilizan los lemas de los tweets cuya frecuencia en un conjunto representativo de entrenamiento sea mayor o igual a 1 (f≥1) y cuya categorı́a gramatical sea verbo o nombre. Mediante este método se ha obtenido un porcentaje de acierto del 75,6 %. Este porcentaje es muy variable ya que depende mucho del tipo de categorı́as en las que se quieran clasificar los mensajes, ya bien sea por la cantidad de categorı́as o por lo especı́ficas que sean éstas. De todas formas con este método se están obteniendo aciertos entre un 72 % y un 85 %, con los cual, se puede afirmar que son bastante fiables. A pesar de que el modelo esta claro, hay veces que al aplicarlo surgen problemas. El problema más común y que afecta directamente a la hora de realizar esta clasificación es el caso en que el nombre de una empresa (u otro tipo de organización) tiene un significado ambiguo, es decir, que la propia palabra no siempre se refiere a la empresa. La forma de resolver este problema se explica a continuación:.
(51) 4. ESTADO DEL ARTE. 51. Nombre con significado ambiguo Actualmente, controlar la reputación de una empresa a través de Internet es algo esencial. A la hora de realizar este control uno de los problemas más comunes es el nombrado anteriormente, nombres de empresas con significados ambiguos. Este es por ejemplo el caso de Santander, puede referirse al banco o a la ciudad. Este problema es especialmente difı́cil de resolver en microblogging (servicios en los que se envı́an mensajes breves como por ejemplo la plataforma Twitter), ya que existe un contexto demasiado corto, lo cual muchas veces es un problema a la hora de desambiguar ese nombre. La mejor solución para resolver este problema es la propuesta por Spina, Amigó y Gonzalo (2012) [23], la cual consiste básicamente en seleccionar todos los tweets en los que aparece el nombre de la empresa y posteriormente elaborar una clasificación binaria de relacionados (+) y no relacionados (-). En la práctica, esto podrı́a ser un componente de filtrado para servicios como SocialMention.com, donde si por ejemplo consultas Santander aparecen cifras de:. Fuerza: (Strenght-72 %) Sentimiento: (Sentiment-6,2 %) Pasión: (Passion-47 %) Alcance: (Reach-43 %). Esta observación se basa en otras dos observaciones intuitivas:. 1. Filtro de palabras clave: Consiste en recolectar las palabras clave, las cuales pueden ser positivas (+) o negativas (-), con la finalidad de aislar información. Un ejemplo podrı́a ser el que aparece en la Tabla 4.6.
(52) 52. 4.2. Análisis de sentimiento. Nombre empresa. Palabra clave Relación Financiación. +. Jardines. -. Santander. Tabla 4.6: Ejemplo de palabras clave relacionadas con Santander. Fuente: Elaboración propia. 2. Clase mayoritaria: La relación entre + y - no sigue una distribución normal (es muy variable), sino que sigue una distribución sesgada (por lo menos si se considera a corto plazo), normalmente, bien la mayorı́a de los tweets son sobre la empresa o bien la mayorı́a de estos no tienen relación alguna con ella. Predecir cual es cada una de estas situaciones puede ser una entrada valiosa para buscar soluciones algorı́tmicas al problema.. El objetivo del modelo es proporcionar una evidencia cuantitativa que respalde (o rechace) las intuiciones. Para esto se utiliza el WePS-3 (primer conjunto de datos construido para abordar este problema) y una especie de técnica de representación de huella dactilar, que consiste en la visualización de los resultados del sistema que son útiles para comprender el comportamiento del sistema (sesgos variables). Aplicando todo esto, el sistema final realizado por LSIR obtuvo un porcentaje de acierto del 83 %. Esto se ha conseguido seleccionando previamente un conjunto clave de palabras para cada empresa objeto de estudio, y tal y como se ha explicado previamente en función de si aparecen esas palabras o no, se manifiesta si el mensaje está relacionado con el tema o si por el contrario no lo está. Todo esto realizado con un clasificador SVM (su funcionamiento se explica en la sección 4.2.2) Otro buen sistema es el desarrollado por ITC-UT (75 %), el cual se basa en una clasificación de dos etapas:. 1. Predice la clase de cada empresa de acuerdo con la proporción de tweets relacionados con nombre de empresa..
(53) 4. ESTADO DEL ARTE. 53. 2. Aplicar una heurı́stica por cada clase, basándose principalmente en el etiquetado PoS y la etiqueta de la entidad nombrada del nombre de la empresa.. Este último modelo se ha decidido no desarrollarlo en profundidad a causa de que su fiabilidad es perceptiblemente inferior al modelo anteriormente analizado.. 4.2.2.. Carga emocional del mensaje. Consiste en asignarle una carga emocional a cada mensaje en función del sentimiento que este transmite. Esta carga emocional se suele analizar diferenciando tres tipos de sentimientos (De Bravo-Marquez et al., 2014 [24]):. Polaridad: Indica si el mensaje tiene una connotación negativa, positiva o neutra. Intensidad: Cuantifica la intensidad de ese sentimiento. Emoción: Indica el tipo de emoción: tristeza, ira, alegrı́a.... Aunque de todas estas, la que más relevancia tiene y la que más se usa es la de determinar la polaridad. A continuación, en la Tabla 4.7 se muestra un ejemplo de esto: Sentimiento. Frase. Negativa. El libro que he leido es muy aburrido. Positiva. Los Audi tienen un buen rendimiento. Neutra. Voy a ir a comprar. Tabla 4.7: Ejemplo de clasificación por polaridad. Fuente: Elaboración propia. Muchas veces, para no tener que implementar tantas técnicas, la polaridad en vez de clasificarse en tres tipos, se determina en seis niveles, en la que se incluye tanto las emociones como la intensidad:. N: Polaridad negativa de baja intensidad.
(54) 54. 4.2. Análisis de sentimiento N+: Polaridad negativa de alta intensidad P: Polaridad positiva de baja intensidad P+: Polaridad positiva de intensidad NEU: Polaridad neutra NONE: Ausencia de polaridad. Estas técnicas de monitorización están mucho más desarrolladas para el inglés que para el español, esto es ası́ debido a que para el castellano no se ha investigado esto tanto como para el inglés y porque para este último no existe tanta gramática y por tanto no es algo tan complejo. Es por esto que a continuación se comentarán las mejores técnicas para el análisis de sentimiento en español existentes actualmente y se compararán entre si. Para abordar este problema existen diversas técnicas, las cuales se pueden observar en la Figura 4.4 que aparece a continuación:. Figura 4.4: Tipos de técnicas de Análisis de Sentimiento. Fuente: Tecnhiques for sentiment analysis in Twitter: Supervised Learning and SentiStrength [5]. De todas estas técnicas, actualmente para el análisis en español hay dos que están más desarrolladas que el resto y que en un principio se supone que tienen una tasa de error menor.
(55) 4. ESTADO DEL ARTE. 55. y son las que se encuentran más próximas al valor mı́nimo de fiabilidad establecido que es de un 80 %. Estas son:. Aprendizaje automático Enfoque basado en el léxico- Diccionarios. A continuación se analizarán con un amplio nivel de detalle cada una de estas técnicas.. 4.2.2.1.. Aprendizaje automático. El aprendizaje automático es un sistema que busca entre los datos para detectar patrones con la finalidad de ajustar las acciones de un programa establecido anteriormente. Dentro de este, destacan dos tipos distintos:. Aprendizaje automático supervisado: Los algoritmos de aprendizaje automático supervisado permiten aplicar lo que se aprendió en el pasado a nuevos datos. Aprendizaje automático no supervisado: Los Los algoritmos de aprendizaje automático no supervisado permiten extraer inferencias de un conjunto de datos.. A priori, el más utilizado de estos y el que actualmente está más desarrollado es el aprendizaje automático supervisado y es por tanto sobre el que mayoritariamente se hablará en este apartado. Para analizar este tipo de técnicas se han analizado distintos casos para ası́ obtener el mejor posible mediante aprendizaje automático. Estas técnicas se describen en los experimentos explicados a continuación. La mayorı́a de estos experimentos han sido los trabajos desarrollados por distintas organizaciones en un Taller de Análisis de Sentimiento (TAS) que organiza la SEPLN (que tal como define su página web oficial, es una asociación cientı́fica que tiene el objetivo de difundir la enseñanza, investigación y desarrollo del procesamiento del lenguaje natural) anualmente desde el año 2013, en este taller se investigaba tanto el.
(56) 56. 4.2. Análisis de sentimiento. poder cuantificar la carga emocional como en la clasificación de los mensajes, pero en este subapartado únicamente se analizará lo relacionado con la carga emocional.. Experimento 1 de aprendizaje automático Este primer experimento fue desarrollado en el año 2013 por el equipo ELiRF durante el concurso que organiza el SEPLN mencionado anteriormente [9]. Para entender como se ha elaborado este análisis de sentimiento hay que tener en cuenta que anteriormente se ha realizado un preproceso, el cual ha consistido en una adecuada tokenización (interpretabilidad de los mensajes), analizado en la sección ?? Tal y como se ha comentado anteriormente, la tarea consiste en determinar la polaridad de los mensajes, distinguiéndolos en 6: N, N+, P, P+, NEU, NONE. Para realizar este experimento se han analizado un conjunto de 60.798 tweets, aunque previamente se han necesitado 7219 más como entrenamiento para el algoritmo. Esta tarea se ha realizado mediante una herramienta llamada WEKA (incluye una serie de algoritmos de aprendizaje automático) donde se ha implementado el algoritmo SVM (o máquina de vector de soporte, consiste en un conjunto de algoritmos de aprendizaje supervisado) mediante la librerı́a externa LibSVM (fácil integración con WEKA y software muy eficiente para SVM). Se ha utilizado una aproximación conocida como bag of words: representa cada tweet como un vector de caracterı́sticas que contiene las frecuencias de las caracterı́sticas seleccionadas. Para la realización de este ejercicio, inicialmente se consideraron un gran número de caracterı́sticas, de las cuales se han descartado unas cuantas ya que no mejoraban los resultados. Por lo que finalmente sólo se han tenido en cuenta nueve caracterı́sticas:. 1. Considerar únicamente unigramas (un unigrama equivale a una palabra del mensaje del tweet) de lemas obtenidos en el preproceso de los tweets con una mı́nima frecuencia establecidad anteriormente (f)..
(57) 4. ESTADO DEL ARTE. 57. 2. Considerar los hashtags (#tag) como una caracterı́stica. 3. Considerar las menciones a usuarios (@user) como una caracterı́stica. 4. Unificar el conjunto de los números como una caracterı́stica. 5. Unificar todas las fechas como una caracterı́sticas. 6. Unificar los signos de puntuación como una caracterı́stica. 7. Sustituir cada emoticono por su categorı́a previamente establecida (happy, sad, tongue, wink y other, en español, contento, triste, lengua, guiño y otro respectivamente). 8. Considerar sólo como caracterı́stica los tokens de cierta categorı́a morfosintáctica preestablecida (selPOS ). 9. Utilizar como recurso externo, léxicos de polaridad de lemas y palabras (DIC ).. Para todo esto hubo que realizar una serie de ajustes. Entre estos cabe destacar que uno de los léxicos utilizados estaba inicialmente en inglés (Wilson et al., 2005) por lo que se tuvo que traducir al español. Teniendo en cuenta todo esto, se han realizado distintos experimentos, tanto para una frecuencia de uno como para una de dos, y los mejores resultados para cada una de estas han sido los siguientes:. Para f=1: f=1+DIC Para f=2: f=2+selPOS+DIC. En ambos casos se han obtenido unos resultados que no llegan al 60 % de acierto. Esto es ası́ porque a veces es muy complicado diferenciar la intensidad de cada una de las polaridades. Por lo que posteriormente se ha decidido realizar este mismo experimento teniendo en cuenta únicamente el tipo de polaridad (sin considerar si tiene más o menos intensidad), es decir,.
(58) 58. 4.2. Análisis de sentimiento. considerando sólo N, P, NEU. Los resultados obtenidos para cada uno de estos casos aparecen representados en la Tabla 4.8. Caracterı́sticas. Porcentaje ( %). 5 niveles, f=1+DIC. 57,30. 5 niveles, f=2+selPOS+DIC. 57,60. 3 niveles, f=1+DIC. 67,40. 5 niveles, f=2+selPOS+DIC. 67,40. Tabla 4.8: Resultados del experimento 1 de carga emocional (polaridad). Fuente: ELiRF-UPV en TASS2013 Análisis de Sentimientos en Twitter [9]. Tal y como se puede comprobar, el mejor resultado obtenido es de un 67,40 % de acierto, muy lejos del 80 % (valor mı́nimo de fiabilidad) necesario para que pueda considerarse un método fiable.. Experimento 2 de aprendizaje automático Este trabajo ha sido desarrollado por el mismo equipo del Experimento 1 (ELiRF (Hurtado, Pla y Buscaldi, 2015) [25]) pero durante el año 2015. En este caso se ha analizado el trabajo de este equipo, porque a pesar de que han quedado terceros (muy cerca de los dos equipos vencedores), los dos primeros decidieron no presentar el informe y éste sı́. El TASS 2015 encargó distintas tareas de análisis de sentimiento (Garcı́a Cumbreras, Martı́nez Cámara, Villena Román y Garcı́a Morera, 2015 [26]), aunque como se ha mencionado anteriormente, en este subapartado únicamente se analizará la clasificación según la polaridad de sentimiento. Para esta tarea, el corpus se ha dividido en uno de aprendizaje (90 %) y uno de prueba (10 %), en el primero han aparecido los mensajes con las etiquetas de polaridad ya establecidas (P+, P, NEU, N, N+ o NONE) para ası́ poder desarrollar el algoritmo de aprendizaje supervisado y entrenarlo, mientras que el segundo han sido los que se deben resolver..
(59) 4. ESTADO DEL ARTE. 59. Hay que recalcar que la clasificación de polaridad de esta tarea se ha restringido a sólo cuatro categorı́as: P, N, NEU y NONE. Primeramente se ha realizado un preproceso de los mensajes, el cual como se ha mencionado anteriormente se ha explicado con un amplio nivel de detalle en la subsección 4.1.1. Posteriormente, se han seleccionado el conjunto de caracterı́sticas a tener en cuenta a la hora de analizar el modelo, las cuales se enumeran a continuación:. 1. Considerar únicamente unigramas de lemas obtenidos en el preproceso de los tweets con una mı́nima frecuencia establecidad anteriormente (f). 2. Los hashtag, menciones de usuarios, fechas y signos de puntuación se unificaron en una sola caracterı́stica. 3. Sustituir cada emoticono por su categorı́a previamente establecida (happy, sad, tongue, wink y other ). 4. Excluir términos pertenecientes a ciertas categorı́as morfosintácticas poco significativas para el análisis de sentimiento. 5. Utilización como recurso externo varios diccionarios de polaridad.. Finalmente, se ha aplicado el algoritmo de aprendizaje automático supervisado, que en este caso ha sido el SVM (máquina de vectores de soporte) tipo lineal (Hurtado et al., 2015 [25]). Con todo esto, se han obtenido unos resultados de un 72,1 % de acierto (por un 72,6 % y 72,5 % del primero y segundo respectivamente). A pesar de que la capacidad de predicción es superior a la del Experimento 1, aun no llega a al 80 % a partir del cual se considera un modelo fiable..
(60) 60. 4.2. Análisis de sentimiento. Experimento 3 de aprendizaje automático Este experimento (Carlos Hernández, Ferran Pla, Lluı́s-F. y Jaime Guzmán, 2017 [27]), al igual que el resto, ha sido realizado previo preprocesamiento (o interpretabilidad del mensaje) y extracción de aspectos (o clasificación del mensaje). Este ha sido validado utilizando el corpus de la tarea 5 de la edición de 2016 de SemEval (International Workshop on Semantic Evaluation). En esta tarea, para detectar la polaridad, se propone una aproximación que consiste en determinar el contexto de cada palabra a través de una ventana fija definida a la izquierda y derecha del aspecto (Pla y Hurtado, 2014 [28]). La longitud de esta ventana ha sido determinada experimentalmente mediante una validación cruzada, y se ha concluido con que su valor máximo debe ser de 3 palabras tanto a la izquierda como a la derecha. Para entrenar el sistema, se han determinado los segmentos para cada aspecto y se ha entrenado el clasificador. Como clasificador se han utilizado Máquinas de Soporte Vectorial, concretamente las librerı́as LibSVM y LibLinear. El software ha sido desarrollado en Python y se ha utilizado el toolkit scikit-learn para acceder a las librerı́as de SVM. Para la determinación de los parámetros de los clasificadores se ha utilizado una validación cruzada de 10 iteracciones. Aplicando todo lo mencionado hasta ahora se ha obtenido un resultado de un 83,21 % de acierto. A pesar de que este resultado es notablemente mejor que el de los experimentos previos analizados, se ha decidido mejorar el modelo mediante una serie de propuestas, estas han sido las que aparecen a continuación:. Utilizar el diccionario ELHUYAR (Saralegi y San Vicente, 2013 [29]) lematizado. Utilizar los lexicones SOL e iSOL (Molina-González et al., 2013 [30]). Utilizar como caracterı́sticas secuencias de hasta 7 carácteres, a las que se les ha añadido como nuevas caracterı́sticas el número de palabras positivas y negativas contenidas en los lexicones mencionados en el anterior punto..
(61) 4. ESTADO DEL ARTE. 61. A continuación, en la Tabla 4.8 se muestran los resultados obtenidos antes y después de la utilización de estos lexicones.. Sistema. Porcentaje ( %). Sin lexicones. 83,21. Con lexicones. 84,79. Tabla 4.9: Resultados del experimento 3 de carga emocional (polaridad). Fuente: Análisis de sentimientos a nivel de aspecto usando ontologı́as y aprendizaje automático [10]. Tal y como se puede comprobar, el uso de estos lexicones consigue que el porcentaje de acierto aumente hasta alcanzar un 84,79 % de acierto, lo cual mejora considerablemente el modelo. Por lo que además de ser el mejor modelo de los tres analizados y desarrollados hasta ahora, se puede afirmar que es un sistema fiable, ya que supera con creces el 80 % estipulado como el mı́nimo para que ası́ lo sea.. 4.2.2.2.. Enfoque basado en el léxico- Diccionarios. Para analizar la carga emocional de los mensajes, otro método distinto al de aprendizaje automático consiste en el basado en diccionarios de palabras o léxicos y el uso de técnicas lingüı́sticas basadas en conocimiento existente acerca del lenguaje y su estructura. En este contexto, un diccionario consiste en un listado de términos (bien pueden ser palabras o bien multipalabras), los cuales ya van dotados de una determinada polaridad, intensidad y/o tipo de emoción. Este procedimiento requiere unos algoritmos algo más sencillos que los utilizados en el método de aprendizaje automático. A pesar de esto, en la actualidad, se tiene el inconveniente de que, al contrario que para el inglés, para el español existen pocos recursos de este tipo. A nivel internacional existen una serie de diccionarios (o lexicones) muy desarrollados con los que se puede obtener información. Alguno de estos diccionarios son los siguientes:.
(62) 62. 4.2. Análisis de sentimiento Bing Liu’s Opinion Lexicon (Hu y Liu, 2004 [31]; Liu, Hu y Cheng, 2005 [32]): Diccionario basado en el aprendizaje semiautomático a partir de un entrenamiento a través de las distintas páginas web, disponible en formato digital y desarrollado principalmente para el inglés. SentiWordNet (Esuli y Sebastianini, 2006; Baccianella [33], Esuli y Sebastianini, 2010 [34]): Ampliamente utilizado disponible de forma pública para su uso en formato digital. Desarrollado principalmente para el inglés, a pesar de que cada vez tiene más peso en otros idiomas como es el castellano. Corpus de expresiones subjetivas Multi-perspective Question Answering (MPQA)(Wilson, Wiebe y Hoffmann, 2005 [35]): Corpus realizado manualmente en el que se incluyen 15.991 expresiones con sus respectivas polaridades obtenidas mediante experimentos de validación cruzada, disponible en formato digital y únicamente desarrollado para el inglés. LIWC (Pennebaker, Mehl y Niederhoffer, 2003 [36]): El diccionario calcula el porcentaje de palabras dentro de un texto de acuerdo a varias docenas de categorı́as en base a un gran corpus. Desarrollado principalmente para el inglés y disponible para el público en su versión completa por un precio aproximado de 75e. General Inquirer (Stone, Dunphy, y Smith, 1966 [37]): Diccionario más importante en inglés desarrollado en los años sesenta. Actualmente se encuentra obsoleto.. De todos los diccionarios, los dos más utilizados actualmente son los dos primeros, Bing Liu’s Opinion Lexicon y SentiWordNet. El enfoque de ambos, tal y como se muestra en la Tabla 4.10 es radicalmente distinto..
Documento similar