Mejora de la interpretabilidad de mensajes de Twitter

Texto completo

(1)Mejora de la interpretabilidad de mensajes de Twitter. Luis Buades Pérez. 1 de Febrero de 2018.

(2)

(3) Autor: Luis Buades Pérez Tutor: Joaquı́n Ordieres Meré. Agradecimientos A todas las personas que me han apoyado a lo largo de estos años..

(4)

(5) Resumen. La sociedad en la que vivimos cada vez esta más digitalizada. Ha llegado a tal extremo que a dı́a de hoy, no se concibe un mundo sin la tecnologı́a. Esta tecnologı́a abarca desde máquinas robóticas hasta plataformas de microblogging como puede ser Twitter, en la que cada vez más personas expresan sus opiniones y sentimientos. Es por eso, que estas últimas, cada vez tienen una mayor relevancia tanto a nivel personal como empresarial. Tanto es ası́, que actualmente, tanto las grandes como las medianas y pequeñas empresas tienen una gran dependencia de las redes sociales, ya sea para promocionarse, para vender o para extraer información acerca de los gustos y opiniones de los usuarios. Este Trabajo Final de Grado se centra en el análisis e interpretación de los mensajes a través de la plataforma Twitter, tanto de los procedimientos ya existentes como en el diseño de una nueva propuesta aplicando distintas técnicas aprendidas, ası́ como proponiendo una serie de mejoras complementarias (las cuales permitan mejorar el modelo) hasta ahora no desarrolladas, como son:. Interpretación de imágenes Interpretación de mensajes irónicos Interpretación de mensajes en otro idioma cooficial del territorio español.. A la hora de analizar un tweet de forma exhaustiva se deben seguir dos procedimientos, los cuales, a su vez están subdivididos en uno y dos subprocesos respectivamente: 5.

(6) 6 1. Preproceso: a) Interpretabilidad de los mensajes 2. Análisis de sentimiento: a) Clasificación de los mensajes b) Carga emocional de los mensajes. Para que sea más fácil su entendimiento, se considerarán a la par los tres procedimientos, los cuales se detallarán de forma breve y concisa (interpretabilidad, clasificación y carga emocional).. Interpretabilidad de los mensajes Para poder clasificar y analizar un mensaje es esencial que este sea entendible y coherente, es decir, que sea interpretable. En numerosas ocasiones, los usuarios de las plataformas tipo Twitter expresan su opinión mediante expresiones gramaticalmente incorrectas, es por eso que surge este procedimiento, el cual consiste en la adaptación de las expresiones léxicas incorrectas del mensaje a unas normalizadas y por tanto entendibles. Las técnicas aquı́ utilizadas se basan especialmente en dos procesos secuenciales:. 1. Diferenciación de la expresiones léxicas IV (In vocabulary, formas léxicas correctamente escritas) de las OOV (Out Of Vocabulary, expresiones léxicas mal escritas). 2. Corrección de las expresiones OOV.. Clasificación de los mensajes Una vez corregido el mensaje y antes de pasar a analizar su carga emocional, este suele clasificarse en función de una categorı́a, ya bien sea porque solo interesa analizar esa,.

(7) 7 descartar alguna o simplemente por el hecho de realizar distintos análisis en función de su categorı́a. Las técnicas empleadas en este procedimiento se basan en un clasificador binario, cuya función es analizar si el mensaje pertenece a un tópico o por si al contrario, se debe descartar esa categorı́a.. Carga emocional del mensaje La finalidad de este proceso es la de asignarle una carga emocional a cada mensaje en función del sentimiento que este transmite. A pesar de que muchas veces este análisis se diferencia en polaridad, intensidad y emoción, en este trabajo se ha decidido realizar un análisis combinado de estas técnicas al cual se le ha denominado simplemente como polaridad. Esta polaridad se determina en seis niveles:. N: Polaridad negativa de baja intensidad N+: Polaridad negativa de alta intensidad P: Polaridad positiva de baja intensidad P+: Polaridad positiva de intensidad NEU: Polaridad neutra NONE: Ausencia de polaridad. A la hora de analizar diferentes modelos que permitan obtener esta información de forma fiable se han analizado dos técnicas distintas:. Aprendizaje automático: Sistema automático que busca entre los datos para detectar patrones, con la finalidad de ajustar las acciones de un programa establecido previamente..

(8) 8 Enfoque basado en léxicos - Diccionarios: Sistema cuya finalidad es la de dotar a las expresiones de una polaridad previamente preestablecida comparándolas con un listado de términos..

(9) Índice general. Índice general. 9. Índice de figuras. 13. Índice de tablas. 15. 1. INTRODUCCIÓN. 19. 1.1. Importancia de las redes sociales. . . . . . . . . . . . . . . . . . . . . . . . .. 19. 1.2. Tipos de redes sociales y explicación de Twitter . . . . . . . . . . . . . . . .. 21. 1.3. Encuestas en Twitter. 23. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. OBJETIVOS. 25. 3. METODOLOGÍA. 27. 4. ESTADO DEL ARTE. 31. 4.1. Preproceso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. 33.

(10) 10. ÍNDICE GENERAL 4.1.1. Interpretabilidad del mensajes. . . . . . . . . . . . . . . . . . . . . .. 33. Experimento 1 de interpretabilidad de mensajes . . . . . . . .. 34. Experimento 2 de interpretabilidad de mensajes . . . . . . . .. 38. Experimento 3 de interpretabilidad de mensajes . . . . . . . .. 45. 4.2. Análisis de sentimiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.2.1. Clasificación del mensaje. 47. . . . . . . . . . . . . . . . . . . . . . . . .. 48. 4.2.2. Carga emocional del mensaje . . . . . . . . . . . . . . . . . . . . . .. 53. 4.2.2.1. Aprendizaje automático . . . . . . . . . . . . . . . . . . . .. 55. Experimento 1 de aprendizaje automático . . . . . . . . . . . .. 56. Experimento 2 de aprendizaje automático . . . . . . . . . . . .. 58. Experimento 3 de aprendizaje automático . . . . . . . . . . . .. 60. 4.2.2.2. Enfoque basado en el léxico- Diccionarios . . . . . . . . . .. 61. 5. RESULTADOS Y DISCUSIÓN 5.1. Preproceso final. 69. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.1.1. Interpretabilidad del mensaje final. 70. . . . . . . . . . . . . . . . . . . .. 70. 5.1.1.1. Propuesta Interpretabilidad del mensaje . . . . . . . . . . .. 71. 5.2. Análisis de sentimiento final . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. 5.2.1. Clasificación del mensaje final . . . . . . . . . . . . . . . . . . . . . .. 79. 5.2.1.1. Propuesta Clasificación del mensaje . . . . . . . . . . . . . .. 80.

(11) ÍNDICE GENERAL. 11. 5.2.2. Carga emocional del mensajes final . . . . . . . . . . . . . . . . . . .. 81. 5.2.2.1. Propuesta Carga emocional del mensaje . . . . . . . . . . .. 82. 5.3. Fiabilidad del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 86. 5.4. Discusión de otras propuestas de mejora . . . . . . . . . . . . . . . . . . . .. 88. 5.4.1. Interpretación de imágenes . . . . . . . . . . . . . . . . . . . . . . . .. 88. 5.4.2. Interpretación de mensajes irónicos . . . . . . . . . . . . . . . . . . .. 89. 5.4.3. Interpretación de mensajes en otro idioma cooficial del territorio español 91. 6. CONCLUSIÓN. 93. 7. LÍNEAS FUTURAS. 95. 8. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO. 99. Bibliografı́a. 103.

(12)

(13) Índice de figuras. 1.1. Porcentaje de uso de las redes sociales en el mundo. Fuente: TreceBits [1] . .. 20. 1.2. Crecimiento redes sociales en los últimos años. Fuente: Revista Redes Sociales [2] 20 1.3. Número de usuarios de las redes sociales más importantes. Fuente: Statista [3] 22. 4.1. Secuencia que de debe seguir para analizar un mensaje. Fuente: Elaboracón propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2. Gráfica comparativa entre divergencia KL y precisión. Fuente: Spanish Text Normalisation [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 4.3. Clasificador binario del experimento 1 de Clasificación. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 50. 4.4. Tipos de técnicas de Análisis de Sentimiento. Fuente: Tecnhiques for sentiment analysis in Twitter: Supervised Learning and SentiStrength [5] . . . . . . . .. 54. 5.1. Ejemplo de imagen de un iPhone extraı́da de Internet. Fuente: Amazon [6] .. 89. 5.2. Mapa con lenguas oficiales de cada territorio español. Fuente: Slide Player [7]. 91. 8.1. Diagrama de Gantt del presente proyecto. Fuente: Elaboración propia . . . . 100. 13.

(14)

(15) Índice de tablas. 4.1. Cambios de caracteres utilizados para la lectura de léxico en español mediante Double Metaphone. Fuente: GitHub [8] . . . . . . . . . . . . . . . . . . . . .. 40. 4.2. Ejemplo de expresiones mal escritas. Fuente: Elaboración propia . . . . . . .. 42. 4.3. Divergencia KL para los cinco principales candidatos para las palabras callendo y guau. Fuente: Spanish Text Normalisation [4] . . . . . . . . . . . . . . .. 43. 4.4. Porcentaje de cada uno de los tipos de error obtenidos en la normalización. Fuente: Spanish Text Normalisation [4] . . . . . . . . . . . . . . . . . . . . .. 45. 4.5. Tópicos utilizados en Experimento 1 de Clasificación. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 4.6. Ejemplo de palabras clave relacionadas con Santander. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7. Ejemplo de clasificación por polaridad. Fuente: Elaboración propia. . . . . .. 52 53. 4.8. Resultados del experimento 1 de carga emocional (polaridad). Fuente: ELiRFUPV en TASS-2013 Análisis de Sentimientos en Twitter [9] . . . . . . . . .. 58. 4.9. Resultados del experimento 3 de carga emocional (polaridad). Fuente: Análisis de sentimientos a nivel de aspecto usando ontologı́as y aprendizaje automático [10] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. 61.

(16) 16. ÍNDICE DE TABLAS 4.10. Comparación de enfoque entre Bing Liu’s Opinion Lexicon y SentiWordNet. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 5.1. Porcentaje de acierto de cada experimento de Interpretabilidad. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. 5.2. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 1. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 5.3. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 2. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . .. 75. 5.4. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 3. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 5.5. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 4. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . .. 77. 5.6. Lista propuesta de expresiones gramaticales incorrectas más frecuentes, Parte 5 78 5.7. Porcentaje de acierto de cada experimento de Clasificación. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 80. 5.8. Porcentaje de acierto de cada experimento de Carga emocional. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 81. 5.9. Adecuación de la nomenclatura según la intensidad de la polaridad. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84. 5.10. Resultados posibles obtenidos a la hora de dotar de una carga emocional a un mensaje. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . . .. 86. 5.11. Probabilidad de acierto de cada uno de los métodos de forma independiente. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87.

(17) ÍNDICE DE TABLAS. 17. 5.12. Probabilidad de acierto en función de los procedimientos que se quieran implementar. Fuente: Elaboración propia. . . . . . . . . . . . . . . . . . . . . .. 87. 5.13. Ejemplo de expresión irónica. Fuente: Elaboración propia . . . . . . . . . . .. 90. 8.1. Lista de plazos y dedicación de las tareas relativas al presente TFG. Fuente: Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. 8.2. Costes del trabajo realizado por el alumno. Fuente: Elaboración propia . . . 101 8.3. Costes del material utilizado. Fuente: Elaboración propia . . . . . . . . . . . 101 8.4. Costes totales del proyecto. Fuente: Elaboración propia . . . . . . . . . . . . 102.

(18)

(19) Capı́tulo 1 INTRODUCCIÓN. 1.1.. Importancia de las redes sociales. La redes sociales se definen como canales de comunicación en lı́nea dedicados a la entrada, la interacción, el intercambio de contenido y la colaboración hacia la comunidad. Hoy en dı́a las redes sociales son una parte muy importante de nuestras vidas, hasta tal punto que podrı́an llegar a considerarse como algo imprescindible. Para darse cuenta del poder y la influencia que este medio tiene sobre los habitantes (no solo en España, sino que también a nivel mundial), basta con fijarse en la Figura 1.1 que aparece en la siguiente página, la cual muestra en porcentaje, la cantidad de gente que las utiliza. En esta, se puede comprobar que en las zonas más desarrolladas, el porcentaje de población que utiliza las redes sociales ronda el 50 %. La redes sociales existen desde hace relativamente poco tiempo, pero desde que se crearon, el nivel de conexión a estas ha crecido de forma exponencial hasta alcanzar lı́mites inimaginables. Tanto es ası́, que han conseguido ser uno de los principales motores de la economı́a mundial, ası́ como una excelente fuente de información. 19.

(20) 20. 1.1. Importancia de las redes sociales. Figura 1.1: Porcentaje de uso de las redes sociales en el mundo. Fuente: TreceBits [1]. Figura 1.2: Crecimiento redes sociales en los últimos años. Fuente: Revista Redes Sociales [2].

(21) 1. INTRODUCCIÓN. 21. Este rápido crecimiento de las redes sociales, a causado que la mayorı́a de las empresas empezasen a interesarse en el funcionamiento de este medio y que se dieran cuenta de la importancia que estas conllevan a la hora de realizar campañas publicitarias, encuestas... Además, la publicidad a través de este tipo de plataformas es muy económica en comparación con los costos incurridos por la impresión, televisión u otros medios tradicionales.. 1.2.. Tipos de redes sociales y explicación de Twitter. Cabe destacar que dentro de las redes sociales existen numerosas plataformas. Tales como:. Facebook Whatsapp Instagram Linkedin Google+ Twitter. Cada una de las cuales son independientes y no todas van destinadas al mismo grupo de población. En nuestro caso vamos a analizar a fondo la red social Twitter, que es sobre la que se va a trabajar en este proyecto. Twitter fue fundado el 21 de marzo de 2006 por la compañı́a Odeo y consiste en un servicio gratuito de microblogging (el microblogging es un sistema que permite a los usuarios enviar y publicar mensajes breves) que permite a los usuarios registrados difundir mensajes cortos (como máximo de 140 caracteres) llamados tweets. Lo bueno que tiene esta red social, es que sus miembros a parte de transmitir sus tweets, pueden seguir los de otros usuarios mediante múltiples plataformas y dispositivos (ordenador, móvil...). La aplicación te permite.

(22) 22. 1.2. Tipos de redes sociales y explicación de Twitter. seguir a quien quieras, ya sea un amigo, una persona famosa,una empresa... ası́ como todas sus publicaciones. Gracias a estas caracterı́sticas es por lo que Twitter es una de las redes sociales más utilizadas a nivel internacional. A continuación se muestra una foto figura: 1.3 en la que aparece una tabla con las redes sociales más utilizadas actualmente. Tal y como se puede observar, Twitter aparece en la octava posición con un total de 330 millones de usuarios.. Figura 1.3: Número de usuarios de las redes sociales más importantes. Fuente: Statista [3]. A causa de todo esto es por lo que actualmente es una herramienta esencial para las empresas, tanto para realizar campañas publicitarias como para analizar la opinión y gustos de los distintos usuarios..

(23) 1. INTRODUCCIÓN. 1.3.. 23. Encuestas en Twitter. Tal y como se ha comentado en los apartados anteriores, Twitter es una plataforma esencial para extraer conocimiento desde opiniones a tiempo real (sobre productos, personas, ideas, sentimiento...), frente a las encuestas directas. Esto no solo es favorable para las empresas, sino que es interesante para otros tipos de organizaciones, Gobiernos o incluso a la hora de realizar experimentos. Es a partir de esto donde surgen una serie de problemas e inconvenientes a la hora de recopilar e interpretar la información más relevante. Esto es debido a:. Interpretabilidad de los mensajes: Los tweets escritos por los usuarios en numerosas ocasiones no siguen las expresiones gramaticales formales, lo cual supone una severa cortapisa para la comprensión de lo que la opinión expresada está diciendo (ironı́as con emoticonos, errores sintácticos, abreviaturas...). Análisis de sentimiento: No siempre es fácil saber interpretar de forma automática la opinión de los usuarios, ya sea por el problema anteriormente nombrado, por la ambigüedad de las palabras o bien por lo difı́cil de extraer la información más relevante.. Este trabajo tratará de buscar la mejor solución para resolver cada uno de los problemas que surgen a partir de los puntos enumerados anteriormente, de tal forma que esta interpretabilidad tenga la menor tasa de error posible y ası́ poder extraer la máxima información posible..

(24)

(25) Capı́tulo 2 OBJETIVOS. Hoy en dı́a conseguir extraer conocimiento a partir de las opiniones es algo esencial para las organizaciones. Una buenas forma para obtener estas opiniones es a través de las plataformas de microblogging (servicios en los que se envı́an mensajes breves, por ejemplo: Twitter, Facebook, Google+...). El principal inconveniente que surge a las hora de sacar conclusiones a partir de éstos es que en numerosas ocasiones no se siguen las expresiones gramaticales formales y ello supone una severa cortapisa para su comprensión, ası́ como muchas veces es muy complejo analizarlos sentimentalmente. El objetivo principal de este Trabajo de Fin de Grado ha sido el de realizar una investigación exhaustiva acerca de la eficacia y eficiencia de los actuales métodos que existen de interpretabilidad y análisis de mensajes de Twitter en español (aunque también podrı́a ser aplicable a otros sistemas basados en el microblogging), tanto en la parte de preproceso (intrepretabilidad) como en el análisis de sentimiento (clasificación en función de un tópico o empresa y carga emocional). Todo esto se ha realizado con el finalidad de obtener las soluciones existentes más efectivas para cada posible caso, realizando una guı́a en la que se explica con un amplio nivel de detalle que método aplicar en función del caso que se tenga.. 25.

(26)

(27) Capı́tulo 3 METODOLOGÍA. Se ha realizado un estudio completo de los métodos existentes en la actualidad para obtener información a través de los mensajes de Twitter en español (tanto de métodos realizados directamente para el español como tratando de adaptar a este idioma algunos diseñados para el inglés). Esto ha permitido agrupar los mejores procesos que existen para cada caso concreto y ası́ conseguir un mejor rendimiento (en cuanto a fiabilidad) a la hora de realizar un estudio sobre la opinión de un conjunto de personas de interés para una organización... Toda esta información ha sido extraı́da a través de distintos artı́culos (tanto en español como en inglés), páginas web o trabajos de otras personas, verificando siempre que la información es correcta, ya sea comparándolo con otras fuentes fiables o comprobándolo personalmente. La metodologı́a que se ha empleado para realizar este trabajo final de grado se puede dividir en los siguientes pasos: 1. Búsqueda de artı́culos y trabajos relacionados con la interpretabilidad de mensajes de plataformas de microblogging. Esta búsqueda se ha realizado principalmente a través del buscador Google scholar, en el se han obtenido un gran número de artı́culos técnicos acerca de este tema. Todos estos artı́culos están especificados en 27.

(28) 28 la bibliografı́a que aparece al final del trabajo. 2. Lectura de toda esta información, en la que aparecen numerosos métodos distintos para esta interpretabilidad y análisis. Se ha realizado una lectura en profundidad de todos los artı́culos y trabajos antes descargados. 3. Asimilación, análisis, verificación y comparación de todos estos métodos. En esta parte del trabajo, se ha extraı́do la información más relevante de cada documento. 4. Selección de los mejores métodos existentes para cada caso, teniendo en cuenta tanto los desarrollados especı́ficamente para el español como los realizados para el inglés que se ha creı́do que adaptándolos al español pudieran tener un mejor rendimiento. 5. Explicación de todos los métodos seleccionados, separándolos en función de la parte del proceso al que corresponden. Todos estos métodos han sido desarrollados con un amplio nivel de detalle, de tal forma que únicamente con lo expuesto en el trabajo se pueda aplicar sin dificultades cada método. El proceso se ha separado en estas 2 fases con sus respectivos procesos: a) Preproceso: 1) Interpretabilidad de los mensajes b) Análisis de sentimiento: 1) Clasificación del mensaje 2) Carga emocional del mensaje 6. Comparación en cada ámbito de cada uno de estos métodos. Todas estas comparaciones se han realizado a partir de los distintos Experimentos desarrollados en las (subsecciones 4.1.1, 4.2.1 y 4.2.2). 7. Selección y desarrollo del mejor sistema posible con toda la información disponible. Dentro de alguno de los procesos a la hora de encontrar la mejor solución se ha combinado más de un método distinto. 8. Redacción de la memoria, o lo que es lo mismo, del trabajo completo. Cumpliendo siempre la normativa de la UPM en cuanto a redacción de un Trabajo Final de.

(29) 3. METODOLOGÍA. 29. Grado, con estructura y demás procedimientos exigidos. Dentro de este apartado, la metodologı́a seguida (orden de redacción de la memoria) ha sido la siguiente: a) Introducción b) Estado del arte c) Objetivos d ) Resultados y discusión e) Conclusión f ) Lı́neas futuras g) Planificación temporal y presupuesto h) Resumen i ) Bibliografı́a.

(30)

(31) Capı́tulo 4 ESTADO DEL ARTE. El estado del arte es una compilación de resultados de otras investigaciones que se han realizado sobre el tema de investigación escogido. Se trata de establecer qué se ha hecho recientemente sobre el tema seleccionado. En este capı́tulo se van a analizar los modelos tanto para la interpretabilidad de los mensajes, incluido dentro del procedimiento que a partir de ahora se va a llamar preproceso (sección 4.1) como para el análisis de sentimiento (sección 4.2) para Twitter existentes actualmente. A partir de todo esto se extraerán las mejores soluciones existentes para cada caso y se creará el modelo más fiable con cada una de las técnicas más efectivas. Es posible que algunos modelos tengan ciertas ventajas sobre otros en unos aspectos pero que sean significativamente peores en otros, por lo que a la hora de diseñar el modelo final, se extraerá información de más de un modelo en un mism o proceso. A la hora de analizar un tweet es imprescindible tener claro cual es el orden de los procedimientos nombrados en el párrafor anterior que se debe seguir (Figura 4.1), ya que a la hora de realizar un análisis exhaustivo estos suelen ser complementarios.. 31.

(32) 32. Figura 4.1: Secuencia que de debe seguir para analizar un mensaje. Fuente: Elaboracón propia. Cada uno de los procesos nombrados en la (Figura 4.1) trata un aspecto diferente a la hora de este análisis, explicación que se adjunta a continuación:. 1. Preproceso: Es una parte esencial que se debe realizar previamente antes del análisis del tweet. Consiste en adaptar las expresiones léxicas incorrectas del mensaje a unas normalizadas. Este proceso consta únicamente de un procedimiento: Interpretabilidad de los mensajes. 2. Análisis de sentimiento: Este apartado es el del análisis del mensaje propiamente dicho. Consiste en la obtención de información relacionándolo con un tópico en concreto. En este proceso se pueden distinguir dos procedimientos: a) Clasificación del mensaje: Procedimiento donde a cada tweet se le asigna una categorı́a para posteriormente relacionar la información extraı́da con ésta. b) Carga emocional del mensaje: A cada tweet se le dota de una carga emocional en función del sentimiento que transmite, analizando tres aspectos: Polaridad. Intensidad. Emoción.. Todos estos procesos se detallan en los posteriores apartados, ası́ como a cada uno de ellos se les adjunta el porcentaje de acierto que tienen..

(33) 4. ESTADO DEL ARTE. 4.1.. 33. Preproceso. 4.1.1.. Interpretabilidad del mensajes. Para poder clasificar y analizar los mensajes es esencial que estos sean entendibles y coherentes, es decir, que se puedan interpretar. Esto no siempre es algo trivial, ya que actualmente la mayorı́a de usuarios no suelen seguir las expresiones gramaticales formales a la hora de manifestar su opinión en un tweet. Este problema es especialmente significativo para el español. Actualmente, para solucionar este problema de interpretabilidad existen diferentes métodos: Aplicar métodos con herramientas utilizadas en inglés únicamente adaptándolos al español [4] . Diseñar nuevos métodos con aplicación directa para el español [11] [9] [12]. Aunque como se acaba de afirmar existen diferentes métodos para realizar este proceso, todos ellos tienen algunas cosas en común como son la de realizar una primera clasificación separando dos grupos: formas léxicas correctamente escritas a las que se les suelen llamar IV (In Vocabulary) y otro con las expresiones mal escritas, también conocidas como OOV (Out Of Vocabulary). Otro dato que se deberı́a adelantar es que en la actualidad para este tipo de tarea en inglés se están obteniendo unos porcentajes de acierto (P orcentajeAcierto =. DecisionesCorrectas ) T otalP alabrasOOV. cer-. canos al 80 %, y como ejemplo y para hacerse una primera idea de como se puede realizar un modelo que resuelva este tipo de problemas en inglés con un acierto del 75 % a continuación se presentan resumidos los 3 pasos que se siguen en el modelo realizado por Han y Baldwin (2011) [4]: 1. Generar del conjunto de confusión, donde para cada OOV se generan distintos candidatos..

(34) 34. 4.1. Preproceso 2. Identificar las palabras a normalizar mediante un clasificador (donde se deben distinguir las que deben modificarse y las que no). 3. Selección de los candidatos.. Para tratar de encontrar la mejor solución disponible actualmente con la tecnologı́a y sistemas existentes se han decidido analizar distintos métodos considerados a priori provechosos, con la finalidad de obtener las mejores soluciones disponibles para cada caso en especı́fico.. Experimento 1 de interpretabilidad de mensajes La Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) organizó un taller de Normalización Lingüı́stica en el año 2013, sobre al cual se va a realizar este experimento con la información recopilada por Alegria, Aranberri, Fresno, Gamallo, Padró, San Vicente, Turmo y Zubiaga, 2013 [11]. Para realizar este taller se han obtenido un conjunto de 227.855 tweets, de los cuales se han repartido de forma aleatoria dos conjuntos de 6.000 a cada equipo (el primero constituye el conjunto de entrenamiento mientras que el segundo es el definitivo). Primeramente se deben diferenciar las expresiones léxicas IV de las OOV dentro de cada tweet para lo cual se utiliza el analizador morfológico de la librerı́a FreeLing (Padró y Stanilovsky, 2012 [13]). Esta parte del proceso en la que se utiliza esta librerı́a se debe realizar en tres pasos distintos:. 1. Se extraen todas las cadenas de caracteres de tipo @usuario, #etiqueta, e-mail, URLs y emoticonos y se descartan como OOV. 2. Se analiza cada una de las palabras de todos los tweets con los módulos básicos (diccionarios, detector de números, fechas, sufijos...) y en el caso de que alguna palabra no sea reconocida pasa a considerarse OOV..

(35) 4. ESTADO DEL ARTE. 35. 3. Se aplica un analizador morfológico básico con los módulos por defecto (a excepción de los reconocedores de multipalabras, entidades con nombre y de probabilidades léxicas) y en el caso de que alguna palabra no sea reconocida se considera OOV.. Una vez finalizada esta primera clasificación, se debe pasar a la parte del proceso que se conoce como Proceso de anotación. En esta parte se empieza anotando cada OOV obtenida anteriormente. Una vez terminadas esta anotación cada una de las OOV se etiqueta (existen tres probabilidades) y posteriormente en función de la etiqueta que se le ha dado se realiza un procedimiento u otro. El tipo de etiquetas que existe, ası́ como el procedimiento que se debe realizar en función de estas se presenta en los siguientes puntos:. Correcta: no se debe modificar. Variante: se le asigna su forma normalizada. NoEs (otro idioma): no se debe modificar.. En esta parte del proceso, a la hora de la anotación se deben seguir los siguientes criterios en función del tipo de palabra:. Palabra incluida en la RAE La palabra se anotará directamente como Correcta.. Nombre propio no incluido en la RAE Existen dos opciones:. Si es un acrónimo originalmente compuesto, todo en mayúscula o con alguna letra en minúscula (p.e: CoNLL, I.B.M, IBM) se clasifica directamente como Correcta..

(36) 36. 4.1. Preproceso Si no es acrónimo, existen dos opciones: • Si lleva las letras requeridas, inicial en mayúscula y los acentos requeridos (p.e: Luis, Castellón), entonces se clasifica como Correcta. • Si tiene alguna falta de ortografı́a o le falta algo del punto anterior (p.e: Madriz, sevilla), entonces se clasificará como Variante y se especificará su forma correcta (Madrid, Sevilla).. Palabra no incluida en la RAE sin ser nombre propio En este caso existen siete opciones:. Si es un neologismo o extranjerismo compuesto correctamente y cumple las reglas (p.e: retuitear, parking), se clasificará como Correcta. Diminutivo o Superlativo escrito correctamente (p.e: grandı́simo, supergrande), se clasificará como Correcta. Si existe alguna falta de ortografı́a (repetición, permutación de letras, eliminación...) (p.e: cllaro, comia), se clasificará como Variante y se especificará su forma correcta (claro, comı́a). Acortamiento o abreviatura (p.e: Mr, result), se clasificará como Variante y se especificará su forma correcta (Mı́ster, resultado). Onomatopeya con alguna alteración, dependiendo del caso se etiquetará de una forma u otra: • Si se simplifica y existe según la RAE (p.e: jejejejeje → je), entonces se clasificará como Variante y se especificará su forma correcta. • Si una vez simplificado se comprueba que no existe en la RAE (p.e: tssssssssss → ts), entonces se clasifica como Correcta..

(37) 4. ESTADO DEL ARTE. 37. Concatenación de palabras, se clasificará como Variante y se especificará su forma correcta. Expresión léxica proveniente de otro idioma, se clasificará como NoEs. Emoticono, se clasificará como NoEs.. A pesar de que toda esta teorı́a es simple de entender, a la hora de implementarla es cuando realmente surgen los problemas, puesto que por ejemplo el lı́mite entre palabras extranjeras y términos ya aceptados en español no siempre está tan claro, a veces el contexto del tweet no es suficiente para descifrar una abreviatura o acortamiento o que en numerosas ocasiones no esta clara cual es la intención de una determinada onomatopeya. El equipo que diseñó un mejor modelo fue el de la RAE (Porta y Sancho, 2013 [14]), el cual obtuvo un porcentaje de acierto del 78 %, lo cual es un resultado similar al que se tiene actualmente en el inglés y por tanto se podrı́a considerar como un método fiable. Este resultado se obtuvo mediante un sistema basado en transductores de estados finitos (consiste en autómatas finitos (modelos computacionales que realizan cómputos de forma automática sobre una entrada para producir una salida con pesos estipulados en función de la composición (variantes, posibles variantes y modelo del lenguaje), o explicado con otras palabras, se debe definir un dominio para cada uno de los estados y configurarlo de tal forma que si no se cumple ese dominio, el modelo no debe pasar al siguiente estado y ası́ sucesivamente). Implementando las reglas explicadas anteriormente generan transductores para los fenómenos descritos en el siguiente párrafo ası́ como un modelo de lenguaje basado en trigramas de palabras. Para analizar las palabras utiliza el siguiente lexicón:. Diccionario RAE [15]. Las 100.000 palabras más frecuentes del BNC [16]. Un corpues de páginas web (Wacky) [17].. Para obtener estos resultados, aparte de realizar todo lo descrito en el anterior párrafo,.

(38) 38. 4.1. Preproceso. se han tenido en cuenta una serie de fenómenos (o errores) habituales. Estos fenómenos son los que se muestran a continuación:. Errores ortográficos habituales (h → ∅). Omisión de tildes (é → e). Cambios fonológicos habituales (k → c, qué). Abreviaturas o acortamientos (p.e: admin → administración). Omisión de letras (p.e: amargao → amargado). Repetición de caracteres (p.e: graaaacias → gracias). Unión de palabras que en teorı́a van separadas (p.e: esque → es que). Onomatopeyas (p.e: jajajajaja → ja).. Otros equipos que también obtuvieron unos buenos resultados fueron Citius-Imaxin (Gamallo, Garcı́a y Pichel, 2013 [18]) y UPC (Ageno et al., 2013 [19]) con un porcentaje de acierto de 66,3 % y 65,3 % respectivamente. Aunque tal y como se puede comprobar la diferencia entre estos y el equipo ganador (RAE [14]) fue muy significativa (existe una diferencia de más de 10 puntos), por lo que se ha decidido no analizar esos modelos, ya que al tratarse del mismo concurso (con las mismas pautas), estos no aportarán nada nuevo. Otro hecho que se deberı́a resaltar, es que el modelo RAE fue realizado mediante la herramienta Freeling, la cual se entrenó hasta conseguir alcanzar esta fiabilidad [14].. Experimento 2 de interpretabilidad de mensajes A la hora de comenzar a diseñar el modelo, para realizar una primera aproximación se ha tratado de comparar este problema con el existente para el inglés, ya que a dı́a de hoy es en el que se ha investigado más sobre este tema. Para esto se ha utilizado una normalización basada en el léxico realizada por Han, Cook y Baldwin (2012) [4]..

(39) 4. ESTADO DEL ARTE. 39. Primeramente, para confeccionar este experimento se ha tratado de identificar una serie de factores clave:. Ortografı́a: El español posee muchos más caracteres que el inglés. Algunos de estos pueden cambiar totalmente el significado de una palabra. Un ejemplo de uno de estos caracteres es el del acento (una palabara puede variar su significado únicamente con añadir o suprimir un acento), este es por ejemplo, el caso de la palabra mas, ya que sin acento (mas) en ingles es but, mientras que si se le añade el acento (más) esta se traduce como more. El método de Han, Cook y Baldwin (2012) [4] utiliza la distancia de Levenshtein (o distancia entre palabras, es el número mı́nimo de operaciones requeridas para transformar una cadena de caracteres en otra) para medir la similitud de las cadenas. Esto se realiza convirtiendo cada uno de los caracteres en puntos de Unicode (estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas), tratando las letras con y sin acento (por ejemplo, á o a) como caracteres diferentes y finalmente se calcula la distancia de Levenshtein sobre estas formas.. Segmentación de palabras: En español y en inglés se utiliza de forma similar la segmentación mediante un espacio en blanco de palabras compuestas, por lo que se pueden aplicar técnicas de tokenización similares.. Morfofonémica: Consiste en un modelado fonético de palabras. Es un método modelados por Han, Cook y Baldwin (2012) [4], pero existe una implementación estándar en español disponible de Double Metaphone (https://github.com/amsqr/Spanish-Metaphone). Este ha sido traducido directamente del inglés, aunque hay que destacar que además se han implementado una serie de modificaciones, las cuales se pueden apreciar en la Tabla 4.1.. Recursos léxicos: Ya existen diccionarios de léxico para español. Cabe recalcar que en este tipo de modelo se suelen ignorar las letras mayúsculas..

(40) 40. 4.1. Preproceso. Caracteres afectados. Original. Cambio. a. á. a. ch. ch. x. ç. ç. s. e. é. e. i. ı́. i. o. ó. o. u. ú. u. ü. u. ñ. ñ. ny. gü. gü. w. b. b. v. z. z. s. ll. ll. y. c. cc. x. ci, ce. z. si nada. k. g. ge, gi. j. h. si nada. g. es muda. ∅. si no muda. h. qu. q. si nada. k. es. es. si nada. s. q. s. x. s ex x. Tabla 4.1: Cambios de caracteres utilizados para la lectura de léxico en español mediante Double Metaphone. Fuente: GitHub [8].

(41) 4. ESTADO DEL ARTE. 41. A grandes rasgos, la función primera del modelo debe ser la de separar cada cadena de caracteres en dos grupos diferenciados, dependiendo si están correctamente escritas o si no:. IV: In Vocabulary OOV: Out Of Vocabulary. Una vez agrupadas en IV las palabras correctas y en OOV las que no, en el siguiente procedimiento se deben mantener las palabras IV mientras que las OV se deben modificar, este proceso consta de dos pasos:. 1. Descifrar todos los OOV y normalizarlos basándose en un léxico de normalización que combina los léxicos existentes y lo aprendido de forma automática de un corpus de Twitter (lo cual se explicará con un amplio nivel de detalle en los siguientes subapartados). 2. Restauración de las palabras normalizadas.. A continuación, se explica con un amplio nivel de detalle cada uno de estos procedimientos nombrados en la anterior enumeración:. Recursos Existen algunas listas con recopilaciones de frases y palabras que se suelen escribir de forma incorrecta con sus respectivas formas correctas. Algún ejemplo de estos diccionarios es el diccionario Freeling 3.0 (Padró y Stanilovsky, 2012 [13]), el cual contiene más de 600.000 palabras ası́ como una serie de expresiones y abreviaturas utilizadas asiduamente en Internet, por último también aparece una lista de 277 nombres comunes en español con sus respectivas abreviaturas. A continuación, en laTabla 4.2 se muestra un ejemplo de distintas expresiones incorrectas que se suelen utilizar a la hora de expresarse mediante Twitter, recopiladas de dicha plataforma de forma manual..

(42) 42. 4.1. Preproceso. Original. Significado. Traducción inglés. 100pre. siempre. always. a10. adiós. goodbye. a2. adiós. goodbye. ac. hace. (form of hacer ). aki. aquı́. here. amr. amor. love. aora. ahora. now. Tabla 4.2: Ejemplo de expresiones mal escritas. Fuente: Elaboración propia. Léxico derivado del corpus El problema que tiene idea propuesta en el subapartado anterior (Recursos) de generar una lista manual con las expresiones incorrectas más utilizadas con sus respectivos significados es poco representativo comparándolo con el total de las expresiones no estándar que se utilizan. Para complementar esto, una opción es la de adaptar el método de Han, Cook y Baldwin (2012) [4] explicado anteriormente al español. Para realizar este experimento, se han recolectado 283 millones de tweets en español, los cuales han sido tokenizados mediante un tokenizador de Twitter en inglés (O’Connor, Krieger y Ahn, 2010 [20]). Para llegar a esto, inicialmente se decidieron realizar dos aproximaciones:. Las repeticiones seguidas excesivas de caracteres (≥3) en una palabra se acortan a un único caracter. Solo los OOV con ≥4 caracteres se han consideraron para la normalización.. Para cada uno de los OOV obtenidos se define su conjunto de confusión para ası́ conseguir que todo sean palabras de IV con una distancia de Levenshtein ≤ 2 para términos de.

(43) 4. ESTADO DEL ARTE. 43. caracteres y ≤ 1 para términos de código de Double Metaphone. Para su posterior clasificación (y por tanto, para la obtención de su significado real) se utiliza un método similar al de Han, Cook y Baldwin (2012), donde el contexto es representado por bigramas de posiciónı́ndices mediante una ventana de tamaño de ±2 tokens, donde la similitud se mide usando la divergencia KL (Kullback-Leibler, consiste en una medida no simétrica de la semejanza o diferencia entre dos funciones de distribución P y Q, es decir, mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P). Para tratar de analizar de forma concisa y clara los resultados que se obtienen utilizando el método basado en la divergencia KL anteriormente explicado se ha decidido adjuntar tanto la Tabla 4.3 como la Figura 4.2 que se muestran seguidamente, cabe resaltar que ambas han sido resultados obtenidos por Han, Cook y Baldwin, 2012. En la Tabla 4.3, analizando los términos callendo y guau se observa que a partir de los datos de desarrollo, cuando se identifica una correcta normalización entonces aparece una gran diferencia en la divergencia KL entre el IV del primer y segundo término del ranking, mientras que si la divergencia KL entre el primer y el segundo término son similares, la normalización suele ser menos fiable. Al observarse esto, se ha decidido realizar un gráfico en el cual se quiso comparar la relación del valor de la distribución KL entre los dos primeros términos y la precisión de acierto en cuanto a acertar la IV correcta. Tal y como se muestra en la Figura 4.2 se puede concluir que la mejor precisión es de 94 % y que se obtiene cuando esta relación es de 1,9.. Ranking. callendo. guau. 1. cayendo. 0.713. y. 1.756. 2. saliendo. 3.896. que. 1.873. 3. fallando. 4.303. la. 2.488. 4. rallando. 6.761. a. 2.649. 5. valiendo. 6.878. no. 3.206. Tabla 4.3: Divergencia KL para los cinco principales candidatos para las palabras callendo y guau. Fuente: Spanish Text Normalisation [4].

(44) 44. 4.1. Preproceso. Figura 4.2: Gráfica comparativa entre divergencia KL y precisión. Fuente: Spanish Text Normalisation [4]. La precisión ha sido calculada como: P recision =. N ormalizacionescorrectas N ormalizaciones. Restauración de normalizaciones. Se han establecido todos los tokens que se normalizaron tal y como se ha explicado en los subapartados anteriores ası́ como se ha decidido normalizar todos los tokens que aparecen al comienzo de un tweet o después de un punto o signo de interrogación.. Resultados. Finalmente, después de realizar el experimento se ha llegado a alcanzar un porcentaje de acierto del 54 %, aún muy lejos del nivel de acierto que actualmente se alcanza en el inglés (80 %) y del que se podrı́a considerar como fiable. Del 46 % de OOVs que no se han corregido bien, en la Tabla 4.4 se puede comprobar como se han dividido en porcentaje cada uno de los tipos de los errores..

(45) 4. ESTADO DEL ARTE. 45. Tipo Error. Porcentaje ( %). Forma léxica. 37. No disponible. 32. Acentos. 17. Caso erróneo. 8. Otros. 6. Tabla 4.4: Porcentaje de cada uno de los tipos de error obtenidos en la normalización. Fuente: Spanish Text Normalisation [4]. En la tabla se puede observar que la mayor parte de los errores han sido debidos a causa un error en la forma léxica (37 %), cosa que es difı́cil de predecir, ya que muchas veces los usuarios se equivocan marcando las caracteres intercalando letras que no son y eso puedo conllevar a la confusión como podrı́a ser el caso por ejemplo de elgerooo el cual fue normalizado como algero cuando realmente querı́a referirse a alegra. Otro tipo de error que también ha aparecido en numerosas ocasiones ha sido el de que la forma léxica correcta no apareciera como solución (32 %).. Experimento 3 de interpretabilidad de mensajes ELIRF-UPV (Group of Natural Language Engineering and Pattern Recognition de la Universidad Politécnica de Valencia) [9] es un equipo que participó en el concurso del TASS (Taller de Análisis de Sentimientos), el cual consiste en la realización de un análisis de sentimiento por lo que el resultado final de este se comentará posteriormente. Para la realización de esta parte de interpretabilidad este equipo se decidió por utilizar y adaptar herramientas disponibles en la red para la tokenización, la lematización y el etiquetado morfosintáctico (POS tagging). Primeramente, al igual que en los otros experimentos se comienza con la clasificación de las expresiones léxicas en IV o OOV en función de si estas están normalizadas o no.

(46) 46. 4.1. Preproceso. respectivamente. Y una vez conseguida esta clasificación ya se ha pasado a la corrección automática de las palabras OOV. Todo esto se ha realizado mediante los tokenizadores Tweetmotif (O’Connor, Kriegger y Ahn, 2010 [20]) y Freeling (Padró y Stanilovsky, 2012 [13]), este último sobretodo se ha utilizado para agrupar ciertos grupos de palabras de interés. Además de como tokenizador, la herramienta Freeling se ha utilizado tanto como lematizador (para sacar la raı́z de las palabras, por ejemplo: perrito→perro, leerá→leer) como etiquetador morfosintáctico. Para poder utilizar de forma fiable estas herramientas para el español se deben realizar una serie de modificaciones. Estas modificaciones realizadas para cada uno de los tokenizadores se presentan a continuación:. Tweetmotif Reescribir algunas expresiones regulares con el fin de contemplar el uso de acentos, diéresis y letras especı́ficas en español como la ñ. Crear una función para clasificar los emoticonos en cinco categorı́as: happy (en español, contento), sad (triste), tongue (lengua), wink (guiño) y other (otro). Crear una función con para normalizar ciertas palabras y abreviaciones usuales en Twitter, como por ejemplo: d→de, q→que, pq→porque, dl→del.. Freeling Su funcionamiento detallado viene especificado en el Experimento 1 de Interpretabilidad de mensajes y los cambios aquı́ propuestos han sido los siguientes:. Modificación de ficheros de configuración para que se mantuviera la tokenización producida por Tweetmotif, como pueden ser las menciones de usuarios (user), hashtags (#temas), emoticonos, www, http, signos de puntuación..

(47) 4. ESTADO DEL ARTE. 47. Crear una función para permitir algunas agrupaciones, como pudieran ser: • Palabras: (p.e: sin embargo) • Nombres propios: Luis Buades • Lugares: Palma de Mallorca • Fechas: 1 de Febrero de 1994. Además de todo esto, se ha decidido modificar los diccionarios para que a ciertos tokens se les asigne una categorı́a fija, como por ejemplo, #tema, usuario, emoticonos, www, http, signos de puntuación. Por último, con todo esto se debe realizar una tokenización y lematización de los tweets. Para simplificar esto, también se han desarrollado una serie de funciones que permiten unificar ciertos tokens, como por ejemplo agrupar todos los hashtags en un único token, agrupar todas las direcciones www y url en una o bien considerar los números, signos de puntuación o fechas como un único token. Mediante este método se ha obtenido un porcentaje de acierto aproximado del 70 %, por lo que a pesar de ser un valor bastante elevado no puede llegar a considerarse como un método fiable, ya que dista significativamente de los 76 % que se necesitan para poder considerarse ası́.. 4.2.. Análisis de sentimiento. Hoy en dı́a poder analizar y procesar la información de las redes sociales a tiempo real es extremadamente útil. Para esto, estos últimos años se han desarrollado distintas herramientas de monitorización que permiten realizar un análisis de sentimiento. Dicho esto, este tipo de análisis consiste primeramente en asignar el mensaje una categorı́a especı́fica (subsección 4.2.1) (empresa, ONG, polı́tica, deporte...) y posteriormente en asignarle una carga emocional a cada mensaje (subsección 4.2.2), de tal forma que después de analizar suficientes mensajes.

(48) 48. 4.2. Análisis de sentimiento. se pueda sacar una conclusión acerca de la opinión de los usuarios sobre una empresa, producto, Gobierno.... 4.2.1.. Clasificación del mensaje. Una vez corregido el tweet y antes de pasar a analizar su carga emocional, este mensaje suele ser clasificado en función de su categorı́a (paso no siempre necesario a la hora de analizar un conjuntos de tweets). Esta categorı́a puede ser muy variable, ya que bien puede referirse a una activad (o tópico) o a un conjunto de actividades o bien a una empresa o departamento en concreto u otro tipo de categorı́a, dependiendo de lo que se quiera analizar. En este apartado se analizarán con un amplio nivel de detalle las mejores soluciones existentes actualmente para realizar esta clasificación, ası́ como posteriormente se especificarán algunos de los problemas que surgen a la hora de realizar esto y sus posibles soluciones. Tal y como se ha comentado en el párrafo anterior, en función del tipo de clasificación que se quiera realizar, se van a diferenciar dos categorı́as (las dos más comunes):. En función de un tópico. En función de una empresa.. En ambos casos, el modelo es prácticamente el mismo, ya que lo único que varia es especificar al principio las categorı́as deseadas ası́ como seleccionar sus palabras claves o bien en que consistirá su aprendizaje automático o semiautomático. A continuación se detalla uno de los métodos más efectivos a la hora de realizar este tipo de clasificación con un ejemplo concreto. El equipo ELiRF-UPV durante el Taller de Análisis de Sentimientos (TASS) [12], detallado anteriormente, diseñó un modelo que permitı́a clasificar cada tweet en función de un.

(49) 4. ESTADO DEL ARTE. 49. campo (o tópico). Para la realización de este modelo propuesto. Primeramente, se deben especificar cada uno de los tópicos. Para este experimento se han establecido los que aparecen en la Tabla 4.5 (poniendo un ejemplo de cada).. Tópico. Ejemplo. Cine. Ayer fuimos a ver Saw VIII. Deportes. Me encanto la competición de natación de ayer. Entretenimiento. Lucı́a siempre juega al monopoli. Economı́a. El PIB de España es de 1,232 billones de euros. Literatura. Os recomiendo que os leáis el libro La sombra del viento. Fútbol. El mejor jugador del mundo es Cristiano Ronaldo. Música. Nos gustó mucho el concierto de Maluma. Polı́tica. No entiendo como la gente puede votar a Podemos. Tecnologı́a. El nuevo Iphone es una pasada. Otros. Estoy cansado. Tabla 4.5: Tópicos utilizados en Experimento 1 de Clasificación. Fuente: Elaboración propia. Para esta clasificación se ha utilizado la herramienta WEKA [21] [22] (Waikato Environment for Knowledge Analysis, entorno para análisis del conocimiento de la Universidad de Waikato en español), la cual consiste en una plataforma de software para el aprendizaje automático y la minerı́a de datos escrito en Java, a su vez el método empleado es el SMO . Este modelo se ha realizado mediante un clasificador binario, el cual funciona tal y como se puede observar en la Figura 4.3, es decir, el modelo lo que hace es analizar primero si pertenece al primer tópico, si es ası́, este se clasifica como Tópico 1 y deja de analizar el mensaje, en cambio si no lo es se clasifica como No Tópico 1 y pasa a analizar si pertenece al tópico 2 y ası́ sucesivamente..

(50) 50. 4.2. Análisis de sentimiento. Figura 4.3: Clasificador binario del experimento 1 de Clasificación. Fuente: Elaboración propia. El principal inconveniente de este método (SMO) es que es posible que a veces a algún mensaje no se le llegue a asignar ningún tópico, ya que este, únicamente asigna 1 si pertenece a un tópico o 0 si no. Una alternativa para tratar de resolver este problema es la de utilizar la librerı́a libSVM, la cual en vez de fijar 1 o 0 si es o no es correcta respectivamente, asigna una probabilidad a todas las clases, por lo que si a un tweet no se le asigna ninguna clase mediante el método SMO, este mensaje se clasifica en la clase más probable proporcionada por los clasificadores obtenidos con libSVM. Para analizar estos mensajes para su posterior clasificación se utilizan los lemas de los tweets cuya frecuencia en un conjunto representativo de entrenamiento sea mayor o igual a 1 (f≥1) y cuya categorı́a gramatical sea verbo o nombre. Mediante este método se ha obtenido un porcentaje de acierto del 75,6 %. Este porcentaje es muy variable ya que depende mucho del tipo de categorı́as en las que se quieran clasificar los mensajes, ya bien sea por la cantidad de categorı́as o por lo especı́ficas que sean éstas. De todas formas con este método se están obteniendo aciertos entre un 72 % y un 85 %, con los cual, se puede afirmar que son bastante fiables. A pesar de que el modelo esta claro, hay veces que al aplicarlo surgen problemas. El problema más común y que afecta directamente a la hora de realizar esta clasificación es el caso en que el nombre de una empresa (u otro tipo de organización) tiene un significado ambiguo, es decir, que la propia palabra no siempre se refiere a la empresa. La forma de resolver este problema se explica a continuación:.

(51) 4. ESTADO DEL ARTE. 51. Nombre con significado ambiguo Actualmente, controlar la reputación de una empresa a través de Internet es algo esencial. A la hora de realizar este control uno de los problemas más comunes es el nombrado anteriormente, nombres de empresas con significados ambiguos. Este es por ejemplo el caso de Santander, puede referirse al banco o a la ciudad. Este problema es especialmente difı́cil de resolver en microblogging (servicios en los que se envı́an mensajes breves como por ejemplo la plataforma Twitter), ya que existe un contexto demasiado corto, lo cual muchas veces es un problema a la hora de desambiguar ese nombre. La mejor solución para resolver este problema es la propuesta por Spina, Amigó y Gonzalo (2012) [23], la cual consiste básicamente en seleccionar todos los tweets en los que aparece el nombre de la empresa y posteriormente elaborar una clasificación binaria de relacionados (+) y no relacionados (-). En la práctica, esto podrı́a ser un componente de filtrado para servicios como SocialMention.com, donde si por ejemplo consultas Santander aparecen cifras de:. Fuerza: (Strenght-72 %) Sentimiento: (Sentiment-6,2 %) Pasión: (Passion-47 %) Alcance: (Reach-43 %). Esta observación se basa en otras dos observaciones intuitivas:. 1. Filtro de palabras clave: Consiste en recolectar las palabras clave, las cuales pueden ser positivas (+) o negativas (-), con la finalidad de aislar información. Un ejemplo podrı́a ser el que aparece en la Tabla 4.6.

(52) 52. 4.2. Análisis de sentimiento. Nombre empresa. Palabra clave Relación Financiación. +. Jardines. -. Santander. Tabla 4.6: Ejemplo de palabras clave relacionadas con Santander. Fuente: Elaboración propia. 2. Clase mayoritaria: La relación entre + y - no sigue una distribución normal (es muy variable), sino que sigue una distribución sesgada (por lo menos si se considera a corto plazo), normalmente, bien la mayorı́a de los tweets son sobre la empresa o bien la mayorı́a de estos no tienen relación alguna con ella. Predecir cual es cada una de estas situaciones puede ser una entrada valiosa para buscar soluciones algorı́tmicas al problema.. El objetivo del modelo es proporcionar una evidencia cuantitativa que respalde (o rechace) las intuiciones. Para esto se utiliza el WePS-3 (primer conjunto de datos construido para abordar este problema) y una especie de técnica de representación de huella dactilar, que consiste en la visualización de los resultados del sistema que son útiles para comprender el comportamiento del sistema (sesgos variables). Aplicando todo esto, el sistema final realizado por LSIR obtuvo un porcentaje de acierto del 83 %. Esto se ha conseguido seleccionando previamente un conjunto clave de palabras para cada empresa objeto de estudio, y tal y como se ha explicado previamente en función de si aparecen esas palabras o no, se manifiesta si el mensaje está relacionado con el tema o si por el contrario no lo está. Todo esto realizado con un clasificador SVM (su funcionamiento se explica en la sección 4.2.2) Otro buen sistema es el desarrollado por ITC-UT (75 %), el cual se basa en una clasificación de dos etapas:. 1. Predice la clase de cada empresa de acuerdo con la proporción de tweets relacionados con nombre de empresa..

(53) 4. ESTADO DEL ARTE. 53. 2. Aplicar una heurı́stica por cada clase, basándose principalmente en el etiquetado PoS y la etiqueta de la entidad nombrada del nombre de la empresa.. Este último modelo se ha decidido no desarrollarlo en profundidad a causa de que su fiabilidad es perceptiblemente inferior al modelo anteriormente analizado.. 4.2.2.. Carga emocional del mensaje. Consiste en asignarle una carga emocional a cada mensaje en función del sentimiento que este transmite. Esta carga emocional se suele analizar diferenciando tres tipos de sentimientos (De Bravo-Marquez et al., 2014 [24]):. Polaridad: Indica si el mensaje tiene una connotación negativa, positiva o neutra. Intensidad: Cuantifica la intensidad de ese sentimiento. Emoción: Indica el tipo de emoción: tristeza, ira, alegrı́a.... Aunque de todas estas, la que más relevancia tiene y la que más se usa es la de determinar la polaridad. A continuación, en la Tabla 4.7 se muestra un ejemplo de esto: Sentimiento. Frase. Negativa. El libro que he leido es muy aburrido. Positiva. Los Audi tienen un buen rendimiento. Neutra. Voy a ir a comprar. Tabla 4.7: Ejemplo de clasificación por polaridad. Fuente: Elaboración propia. Muchas veces, para no tener que implementar tantas técnicas, la polaridad en vez de clasificarse en tres tipos, se determina en seis niveles, en la que se incluye tanto las emociones como la intensidad:. N: Polaridad negativa de baja intensidad.

(54) 54. 4.2. Análisis de sentimiento N+: Polaridad negativa de alta intensidad P: Polaridad positiva de baja intensidad P+: Polaridad positiva de intensidad NEU: Polaridad neutra NONE: Ausencia de polaridad. Estas técnicas de monitorización están mucho más desarrolladas para el inglés que para el español, esto es ası́ debido a que para el castellano no se ha investigado esto tanto como para el inglés y porque para este último no existe tanta gramática y por tanto no es algo tan complejo. Es por esto que a continuación se comentarán las mejores técnicas para el análisis de sentimiento en español existentes actualmente y se compararán entre si. Para abordar este problema existen diversas técnicas, las cuales se pueden observar en la Figura 4.4 que aparece a continuación:. Figura 4.4: Tipos de técnicas de Análisis de Sentimiento. Fuente: Tecnhiques for sentiment analysis in Twitter: Supervised Learning and SentiStrength [5]. De todas estas técnicas, actualmente para el análisis en español hay dos que están más desarrolladas que el resto y que en un principio se supone que tienen una tasa de error menor.

(55) 4. ESTADO DEL ARTE. 55. y son las que se encuentran más próximas al valor mı́nimo de fiabilidad establecido que es de un 80 %. Estas son:. Aprendizaje automático Enfoque basado en el léxico- Diccionarios. A continuación se analizarán con un amplio nivel de detalle cada una de estas técnicas.. 4.2.2.1.. Aprendizaje automático. El aprendizaje automático es un sistema que busca entre los datos para detectar patrones con la finalidad de ajustar las acciones de un programa establecido anteriormente. Dentro de este, destacan dos tipos distintos:. Aprendizaje automático supervisado: Los algoritmos de aprendizaje automático supervisado permiten aplicar lo que se aprendió en el pasado a nuevos datos. Aprendizaje automático no supervisado: Los Los algoritmos de aprendizaje automático no supervisado permiten extraer inferencias de un conjunto de datos.. A priori, el más utilizado de estos y el que actualmente está más desarrollado es el aprendizaje automático supervisado y es por tanto sobre el que mayoritariamente se hablará en este apartado. Para analizar este tipo de técnicas se han analizado distintos casos para ası́ obtener el mejor posible mediante aprendizaje automático. Estas técnicas se describen en los experimentos explicados a continuación. La mayorı́a de estos experimentos han sido los trabajos desarrollados por distintas organizaciones en un Taller de Análisis de Sentimiento (TAS) que organiza la SEPLN (que tal como define su página web oficial, es una asociación cientı́fica que tiene el objetivo de difundir la enseñanza, investigación y desarrollo del procesamiento del lenguaje natural) anualmente desde el año 2013, en este taller se investigaba tanto el.

(56) 56. 4.2. Análisis de sentimiento. poder cuantificar la carga emocional como en la clasificación de los mensajes, pero en este subapartado únicamente se analizará lo relacionado con la carga emocional.. Experimento 1 de aprendizaje automático Este primer experimento fue desarrollado en el año 2013 por el equipo ELiRF durante el concurso que organiza el SEPLN mencionado anteriormente [9]. Para entender como se ha elaborado este análisis de sentimiento hay que tener en cuenta que anteriormente se ha realizado un preproceso, el cual ha consistido en una adecuada tokenización (interpretabilidad de los mensajes), analizado en la sección ?? Tal y como se ha comentado anteriormente, la tarea consiste en determinar la polaridad de los mensajes, distinguiéndolos en 6: N, N+, P, P+, NEU, NONE. Para realizar este experimento se han analizado un conjunto de 60.798 tweets, aunque previamente se han necesitado 7219 más como entrenamiento para el algoritmo. Esta tarea se ha realizado mediante una herramienta llamada WEKA (incluye una serie de algoritmos de aprendizaje automático) donde se ha implementado el algoritmo SVM (o máquina de vector de soporte, consiste en un conjunto de algoritmos de aprendizaje supervisado) mediante la librerı́a externa LibSVM (fácil integración con WEKA y software muy eficiente para SVM). Se ha utilizado una aproximación conocida como bag of words: representa cada tweet como un vector de caracterı́sticas que contiene las frecuencias de las caracterı́sticas seleccionadas. Para la realización de este ejercicio, inicialmente se consideraron un gran número de caracterı́sticas, de las cuales se han descartado unas cuantas ya que no mejoraban los resultados. Por lo que finalmente sólo se han tenido en cuenta nueve caracterı́sticas:. 1. Considerar únicamente unigramas (un unigrama equivale a una palabra del mensaje del tweet) de lemas obtenidos en el preproceso de los tweets con una mı́nima frecuencia establecidad anteriormente (f)..

(57) 4. ESTADO DEL ARTE. 57. 2. Considerar los hashtags (#tag) como una caracterı́stica. 3. Considerar las menciones a usuarios (@user) como una caracterı́stica. 4. Unificar el conjunto de los números como una caracterı́stica. 5. Unificar todas las fechas como una caracterı́sticas. 6. Unificar los signos de puntuación como una caracterı́stica. 7. Sustituir cada emoticono por su categorı́a previamente establecida (happy, sad, tongue, wink y other, en español, contento, triste, lengua, guiño y otro respectivamente). 8. Considerar sólo como caracterı́stica los tokens de cierta categorı́a morfosintáctica preestablecida (selPOS ). 9. Utilizar como recurso externo, léxicos de polaridad de lemas y palabras (DIC ).. Para todo esto hubo que realizar una serie de ajustes. Entre estos cabe destacar que uno de los léxicos utilizados estaba inicialmente en inglés (Wilson et al., 2005) por lo que se tuvo que traducir al español. Teniendo en cuenta todo esto, se han realizado distintos experimentos, tanto para una frecuencia de uno como para una de dos, y los mejores resultados para cada una de estas han sido los siguientes:. Para f=1: f=1+DIC Para f=2: f=2+selPOS+DIC. En ambos casos se han obtenido unos resultados que no llegan al 60 % de acierto. Esto es ası́ porque a veces es muy complicado diferenciar la intensidad de cada una de las polaridades. Por lo que posteriormente se ha decidido realizar este mismo experimento teniendo en cuenta únicamente el tipo de polaridad (sin considerar si tiene más o menos intensidad), es decir,.

(58) 58. 4.2. Análisis de sentimiento. considerando sólo N, P, NEU. Los resultados obtenidos para cada uno de estos casos aparecen representados en la Tabla 4.8. Caracterı́sticas. Porcentaje ( %). 5 niveles, f=1+DIC. 57,30. 5 niveles, f=2+selPOS+DIC. 57,60. 3 niveles, f=1+DIC. 67,40. 5 niveles, f=2+selPOS+DIC. 67,40. Tabla 4.8: Resultados del experimento 1 de carga emocional (polaridad). Fuente: ELiRF-UPV en TASS2013 Análisis de Sentimientos en Twitter [9]. Tal y como se puede comprobar, el mejor resultado obtenido es de un 67,40 % de acierto, muy lejos del 80 % (valor mı́nimo de fiabilidad) necesario para que pueda considerarse un método fiable.. Experimento 2 de aprendizaje automático Este trabajo ha sido desarrollado por el mismo equipo del Experimento 1 (ELiRF (Hurtado, Pla y Buscaldi, 2015) [25]) pero durante el año 2015. En este caso se ha analizado el trabajo de este equipo, porque a pesar de que han quedado terceros (muy cerca de los dos equipos vencedores), los dos primeros decidieron no presentar el informe y éste sı́. El TASS 2015 encargó distintas tareas de análisis de sentimiento (Garcı́a Cumbreras, Martı́nez Cámara, Villena Román y Garcı́a Morera, 2015 [26]), aunque como se ha mencionado anteriormente, en este subapartado únicamente se analizará la clasificación según la polaridad de sentimiento. Para esta tarea, el corpus se ha dividido en uno de aprendizaje (90 %) y uno de prueba (10 %), en el primero han aparecido los mensajes con las etiquetas de polaridad ya establecidas (P+, P, NEU, N, N+ o NONE) para ası́ poder desarrollar el algoritmo de aprendizaje supervisado y entrenarlo, mientras que el segundo han sido los que se deben resolver..

(59) 4. ESTADO DEL ARTE. 59. Hay que recalcar que la clasificación de polaridad de esta tarea se ha restringido a sólo cuatro categorı́as: P, N, NEU y NONE. Primeramente se ha realizado un preproceso de los mensajes, el cual como se ha mencionado anteriormente se ha explicado con un amplio nivel de detalle en la subsección 4.1.1. Posteriormente, se han seleccionado el conjunto de caracterı́sticas a tener en cuenta a la hora de analizar el modelo, las cuales se enumeran a continuación:. 1. Considerar únicamente unigramas de lemas obtenidos en el preproceso de los tweets con una mı́nima frecuencia establecidad anteriormente (f). 2. Los hashtag, menciones de usuarios, fechas y signos de puntuación se unificaron en una sola caracterı́stica. 3. Sustituir cada emoticono por su categorı́a previamente establecida (happy, sad, tongue, wink y other ). 4. Excluir términos pertenecientes a ciertas categorı́as morfosintácticas poco significativas para el análisis de sentimiento. 5. Utilización como recurso externo varios diccionarios de polaridad.. Finalmente, se ha aplicado el algoritmo de aprendizaje automático supervisado, que en este caso ha sido el SVM (máquina de vectores de soporte) tipo lineal (Hurtado et al., 2015 [25]). Con todo esto, se han obtenido unos resultados de un 72,1 % de acierto (por un 72,6 % y 72,5 % del primero y segundo respectivamente). A pesar de que la capacidad de predicción es superior a la del Experimento 1, aun no llega a al 80 % a partir del cual se considera un modelo fiable..

(60) 60. 4.2. Análisis de sentimiento. Experimento 3 de aprendizaje automático Este experimento (Carlos Hernández, Ferran Pla, Lluı́s-F. y Jaime Guzmán, 2017 [27]), al igual que el resto, ha sido realizado previo preprocesamiento (o interpretabilidad del mensaje) y extracción de aspectos (o clasificación del mensaje). Este ha sido validado utilizando el corpus de la tarea 5 de la edición de 2016 de SemEval (International Workshop on Semantic Evaluation). En esta tarea, para detectar la polaridad, se propone una aproximación que consiste en determinar el contexto de cada palabra a través de una ventana fija definida a la izquierda y derecha del aspecto (Pla y Hurtado, 2014 [28]). La longitud de esta ventana ha sido determinada experimentalmente mediante una validación cruzada, y se ha concluido con que su valor máximo debe ser de 3 palabras tanto a la izquierda como a la derecha. Para entrenar el sistema, se han determinado los segmentos para cada aspecto y se ha entrenado el clasificador. Como clasificador se han utilizado Máquinas de Soporte Vectorial, concretamente las librerı́as LibSVM y LibLinear. El software ha sido desarrollado en Python y se ha utilizado el toolkit scikit-learn para acceder a las librerı́as de SVM. Para la determinación de los parámetros de los clasificadores se ha utilizado una validación cruzada de 10 iteracciones. Aplicando todo lo mencionado hasta ahora se ha obtenido un resultado de un 83,21 % de acierto. A pesar de que este resultado es notablemente mejor que el de los experimentos previos analizados, se ha decidido mejorar el modelo mediante una serie de propuestas, estas han sido las que aparecen a continuación:. Utilizar el diccionario ELHUYAR (Saralegi y San Vicente, 2013 [29]) lematizado. Utilizar los lexicones SOL e iSOL (Molina-González et al., 2013 [30]). Utilizar como caracterı́sticas secuencias de hasta 7 carácteres, a las que se les ha añadido como nuevas caracterı́sticas el número de palabras positivas y negativas contenidas en los lexicones mencionados en el anterior punto..

(61) 4. ESTADO DEL ARTE. 61. A continuación, en la Tabla 4.8 se muestran los resultados obtenidos antes y después de la utilización de estos lexicones.. Sistema. Porcentaje ( %). Sin lexicones. 83,21. Con lexicones. 84,79. Tabla 4.9: Resultados del experimento 3 de carga emocional (polaridad). Fuente: Análisis de sentimientos a nivel de aspecto usando ontologı́as y aprendizaje automático [10]. Tal y como se puede comprobar, el uso de estos lexicones consigue que el porcentaje de acierto aumente hasta alcanzar un 84,79 % de acierto, lo cual mejora considerablemente el modelo. Por lo que además de ser el mejor modelo de los tres analizados y desarrollados hasta ahora, se puede afirmar que es un sistema fiable, ya que supera con creces el 80 % estipulado como el mı́nimo para que ası́ lo sea.. 4.2.2.2.. Enfoque basado en el léxico- Diccionarios. Para analizar la carga emocional de los mensajes, otro método distinto al de aprendizaje automático consiste en el basado en diccionarios de palabras o léxicos y el uso de técnicas lingüı́sticas basadas en conocimiento existente acerca del lenguaje y su estructura. En este contexto, un diccionario consiste en un listado de términos (bien pueden ser palabras o bien multipalabras), los cuales ya van dotados de una determinada polaridad, intensidad y/o tipo de emoción. Este procedimiento requiere unos algoritmos algo más sencillos que los utilizados en el método de aprendizaje automático. A pesar de esto, en la actualidad, se tiene el inconveniente de que, al contrario que para el inglés, para el español existen pocos recursos de este tipo. A nivel internacional existen una serie de diccionarios (o lexicones) muy desarrollados con los que se puede obtener información. Alguno de estos diccionarios son los siguientes:.

(62) 62. 4.2. Análisis de sentimiento Bing Liu’s Opinion Lexicon (Hu y Liu, 2004 [31]; Liu, Hu y Cheng, 2005 [32]): Diccionario basado en el aprendizaje semiautomático a partir de un entrenamiento a través de las distintas páginas web, disponible en formato digital y desarrollado principalmente para el inglés. SentiWordNet (Esuli y Sebastianini, 2006; Baccianella [33], Esuli y Sebastianini, 2010 [34]): Ampliamente utilizado disponible de forma pública para su uso en formato digital. Desarrollado principalmente para el inglés, a pesar de que cada vez tiene más peso en otros idiomas como es el castellano. Corpus de expresiones subjetivas Multi-perspective Question Answering (MPQA)(Wilson, Wiebe y Hoffmann, 2005 [35]): Corpus realizado manualmente en el que se incluyen 15.991 expresiones con sus respectivas polaridades obtenidas mediante experimentos de validación cruzada, disponible en formato digital y únicamente desarrollado para el inglés. LIWC (Pennebaker, Mehl y Niederhoffer, 2003 [36]): El diccionario calcula el porcentaje de palabras dentro de un texto de acuerdo a varias docenas de categorı́as en base a un gran corpus. Desarrollado principalmente para el inglés y disponible para el público en su versión completa por un precio aproximado de 75e. General Inquirer (Stone, Dunphy, y Smith, 1966 [37]): Diccionario más importante en inglés desarrollado en los años sesenta. Actualmente se encuentra obsoleto.. De todos los diccionarios, los dos más utilizados actualmente son los dos primeros, Bing Liu’s Opinion Lexicon y SentiWordNet. El enfoque de ambos, tal y como se muestra en la Tabla 4.10 es radicalmente distinto..