• No se han encontrado resultados

En este cap´ıtulo se presenta un sumario del trabajo de investigaci ´on realizado, as´ı como las conclusiones a las que se lleg ´o y algunas propuestas de ideas para trabajo a futuro.

5.1 Sumario

En este trabajo se propuso utilizar una red neuronal denominada word2vec (Mikolov et al., 2013) para obtener informaci ´on del tipo sem ´antica, con la cual se busc ´o resolver el problema de an ´alisis de sentimiento a nivel de documento. Se emple ´o una medida de distancia entre documen- tos denominadaWMD(Kusneret al., 2015) la cual es sem ´anticamente significativa y se evalu ´o su rendimiento en la tarea de clasificaci ´on de polaridad de sentimiento usando el algoritmok-NN.

Se trabaj ´o con dos corpora de opini ´on, “MuchoCine” con un total de 2000 documentos en am- bas versiones “original” y “lematizado”; el segundo corpus de opini ´on se obtuvo de “TripAdvisor” el cual cuenta con dos versiones “TripAdvisorV1”, con un total de 1844 documentos y “TripAdvi- sorV2” con 9001 documentos. Ambos corpora se aprovecharon en su totalidad para generar 12 distintos corpora sem ´anticos que se utilizaron en la investigaci ´on.

Se propuso poner a prueba los 12 corpora sem ´anticos en la tarea de clasificaci ´on, con la intenci ´on de detectar alg ´un corpus sem ´antico que mejor representara la distribuci ´on de palabras con polaridades positivas y negativas despu ´es de ser entrenados por la red neuronal. De existir dicha representaci ´on, su efectividad se ver´ıa reflejada en la medida de precisi ´on del clasificador.

Se analiz ´o la influencia en la precisi ´on de clasificaci ´on del n ´umero de documentos vecinos, con los cuales un corpus de opini ´on desconocido deber´ıa compararse para ser clasificado.

Se propuso poner a prueba 342 unigramas provenientes de un AG del trabajo de Ortega del Castillo (2015), con la intenci ´on de observar si este conjunto de unigramas en combinaci ´on con los corpora sem ´anticos propuestos en este trabajo mejora la precisi ´on del clasificador bajo el corpus de opini ´on “MuchoCine”.

Este mismo corpus de opiniones presenta una baja calidad de clasificaci ´on en lo que deno- minamos escenario real cuando comparamos con los resultados logrados por Ortega del Castillo (2015). Incluso modificando los par ´ametros de n ´umero de vecinos con los cuales comparar o ta- ma ˜no de la votaci ´on no se logra una mejora significativa. Sin embargo, el enriquecimiento de las mejores caracter´ısticas obtenidas en (Ortega del Castillo, 2015) con los corpora definidos en este trabajo s´ı aportan una mejora en los resultados de clasificaci ´on, aunque estos disten todav´ıa de ser aceptables.

En el caso de “TripAdvisor” el mejor valor de exactitud se obtuvo con el corpus sem ´antico 7 con un valor de 0.8333, de precision 0.9393 con el corpus sem ´antico 6 y el mejor F-score de 0.8297 con el corpus sem ´antico 7. En todos los casos los documentos con mejor separaci ´on fueron los puntuados con 1 y 5 estrellas, como era de esperarse.

Este mismo corpus de opiniones presenta una buena calidad de clasificaci ´on bajo el escenario real, obtuvo su mejor exactitud de 0.750 con el corpus sem ´antico 9 al igual que su mejor F-score de 0.770 y la mejor precisi ´on de 0.897959 utilizando el corpus sem ´antico 12. Las variaciones de los par ´ametros de n ´umero de vecinos y tama ˜no de la votaci ´on mostraron una clara influencia mejorando todav´ıa m ´as la calidad de la clasificaci ´on.

Las dos principales hip ´otesis sobre las cuales este trabajo se bas ´o y que deb´ıan satisfacerse de manera secuencial, al depender una de la otra fueron: word2vec produce vectores palabras sem ´anticamente relacionados por su sentimiento yWMD funciona como una m ´etrica entre do- cumentos de opini ´on seg ´un su sentimiento; se cumpli ´o de manera conveniente para el caso del corpus de opini ´on “TripAdvisor”, sin embargo, al menos una de estas no se cumpli ´o para el caso espec´ıfico de los corpora de opini ´on “MuchoCine”.

Las opiniones de “MuchoCine” resultan ser en su mayor´ıa extensas, en promedio cada opi- ni ´on proveniente de este corpora contiene 500 palabras; un porcentaje importante de las mismas describe a la pel´ıcula mas que al sentimiento, siendo esta ´ultima una de las razones posibles del pobre desempe ˜no del procedimiento propuesto con el corpus de “MuchoCine”. Esto no ocurre con “TripAdvisor” donde las opiniones suelen ser m ´as concretas y claras.

5.3 Trabajo a futuro

En este trabajo fue posible observar que la selecci ´on de documentos vecinos afecta la preci- si ´on del clasificador. Se propone buscar un subconjunto de documentos positivos y negativos que mejor se encuentren expresados en los espacios sem ´anticos y por ende mejoren la precisi ´on del clasificador.

Ser´ıa interesante explorar la t ´ecnica de los unigramas analizada en “MuchoCine” con los cor- pora de “TripAdvisor” dado los resultados prometedores que se han logrado con estos corpora.

Una mejor selecci ´on de par ´ametros sobre el AG utilizado, as´ı como la mejor combinaci ´on de par ´ametros de k y los corpora sem ´anticos con respecto a nuestro procedimiento propuesto. Con la intenci ´on de encontrar un subconjunto de elementos dentro de los vectores palabra, que representen la sem ´antica en un espacio vectorial de menor dimensi ´on y que mejore los resultados de clasificaci ´on, al distribuir los vectores palabra de una forma m ´as conveniente para la m ´etrica WMD.

Se propone como una posibilidad realizar una b ´usqueda exhaustiva de la mejor combinaci ´on de par ´ametros dentro deword2vec, que asigne una mejor relaci ´on sem ´antica entre los vectores palabra resultantes. Se propone como trabajo futuro utilizar un corpus de palabras en espa ˜nol previamente etiquetado con emociones y polaridad (D´ıaz Rangelet al., 2014), el cual en conjun- to con la herramienta1 y la t ´ecnica de reducci ´on de dimensionalidad t-SNE (Maaten y Hinton, 2008), entrene a nuestros corpora sem ´anticos y con ellos observar la distribuci ´on de las palabras en agrupaciones que representan emociones o sentimientos; de esta manera generar vectores palabra con una menor dimensionalidad.

Por ´ultimo se plantea el inter ´es en obtener un mayor n ´umero de documentos de opini ´on, los cuales provengan de una diversa cantidad de fuentes y temas (restaurantes, servicios, productos,

Baroni, M., Dinu, G., y Kruszewski, G. (2014). Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. En:Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Stroudsburg, PA, USA. Association for Computational Linguistics, pp. 238–247.

Bottou, L. (1991). Stochastic gradient learning in neural networks. En: Proceedings of Neuro- Nˆımes 91, Nimes, France. EC2.

Bridle, J. S. (1990). Training Stochastic Model Recognition Algorithms as Networks can Lead to Maximum Mutual Information Estimation of Parameters. Advances in Neural Information Pro- cessing Systems, (Ml): 211–217.

Brochu, E. y De Freitas, N. (2002). “Name That Song!”: A Probabilistic Approach to Querying on Music and Text. Advances in Neural Information Processing Systems,15: 1505–1512.

Cambria, E. (2016). Affective Computing and Sentiment Analysis.IEEE Intelligent Systems,31(2): 102–107.

Cambria, E., Schuller, B. B., Xia, Y., y Havasi, C. (2013). New Avenues in Opinion Mining and Sentiment Analysis. IEEE Intelligent Systems,28(2): 15–21.

Cer ´on-Guzm ´an, J. A. y Le ´on-Guzm ´an, E. (2016). A sentiment analysis system of Spanish tweets and its application in Colombia 2014 presidential election. En:Proceedings - 2016 IEEE Inter- national Conferences on Big Data and Cloud Computing, BDCloud 2016, Social Computing and Networking, SocialCom 2016 and Sustainable Computing and Communications, SustainCom 2016, oct. IEEE, pp. 250–257.

Ch ´avez, E. (2018). Comunicaci ´on personal.

Claster, W. B., Hung, D. Q., y Shanmuganathan, S. (2010). Unsupervised Artificial Neural Nets for Modeling Movie Sentiment. En:2010 2nd International Conference on Computational Intelligen- ce, Communication Systems and Networks, jul. IEEE, pp. 349–354.

Corral-Corral, R., Beltr ´an, J. A., Brizuela, C. A., y Del Rio, G. (2017). Systematic identification of machine-learning models aimed to classify critical residues for protein function from protein structure. Molecules,22(10): 1673.

Councill, I. G., Mcdonald, R., y Velikovich, L. (2010). What’s Great and What’s Not: Learning to Classify the Scope of Negation for Improved Sentiment Analysis. pp. 51–59.

Cruz, F., J, T., F, E., y J, O. (2008). Clasificaci ´on de documentos basada en la opini ´on: experimentos con un corpus de crıticas de cine en espanol. Procesamiento de Lenguaje Natural,41: 73–80. D´ıaz Rangel, I., Sidorov, G., y Su ´arez Guerra, S. (2014). Creaci ´on y evaluaci ´on de un dicciona-

rio marcado con emociones y ponderado para el espa ˜nol. Onom ´azein Revista de ling ¨u´ıstica, filolog´ıa y traducci ´on,29: 31–46.

Evert, S. (2005). The Statistics of Word Cooccurrences Word Pairs and Collocations. Tesis de doctorado, Institut f ¨ur maschinelle Sprachverarbeitung Universit ¨at Stuttgart.

Ferrone, L. y Zanzotto, F. M. (2017). Symbolic, distributed and distributional representations for na- tural language processing in the era of deep learning: a survey.arXiv preprint arXiv:1702.00764. Garc´ıa, M. R., Carrillo, M., y L ´opez, A. S. (2015). Combinaci ´on de clasificadores para el an ´alisis

Lazebnik, S., Schmid, C., y Ponce, J. (2006). Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. En: 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR’06). IEEE, Vol. 2, pp. 2169–2178. Li, Z., Zhang, Y., Wei, Y., Wu, Y., y Yang, Q. (2017). End-to-end adversarial memory network for

cross-domain sentiment classification. En:Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI). p. 2237.

Liu, B. (2015). Sentiment analysis : mining opinions, sentiments, and emotions. Cambridge Uni- versity Press.

Maaten, L. V. D. y Hinton, G. (2008). Visualizing Data using t-SNE. Journal of Machine Learning Research 1,620(1): 267–84.

Martin, J. R. y White, P. R. R. (2005). The Language of Evaluation. Palgrave Macmillan UK. London, p. 278.

Mart´ın-Valdivia, M.-T., Mart´ınez-C ´aMara, E., Perea-Ortega, J.-M., y Ure ˜nA-L ´oPez, L. A. (2013). Sentiment polarity detection in spanish reviews combining supervised and unsupervised ap- proaches. Expert Systems with Applications,40(10): 3934–3942.

Mikolov, T., Chen, K., Corrado, G., y Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. ArXiv e-prints.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., y Dean, J. (2013a). Distributed representations of words and phrases and their compositionality. En: C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, y K. Q. Weinberger (eds.),Advances in Neural Information Processing Systems 26. Curran Associates, Inc., pp. 3111–3119.

Mikolov, T., Yih, W.-t., y Zweig, G. (2013b). Linguistic Regularities in Continuous Space Word Representations. Proceedings of NAACL-HLT, (June): 746–751.

Mishne, G. y Glance, N. (2005). Predicting Movie Sales from Blogger Sentiment. AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs, pp. 155–158.

Molina, L. C., Belanche, L., y Nebot, `A. (2002). Feature Selection Algorithms : A Survey and Experimental Evaluation. Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on, pp. 306–313.

Nasukawa, T. y Yi, J. (2003). Sentiment analysis. En:Proceedings of the international conference on Knowledge capture - K-CAP ’03, New York, New York, USA. ACM Press, p. 70.

Ofek, N., Poria, S., Rokach, L., Cambria, E., Hussain, A., y Shabtai, A. (2016). Unsupervised Com- monsense Knowledge Enrichment for Domain-Specific Sentiment Analysis. Cognitive Compu- tation,8(3): 467–477.

Ontrup, J. y Ritter, H. (2002). Hyperbolic Self-Organizing Maps for Semantic Navigation.Advances in Neural Information Processing Systems 14, pp. 1417–1424.

Ortega del Castillo, R. A. (2015). Dise ˜no de algoritmos bioinspirados para la selecci ´on de carac- ter´ısticas en el an ´alisis de sentimientos de documentos en espa ˜nol. Tesis de doctorado, Centro de Investigaci ´on Cient´ıfica y de Educaci ´on Superior de Ensenada.

Ortiz, A. M., Castillo, F. P., y Garc´ıa, R. H. (2010). An ´alisis de Valoraciones de Usuario de Hoteles con Sentitext: un sistema de an ´alisis de sentimiento independiente del dominio. Procesamiento del Lenguaje Natural,45: 31–39.

Pang, B., Lee, L., y Vaithyanathan, S. (2002). Thumbs up?: sentiment classification using machine learning techniques. En:Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, pp. 79–86.

Poria, S., Cambria, E., y Gelbukh, A. (2015). Deep Convolutional Neural Network Textual Features and Multiple Kernel Learning for Utterance-level Multimodal Sentiment Analysis. En: Procee- dings of the 2015 Conference on Empirical Methods in Natural Language Processing. Associa- tion for Computational Linguistics, pp. 2539–2544.

Rahate, R. S. y Emmanuel, M. (2013). Feature Selection for Sentiment Analysis by using SVM. International Journal of Computer Applications,84(5): 24–32.

Rezaeinia, S. M., Ghodsi, A., y Rahmani, R. (2017). Improving the accuracy of pre-trained word embeddings for sentiment analysis. arXiv preprint arXiv:1711.08609.

Rong, X. (2014). word2vec parameter learning explained. arXiv preprint arXiv:1411.2738.

Rubner, Y., Tomasi, C., y Guibas, L. (1998). A metric for distributions with applications to image databases. En:Sixth International Conference on Computer Vision (IEEE Cat. No.98CH36271). Narosa Publishing House, pp. 59–66.

Ruder, S. (2016). An overview of gradient descent optimization algorithms. CoRR,

abs/1609.04747.

Salas-Z ´arate, M. P., Paredes-Valverde, M. A., Rodr´ıguez-Garc´ıa, M. ´A., Valencia-Garc´ıa, R., y Alor-Hern ´andez, G. (2017). Sentiment analysis based on psychological and linguistic features for spanish language. En:Current Trends on Knowledge-Based Systems. Springer, pp. 73–92. Salton, G. y Buckley, C. (1988). Term-weighting approaches in automatic text retrieval.Information

Processing and Management,24(5): 513–523.

Shang, W., Huang, H., Zhu, H., Lin, Y., Qu, Y., y Wang, Z. (2007). A novel feature selection algorithm for text categorization. Expert Systems with Applications,33(1): 1–5.

Singhal, P. y Bhattacharyya, P. (2016). Borrow a little from your rich cousin: using embeddings and polarities of english words for multilingual sentiment classification. En:Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. pp. 3053–3062.

Taboada, M., Brooke, J., Tofiloski, M., Voll, K., y Stede, M. (2011). Lexicon-based methods for sentiment analysis. Computational linguistics,37(2): 267–307.

Uysal, A. K. y Gunal, S. (2012). A novel probabilistic feature selection method for text classification. Knowledge-Based Systems,36: 226–235.

Uysal, A. K. y Murphey, Y. L. (2017). Sentiment classification: Feature selection based approaches versus deep learning. En:Computer and Information Technology (CIT), 2017 IEEE International Conference on. IEEE, pp. 23–30.

Xu, J., Chen, D., Qiu, X., y Huang, X. (2016). Cached long short-term memory neural networks for document-level sentiment classification. arXiv preprint arXiv:1610.04989.

Zhang, L., Wang, S., y Liu, B. (2018). Deep learning for sentiment analysis: A survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, p. e1253.

Ap ´endice A.

Ap ´endice

Figura A.1:Dos opiniones extra´ıdas del corpus MuchoCine, ambas puntuadas con 1 estrella y en su versi ´on original.

.

Figura A.2:Dos opiniones extra´ıdas del corpus MuchoCine, ambas puntuadas con 2 estrella y en su versi ´on original.

Figura A.3:Dos opiniones extra´ıdas del corpus MuchoCine, ambas puntuadas con 4 estrella y en su versi ´on original.

.

Figura A.4:Dos opiniones extra´ıdas del corpus MuchoCine, ambas puntuadas con 5 estrella y en su versi ´on original.

Figura A.5:Una opini ´on extra´ıda del corpus MuchoCine puntuada con 1 estrella, sin embargo la opini ´on de la izquierda se encuentra en su versi ´on original y la opini ´on de la derecha se trata de la misma pero en su versi ´on lematizada.

.

Figura A.6:Ejemplo de la transici ´on desde la capa de entrada a la capa oculta en la red neuronal CBOW, en su versi ´on conCentradas de palabras contexto, en este caso particularC= 4.

.

A.1 Ejemplo del modelo CBOW en su versi ´on general

En la Figura A.6 se puede apreciar el proceso que se lleva acabo en la transici ´on de la capa de entrada a la capa oculta en la versi ´onCBOW de word2Vec, el ejemplo se encuentra bajo la suposici ´on: se puede predecir una palabra centro (palabra objetivo) dado una ventana deC = 4

palabras alrededor de esta (palabras contexto). Dado un corpus de texto donde la palabra objetivo se denota mediante un c´ırculo de color azul y las palabras contexto mediante un rect ´angulo color

texto, mediante esto obtendremos un vector h el cual representa la activaci ´on de la capa oculta; este vectorhse puede observar en la parte inferior derecha de la FiguraA.6.

3. Multiplicaci ´on del vectorh con la matriz W0 de la capa oculta a la capa de salida, donde se obtendr ´a el vector de resultados parciales Y, esta transici ´on se puede observar en la FiguraA.7.

Figura A.7: Continuaci ´on del ejemplo iniciado en la Figura A.6, multiplicaci ´on del vectorhcon la matrizW0de la capa oculta a la capa de salida.

4. Por ´ultimo lo que deseamos es obtener un vector de probabilidades donde cada componente en el vector de salida represente la probabilidad de que se encuentre la palabra objetivo “Facebook” dada una ventana de palabras contexto (CEO, confundador, Mark, Zuckerberg), as´ı que aplicamos la funci ´on softmax (Bridle, 1990) sobre el vectorY para obtener un vector

Figura A.8:Aplicaci ´on de la funci ´on softmax al vectorY para obtener un vectorY0de salida.

Tabla A.1.1:Tipo y n ´umero de opiniones utilizadas para crear el corpora sem ´antico empleado en este trabajo.

MuchoCine TripAdvisor

Original Lematizado V1 V2

Todas 1-2-4-5 Todas 1-2-4-5 Todas 1-2-4-5 Todas 1-2-4-5 Total opiniones

1 2000 2000 2 1368 1368 3 2000 2000 4 1368 1368 5 1844 1844 6 1559 1559 7 2000 1844 3844 8 1368 1559 2927 9 1844 9001 10845 10 1559 7822 9381 11 2000 1844 9001 12845 12 1368 1559 7822 10749

Documento similar