Ilustracion 4.4. Diagrama de secuencias del proceso de recepción y simplificación de publicaciones
5. Resultados experimentales
5.3 Pruebas completas con validación cruzada
5.3.2 Medidas de tiempos de entrenamiento y deducción
A continuación se presentan una serie de ilustraciones que muestran los tiempo de cada algoritmo para cada validación cruzada. No fue posible armar un gráfico que muestre todos los algoritmos juntos, ya que resulta inviable comprar los tiempos de SVM con los Naive Bayes y KNN ya que los valores que expresa Naive Bayes y KNN se expresan en milisegundos y SVM en segundos. Ilustración 5.5 : Tiempo de entrenamiento y clasificación, algoritmo SVM
Ilustración 5.6 : Tiempo de entrenamiento y clasificación, algoritmo Naive Bayes Ilustración 5.7 : Tiempo de entrenamiento y clasificación, algoritmo KNN
Analizando los tres gráficos anteriores, podemos observar ciertas características globales y particulares y cada uno. Como característica global vemos que los tiempos de SVM son mucho mayores a los tiempos de los otros algoritmos con un crecimiento exponencial al ir aumentando el volumen de los datos de entrenamiento. Por otro lado, al ir analizando gráfico por gráfico, vemos que SVM presenta grandes tiempos de entrenamiento, con crecimiento exponencial al ir aumentando el volumen de entrenamiento y no se observa tiempo de clasificación ya que comparado con el tiempo de entrenamiento este es despreciable. Naive Bayes es el más parejo de los tres con tiempos similares para el entrenamiento y deducción. Por último KNN presenta los tiempo de clasificación más altos, siendo estos dos a tres veces mayor a Naive Bayes, pero no dispone de tiempos de entrenamiento ya que esta versión de KNN no realiza un entrenamiento para deducir.
5.4 Resumen
En el presente capítulo el objetivo consistió en llevar a cabo un experimento que pusiera a prueba diversos aspectos de la herramienta TweetAnalyser. El caso de estudio propuesto se enfocó en dos grandes aspectos. Inicialmente demostrar que la utilización de temas candidatos como parte de la deducción de los temas principales, mejora la precisión de los algoritmos. En segunda medida se realizó un conjunto de pruebas de validación cruzada utilizando varios porcentajes con el fin de analizar la precisión de los algoritmos de forma independiente de la información del conjunto de datos. En el primer aspecto se llevó a cabo una experimentación que se basó en observar el comportamiento de la herramienta a partir de dos conjuntos de datos de distinto tamaño con y sin temas candidatos. Dicha experimentación comprendió cuatro ejecuciones del sistema TweetAnalyser. Con los resultados obtenidos permitieron demostrar que la utilización de temas candidatos mejoraba la precisión de los algoritmos.
Para el segundo aspecto se llevó a cabo una experimentación en la cual se realizó un conjunto de pruebas utilizando el esquema de validación cruzada. En el cual con la utilización de distintos porcentajes de entrenamiento y clasificación se logró obtener un conjunto de resultados promedio relacionado con la precisión de los algoritmos independientemente de los datos utilizados para las pruebas. Adicionalmente se realizaron métricas acerca del tiempo de entrenamiento y clasificación de cada algoritmo que permitieron verificar la viabilidad del enfoque consiguiendo resultados alentadores.
CAPÍTULO 6
6. Conclusiones
En este trabajo final se presentó un enfoque para capturar las tendencias temáticas manifestadas en publicaciones de la red social Twitter. A partir del mencionado enfoque se desarrolló la aplicación TweetAnalyser que lo materializa.
En la Sección 6.1 se presentan las contribuciones aportadas por el enfoque propuesto. Por otra parte, en la Sección 6.2 se nombran ciertas limitaciones observadas a lo largo del desarrollo del mismo y se presentan un conjunto de trabajos futuros que permiten continuar con el enfoque propuesto. Por último en la sección 6.3 se presenta un resumen del capítulo donde se enuncia la ventaja de utilizar la herramienta
6.1 Contribuciones
Lo que destaca a la investigación es el uso de las redes sociales como fuentes de información. Hoy en día es muy común, que los usuarios de redes sociales compartan contenido que le pueda ser de utilidad a otro grupo de usuarios. Si dichos datos pueden ser enfocados a través de la temática que abordan se abre un nuevo nicho de información.
Aprovechando este nuevo nicho de información que provee una fuente continua de información es posible realizar un análisis sobre la información en tiempo real para detectar tendencias actuales de lo que habla la sociedad. Esta información puede brindar un nuevo aspecto a considerar al momento de realizar un análisis de mercado o al momento de medir la evolución de un producto ya existente, entre muchas otras cosas.
El análisis de casos de estudios reales fueron sujetos a pruebas experimentales permitió mostrar la viabilidad de la herramienta TweetAnalyser para la detección de tendencias en tiempo real. Adicionalmente, el trabajo presenta ciertas contribuciones que lo destacan sobre los trabajos relacionados introducidos en la Sección 2.2.6. Tales contribuciones son presentadas a continuación:
En primer lugar, como contribución principal, TweetAnalyser brinda a los usuarios la posibilidad de poder realizar análisis sobre tendencias temáticas a partir de datos capturados de las redes sociales. TweetAnalyser puede realizar estas tendencias mediante procesamiento del texto de cada tuit sin
depender de hashtags. Adicionalmente para el análisis de la información cuenta con un conjunto de gráficos que permite visualizar las tendencias actuales.
En segundo lugar, se logró presentar un análisis de tendencias temáticas a través de una página web que contiene un con conjunto opciones que permiten al usuario realizar búsquedas sobre las distintas tendencias actuales a través de distintos diagramas. Tales tendencias son detectadas de forma automática a partir de las publicaciones compartidas en Twitter. Mediante los distintos gráficos, los usuarios que necesiten visualizar la información de tendencias actuales podrán comprender rápidamente los principales temas sobre los que se habla actualmente en las redes.
En tercer lugar, otro aspecto destacable del enfoque propuesto es su capacidad de enfocar las búsquedas del usuario por medio de una serie de filtros. Si bien es deseable analizar las tendencias temáticas a nivel general de toda la red, la aplicación permite al usuario enfocar el análisis sobre las tendencias que son de su interés.
En cuarto y último lugar, la herramienta desarrollada provee fácil interacción con terceros. Esto permite el acceso por parte de otras aplicaciones a la información detectada por la herramienta. Este acceso es provisto mediante un servicio web, el cual brinda dicha información en los formatos de intercambio de datos convencionales más utilizados en la actualidad.