Algoritmos de clasificación - Análisis de sentimientos en Twitter

5. Análisis de sentimientos en Twitter

5.3 Algoritmos de clasificación

Los algoritmos de aprendizaje supervisado se pueden dividir principalmente en dos grandes grupos: de regresión y de clasificación. Los primeros permiten inferir un valor numérico a partir de una serie de datos de entrada, por ejemplo, las ventas que tendrá una determinada empresa. En cambio, los de clasificación se utilizan para deducir a qué grupo pertenece un ejemplo dado de entre los grupos disponibles. Aunque ambos tipos de algoritmos pueden ser usados en el análisis de sentimientos, nos centraremos en cuatro algoritmos de clasificación muy populares y que ya han sido utilizados en múltiples ocasiones para esta tarea: Naive Bayes, máquinas de vectores de soporte, K vecinos más cercanos y árboles de decisión.

TFM – Ingeniería Informática - UOC 42 / 99

5.3.1 Naive Bayes

La familia de algoritmos Naive Bayes están basados en el célebre Teorema de Bayes, el cual dice lo siguiente:

Sea {A1, A2, … , An} un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales que la probabilidad de cada uno de ellos es distinta de cero. Sea 𝐵un suceso cualquiera del que se conocen las

probabilidades condicionales 𝑃(𝐵|𝐴𝑖). Entonces, la probabilidad de 𝑃(𝐴𝑖|𝐵) viene da por la expresión:

𝑃(𝐴𝑖|𝐵) =

𝑃(𝐵|𝐴𝑖) ∗ 𝑃(𝐴𝑖) 𝑃(𝐵)

En el caso concreto de la clasificación de textos, los sucesos excluyentes y exhaustivos son las diferentes clases que se pueden asignar a un mensaje, de manera que no es posible asignar más de una simultáneamente (excluyentes) y esas clases son todos los tipos que existen (exhaustivos). Los algoritmos Naive Bayes suelen recibir el apelativo de “ingenuos” debido a que en sus cálculos las características

seleccionadas para representar a los ejemplos de entrenamiento son estadísticamente independientes y contribuyen por igual en el proceso de clasificación. Dicho de otro modo y en el caso concreto de la clasificación de textos, se considera que las palabras de un mismo mensaje no mantienen ningún tipo de relación entre sí y es indiferente la posición que tienen dentro del texto al que pertenecen.

5.3.2 Máquinas de vectores de soporte

Las máquinas de vectores de soporte (del inglés, Support Vector Machine o SVM) son un grupo de algoritmos de aprendizaje supervisado desarrollados por (Vapnik, 1982) en los laboratorios AT&T. De manera visual, podemos pensar en este tipo de algoritmos como la representación gráfica de un espacio multidimensional en donde se sitúan los puntos que simbolizan los ejemplos de entrenamiento. Un

hiperplano, denominado vector de soporte, los separa la mayor distancia posible en base a su clase. De esta forma, el vector determina la frontera que sirve para clasificar un nuevo elemento, por lo que dependiendo a qué parte del espacio pertenezca, se le asignará una clase u otra.

Este tipo de algoritmos cuenta con una serie de parámetros que permiten ajustar su configuración interna y así optimizar los resultados durante el proceso de clasificación. Uno de estos parámetros es el

kernel y se utiliza cuando no es posible separar las muestras mediante una línea recta, plano o hiperplano de N dimensiones, permitiendo tal separación mediante otro tipo de funciones matemáticas como polinomios, funciones de base radial Gaussiana, Sigmoid u otras. Otro de estos parámetros es regularization (también

conocido como “C”) que permite crear un margen blando de manera que se consientan ciertos errores en la

TFM – Ingeniería Informática - UOC 43 / 99 máxima a partir de la cual una muestra pierde su influencia en la configuración del vector de soporte, y

margin, que es la separación entre el vector y las muestras de cada clase más cercanas al mismo. [Fuente imagen27_]

5.3.3 K vecinos más cercanos

El algoritmo 𝑘-vecinos más cercanos (del inglés, 𝑘-nearest neighbors o 𝑘-nn) hace uso de una función de similitud para la clasificación de los elementos que se le proporcionan una vez el algoritmo haya sido entrenado. De esta forma, cuando se quiere predecir la clase de un nuevo ejemplo, se buscan los 𝑘 ejemplos con los que la función de similitud sea máxima y se le asigna la clase mayoritaria de entre los seleccionados.

[Fuente imagen28_]

27_{http://penseeartificielle.fr/comprendre-langage-poules-grace-algorithme-svm/} 28_{https://mertricks.com/category/machine-learning/}

FIGURA 5.3.2.1-MÁQUINA DE VECTORES DE SOPORTE

TFM – Ingeniería Informática - UOC 44 / 99 Este clasificador se dice “retardado” o “vago” debido a que no crea ningún modelo estadístico a partir de los datos de entrenamiento, sino que los memoriza y los utiliza cada vez que tiene que predecir a qué grupo pertenece un nuevo elemento. Su éxito depende en gran medida del parámetro 𝑘, es decir, de la cantidad de ejemplos vecinos que el algoritmo utiliza para determinar a qué clase pertenece un ejemplo dado.

5.3.4 Árboles de decisión

Los árboles de decisión forman uno de los grupos de algoritmos más reconocidos y utilizados dentro del campo de la Inteligencia Artificial y del aprendizaje automático. Su estructura es la de un grafo dirigido en forma de árbol compuesto por un conjunto de reglas extraídas a partir de las características de los datos de entrenamiento y que se aplican de manera sucesiva a la hora de predecir a qué clase pertenece un nuevo ejemplo. En general, un árbol de decisión está formado por nodos y líneas que unen dichos nodos, comenzando en uno raíz y terminando en varios con las posibles clasificaciones que se pueden establecer a una muestra dada. Partiendo de la raíz, el paso entre los distintos nodos del árbol se lleva a cabo mediante la evaluación de algún tipo de condición y que determina el recorrido que seguirá la muestra hasta encontrar la clase que le corresponde en un nodo terminal. [Fuente imagen29_]

In document Análisis de sentimientos en Twitter (página 41-44)