2.2 Técnicas de Selección de Características Batch
2.2.2 Técnicas Basadas en Grupos de Características
Las técnicas presentadas en la Sección anterior suponen que las características son independientes y que se encuentran idénticamente distribuidas. Esta suposición puede ser útil cuando se analiza textos largos, pero el análisis de textos cortos presenta una situación diferente. A diferencia de los textos largos, la mayoría de los términos que aparecen en los textos cortos tienen frecuencias bajas, por lo tanto, las frecuencias individuales pueden no ser útiles para determinar correctamente la relevancia de los términos. Como resultado, es necesario el desarrollo de técnicas que analicen grupos de términos. Las técnicas analizadas en esta Sección se organizan de acuerdo a si las mismas aprovechan la información extraída de los vínculos entre las características en los medios sociales, o solo incluyen información textual y de metadatos.
2.2.2.1 Basadas en Información Extraída de Redes Sociales
En un entorno de aplicación real, los datos pueden estar distribuidos en forma de redes o grafos. En el contexto de las redes sociales, para cada publicación social se encuentra disponible no solo su conte-
2.2. TÉCNICAS DE SELECCIÓN DE CARACTERÍSTICASBATCH
nido, sino también la información relacionada a sus autores y sus correspondientes redes sociales. Por lo tanto, los datos vinculados difieren de los datos tradicionales. En particular, los datos vinculados no son independientes ni se encuentran idénticamente distribuidos, las cuales son unas de las suposiciones más recurrentes de las técnicas tradicionales de FS (Alelyani et al, 2013), tal como fuera expuesto en la Sección anterior. De esta forma, la vinculación de los datos presenta nuevas oportunidades para el desarrollo de nuevas técnicas avanzadas de FS. En los últimos años se han desarrollado enfoques que consideran tanto el contenido de los mensajes como la información social de sus autores (Tang and Liu, 2014b; Liu and Yu, 2005; Tang and Liu, 2012). Es interesante destacar que todas las técnicas se basan en el cálculo de operaciones aritméticas entre matrices de gran dimensionalidad, lo que podría aumentar la complejidad computacional de los enfoques, dificultando así su aplicación en entornos de tiempo real. Tang and Liu (2012, 2014b) presentaron técnicas de FS tanto supervisadas como no supervisadas ba- sadas en los vínculos entre los autores de las publicaciones. Tang and Liu (2012) sugirieron cuatro tipos de relaciones entre usuarios basados en teorías de correlación social, tales como homofilia (McPherson
et al, 2001) e influencia social (Marsden and Friedkin, 1993):Co-Post(las publicaciones realizadas por
el mismo usuario tienen tópicos relacionados, es decir, es más probable encontrar tópicos relacionados
en las publicaciones de un mismo usuario que en publicaciones seleccionadas al azar),Co-Following(si
dos usuarios siguen al mismo usuario, es probable que sus publicaciones tengan temas relacionados),
Co-Followed(si dos usuarios son seguidos por el mismo usuario, es probable que sus publicaciones ten-
gan temas relacionados) y Following(un usuario sigue a otro si comparten intereses, por lo tanto, sus
publicaciones son más propensas a tener temas similares). Sobre la base de estas relaciones, los autores
definieronLinkedFS, una técnica de FS supervisada que combina tanto el contenido de las publicaciones
como sus relaciones sociales. Cada relación social es formulada como un problema de optimización,
incluyendo el análisis espectral y resolviendo el problema de minimización derivado de la norma`2,1.
La técnica mostró ser más eficaz para pequeños conjuntos de datos. Este hallazgo es importante, dada la dificultad de obtener datos de medios sociales. Del mismo modo, Tang and Liu (2014b) presentaron una variación no supervisada de la técnica basada en la definición de pseudo-etiquetas de clase. En particu- lar, la regularización de la dimensión social es analizada para capturar las dependencias entre instancias vinculadas, definiendo así el rótulo de pseudo-clase de cada instancia. Luego, las pseudo-etiquetas de clase se utilizan para encontrar la información de contenido de una manera supervisada por medio de un análisis espectral discriminativo. El enfoque tiene una complejidad computacional cuadrática en el número de instancias y características. Aunque los autores definieron la técnica a aplicar a los conjuntos de datos sin etiquetar mediante la introducción del concepto de pseudo-etiquetas, la evaluación experi- mental se realizó solo sobre conjuntos de datos etiquetados. En ambos casos, los enfoques se basaron en la definición de varios parámetros, que pueden ser difíciles de determinar en entornos dinámicamen- te cambiantes. Los autores no proporcionaron medios para definir automáticamente los parámetros de acuerdo con las características de los datos.
En la misma línea de investigación, Gu and Han (2011) propusieron una técnica de FS supervisada
basada enLaplacian Regulared Least Squares(LapRLS) para datos vinculados, cuyo objetivo era selec-
cionar el subconjunto de características que minimice el error deLapRLS. La técnica no requería definir
explícitamente el número de características a seleccionar, ya que dicho número estaba implícitamente
controlado por los parámetros de regularización. El enfoque utilizaLapRLSpara analizar el contenido,
y luego adopta la regularización del grafo basada en la teoría espectral para analizar la información de enlace. Al igual que las técnicas presentadas en (Tang and Liu, 2012, 2014b), la regularización se basó en la suposición básica de que si dos nodos están vinculados en una red, es probable que sus tópicos estén relacionados, y por lo tanto que probable que compartan la misma etiqueta. Como el problema resultante de la optimización es un problema de programación entero mixto que podría ser difícil de
resolver, los autores lo relajaron en un problema restringido a la norma `2,1, que fue resuelto por el
método del gradiente descendente. La evaluación experimental comparó los enfoques propuestos con
cuatro métodos de base: los mínimos cuadrados regularizados, LapRLS(un caso especial del enfoque
que considera todas las características),Fisher Scorey el análisis del componente principal (en inglés,
2.2. TÉCNICAS DE SELECCIÓN DE CARACTERÍSTICASBATCH
propuesto permitió superar a las técnicas de base para la mayoría de las combinaciones evaluadas. Sin embargo, no logró superar el método de los mínimos cuadrados regularizados para uno de los conjuntos de datos. Al igual que en el caso anterior, la técnica se basa en parámetros definidos manualmente.
Las relaciones sociales consideradas por estas técnicas no tienen en cuenta la posibilidad de que cada tipo de vínculo pueda conducir a la formación de lazos con diferente intensidad. Por lo tanto, se necesitan estudios adicionales que consideren la relevancia de la intensidad de los diferentes tipos de relaciones para continuar mejorando los resultados. Por ejemplo, los estudios podrían centrarse en la exploración de información adicional relevante en las redes sociales, o en medir la intensidad de las relaciones sociales mediante técnicas de detección de comunidades.
2.2.2.2 Basadas en Información Textual y de Metadatos
Tanto Moradi and Rostami (2015) como Alexandrov et al (2005) integraron el concepto declustering
de grafos con la centralidad de los nodos y métricas de similitud para realizar FS. Moradi and Rostami (2015) presentaron un enfoque para FS no supervisado en tres etapas. En primer lugar, se construye un grafo en el que los nodos representan características y las aristas se encuentran ponderaras en función de su similitud. Dado que las diferentes métricas de similitud pueden dar lugar a diferentes resultado, dicha métrica debe ser cuidadosamente seleccionada. Los autores eligieron el coeficiente de correlación
dePearsonen lugar de la distancia tradicional euclidiana. En segundo lugar, las características son agru-
padas. En tercer lugar, las características más relevantes e influyentes de cada grupo son seleccionadas mediante el cálculo de la centralidad laplaciana. Según los autores, la técnica es computacionalmente eficiente para conjuntos de datos de gran dimensionalidad. Sin embargo, tiene tres parámetros ajustables que fueron determinados después de realizar ejecuciones preliminares sobre los datos de entrenamiento,
lo cual podría no ser posible en entornos online. Asimismo, como la técnica fue evaluada para datos
categóricos, sus resultados podrían no ser aplicables en el contexto de los textos cortos. Es importan- te destacar que los autores evaluaron los enfoques considerando dos conjuntos de entrenamiento y de evaluación distintos. Una vez analizadas todas las instancias de entrenamiento, los clasificadores nunca fueron actualizados con la información proporcionada por las instancias de evaluación, lo que podría indicar que los autores asumieron que las instancias de entrenamiento y de evaluación son siempre rela- tivamente similares. Tal suposición podría no ser válida en el contexto de las redes sociales debido a la aparición dinámica de nuevos tópicos y tendencias.
Alexandrov et al (2005) propusieron un método para el filtrado y agrupado de términos que permi- ta compensar el efecto de sus bajas frecuencias, en el que consideraban cada nuevo grupo de términos como una nueva coordenada en el espacio igual a la suma de las ocurrencias de todas los términos en di- cho grupo. Por su parte, Ozdikis et al (2012) consideraron las relaciones sintagmáticas y paradigmáticas entre los términos. La relación sintagmática se basa en la coincidencia de palabras. Dos palabras están
sintagmáticamente relacionadas si co-ocurren en más de un número predefinido de tweets, y ninguna
de esas palabras co-ocurre con otra palabra en una cantidad mayor detweets. Por otro lado, la relación
paradigmática busca encontrar pares de palabras que puedan ser utilizadas indistintamente. Los términos
se representan por un vector que comprende las co-ocurrencias de los términos en los tweets. Se con-
sidera que dos términos transmiten una relación paradigmática si su similitud es mayor que un umbral predefinido. La similitud entre los vectores define el grado de contextualidad común, lo que permite de- terminar si dos términos pueden ser utilizados como sinónimos. La similitud del coseno y la distancia de Manhattan fueron seleccionadas para evaluar dicha similitud. La evaluación experimental realizada
entweetsturcos mostró que solo el enriquecimiento basado en relaciones paradigmáticas y similitud de
Manhattan fue capaz de mejorar los resultados de referencia. En consecuencia, se requieren evaluaciones experimentales adicionales para que permitan evaluar eficazmente el potencial del enfoque para mejorar
la precisión en la detección de tópicos. Además, el enfoque debe ser evaluado paratweets escritos en
diferentes idiomas con el fin de evaluar su independencia del lenguaje.
Finalmente, además de las relaciones de similitud social y de contenido, podrían existir varias di- mensiones adicionales de información disponibles para cada instancia de datos. Por ejemplo, en el caso
2.2. TÉCNICAS DE SELECCIÓN DE CARACTERÍSTICASBATCH
trategias directas para aplicar técnicas basadas en datos individuales a espacios de características multi- dimensionales (Tang et al, 2013a): concatenación (los espacios de características heterogéneos son con- catenados en un espacio de características homogéneo, es decir, todas las características se combinan), y la separación (aplicar técnicas de FS tradicional en cada espacio de características por separado). La estrategia de concatenación ignora las diferencias entre espacios de características heterogéneos, mien- tras que la estrategia de separación considera cada vista de forma independiente. Sin embargo, debido a que los diferentes espacios de características describen el mismo conjunto de instancias a través de diferentes dimensiones, dichos espacios se encuentran inherentemente relacionados. En consecuencia, las técnicas que integran las diferentes dimensiones de información podrían lograr un mejor rendimiento que las que consideran cada dimensión de forma independiente. En este sentido, Tang et al (2013a); Fang et al (2014) propusieron técnicas para aprovechar diferentes dimensiones de la información. Tang et al (2013a) propusieron una técnica no supervisada para seleccionar simultáneamente características para todas las dimensiones mediante el uso de análisis espectral para explotar las relaciones entre ellas. La técnica no se limitó a ningún tipo particular de relación, y por lo tanto podría incluso considerar informa- ción social. Al igual que en (Tang and Liu, 2014b), la técnica se basó en definir pseudo-etiquetas de clase para aprovechar la información de cada dimensión mediante análisis espectral. Luego, las relaciones entre las dimensiones se formularon como un problema de optimización. Al considerar los vectores de restricción de la norma cero mezclados con programación entera, su solución se encontró realizando de forma iterativa múltiples operaciones aritméticas sobre matrices de gran dimensionalidad, lo que podría afectar negativamente la complejidad computacional del enfoque.
Fang et al (2014) propusieron combinar tres tipos de dimensiones de información para lostweets:
semántica, etiquetas sociales y temporal. La dimensión semántica fue definida como la información
significativa proporcionada por los términos encontrados en diferentestweets. Un árbol de sufijos fue
construido para detectar las frases comunes entre pares detweets. Después de construir dichos árboles,
todas las frases comunes de cada nodo se obtuvieron recorriendo el árbol desde el nodo raíz hasta los nodos de las hojas. El modelo de espacio vectorial tradicional se extendió para asignar pesos adicionales a palabras en frases detectadas por los árboles, es decir, cuanto mayor es el número de palabras en la frase común, mayor es el valor de ponderación que se debe añadir a las palabras. Cuando es considerada indi- vidualmente, esta dimensión puede ser ineficaz debido a la dispersión del espacio de características. La
dimensión de etiquetas sociales se definió como la relación medida porhashtags, que podría considerarse
como una descripción generalizada de los tópicos contenidos en lostweets. Los autores asumieron que
dostweetsque no comparten palabras comunes, pero compartenhashtagstienen una alta probabilidad
de pertenecer al mismo tópico. La dimensión temporal se definió como la información proporcionada por el tiempo de publicación de los tweets. Los autores supusieron que los tópicos se generaban con un
ciclo de vida particular. Por ejemplo, después de algunos eventos como desastres naturales, los tweets
relacionados suelen publicarse en un corto período de tiempo. Como lostweetsno son tratados como un
flujo de datos, se aplicó una función de kernel gaussiano para medir la similitud temporal de los pares
detweets. Si se generan varios tópicos en el mismo período, considerar esta dimensión individualmente
podría no ser útil. Como cada dimensión tiene sus propios inconvenientes cuando son individualmen-
te consideradas, los autores las combinaron mediante dos técnicas basadas en el clustering espectral:
Stage-based Multiview(realiza operaciones lineales sobre las dimensiones) yCo-training-based Multi-
view(proyecta de una dimensión a la otra de forma iterativa). La evaluación experimental se basó en un
número reducido detweetsque contenían al menos unhashtag. Los resultados mostraron que la relación
semántica resultó individualmente más importante. Finalmente, los autores afirmaron que los resultados mostraron la superioridad de la combinación de relaciones sobre las relaciones individuales, o cualquier combinación de pares de relaciones.