Una técnica basada en el aprovechamiento de la estructura social para la selección de características online en textos cortos

(1)

Universidad Nacional del Centro de la Pcia. de Bs. As. Facultad de Ciencias Exactas Facultad de Ciencias Exactas

Doctorado en Ciencias de la Computación

Una Técnica Basada en el Aprovechamiento de la

Estructura Social para la Selección de

Características

Online

en Textos Cortos

Por

Ing. Antonela Tommasel

Directora: Dra. Daniela Godoy

(2)

(3)

Universidad Nacional del Centro de la Pcia. de Bs. As. Facultad de Ciencias Exactas Facultad de Ciencias Exactas

Doctorado en Ciencias de la Computación

A Social-aware Online Short-text Feature Selection

Technique for Social Media

By

Eng. Antonela Tommasel

Advisor: Ph.D. Daniela Godoy

(4)

(5)

RESUMEN

Los sitios de redes sociales como por ejemploMySpace,FacebookoTwitteratraen a millones de

usua-rios, quienes comparten información cotidiana sobre sus actividades, intereses y opiniones. Dichos sitios se caracterizan principalmente por proporcionar una forma simple de comunicación con un especial

én-fasis en su brevedad, la cual permite a los usuarios compartir imágenes,tweets, comentarios y mensajes

en la forma de textos cortos. Asimismo, la participación de los usuarios en los medios sociales ya no se encuentra limitada a un único sitio, dado que usualmente utilizan múltiples sitios sociales, los cuales proporcionan fuentes de información heterogéneas y complementarias para la descripción de un usua-rio en particular, sus intereses y relaciones sociales. Una tarea que puede beneficiarse enormemente de la existencia de estas múltiples y ricas fuentes de información es el aprendizaje de texto a gran esca-la, el cual tiene implicaciones prácticas importantes en el desarrollo de técnicas de personalización o recomendación.

Las tareas tradicionales de aprendizaje de texto se caracterizan por la alta dimensionalidad de los

espacios de características o atributos a analizar. La selección de características (en inglés,feature

selec-tion) es una de las técnicas más utilizadas para reducir el impacto de la alta dimensionalidad del espacio

de características en textos, el cual es reducido mediante la eliminación de aquellas características re-dundantes e irrelevantes. Las técnicas estándar de selección de características asumen la existencia de un conjunto fijo de instancias y, por lo tanto, de un espacio de características completamente conocido de an-temano. Sin embargo, en aplicaciones del mundo real, tales suposiciones podrían no ser válidas. En estas

situaciones, es necesario aplicar técnicas de selección de característicasonline(en inglés,online feature

selection) en la que las instancias y sus correspondientes características aparecen en un flujo continuo.

Las técnicas de selección de característicasonlineinvolucran elegir un sub-conjunto de características y

su correspondiente modelo de aprendizaje en diferentes momentos temporales. Sin embargo, la mayoría

de los trabajos existentes en la literatura se centran en el desarrollo de solucionesbatch,presentando así

dificultades para adaptarse a los entornos del mundo real. El desarrollo de técnicas eficientes y escalables

de selección de característicasonlinese constituye como un requerimiento muy relevante en numerosas

aplicaciones sociales a gran escala.

(6)

so-bre cómo representar y procesar los nuevos datos y cómo efectivamente aprovecharlos para mejorar el rendimiento de las tareas de aprendizaje sobre texto. En este sentido, la disponibilidad de información de las relaciones entre los datos permite realizar investigaciones avanzadas en técnicas de FS.

El propósito de esta Tesis es abordar la tarea de selección de característicasonlinepara textos cortos

en problemas de gran dimensionalidad, creados en forma continua. De esta forma, se podrán desarrollar nuevos y más eficientes modelos para la personalización y la recomendación de contenido en medios so-ciales. En particular, esta Tesis se centra en la clasificación en tiempo real de textos cortos continuamente

generados en las redes sociales, a partir de la propuesta de una técnica de selección de características

on-linebasada en el análisis de factores sociales y del contenido publicado por los usuarios. A diferencia

de los enfoques presentes en la literatura, que en su mayoría ignoran la naturaleza social de los datos, la técnica propuesta aprovecha las estructuras vinculadas en forma de redes compuestas por las publicacio-nes y los usuarios que las han escrito. La técnica se divide en dos etapas principales: la etapa de Análisis Social y la etapa de Análisis de Contenido. La etapa de Análisis Social pretende descubrir relaciones implícitas entre nuevas puestas y aquellas ya conocidas para superar los problemas derivados de la raleza inherente a los textos cortos y aumentar su contexto disponible. Luego, la etapa de Análisis de Contenido considera grupos de publicaciones socialmente relacionadas y analiza su contenido con el fin de selec-cionar un conjunto de características no redundantes y relevantes para describir cada uno de los grupos descubiertos. Por último, las características seleccionadas son utilizadas para entrenamiento de diferen-tes modelos de aprendizaje para la clasificación de nuevas publicaciones. La evaluación experimental realizada en tres conjuntos de datos de medios sociales del mundo real demostró que la técnica OFS propuesta ayuda a mejorar los resultados de la clasificación en comparación con técnicas de selección

de características tradicionales y del estado del arte tantobatchcomoonline. Los resultados obtenidos

(7)

ABSTRACT

Social networking sites such as MySpace,Facebook orTwitter attract millions of users, who everyday

share information regarding their activities, interests and opinions. These sites are mostly characterised for providing a simple form of communication with a special emphasis on its brevity, which enables users to share pictures, tweets, comments and posts in the form of short-texts. Moreover, the social media experience of users is no longer limited to a unique site, as users might use multiple social sites, which provide heterogeneous and complementary information sources for describing a particular user, their interests and social relations. A task that can greatly benefit from the existence of these multiple and rich information sources is large-scale text learning, which have important practical implications for personalisation or recommendation technologies.

Traditional text learning tasks are characterised by the high dimensionality of feature spaces. Feature selection is one of the most known and commonly used techniques for reducing the impact of the high dimensional feature space, through the removal of redundant and irrelevant features. The standard fea-ture selection setting assumes the existence of a fixed set of instances, and therefore a feafea-ture space fully known in advance. In real-world applications, however, such assumptions might not hold. In these situ-ations, online feature selection in which instances and their corresponding features arrive in a continuous stream, needs to be performed. Online feature selection techniques involve choosing a subset of features and its corresponding learning model at different time frames. Most studies in the literature are focused on developing batch solutions that present difficulties in adapting to real-world environments. Efficient and scalable online feature selection becomes an important requirement in numerous large-scale social applications.

Short-texts accentuate the challenges posed by the high feature space dimensionality due to their limited context and sparseness, informal language and style, propensity to the existence of multiple spelling and grammatical errors, and reduction of the significance of words frequencies, which increase the possibilities for expressing a single concept. The majority of FS techniques are designed for data containing uniform entities, i.e. feature-value data, which are typically assumed to be independent and identically distributed. However, social media data does not follow that assumption as data instances does not only provide textual information but also topological information due to the relationships between posts and users. In turn, the linked nature of social media data causes new dimensions (such as friendship relations between users) to be added to the feature space. For example, posts from the same user or two linked users are more likely to have similar topics. The increasing amount of data does not only affect the computational complexity of algorithms, but also poses new challenges regarding how to represent and process the new data, and how to effectively leverage on such data for improving the performance of text learning tasks. In this regard, the availability of link information enables performing advance research in FS techniques.

(8)

(9)

AGRADECIMIENTOS

Quisiera expresar mi agradecimiento a todas aquellas personas que hicieron posible la realización de este doctorado.

A mi directora, por aceptar guiarme, su dedicación, entusiasmo y gran paciencia. Sin su guía este trabajo no hubiese sido posible.

Al Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), por la ayuda financiera para la realización del doctorado.

Al ISISTAN por proveer un ambiente confortable de trabajo. A todos aquellos cuyos comentarios y críticas permitieron mejorar la calidad de este trabajo en incontables ocasiones. A aquellos que me acompañaron durante el proceso y estuvieron siempre disponibles para lo que necesitara.

A mis amigos, los cuales me brindaron su amistad y compañía durante todos estos años. A mis padres, por haberme alentado a estudiar y acompañarme en lo que me proponga.

A vos, que estuviste y estás, en los buenos y malos momentos. Sin tu compañía y guía no hubiese podido completar el doctorado.

A todos ellos, muchísimas gracias

(10)

(11)

TABLA DE CONTENIDO

Resumen i

Abstract iii

Agradecimientos v

Tabla de Contenido vii

Índice de Figuras xi

Índice de Tablas xv

Lista de Acrónimos xvii

1 Introducción 1

1.1 La Tesis . . . 3

1.2 Contribuciones . . . 4

1.3 Descripción General . . . 4

1.4 Organización . . . 5

2 Marco Teórico 7 2.1 Descripción General de las Técnicas de Selección de Características . . . 7

2.2 Técnicas de Selección de CaracterísticasBatch . . . 9

2.2.1 Técnicas Basadas en Características Individuales . . . 10

2.2.1.1 Técnicas deRanking. . . 10

2.2.1.2 Técnicas de Enriquecimiento . . . 11

2.2.1.3 Reemplazo de Características . . . 15

2.2.2 Técnicas Basadas en Grupos de Características . . . 18

2.2.2.1 Basadas en Información Extraída de Redes Sociales . . . 18

2.2.2.2 Basadas en Información Textual y de Metadatos . . . 20

2.2.3 Resumen . . . 21

2.3 Técnicas de Selección de CaracterísticasOnline . . . 22

2.3.1 Técnicas Basadas en Características Individuales . . . 24

2.3.2 Técnicas Basadas en Grupos de Características . . . 25

2.3.2.1 Técnicas para Múltiples Dominios . . . 26

2.3.2.2 Técnicas Orientadas a Textos Cortos . . . 27

2.3.3 Resumen . . . 30

2.4 Discusión . . . 30

2.5 Técnicas de Aprendizaje sobre Textos Cortos . . . 39

(12)

2.5.2 Clustering. . . 41

2.5.3 Discusión . . . 44

2.6 Resumen . . . 45

3 Una Técnica para la Selección de CaracterísticasOnlinecon Conocimiento Social 47 3.1 Análisis Social . . . 49

3.1.1 Detección Local de Comunidades . . . 52

3.1.2 Detección Global de Comunidades . . . 55

3.1.3 Métricas de Semejanza . . . 57

3.2 Análisis de Contenido . . . 58

3.2.1 Análisis de Redundancia . . . 58

3.2.2 Análisis de Relevancia . . . 59

3.3 Clasificación de Nuevas Publicaciones . . . 60

3.4 Una Aplicación para la Recomendación deFollowees . . . 62

3.5 Resumen . . . 62

4 Análisis Social: Detectando Comunidades de Publicaciones Relacionadas 63 4.1 Detección de Comunidades Basada en Información Heterogénea . . . 64

4.1.1 Extracción del Grafo . . . 65

4.1.2 Simetrización del Grafo . . . 67

4.2 Evaluación Experimental . . . 71

4.2.1 Colecciones de Datos Utilizadas . . . 71

4.2.2 Detalles de Implementación . . . 72

4.2.3 Comparación con otras técnicas de la literatura . . . 74

4.2.4 Resultados Experimentales . . . 75

4.2.4.1 Resultados para la Colección de Datos deTwitter . . . 75

4.2.4.2 Resultados para la Colección de Datos deFlickr . . . 83

4.2.4.3 Resumen de Resultados . . . 92

4.3 Resumen . . . 95

5 Análisis de Contenido: Seleccionando Características Relevantes y no Redundantes 99 5.1 Análisis de la Redundancia de Características . . . 100

5.1.1 Calculando la Redundancia entre Características . . . 101

5.1.1.1 Determinando el Conjunto de Características Redundantes . . . 103

5.1.2 Detalles de la Evaluación . . . 104

5.1.3 Evaluación Experimental . . . 105

5.2 Análisis de la Relevancia de las Características . . . 117

5.2.1 Detalles de la Evaluación . . . 121

5.2.2 Evaluación Experimental . . . 121

5.3 Evaluación Experimental Combinada . . . 133

5.3.1 Detalles de la Implementación . . . 134

5.4 Resumen . . . 136

6 Evaluando la Técnica de Selección de CaracterísticasOnline 139 6.1 Detalles de la Experimentación . . . 139

6.1.1 Colecciones de Datos Utilizadas . . . 139

6.1.2 BaselinesSeleccionados para la Comparación . . . 140

6.1.3 Metodología . . . 144

6.2 Instanciación de la Técnica de OFS . . . 144

6.2.1 Etapa de Análisis Social . . . 144

(13)

6.2.3 Clasificación de Nuevas Publicaciones . . . 146

6.3.1 Resultados para la Colección de Datos deTwitter . . . 148

6.3.2 Resultados para la Colección de Datos deBlogCatalog . . . 152

6.3.3 Resultados para la Colección de Datos deFlickr . . . 154

6.3.4 Resumen de Resultados . . . 157

6.4 Resumen . . . 163

7 Recomendación de Followees basada en la Estructura de Comunidades de Usuarios 167 7.1 Recomendación deFollowees. . . 168

7.1.1 Representación del Grafo Social . . . 169

7.1.2 Describiendo las Comunidades de Usuarios . . . 169

7.2 Recomendación deFolloweesPotenciales . . . 171

7.3.1 Colección de Datos Utilizada . . . 172

7.3.2 Detalles de Implementación . . . 173

7.3.3.1 Descubriendo las Estructuras de Comunidades . . . 174

7.3.3.2 Resultados de la Recomendación deFollowees . . . 177

7.4 Resumen . . . 180

8 Conclusiones 183 8.1 Contribuciones . . . 185

8.2 Limitaciones . . . 186

8.3 Trabajos Futuros . . . 186

Apéndices 189 Apéndice A Evaluación de las Técnicas de Detección de Comunidades 191 A.1 Algoritmos de Detección de Comunidades . . . 191

A.1.1 Detalles de la Evaluación . . . 194

A.1.2 Evaluación Experimental . . . 197

A.2 Semejanza entre Nodos . . . 199

A.2.1 Detalles de la Evaluación . . . 203

A.2.2 Evaluación Experimental . . . 203

A.3 Resumen . . . 208

Apéndice B SMArtOp: Una Biblioteca para la Realización de Operaciones Aritméticas entre Matrices Ralas 211 B.1 Descripción del Problema . . . 212

B.2 Paralelización de las Operaciones Aritméticas entre Matrices Ralas . . . 213

B.2.1 Static . . . 215

B.2.2 Row-Sparseness . . . 215

B.2.3 Row-Sparseness Standard-Deviation (Row-Sparseness-SD) . . . 215

B.2.4 Row-Sparseness Mode (Mode) . . . 216

B.3 Marco de Referencia de la Biblioteca . . . 216

B.4 Evaluación Experimental . . . 216

B.4.1 Aplicación de Selección de Características . . . 217

B.4.2 Detalles de Implementación . . . 217

B.4.3 Colecciones de Datos . . . 218

B.5 Resultados Experimentales . . . 219

(14)

B.5.2 Comparación con otras Bibliotecas de Álgebra Lineal . . . 221

B.6 Resumen . . . 222

(15)

ÍNDICE DE FIGURAS

1.1 Descripción General de la Técnica de Selección de CaracterísticasOnline . . . 5

2.1 FrameworkGeneral para la Selección de CaracterísticasBatch . . . 9

2.2 FrameworkGeneral para la Selección de CaracterísticasOnline. . . 23

3.1 Descripción General del Enfoque de Selección de Características . . . 48

3.2 Ejemplos de Posibles Relaciones entre Publicaciones . . . 50

3.3 Descripción General de la Etapa de Análisis Social . . . 51

3.4 Principios Generales de la Detección Local de Comunidades (Papadopoulos et al, 2012). Comenzando con algún nodo semilla, su vecindad es progresivamente explorada. Los nodos son identificados como Core (C), Boundary (B) and Unvisited (U), en relación a su posición respecto a la comunidad local. . . 53

3.5 Tipos de Características . . . 59

3.6 Vista Esquemática de la Llegada y Clasificación de Nuevas Publicaciones . . . 61

4.1 Representación de Múltiples Relaciones en un Grafo . . . 68

4.2 Ejemplos de Transformación de Simetría de Grafos . . . 69

4.3 Resultados de Detección de Comunidades para la Vistas Sociales y de Contenido Inde-pendientesen la Colección de Datos deTwitter . . . 77

4.4 Resultados de Detección de Comunidades para la Dimensión Social Ponderada en la Colección de Datos deTwitter . . . 79

4.5 Efecto de las Estrategias de Simetrización en las Vistas Sociales y de Contenido Inde-pendientesen la Colección de Datos deTwitter . . . 80

4.6 Efecto de las Estrategias de Simetrización en laDimensión Social Ponderadaen la Co-lección de Datos deTwitter . . . 81

4.7 Comparación con los Resultados deZalmout and Ghanem (2013)para la Colección de Datos deTwitter . . . 82

4.8 Comparación con los Resultados de Tang et al (2012c) para la Colección de Datos de Twitter . . . 84

4.9 Resultados de Detección de Comunidades para lasVistas Sociales y de Contenido Inde-pendientespara la Colección de Datos deFlickr . . . 86

4.10 Resultados de Detección de Comunidades para laDimensión Social Ponderadapara la Colección de Datos deFlickr . . . 87

4.11 Resultados de Detección de Comunidades para laDimensión Social Ponderadapara la Colección de Datos deFlickr . . . 88

4.12 Efecto de las Estrategias de Simetrización . . . 89

4.13 Efecto de las Estrategias de Simetrización sobre laDimensión Social Ponderadaen la Colección de Datos deFlickr . . . 90

(16)

4.15 Comparación con los Resultados de Tang et al (2012c) para la Colección de Datos de

Flickr . . . 93

4.16 Comparison of the Best Node Relationship Combinations . . . 94

5.1 Tipos de Características . . . 100

5.2 Metodología de la Selección Textual de Características . . . 100

5.3 Metodología del Análisis de Redundancia . . . 101

5.4 Metodología para el Reemplazo de Características Redundantes . . . 105

5.5 Distribuciones de Puntuaciones de Redundancia para la Colección de Datos Completa . . 107

5.6 Distribuciones de Puntuaciones de Redundancia para cada una de las Clases . . . 109

5.7 Resultados de la Clasificación para las Métricas de Redundancia Seleccionadas - Accuracy111 5.8 Resultados de la Clasificación para las Métricas de Redundancia Seleccionadas - F-Measure113 5.9 Metodología para el Análisis de Relevancia . . . 118

5.10 Distribuciones de Puntuaciones de Relevancia para la Colección de Datos Completa . . . 122

5.11 Puntuaciones de Relevancia Ordenadas . . . 122

5.12 Distribuciones de Puntuaciones de Relevancia para cada una de las Clases . . . 125

5.13 Puntuaciones de Relevancia Ordenadas para cada una de las Clases . . . 126

5.14 Distribución de las Puntuaciones deOutlierspara la Colección de Datos Completa . . . 127

5.15 Distribuciones de Puntuaciones de Relevancia Restringidas . . . 128

5.16 Resultados de la Clasificación para las Métricas de Relevancia Seleccionadas - Accuracy 129 5.17 Resultados de la Clasificación para las Métricas de Relevancia Seleccionadas - F-Measure 130 5.18 Resultados de la Clasificación cuando se Combinan los Análisis de Redundancia y Re-levancia - Accuracy . . . 136

5.19 Resultados de la Clasificación cuando se Combinan los Análisis de Redundancia y Re-levancia - F-Measure . . . 137

6.1 Resultados de la Clasificación Considerando la Derivación Independiente del Grafo So-cial para la Colección de Datos deTwitter . . . 149

6.2 Resultados de la Clasificación Considerando la Derivación Ponderada del Grafo Social para la Colección de Datos deTwitter . . . 151

6.3 Resultados de la Clasificación Considerando la Derivación Independiente del Grafo So-cial para la Colección de Datos deBlogCatalog . . . 153

6.4 Resultados de la Clasificación Considerando la Derivación Ponderada del Grafo Social para la Colección de Datos deBlogCatalog . . . 155

6.5 Resultados de la Clasificación Considerando la Derivación Independiente del Grafo So-cial para la Colección de Datos deFlickr . . . 158

6.6 Resultados de la Clasificación Considerando la Derivación Ponderada del Grafo Social para la Colección de Datos deFlickr . . . 159

6.7 Comparación de los Tiempos de Ejecución -PearsonCorrelation&Fisher Score . . . . 165

6.8 Comparación de los Tiempos de Ejecución -Gini Index . . . 166

7.1 Vista General del Enfoque de Recomendación deFollowees. . . 168

7.2 Derivación del Grafo Social en el Contexto del Enfoque de Recomendación deFollowees 170 7.3 Estructuras de Comunidades de Usuarios Descubiertas pararead−pro f ileRT−proc . . . 176

7.4 Estructuras de Comunidades de Usuarios Descubiertas pararead−pro f ileFav−f ull . . . 178

7.5 Resultados de Recomendación deFollowees . . . 179

A.1 Correlación Estadística entre las Métricas de Análisis de Calidad . . . 198

A.2 Resultados de Detección de Comunidades para laVistas Sociales y de Contenido Inde-pendientes . . . 200

(17)

A.4 Resultados de las Métricas de Semejanza entre Nodos para laVistas Sociales y de

Con-tenido Independientes . . . 205

A.5 Resultados de las Métricas de Semejanza entre Nodos para laDimensión Social Ponderada207

B.1 Tiempo Total de Cálculo de la MatrizB(Escala Logarítmica) . . . 220

B.2 Tiempo Total de Cálculo de la MatrizE(Escala Logarítmica) . . . 220

B.3 Tiempo de Cálculo de cada Operación Individual . . . 220

B.4 Tiempo Total de Cálculo de la MatrizB(Escala Logarítmica) - Comparación con

(18)

(19)

ÍNDICE DE TABLAS

2.1 Resumen de las Técnicas de Selección de CaracterísticasBatchBasadas en el Análisis

Individual de las Características . . . 32

2.2 Resumen de las Técnicas de Selección de CaracterísticasBatchBasadas en el Análisis de Grupos de Características . . . 35

2.3 Resumen de las Técnicas de Selección de CaracteristicasOnline . . . 36

2.4 Aplicabilidad de las Técnicas de Selección de Características a la Selección de Caracte-rísticasOnline . . . 37

2.5 Resumen de las Técnicas de Aprendizaje . . . 46

4.1 Características Principales de la Colección de Datos deTwitter . . . 71

4.2 Características Principales de la Colección de Datos deFlickr . . . 72

4.3 Ranking de las Relaciones que Descubrieron las Comunidades de Mejor Calidad (Vistas Sociales y de Contenido Independientes) para la Colección de Datos deTwitter . . . 76

4.4 Ranking de las Relaciones que Descubrieron las Comunidades de Mejor Calidad ( Di-mensión Social Ponderada) para la Colección de Datos de Twitter . . . 78

4.5 Ranking de las Relaciones que Descubrieron las Comunidades de Mejor Calidad (Vistas Sociales y de Contenido Independientes) para la Colección de Datos deFlickr . . . 85

4.6 Ranking de las Relaciones que Descubrieron las Comunidades de Mejor Calidad ( Di-mensión Social Ponderada) para la Colección de Datos deFlickr . . . 87

4.7 Resumen de Mejoras ( %) . . . 96

5.1 Métricas Incluidas en el Análisis de Redundancia . . . 102

5.2 Descripción de las Características Textuales Incluidas en la Colección de Datos deTwitter106 5.3 Resumen de las Mejoras de F-Measure sobre el Conjunto Total de Características cuando se Realiza el Análisis de Redundancia ( %) . . . 114

5.4 Análisis de las Parametrizaciones delThresholdpara el Análisis de Redundancia . . . . 116

5.5 Métricas Incluidas en el Análisis de Relevancia . . . 119

5.6 Correlaciones Estadísticas entre las Métricas Incluidas en el Análisis de Redundancia . . 124

5.7 Características de los Outliers Encontrados en las Distribuciones de Puntuaciones de Relevancia . . . 128

5.8 Resumen de las Mejoras de F-Measure sobre el Conjunto Total de Características cuando se Realiza el Análisis de Relevancia ( %) . . . 131

5.9 Análisis de las Parametrizaciones del Threshold para el Análisis de Relevancia . . . 133

5.10 Resumen de las Mejoras de F-Measure sobre el Conjunto Total de Características cuando se Combinan los Análisis de Redundancia y Relevancia ( %) . . . 135

6.1 Características Principales de la Colección de Datos deBlogCatalog . . . 140

6.2 Características de la técnica deZubiaga et al. . . 143

(20)

6.4 Resumen de las Combinaciones de Relaciones Descubriendo las Comunidades de Mayor

Calidad . . . 145

6.5 Resumen de los Parámetros Utilizados para el Análisis Textual . . . 146

6.6 Resumen de las Mejoras de F-Measure -PearsonCorrelation&Fisher Score( %) . . . . 161

6.7 Resumen de las Mejoras de F-Measure -Gini Index( %) . . . 162

7.1 Características Generales de la Colección de Datos Utilizada . . . 173

7.2 Resumen de las Mejoras en F-Measure ( %) . . . 180

A.1 Combinaciones de Relaciones entre Nodos Evaluadas . . . 195

A.2 Métricas de Calidad de Comunidades . . . 196

A.3 Métricas de Semejanza entre Nodos . . . 202

A.4 Resumen de los Resultados para las Métricas de Semejanza entre Nodos para laVistas Sociales y de Contenido Independientes . . . 206

A.5 Resumen de los Resultados para las Métricas de Semejanza entre Nodos para la Dimen-sión Social Ponderada . . . 208

B.1 Características de las Bibliotecas de Álgebra Lineal . . . 213

B.2 Principales Características de la Colección de DatosDigg . . . 218

(21)

LISTA DE ACRÓNIMOS

La siguiente lista describe los acrónimos que serán luego utilizados en el cuerpo del documento.

χ2 Chi-Cuadrado -Chi−Square

DF Frecuencia de Documentos -Document Frequency

FiS Fisher Score

GI Gini Index

IDF Frecuencia de Documentos Inversa -Inverse Document Frequency

IG Ganancia de Información -In f ormation Gain

LSRE Least Square Regression Error

MI Información Mutua -Mutual In f ormation

MICI Maximal In f ormationCompression Index

OR Cociente de Probabilidades -Odds Ratio

T F Frecuencia de Términos -Term Frequency

T F−IDF Term Frequency−Inverse Document Frequency

T S Term Strength

TV Q TermVariance Quality

BOW Bag-of-Words

EM Expectation Maximisation

FS Selección de Características -Feature Selection

k-NN k-Nearest Neighbours

LDA Latent Dirichlet Allocation

NB Naïve Bayes

ODP Open Directory Project

OFS Selección de CaracterísticasOnline-Online Feature Selection

(22)

SMArtOp Sparse Matrix library for ARiThmetic Operations

SMO Sequential Minimal Optimisation

SVM Support Vector Machines

TT Trending Topic

(23)

CAPÍTULO

UNO

INTRODUCCIÓN

Desde sus inicios, los sitios de redes sociales comoMySpace,Facebook oTwitterhan atraído a

millo-nes de usuarios, quiemillo-nes han integrado dichos sitios en su vida cotidiana. Estos sitios se caracterizan principalmente por proporcionar una forma simple de comunicación con un énfasis especial en la

co-municación breve, la cual permite a los usuarios compartir imágenes,tweets, comentarios y mensajes en

forma de textos cortos. Como resultado, los datos disponibles en los medios sociales crecen a un ritmo sin precedentes. Además de proporcionar un medio de interacción interpersonal y expresividad, los sitios de redes sociales son cada vez más utilizados como fuentes de información en tiempo real y como un lugar para el debate de noticias, política, negocios y entretenimiento, entre otras posibilidades (Weller et al, 2013). Hoy en día, la experiencia en los medios sociales de los usuarios ya no se encuentra li-mitada a un único sitio, ya que los usuarios pueden utilizar múltiples sitios sociales (Zafarani and Liu, 2016), los cuales proporcionan fuentes de información heterogéneas y complementarias para describir a los usuarios, sus intereses y relaciones sociales.

La cantidad sustancial de contenido generado y compartido por usuarios de redes sociales (desde individuos hasta instituciones) ofrece nuevas oportunidades de investigación en una amplia variedad de disciplinas, incluyendo estudios de comunicación, lingüística, sociología, psicología, ciencias de la computación o educación. En consecuencia, surge una importante necesidad para el desarrollo de mé-todos y enfoques innovadores capaces de tratar con las nuevas fuentes de datos de medios sociales. Por ejemplo, el crecimiento continuo de sitios de redes sociales crea la necesidad imperiosa de organizar el contenido, convirtiendo a las tareas de aprendizaje de textos a gran escala en entornos sociales en uno de los problemas más relevantes en el aprendizaje de máquinas y la minería de datos. Asimismo, las oportunidades de investigación avanzada platean nuevos desafíos respecto a la disponibilidad a lar-go plazo de los datos, la interpretación de la información generada por los usuarios y la relación entre los enfoques cualitativos y cuantitativos, así como el desarrollo de enfoques basados en el usuario y los contenidos (Weller et al, 2013).

El aprendizaje sobre textos es una tarea común para la organización del contenido generado por el usuario en el contexto de los sistemas de recomendación de usuarios, tecnologías de personalización, filtrado de información y clasificación, entre otras posibilidades. Estas tareas podrían beneficiarse enor-memente de una integración efectiva de las múltiples fuentes de información proporcionadas por los sitios de medios sociales. En particular, dichas tareas podrían aprovechar la integración de información relacionada con los vínculos sociales (o amistades) entre los usuarios. La tarea de categorización de texto se caracteriza por la alta dimensionalidad de su espacio de características (que comprende, por

ejemplo, las palabras, etiquetas ohashtagsque aparecen en los textos cortos) donde la mayoría de las

(24)

La selección de características (FS, del inglés "Feature Selection") (Alelyani et al, 2013) es una de las técnicas más conocidas y comúnmente utilizadas para reducir el espacio de características de grandes dimensiones mediante la eliminación de aquellas características redundantes e irrelevantes. La reducción de la dimensión del espacio de características ayuda a acelerar los algoritmos de minería de datos, así como también a mejorar el rendimiento de la minería y tareas de aprendizaje (Liu and Yu, 2005). El escenario estándar de FS asume la existencia de un conjunto fijo de instancias y, por lo tanto, un espa-cio de características completamente conocido de antemano. De esta forma, la FS consiste en encontrar el subconjunto de las características más relevantes según un determinado criterio de evaluación. Este

escenario se conoce como FS batch. Sin embargo, en aplicaciones del mundo real, tales suposiciones

podrían no ser válidas, ya que las instancias de entrenamiento podrían llegar secuencialmente, las ca-racterísticas podrían aparecer de forma incremental, o incluso podría ser difícil recolectar el conjunto de entrenamiento completo (Wang et al, 2014b). Por ejemplo, la clasificación de nuevas publicaciones sociales que aparezcan en los medios sociales podría utilizarse para la detección de eventos o tópicos o

trending topics, entre otras posibilidades. Asimismo, los enfoquesbatcha menudo requieren que el

con-junto de datos de entrenamiento se encuentre disponible en la memoria, lo cual no resulta ni escalable ni práctico para aplicaciones del mundo real que involucran conjuntos de datos a gran escala que pueden

exceder la capacidad de memoria. Como resultado, las técnicas de FS batch tradicionales no resultan

adecuadas para nuevas aplicaciones que requieran la manipulación de grandes conjuntos de datos. En

estas situaciones, la selección de característicasonline(OFS, del inglés "Online Feature Selection") en

la que las instancias y sus características correspondientes aparecen en un flujo continuo, debe realizar-se. Las técnicas de OFS implican la elección de un subconjunto de características y el correspondiente modelo de aprendizaje en diferentes períodos de tiempo. En cada período, es posible no solo seleccionar las características más recientes, sino también eliminar características ya seleccionadas, o incluso incluir características que fueran previamente rechazadas (Perkins and Theiler, 2003). Por consiguiente, las téc-nicas de OFS resultan particularmente importantes en sistemas del mundo real en los que las téctéc-nicas

tradicionales de FSbatchno pueden ser aplicadas de forma directa (Wang et al, 2014b).

Los textos cortos acentúan los desafíos planteados por la alta dimensionalidad de los espacios de características debido a su contexto limitado y escaso, su lenguaje informal y estilo, la propensión a la existencia de múltiples errores ortográficos y gramaticales, y la reducción de la significación de las frecuencias de palabras, lo que aumenta las posibilidades para expresar un mismo concepto. La mayoría de las técnicas de FS están diseñadas para datos que contienen entidades uniformes, es decir, datos que se suponen típicamente independientes e idénticamente distribuidos. Sin embargo, los datos de los medios sociales no siguen esa suposición ya que una colección de textos cortos extraída de medios sociales no solo proporcionan información textual sino también información de vínculos topológicos debido a la existencia de relaciones entre las publicaciones y los usuarios. De esta forma, la naturaleza vinculada de los datos de los medios de comunicación social hace que se añadan nuevas dimensiones (como las relaciones de amistad entre usuarios) al espacio de características (Tang and Liu, 2012). Por ejemplo, las publicaciones del mismo usuario o de dos usuarios vinculados tienen más probabilidades de hacer referencia a temas similares.

Aunque las técnicas de FS han recibido una atención considerable durante las últimas décadas, la

mayoría de los estudios se centran en el desarrollo de técnicas batch para su aplicación en textos

(25)

1.1. LA TESIS

1.1 La Tesis

Esta Tesis aborda la tarea de OFS para datos textuales de gran dimensión (Tommasel and Godoy, 2016b, 2018), basado en la integración de múltiples fuentes de información disponibles en los datos de redes sociales. Las técnicas de OFS a gran escala poseen múltiples aplicaciones. Por ejemplo, la clasificación

detweets,sistemas de recomendación, sistemas de detección de eventos en tiempo real o clasificación de

trending topics, entre otros. Particularmente, la Tesis se centra en:

• Escenario Online.En este escenario en particular, ni las características ni las instancias de datos

son conocidas por adelantado.

• Textos Cortos Generados de Forma Continua.La técnica se propone realizar FS sobre textos cortos

generados continuamente en los sitios de redes sociales.

• Contexto Social. Aunque la información social no es a menudo tenida en cuenta por las

técni-cas de FS, proporciona valiosa información adicional más allá de la información provista por las características "dato-valor".

• Escenario multi-clase.Las publicaciones en las redes sociales pueden pertenecer a numerosos

te-mas. Por lo tanto, las técnicas de clasificación binarias generalmente no son suficientes o adecuadas para este contexto.

• Ambiente Dinámicamente Cambiante. Los datos de los medios sociales evolucionan

continua-mente, y los temas cambian a un ritmo acelerado. Como resultado, los nuevos datos deben ser analizados frecuentemente y los modelos de aprendizaje deben ser actualizados periódicamente.

La hipótesis subyacente a esta Tesis es quela integración de múltiples fuentes de información extraídas

de los sitios de redes sociales podría potencialmente mejorar el rendimiento y la calidad de las técnicas de selección de características online cuando se aplican a entornos dinámicos como los datos extraídos

de medios sociales. Para probar esta hipótesis se propone una nueva técnica de Selección de

Característi-casOnline(OFS) para enriquecer y mejorar el proceso de minería de texto corto en medios sociales. En

consecuencia, se podrían desarrollar modelos nuevos y más efectivos para la personalización y recomen-dación de contenidos en entornos sociales. En particular, la Tesis se centra en la clasificación en tiempo real de textos cortos generados de forma continua en redes sociales, proponiendo un enfoque de OFS basado en la combinación de factores sociales y de contenido. Aunque el enfoque es aplicado a la clasi-ficación multi-clase de publicaciones socialmente generadas, también podría aplicarse en escenarios de clasificación binaria, o incluso para otras tareas de aprendizaje, como el clustering. Asimismo, la técnica podría adaptarse a ambientes semi-supervisados, en los que un pequeño conjunto de datos etiquetado se encuentra disponible, y luego las publicaciones que aparecen no se encuentran etiquetadas.

Los datos vinculados se han vuelto omnipresentes en las redes sociales, comoTwitter(en el que no

solo lostweetspueden estar vinculados, sino también sus autores pueden estar socialmente relacionados)

o Facebook (en el que los usuarios comparten relaciones de amistad), proporcionando así fuentes de

información adicionales, como correlaciones entre las instancias. Por ejemplo, las publicaciones del mismo usuario o de dos usuarios relacionados tienen más probabilidades de referirse a temas similares. Dado que las diferentes fuentes de información proporcionan vistas complementarias de los datos, al evaluarlos independientemente, los algoritmos pueden no tener en cuenta características importantes de los datos. Por el contrario, la técnica de OFS propuesta tiene por objeto la combinación de múltiples fuentes de información. En este contexto, esta Tesis explorará las siguientes cuestiones:

• ¿Cómo explotar las múltiples relaciones entre las instancias de datos existentes en los entornos sociales?

• ¿Cómo aprovechar las múltiples relaciones sociales para el enriquecimiento de las técnicas de FS?

(26)

1.2. CONTRIBUCIONES

1.2 Contribuciones

La principal contribución de esta Tesis es la definición de una nueva técnica de OFS basada en la integra-ción de fuentes de informaintegra-ción tanto sociales como de contenido para la clasificaintegra-ción en tiempo real de textos cortos generados de forma continua en los medios sociales. Se demostró que la técnica presentada contribuye a mejorar el rendimiento de la clasificación en comparación con técnicas correspondientes al estado del arte diseñadas específicamente para los medios sociales y técnicas tradicionales, tanto en

es-cenariosbatchcomoonline. La evaluación realizada mostró que aprovechar la información social resulta

crucial para las técnicas de OFS, exponiendo las limitaciones de considerar únicamente la información basada en el contenido. Las contribuciones de esta Tesis pueden resumirse como sigue:

• El desarrollo de una técnica para realizar OFS mediante la integración de información social y basada en el contenido. La técnica presentada analiza primero las relaciones explícitas e implícitas entre las publicaciones sociales y sus autores para permitir el descubrimiento de comunidades de publicaciones sociales relacionadas. Luego, analiza el contenido de las comunidades descubiertas para seleccionar un conjunto de características textuales relevantes para representarlas. Por último, las características seleccionadas son utilizadas para el entrenamiento de diferentes modelos de aprendizaje que serán utilizados para clasificar las nuevas publicaciones que aparezcan.

• Un análisis integral de cómo explotar la naturaleza vinculada de los datos extraídos de medios so-ciales mediante la detección de las relaciones explícitas e implícitas existentes entre ellos y cómo integrarlos para el descubrimiento de comunidades. En particular, se propusieron varias deriva-ciones para el grafo de publicaderiva-ciones construido, destacando sus diferencias. Dichas diferencias responden a las características de los sitio de redes sociales subyacentes, las cuales también guiaron la selección de las fuentes de información relevantes a considerar. Asimismo, también se propo-nen varias alternativas para integrar la semántica transmitida por la direccionalidad de los arcos del grafo.

• Aprovechando los principios que fundaron la técnica de OFS, es decir, la integración de las

re-laciones sociales y de contenido, se desarrolló una aplicación de recomendación defollowees. La

idea detrás de esta aplicación es que la información sobre la existencia de comunidades de usuarios

puede ayudar a mejorar la calidad de la predicción defollowees. En este contexto, se combinaron

las múltiples y diversas fuentes de información sobre las relaciones de usuario (tanto explícitas como implícitas) para el descubrimiento de comunidades, y luego, en base a un análisis de con-tenido se seleccionaron las características textuales más importantes que permitiesen describir las

particularidades de cada grupo o comunidad defollowees. Finalmente, las características textuales

seleccionadas fueron utilizadas para entrenar modelos de aprendizaje describiendo las particulari-dades de cada comunidad. Aplicada en este contexto, la técnica de OFS proporciona capaciparticulari-dades no solo para identificar diversas motivaciones para elegir a los seguidores (representadas por las diferentes comunidades), sino también para personalizar y adaptar dinámicamente los modelos aprendidos a los cambios en los intereses de los usuarios.

1.3 Descripción General

La técnica de OFS presentada se divide en dos etapas principales: Análisis social (analiza las relacio-nes sociales entre las publicaciorelacio-nes y sus autores) y Análisis de Contenido (selecciona un conjunto de características no redundantes y relevantes para describir los grupos de publicaciones relacionadas). La Figura 1.1 presenta la metodología general de la técnica, la cual puede describirse como sigue:

1. Modelado de los Datos. Los datos son modelados como un grafo en el que los nodos representan

(27)

1.4. ORGANIZACIÓN

Social Analysis

Content Analysis

Learning Model

w1 w2 w3

w1 w3 w2

Post 7

Data Feed

New Post Arrives Update of Social

Structures

P 6

P 3

P 1

P 2

P 4

P 5

Social Community 2 Social

Community 1 Features for Social Community 1

w4 w5 w2

Features for Social Community 2

w3

w1 w2 w3

w4 w3 w4

w1 w2 w3

w1 w3

w1 w2 w5 w4

w2 w5 w1 w2

w1 w3 w4

w1 w2 w3

w4 w3 w4

w1 w2 w3 w2

w2 w5 w1

Post 1

Post 2

Post 6

Post 3

Post 4

Post 5

Class Assignment

Figura 1.1: Descripción General de la Técnica de Selección de CaracterísticasOnline

2. Análisis Social. Analiza las relaciones sociales entre las publicaciones y sus autores con el objetivo

de descubrir relaciones implícitas entre nuevas publicaciones y aquellas ya conocidas. Particular-mente, esta etapa se centra en las redes sociales compuestas por las publicaciones individuales y los usuarios que las han escrito. Una vez que los grupos de publicaciones socialmente relacionadas son encontrados, son utilizados en la segunda etapa de la técnica.

3. Análisis de Contenido. Analiza el contenido de cada grupo de publicaciones con el objetivo de

seleccionar un conjunto de características textuales relevantes y no redundantes que permitan des-cribir el contenido de cada grupo. Un subconjunto óptimo de características debería incluir todas aquellas características relevantes, ninguna de las irrelevantes, y un subconjunto de las caracterís-ticas poco relevantes (Yu and Liu, 2004).

4. Entrenamiento del Modelo de Aprendizaje. Las características textuales seleccionadas se utilizan

para la creación y entrenamiento de un modelo de aprendizaje para la clasificación de las nuevas publicaciones que aparezcan. Las relaciones entre las nuevas publicaciones y las ya conocidas se explotan con el objetivo de encontrar el grupo de publicaciones más semejante que permitirá definir la representación textual de la nueva publicación.

5. Aparición de Nuevas Publicaciones. Cuando aparece una nueva publicación para ser clasificada,

primero se determina el conjunto de publicaciones más similar. Dicho conjunto define tanto las características a ser consideradas para representar la nueva publicación, como el clasificador en-trenado que será luego utilizado para clasificarla.

6. Clasificación de Nuevas Publicaciones. Una vez que se encuentran las publicaciones más similares

y sus clasificadores correspondientes, la nueva publicación es asignada a una clase.

7. Repetición del Análisis Social. Luego de la clasificación de nuevas publicaciones, el espacio de

características describiendo a cada conjunto de publicaciones relacionadas es actualizado.

1.4 Organización

(28)

1.4. ORGANIZACIÓN

• El Capítulo 2 describe técnicas de FS que han sido aplicadas sobre textos cortos, ilustra cómo dichas técnicas han sido aplicadas a medios sociales reales, y discute las limitaciones y los proble-mas actuales no resueltos de estas técnicas. El Capítulo también revisa técnicas correspondientes

al estado del arte diseñadas para la clasificación oclusteringde textos cortos.

• El Capítulo 3 introduce la técnica desarrollada para el aprovechamiento de las relaciones sociales con el fin de realizar tareas de OFS de forma eficaz y eficiente, la cual se divide en una etapa de Análisis Social y otra de Análisis de Contenido.

• El Capítulo 4 describe la etapa de Análisis Social de la técnica, definiendo la naturaleza de las diversas dimensiones o fuentes de información a considerar en el análisis y construcción del grafo, y una técnica para combinarlas, así como también para explotar la semántica de la direccionalidad de los arcos.

• El Capítulo 5 describe la etapa de Análisis de Contenido y presenta una metodología para evaluar la redundancia y la relevancia de las características textuales, con el fin de encontrar con eficacia el subconjunto óptimo de características.

• El Capítulo 6 describe la evaluación experimental de la técnica de OFS presentada para aprovechar la información social utilizándola como complemento de la información basada en el contenido más comúnmente utilizada para realizar OFS.

• El Capítulo 7 presenta una aplicación de la técnica de OFS desarrollada en el contexto de la

re-comendación de followeescon el objetivo de aprovechar tanto las relaciones sociales, como las

basadas en el contenido. La idea detrás de esta aplicación es que la información sobre la existencia de comunidades de usuarios puede ayudar a mejorar la calidad de la predicción de seguimiento. Por lo tanto, múltiples y diversas fuentes de información sobre las relaciones de usuario (tanto

explícita como implícita) se combinan para el descubrimiento de comunidadesfollowees. Luego,

dicha información respecto de las comunidades se integra en un sistema de recomendación de followees.

• El Capítulo 8 reporta las conclusiones de esta Tesis junto con sus contribuciones y limitaciones. Además, presenta las líneas de trabajo futuras que pueden derivarse de esta Tesis.

Asimismo, se incluyen dos apéndices que complementan el contenido de esta Tesis.

• El Apéndice A complementa al Capítulo 4 analizando y evaluando diversas alternativas para la detección de comunidades, y explorando y evaluando las diversas medidas de semejanzas que pueden ser consideradas durante el proceso de detección de comunidades.

• El Apéndice B describeSMArtOp(Sparse Matrix library for ARiThmetic Operations)1, una

biblio-teca de Java basada en una técnica novedosa (Tommasel et al, 2017b) para dividir el procesamiento de operaciones aritméticas de matriz dispersa a gran escala en entornos distribuidos en tareas más

simples e independientes que se ejecutarían paralelamente. SMArtOpfue utilizada para realizar

todas las operaciones aritméticas entre matrices requeridas para el desarrollo y evaluación de esta Tesis.

(29)

CAPÍTULO

DOS

MARCO TEÓRICO

Este capítulo analiza las técnicas de selección de características en textos cortos con el objetivo de descri-bir técnicas de vanguardia, mostrar cómo las técnicas de selección de características han sido aplicadas en medios sociales reales, y discutir las limitaciones y problemas aún no resueltos por dichas técnicas. Se ofrece una visión integral (Tommasel and Godoy, 2016b) de los enfoques más avanzados para la selección de características en textos cortos, identificando sus ventajas y limitaciones cuando son aplica-das a tareas de aprendizaje como clasificación o agrupación de textos sociales. Asimismo, se presentan preguntas de investigación que aun se encuentran sin respuesta y su relevancia en el tema, lo que pue-de resultar útil para la pue-definición pue-de nuevas líneas pue-de investigación. Finalmente, este capítulo también

analiza técnicas de clasificación yclusteringque fueran diseñadas específicamente para textos cortos.

El resto de este capítulo se organiza de la siguiente manera. La Sección 2.1 presenta conceptos gene-rales relacionados con las técnicas de selección de características. La mayoría de los trabajos organizan las técnicas analizadas en base a cómo se selecciona el subconjunto de características, sin tener en cuenta las suposiciones hechas con respecto a la disponibilidad de las características o las situaciones en las que se podrían aplicar las mencionadas técnicas. Por el contrario, en este capítulo las técnicas son organizadas en función de la situación en la que pueden ser utilizadas, teniendo en cuenta los nuevos requerimientos que, el continuo avance y aparición de textos cortos en ambientes sociales impone a dichas técnicas. En este contexto, la Sección 2.2 describe detalladamente las técnicas de selección de características

especí-ficamente diseñadas para tratar con textos de medios sociales por lotes (en inglés, "batch"); mientras que

la Sección 2.3 describe técnicas diseñadas para ambientesonline. Las técnicas descriptas en cada sección

se encuentran organizadas de acuerdo a si consideran las características de forma individual o en grupos. Teniendo en cuenta los trabajos analizados, la Sección 2.4 analiza las problemáticas y las oportunida-des de investigación del área. Luego, la Sección 2.5 oportunida-describe técnicas de aprendizaje específicamente diseñadas para ser utilizadas con textos cortos. Finalmente, la Sección 2.6 presenta las conclusiones del capítulo.

2.1 Descripción General de las Técnicas de Selección de Características

(30)

2.1. DESCRIPCIÓN GENERAL DE LAS TÉCNICAS DE SELECCIÓN DE CARACTERÍSTICAS

remover las características redundantes a la vez que mantienen las relevantes, es decir, han estudiado

cómo abordar la maldición de la dimensionalidad (en inglés, "curse of dimensionality").

Existen varios beneficios de aplicar técnicas de reducción de dimensionalidad (Guyon and Elisseeff, 2003). En primer lugar, reduce los requerimientos de almacenamiento, así como también los tiempos de entrenamiento. Segundo, facilita la visualización y comprensión de los datos. Además, también permite

mejorar el rendimiento o performance de las predicciones dado que evita el problema de sobreajuste

(en inglés, "overfitting") (Sebastiani, 2002). Los modelos de aprendizaje conoverfittingse ajustan a las

características particulares de los datos de entrenamiento, en lugar de realizar inferencias respecto a las características generalizables de los datos. Dichos modelos tienden a lograr un buen rendimiento en predicciones realizadas sobre los datos de entrenamiento, pero a fallar al predecir sobre datos nuevos o desconocidos. Las técnicas de reducción de la dimensión pueden clasificarse en técnicas de extracción de características y técnicas de selección de características (Tang et al, 2014c).

Las técnicas deextracción de característicasrealizan proyecciones de las características originales

en un nuevo espacio de características de menor dimensionalidad. En este caso, debido a que el espacio de características original se transforma en un nuevo espacio a partir de la combinación de las mismas, puede ser difícil relacionar las nuevas características con las originales. Como resultado, análisis pos-teriores sobre las nuevas características pueden resultar problemáticos ya que no existe un significado físico para las transformaciones realizadas. Por el contrario, los enfoques de selección de características apuntan a la elección de un subconjunto pequeño de características que minimice la redundancia a la vez que maximice la relevancia. Como las características mantienen su significado físico, las técnicas de se-lección de características resultan superiores en términos de legibilidad e interpretación. Esta propiedad resulta de gran importancia en muchas aplicaciones prácticas, como por ejemplo en la construcción de un léxico sentimental para tareas de análisis de sentimientos. Por consiguiente, las técnicas de selección de características (Alelyani et al, 2013) resultan una de las herramientas de reducción de la dimensionalidad más conocidas y utilizadas.

Las técnicas deselección de características (FS) pueden ser consideradas como la combinación

entre una técnica de búsqueda para encontrar subconjuntos de características y una métrica de evaluación que los puntúa (Guyon and Elisseeff, 2003). Tradicionalmente se organizan en cuatro categorías (Liu and Yu, 2005; Alelyani et al, 2013; Saeys et al, 2007) dependiendo de cómo el subconjunto de características

es seleccionado: filtro,wrapper, híbridas y embebidas. Las técnicas filtro consideran valores estadísticos

inherentes a las características independientemente de cualquier modelo de aprendizaje. Las técnicas

wrapper seleccionan el subconjunto de características con el mayor poder descriptivo respecto a un

modelo de aprendizaje específico, lo que hace que sean computacionalmente más complejas que las técnicas filtro. Las técnicas híbridas utilizan primero criterios estadísticos para seleccionar subconjuntos de características candidatos de un tamaño específico y luego eligen el subconjunto con el rendimiento más alto de acuerdo con un determinado modelo de aprendizaje. Finalmente, las técnicas embebidas realizan la selección de características de forma simultánea a otras tareas de minería de datos. Dado que la búsqueda del mejor subconjunto de características se encuentran embebido en la construcción del modelo de aprendizaje, este tipo de técnicas también es específico a un modelo dado.

(31)

2.2. TÉCNICAS DE SELECCIÓN DE CARACTERÍSTICASBATCH

Training Set Feature _Subset

Subset

Evaluation Selected Features

Test Set Learning _Model

Learning Algorithm

Meets Criteria?

Yes No

Figura 2.1:FrameworkGeneral para la Selección de CaracterísticasBatch

técnicas de FS son aplicadas pueden ser clasificadas enbatchuonline.

Las técnicas deselección de característicasbatchasumen la existencia de un conjunto fijo de

instan-cias y, por lo tanto, de un espacio de características completamente conocido de antemano. Sin embargo, en las aplicaciones del mundo real, tales suposiciones podrían no ser válidas, ya que las instancias de entrenamiento podrían aparecer de forma secuencial, las características podrían aparecer de forma incre-mental, o podría ser difícil la recolección de un conjunto de entrenamiento completo (Wang et al, 2014b).

Por ejemplo, en el contexto de las tareas de detección despam, los correos electrónicos generalmente

aparecen de forma secuencial, lo que dificulta la utilización de técnicas de FS batchque sean eficaces

y escalables. Otro ejemplo es la clasificación de textos sociales que podrían ser utilizados para la

de-tección de eventos o tópicos, entre otras posibilidades. Además, las técnicasbatcha menudo requieren

que el conjunto completo de instancias se encuentre disponible en memoria, lo que puede resultar no resultar práctico y poco escalable en aplicaciones del mundo real que involucran conjuntos de instancias

que exceden la capacidad de la memoria. En consecuencia, las técnicas batch no son adecuadas para

aplicaciones que requieren del manejo de grandes volúmenes de datos.

Las técnicas deselección de característicasonline(OFS), por el contrario, suponen que las

instan-cias y sus correspondientes características aparecen en un flujo continuo. Las técnicas de OFS implican la elección de un subconjunto de características y el correspondiente modelo de aprendizaje en dife-rentes períodos de tiempo. En cada momento, es posible no solo la selección de nuevas características, sino también la eliminación de características ya seleccionadas, o la inclusión de características rechaza-das previamente (Perkins and Theiler, 2003). En consecuencia, las técnicas de OFS son particularmente

importantes en sistemas del mundo real en los que las técnicasbatchtradicionales no pueden ser

direc-tamente aplicadas (Wang et al, 2014b).

2.2 Técnicas de Selección de Características

Batch

Las técnicasbatchde FS asumen la existencia de instancias y, por lo tanto, de un espacio de

caracterís-ticas completamente conocido de antemano. De esta forma, tienen como objetivo encontrar un subcon-junto de las características más relevantes según un determinado criterio de evaluación. En general, las técnicas estándar de FS procesan las características de forma individual, suponiendo que las mismas son independientes y se encuentran idénticamente distribuidas. Asimismo, algunas técnicas han sido desa-rrolladas considerando que en algunos contextos particulares, el espacio de características cuenta con conocimiento previo respecto de la existencia de grupos de características.

El proceso de FSbatchpuede ser dividido en cuatro tareas, como muestra la Figura 2.1:

(32)

conjunto vacío al que se agregan características, con un conjunto completo del cual características son sucesivamente eliminadas, o con un subconjunto seleccionado al azar.

2. Cada nuevo subconjunto de características se evalúa y compara con el mejor encontrado anterior-mente según un determinado criterio de evaluación. Dichos criterios pueden ser dependientes o independientes de modelos de aprendizaje.

3. Los criterios de detención determinan si se debe detener o no el proceso de selección de caracte-rísticas.

4. Una vez que se cumple el criterio de detención, se valida el subconjunto que mejor se adapte a dicho criterio. A continuación, a partir de las características seleccionadas se construye el mode-lo de aprendizaje que será utilizado posteriormente para la clasificación o agrupación de nuevas instancias.

2.2.1 Técnicas Basadas en Características Individuales

Estas técnicas implican ordenar las características de acuerdo al valor de un estadístico y luego seleccio-nar aquel subconjunto que obtuvo las puntuaciones más altas, enriquecer el espacio de la característica con información semántica, o incluso reemplazar las características existentes con un nuevo conjunto de características derivadas de las originales.

2.2.1.1 Técnicas deRanking

Las técnicas de ranking puntúan cada característica según una determinada métrica y luego

seleccio-nan las k mejores de acuerdo a sus puntuaciones. Las métricas de ranking más comúnmente usadas

incluyen (Forman, 2003): Frecuencia de Término (T F, en inglés "Term Frenquency"), Frecuencia de

Documento (DF, en inglés "Document Frequency"), Frecuencia de Documento Inverso (IDF, en inglés

"Inverse Term Frequency"), Fuerza de Término (T S, en inglés "Term Strength"), Ganancia de

Infor-mación (IG, en inglés “Information Gain"), Información Mutua (MI, en inglés "Mutual Information")

Chi-Cuadrado (χ2) y Cociente de probabilidades (OR, en inglés "Odds Ratio"). Varios trabajos (Rosa

and Ellen, 2009; Saif et al, 2014) han evaluado el desempeño de tales métricas en el contexto de textos

cortos. Rosa and Ellen (2009) evaluaron experimentalmente el rendimiento de las métricas derankingen

textos cortos. Los autores consideraron cuatro técnicas tradicionales de FS:DF,χ2,IGyMI. El conjunto

de datos seleccionado comprendía líneas de chat militares de los Estados Unidos. Cada línea contenía un mensaje de texto y la marca de tiempo. Al conjunto de datos le fue agregado ruido a partir de la inclusión de mensajes no relacionados y la alteración de mensajes irrelevantes a partir de la inclusión de términos

que aparecían en los mensajes de categorías relevantes. De acuerdo con los autores,DFobtuvo mejores

resultados queχ2en todos los casos.

Saif et al (2014) estudiaron el efecto de la eliminación destopwordspara la identificación de

senti-mientos entweetsmediante la aplicación de métodos tradicionales de FS. Los autores consideraron cinco

técnicas:T F,T F1 (solo considera los términos que aparecen más de una vez),IDF, Muestreo aleatorio

basado en términos (en inglés "Term-Based Random Sampling") yMI. La evaluación experimental se

basó en cinco conjuntos de datos de Twitter de pequeña escala, pertenecientes a diferentes dominios.

Dos clasificadores fueron seleccionados para la tarea: Entropía Máxima (en inglés "Maximum Entropy")

y el clasificador bayesiano ingenuo (NB, en inglés "Naïve Bayes"). El rendimiento de las técnicas de

FS fue comparado con aquel obtenido cuando lasstopwordsno eran eliminadas. Los mejores resultados

fueron obtenidos conT F1 yMI.

Aunque las técnicas derankingson ampliamente utilizadas en tareas de aprendizaje de texto,

(33)

(o términos) en textos cortos son poco proclives a repetirse, presentan una distribución de cola larga. Como resultado, el conjunto de características seleccionado podría no ser óptimo debido a la dificultad de detectar características ruidosas cuyas frecuencias se ubican al final de la cola. Además, las técnicas supervisadas aplicadas en entornos multi-clase son susceptibles a la distribución de clases, ya que pueden ser inducidas a resultados erróneos por características fuertemente predictivas que aparecen en las clases más populares, impidiendo así la selección de características útiles que aparecen en las clases menos populares. Este problema empeora en el contexto de los sitios de redes sociales, ya que no solo puede ser difícil recolectar un conjunto de entrenamiento que incluya etiquetas, sino que también la mayoría de las características tienen frecuencias extremadamente bajas.

2.2.1.2 Técnicas de Enriquecimiento

Teniendo en cuenta la brevedad de los textos, lo ralo (y disperso) del espacio de características y la baja frecuencia de los términos, la representación tradicional de bolsas de palabras (BOW, en inglés

"bag-of-words") podría no ser el modelo más apropiado para el análisis de los textos cortos (Chen et al,

2011; Rafeeque and Sendhilkumar, 2011), ya que puede no mantener el significado semántico de los textos originales. Asimismo, en los medios sociales, las abreviaturas son ampliamente utilizadas y nue-vos términos son creados constantemente, lo que exacerba los problemas de sinonimia y polisemia. Una solución posible para tratar la dispersión es extender los textos cortos añadiendo nuevas características basadas en información semántica extraída de búsquedas en la Web, bases de datos léxicas o propor-cionadas por traducciones automáticas. Las técnicas basadas en la expansión de textos cortos mediante búsquedas en la Web pueden tener problemas de eficiencia al analizar un gran número de textos cortos. Además, su rendimiento depende en gran medida de la calidad del motor de búsqueda. Para abordar estos problemas, es posible utilizar taxonomías de conceptos explícitos o tópicos implícitos para enriquecer

las representaciones de textos cortos (Chen et al, 2011). Las bases de datos léxicas como WordNet o

directorios de sitios web comoOpen Directory Project(ODP)1, tienen ricas taxonomías predefinidas a

las cuales se asignan manualmente las páginas Web, las cuales han sido ampliamente utilizadas para el enriquecimiento de representaciones (kun Wang et al, 2012; Liu et al, 2010). Los trabajos presentados en esta Sección se organizan de acuerdo a la fuente del enriquecimiento utilizada, es decir, modelado de tópicos, recursos externos u otras fuentes de conocimiento.

Modelado de Tópicos

kun Wang et al (2012) propuso combinar el conocimiento de dominio, proporcionado por páginas web, con métodos estadísticos para aliviar la dispersión de textos cortos que contaban con categorías asig-nadas. El enfoque extrae tópicos relacionados al contenido de los textos cortos utilizando el modelo de

Latent Dirichlet Allocation(LDA) basado en el muestreo de Gibbs, y a continuación selecciona los

tér-minos de mayor probabilidad. Luego, con el objetivo de filtrar tértér-minos perteneciente a diversos tópicos,

dado un conjunto de términos y una categoría calcula susIGy contribución a dicha categoría. Aunque

los resultados parecían prometedores, las mejoras de precisión reales fueron insignificantes (inferiores al 2 %), con respecto al enfoque simple de BOW. Por lo tanto, más evaluaciones son necesarias para confirmar los beneficios reales de aplicar este enfoque a conjuntos de datos a gran escala.

Saif et al (2012) propuso una técnica para aliviar la dispersión detweetscon el objetivo de realizar

análisis de sentimientos, a partir de la consideración de conceptos ocultos, y tópicos latentes en

com-binación con la polaridad de los sentimientos en los tweets. Alchemy API2 se utilizó para extraer la

semántica de lostweets. Tres alternativas fueron analizadas para agregar la semántica a la representación

de lostweet. La primera reemplaza los términos por sus conceptos correspondientes (reemplazo

semán-tico). La segunda extiende los tweetsoriginales con los conceptos obtenidos (aumento semántico). La

tercera inserta los conceptos en un clasificadorNBmediante una nueva función de suavizado que

inter-pola los términos que aparecen originalmente en lostweetscon los conceptos obtenidos. El conjunto de

1_{http://www.dmoz.org/}

(34)

características semánticas relacionadas con los tópicos fue obtenido utilizando el modelo de sentimiento

conjunto (JST, en inglés "Joint Sentiment Topic") (Lin and He, 2009). JST detecta simultáneamente

sen-timientos y tópicos en el texto. En primer lugar, se asigna una polaridad de sentimiento al texto analizado. En segundo lugar, se selecciona un tema asociado a la polaridad elegida. Finalmente, se seleccionan pa-labras condicionadas tanto por el sentimiento como por el tema. En otras papa-labras, JST agrupa diferentes palabras compartiendo sentimientos y temas similares, el cual podría ayudar a reducir la dispersión de

datos deTwitter. La técnica no se basó en documentos etiquetados para el entrenamiento, sino que utilizó

información acerca de la polaridad de los términos extraída del vocabulario de subjetividad de MPQA3.

La evaluación experimental se basó en elStanford Twitter Sentiment Dataset4. El rendimiento de los

conjuntos de características propuestos se comparó con el del enfoque BOW. Al considerar los concep-tos oculconcep-tos, los resultados mostraron que la sustitución semántica redujo tanto el tamaño del conjunto de datos como la precisión de la clasificación con respecto a la línea de base. Los autores plantearon la hipótesis de que la sustitución semántica realizada provocó una pérdida de información, afectando en consecuencia el rendimiento. El incremento en el espacio de características con información semántica logró mejores resultados que la sustitución de los conceptos. Sin embargo, dichos resultados también fueron inferiores a la línea de base. En contraposición, el añadido de la información semántica al

clasi-ficador en lugar de la representación de lostweetsayudó a mejorar los resultados. Al considerar tópicos

latentes y su semántica asociada, los resultados fueron más altos que la línea base, pero más bajos que cuando se consideraron los tópicos ocultos. Los autores afirmaron que los tópicos semánticos son pre-feribles por sobre las características semánticas, ya que los resultados obtenidos seleccionando menos características son comparativamente mejores que los obtenidos con las características semánticas.

Recursos Externos

Liu et al (2010) presentaron un enfoque basado en el etiquetado de partes del discurso (POS, en inglés

"part-of-speech") y enHowNet5 para el enriquecimiento semántico de textos cortos. La representación

de los textos cortos es construida reemplazando los términos originales (solo sustantivos y verbos) con

los conceptos semánticamente relacionados obtenidos deHowNet. Los resultados mostraron que el

enfo-que disminuía su rendimiento a medida enfo-que el número de conceptos añadidos para cada término original se incrementaba. Esto podría significar que, como se afirma en (Gabrilovich and Markovitch, 2006), el enriquecimiento semántico basado en bases de datos léxicas no necesariamente mejora los resultados de clasificación de textos cortos. Asimismo, la complejidad computacional involucrada en dicho enriqueci-miento podría no justificar la utilización del enfoque, considerando que otros más simples han obtenido resultados similares. Aunque estos resultados pueden parecer contradictorios respecto a aquellos reporta-dos por las otras técnicas de esta sección, es importante resaltar que, como las diferentes técnicas fueron evaluadas en diversos contextos y considerando diferentes datos, sus resultados no son comparables. Por lo tanto, las conclusiones establecidas para cada una de las técnicas presentadas podrían no ser generali-zables para todas las técnicas.

Un posible inconveniente de la utilización de taxonomías predefinidas es la falta de actualización de

las descripciones y cobertura. Por ejemplo, las taxonomías jerárquicas, como elODP, definen solo una

relación entre los nodos, ignorando otras relaciones tales como cronología, homónimos y merónimos, entre otras (Gabrilovich and Markovitch, 2006). Aunque se pueden recopilar grandes corpus de texto, las taxonomías resultantes pueden no ser apropiadas para ciertas tareas de aprendizaje en dominios alta-mente dinámicos como los medios sociales. Además, para algunos idiomas las taxonomías predefinidas podrían no estar disponibles (Chen et al, 2011). Por lo tanto, dichas taxonomías podrían no permitir el enriquecimiento de nuevos términos o expresiones, o la consideración de variaciones sociales del len-guaje estándar (argot), así como tampoco de abreviaturas o siglas. Para superar este problema, varios enfoques (Ferragina and Scaiella, 2012; Tang et al, 2014b; Perez-Tellez et al, 2010) propusieron usar

Wikipediapara la extracción de tópicos como una alternativa a las taxonomías estáticas comoWordNetu

3_{http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/}

4_{http://help.sentiment140.com/}