analizar el umbral a seleccionar. Es importante destacar que a pesar de lograr los mejores resultados,
PearsonCorrelationes también la métrica con la reducción más pequeña del espacio de características.
Como se ha expuesto, los resultados obtenidos refuerzan la importancia de elegir adecuadamente no solo la métrica de redundancia a utilizar, sino también los umbrales a seleccionar. En consecuencia, puede afirmarse que la selección de los umbrales no es absoluta, ya que responde a las características de la distribución de características en los conjuntos de datos. Por lo tanto, no pueden generalizarse directamente a diferentes conjuntos de datos. Sin embargo, los rangos seleccionados proporcionan puntos de partida para definirlos.
Resumen
Como la evaluación experimental mostró, cada una de las métricas de redundancia analizada tiene un efecto distintivo sobre el rendimiento de la clasificación. La evaluación también expuso que las métricas mostraban diversas distribuciones estadísticas de puntuaciones, lo que implica que analizan diferentes aspectos de la redundancia de características. Los resultados permitieron concluir que solo evaluar la redundancia de características no es suficiente para mejorar la calidad de la clasificación. Esto podría implicar que no todas las características no redundantes son relevantes, lo que lleva a la necesidad de evaluar también la relevancia de las mismas. Como se muestra, el efecto de la selección de parámetros fue más notable para las particiones chicas del conjunto de datos, mientras que para la partición más grande, las diferencias observadas para los resultados de las diversas parametrizaciones no resultaron estadísticamente significativas.
En resumen, el desempeño de la clasificación considerando todo el conjunto de características po-
dría mejorarse reemplazando las características redundantes hasta un 3,72 % en términos de F-Measure
y un 2,30 % en términos de accuracy para la partición más grande del conjunto de datos. Las métri-
cas de redundancia con mejor rendimiento para la partición de conjunto de datos más chica fueron
PearsonCorrelation, Symmetrical U ncertainty yConditional Entropy, mientras que para la partición
más grande las mejores métricas fueronMICIyPearsonCorrelation. Los resultados obtenidos pusieron
de manifiesto las dificultades de elegir adecuadamente una métrica de redundancia y sus umbrales. Asi- mismo, tanto las métricas analizadas como los umbrales mostraron comportamientos diferentes según el número de características analizadas, lo que implica la importancia de las características en el conjunto de datos en la selección de métricas. Por último, es importante analizar la conveniencia de evaluar la redundancia de características. Como se ha expuesto, la evaluación de la redundancia podría ser compu- tacionalmente costosa, por lo tanto, debe analizarse el equilibrio entre las mejoras en el rendimiento de la reducción del conjunto de características, y el costo computacional de realmente reducirlo.
5.2
Análisis de la Relevancia de las Características
Las métricas de relevancia se basan en la evaluación individual de las características y la asignación de puntuaciones de acuerdo con su nivel de relevancia, como se muestra en la Figura 5.9. A continuación, a menudo se selecciona un subconjunto de características de la parte superior de una lista ordenada de características (en el ejemplo de la Figura, el 66 % de las características es seleccionado), con el fin de aproximar el conjunto óptimo de características relevantes. Sin embargo, estas técnicas no son capaces de eliminar las características redundantes, ya que es probable que tengan puntuaciones similares. Siempre y cuando las características se consideran pertinentes, todas ellas serán seleccionadas, independiente- mente de si se encuentran altamente correlacionados entre sí. Para espacios de alta dimensionalidad que contienen un gran número de características redundantes, esta situación podría seleccionar subconjuntos de características lejos del óptimo (Yu and Liu, 2004). Como resultado, el análisis de pertinencia debe realizarse después de que las características redundantes hayan sido eliminadas, o al menos reemplazadas por su equivalente no redundante.
El desempeño de doce de las métricas de relevancia más utilizadas, enumeradas en la Tabla 5.5, fue evaluado. La mayoría de las técnicas se basan en la frecuencia de las instancias correspondientes (o
5.2. ANÁLISIS DE LA RELEVANCIA DE LAS CARACTERÍSTICAS 1 w1 w3 w3 w1 w3 w4 w1 w3 w3 w1 w3 w1 w3 w4 w1 w3 w3 w4 w3 w4 Post 1 Post 2 Post 4 Post 5 Community 2 Non-Redundant Textual
Representation of the Community 3
w1 w3 w3 w1 w3 w4 w1 w3 w3 w1 w3 w1 w3 w4 w1 w3 w3 w4 w3 w4 Post 1 Post 2 Post 4 Post 5 Community 2
Final Textual Representation 2 Relevance Analysis 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒 𝑆𝑐𝑜𝑟𝑒 𝑤1 = 6 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒 𝑆𝑐𝑜𝑟𝑒 𝑤3 = 10 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒 𝑆𝑐𝑜𝑟𝑒 𝑤4 = 4 1. w3 2. w1 3. w4 Feature Ranking 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒 𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 = 66% Selected Features
Figura 5.9: Metodología para el Análisis de Relevancia
publicaciones, en el contexto de este trabajo) y de las características, bajo la suposición de que las carac- terísticas frecuentes serán buenos representantes del contenido de las instancias (Alelyani et al, 2013). Sin embargo, estas técnicas presentan varios inconvenientes (Wang et al, 2014a). En primer lugar, pueden no ser fiables para las características de baja frecuencia. En segundo lugar, si se utilizan ingenuamente,
pueden presentar un sesgo hacia las características de alta frecuencia pero irrelevantes, como las stop-
words. En aquellos casos en que la relevancia de una característica se calcula en relación con una clase
particular, la relevancia global de las características se calcula como el promedio de las relevancias de clase individuales.
Las dos primeras métricas de la tabla son las más simples.Term Frequency(T F) (Luhn, 1957) es la
métrica de relevancia más simple, que representa la frecuencia de una característica en una publicación.
T F se puede agregar para calcular la frecuencia de una característica en una colección completa de pu-
blicaciones. Esta técnica se puede utilizar fácilmente para encontrar y eliminarstopwords, que se supone
que son términos irrelevantes con altas frecuencias.Document Frequency(DF) mide el número absoluto
de documentos en los que aparece una característica, independientemente de la existencia de etique- tas de clase. Dicha métrica, escala fácilmente a grandes espacios de características, con una complejidad
computacional lineal sobre el número de documentos. TantoT FcomoDFpresentan sesgos hacia los tér-
minos más comunes. Típicamente,DFno se utiliza para la eliminación agresiva de características (Yang
and Pedersen, 1997), ya que se supone que los términos de bajoDFson relativamente informativos y por
lo tanto no deben eliminarse. A pesar de su simplicidad, en (Yang and Pedersen, 1997) se demostró que
tanto TF como DF pueden obtener un rendimiento similar aIn f ormation Gainyχ2, lo que podría indicar
que los términos comunes son realmente informativos para las tareas de aprendizaje sobre textos largos.
Inverse Document Frequency(IDF) deriva deDF y asigna altas puntuaciones a las características raras,
y las puntuaciones más bajas a las características frecuentes. AunqueT Fpuede ser una técnica eficaz de
FS, no es eficaz cuando todos los términos seleccionados poseen la misma puntuación. Por otra parte, como la puntuación TF no se puede vincular a ninguna instancia en particular (Alelyani et al, 2013), no puede ayudar a distinguir entre las características frecuentes que aparecen en un pequeño conjunto de publicaciones, y las características frecuentes que aparecen en la mayoría o todos los publicaciones.
En este contexto, T F podría combinarse con laIDF. Term Frequency−Inverse Document Frequency
(T F−IDF) asigna valores mayores a las características que ocurren con frecuencia en un conjunto pe-
queño de publicaciones y, por consiguiente, se supone que poseen mayor poder discriminativo. La pun- tuación disminuye a medida que aumenta el número de publicaciones en las que aparece la característica. El valor más bajo se da a aquellas características que ocurren en todas las publicaciones.
TermVariance Quality(Liu et al, 2005) (TV Q) sigue las ideas en (Salton and McGill, 1986) su-
poniendo que las características importantes no tienen frecuencias bajas y mantienen una distribución
no uniforme a través del conjunto completo de instancias. En consecuencia,TV Qtambién supone que
las características con pequeñas variaciones poseen poco potencial discriminatorio, ya que ocurren uni-
formemente en las características.Fisher Score(FiS) (Duda et al, 2001) tiene como objetivo encontrar
un subconjunto de características de tal manera que en el espacio de instancias en que aparecen esas características, las distancias entre las características que aparecen en publicaciones de clases diferen- tes son lo más grande posible mientras que las distancias entre las características que aparecen en los
publicaciones de la misma clase son tan pequeñas como sea posible.Term Strength(T S) estima la im-
5.2. ANÁLISIS DE LA RELEVANCIA DE LAS CARACTERÍSTICAS
Tabla 5.5: Métricas Incluidas en el Análisis de Relevancia
T F(fi) ∑dj∈D|fi|dj DF(fi) dj∈D/fi∈dj IDF(fi) log |D| |dj∈D/fi∈dj| T F−IDF(fi) T F(fi)×IDF(fi) TermVariance Quality(fi) (Liu et al, 2005) ∑dj∈D/fi∈dj|fi| 2 dj- ∑d j∈D/fi∈d j|fi|d j 2 |dj∈D/fi∈dj| Fisher Score(fi) (Duda et al, 2001) ∑c j∈C|d∈D/d∈cj|(µ(fi,cj)−µ(fi)) 2 ∑c j∈C|d∈D/d∈cj|σ2(fi,cj) Term Strength(fi) (Li et al, 2009) ∑dj,dk∈D/sim(dj,dk)≥δP(fi∈dj|fi∈dk) ≈ #pairs fi∈both
#pairs fi∈f irst doc
In f ormation Gain(fi,cj)
(Pekar et al, 2004) log
P(fi,cj) P(fi)P(cj) Gain Ratio(fi,cj) (Pekar et al, 2004) IG(fi,cj) −∑fk/∃d∈D/d∈c jP(fk)log(P((fk))) χ2(fi,cj) (Li et al, 2009) |D|(P(fi,cj)P(f¯i,c¯j)−P(fi,c¯j)P(f¯i,cj)) 2 P(fi)P(fi¯)P(c¯j)P(cj) Gini Index(fi) (Park et al, 2010) ∑c j∈CP(cj|fi) 2 ∑c j∈C log2P(fi|cj) 2 Odds Ratio(fi,cj) (Pekar et al, 2004) ln P(fi|cj)·(1−P(fi|c¯j)) (1−P(fi|cj))·P(fi|c¯j)
wherefidenotes the feature for which the relevance assessment is performed,Ddenotes the set of
documents,Cdenotes de set of classes,δdenotes a similarity threshold,Pdenotes probabilistic distributions,µ(fi)denotes the mean distribution offi,µ fi,cj
denotes the mean distribution offi
in documents belonging to the classcj,σ(fi)denotes the variance of the distribution offiand
σ fi,cj
denotes the variance of the distribution offiin documents belonging to the classcj.
NOTE: All supervised metrics can be converted to their unsupervised counterpart. Similarly, unsupervised metrics can be converted to a supervised version.
5.2. ANÁLISIS DE LA RELEVANCIA DE LAS CARACTERÍSTICAS
portancia de las características al considerar la frecuencia con la que las características pueden aparecer en publicaciones similares o relacionadas (Yang and Pedersen, 1997). Se basa en el agrupamiento de publicaciones, suponiendo que aquellas que comparten muchas características se encuentran relaciona- das y que las características solapadas en las publicaciones relacionadas son relativamente informativas, independientemente de la información de la clase.
In f ormation Gain(IG) mide la información obtenida al conocer la presencia o ausencia de caracte-
rísticas en las publicaciones (Yang and Pedersen, 1997). Requiere el cálculo de probabilidades condicio-
nales y entropías.IGno solo aumenta con el incremento de la dependencia entre características y clases,
sino también con el incremento de la entropía de las características. En consecuencia, las características con entropías bajas reciben puntuaciones bajas, aunque pueden encontrarse fuertemente correlacionadas
con una clase.Gain Ratio(GR) puede definirse como una variante normalizada deIG, que fue utilizada
por primera vez en los árboles de decisión (Quinlan, 1993).GRpretende superar el sesgo deIGhacia las
características frecuentes normalizándolo con la entropía. Debido a la normalización, las puntuaciones
GRse encuentran en el rango[0,1]. En contraste conIG,GRfavorece los términos de baja frecuencia.
χ2 (Forman, 2003) mide la divergencia de la distribución esperada asumiendo que la aparición de
características es independiente de la clase. En otras palabras, mide la falta de independencia de una
característica con respecto a una clase. A diferencia deMI,χ2está normalizada, lo que hace que sus pun-
tuaciones sean comparables entre las características que aparecen en una misma clase. Esta métrica puede comportarse de forma irregular para valores esperados chicos , que son comunes en las clasificaciones de textos cortos debido a lo ralo del espacio de características o las pocas instancias disponibles por cada
clase. Según Forman (2003),χ2puede obtener mejores resultados queT Sen clasificaciones multi-clase.
Gini Index(GI) fue utilizada originalmente para dividir los atributos en árboles de decisión (Park et al,
2010) midiendo la impureza de los atributos en términos de clasificación. En este sentido, cuanto más pe- queña sea la impureza, mejor será la característica. La definición presentada en la Tabla es una adaptación propuesta por Park et al (2010), en la que el objetivo es analizar la pureza de las características.
Por último,Odds Ratio(OD) refleja las probabilidades de ocurrencia de las características en la clase
positiva normalizada por la de la clase negativa (o clases, en el caso de las tareas incluyendo múltiples clases) (Forman, 2003). La razón que motiva esta métrica es que las características que ocurren a menudo en una clase no son buenas si ocurren con la misma frecuencia en las otras. El logaritmo natural que rodea la fórmula podría ser eliminado. Esta métrica contribuye a reducir el sesgo hacia las características con puntuaciones positivas mediante la compresión de las altas puntuaciones y la expansión de las bajas. Para evitar la división por cero en aquellos casos en que las características solo aparecen en una clase, debe introducirse un factor de corrección.
La elección de la métrica de relevancia de las características a utilizar no es una tarea sencilla ya que, según Makrehchi and Kamel (2007), existe una relación entre la métrica y el algoritmo de aprendi- zaje que se va a utilizar. Además, se ha demostrado que el rendimiento de las métricas varía según los
diferentes conjuntos de datos. Por ejemplo, en (Mladeni´c et al, 2004), se demostró que ORse obtuvo
mejor desempeño en conjuntos de datos moderadamente ralos que comprendían documentos con 10 a 20 términos. Como resultado, seleccionar la métrica apropiada puede ser un desafío. Otro problema es determinar el umbral apropiado en el cual seleccionar o descartar características. En este contexto, el ajuste de parámetros surge como una preocupación importante. En consecuencia, los umbrales podrían definirse sobre la base de la distribución estadística de las puntuaciones de relevancia de las característi- cas. La razón es que al considerar las características intrínsecas de las métricas analizadas, los umbrales se sintonizarían a las especificidades y particularidades de tales métricas, ayudando a mejorar el análisis de relevancia. Teniendo en cuenta la existencia de valores atípicos en la distribución de las puntuaciones, no se pueden utilizar medidas como el promedio, ya que no proporcionan ninguna indicación de la dis- persión de los datos. En su lugar, las estadísticas que no se basan en la suposición de una distribución de datos simétrica, como el rango inter-cuartil, son necesarias. Por ejemplo, la selección del umbral podría basarse en la distancia entre la media y el primer y tercer cuartil. Una de las ventajas de esta definición de umbral es que los umbrales podrían actualizarse dinámicamente para adaptarse a los nuevos contenidos y temas emergentes y, por lo tanto, a las nuevas distribuciones de características y patrones de uso.
5.2. ANÁLISIS DE LA RELEVANCIA DE LAS CARACTERÍSTICAS
5.2.1 Detalles de la Evaluación
La evaluación experimental de las métricas de relevancia de características se realizó considerando el mismo conjunto de datos que para la evaluación de las métricas de redundancia. En la evaluación se consideraron tres aspectos. En primer lugar, un análisis estadístico de la relación entre los resultados ob- tenidos para las diferentes métricas. En segundo lugar, un análisis de la distribución de las puntuaciones asignadas a las características de cada métrica considerando la distribución para el conjunto completo de TT, y la distribución por clase. En todos los casos, las puntuaciones se normalizaron mediante el escalado de las puntuaciones. En tercer lugar, los resultados de la clasificación considerando el número predefinido de características para seleccionar, que van desde el 5 % hasta el 90 % de las características. Para evitar la introducción de sesgos en el proceso de clasificación, las características se ponderaron de acuerdo con su frecuencia relativa. Los resultados se compararon con los obtenidos con el conjunto completo de características. De forma similar a la evaluación de la métrica de redundancia, se escogió el algoritmo SMO y se evaluó su desempeño considerando accuracy y F-Measure. Los resultados presenta- dos se corresponden a las evaluaciones de validación cruzada realizadas para cada partición de conjunto de datos.
5.2.2 Evaluación Experimental
Esta sección analiza las características de las métricas de relevancia de características seleccionadas en términos de la distribución estadística de las puntuaciones para el conjunto de datos completo y para cada clase individual, las correlaciones entre ellas, la existencia de valores atípicos y su desempeño cuando se utiliza en el contexto de una tarea de clasificación. Se realizó un análisis estadístico basado en (Corder and Foreman, 2009) para determinar si las diferencias entre las puntuaciones de las distribuciones de
relevancia obtenidas para las alternativas FU LL yPROC eran estadísticamente significativas. La nor-
malidad de las distribuciones de puntuaciones se evaluó mediante el análisis de su asimetría, kurtosis, y la realización de los dos tests de Shapiro y Anderson-Darling. Como las pruebas de normalidad fa- llaron para al menos una muestra, la significancia de las diferencias fue evaluada mediante la prueba de Mann-Whitney para muestras no relacionadas (debido a que ambas alternativas de procesamiento de texto no incluyen el mismo conjunto de características, no pueden considerarse muestras relacionadas). Para realizar la prueba se definieron dos hipótesis: la hipótesis nula y la hipótesis alternativa. La hipótesis nula indicaba que no existe ninguna diferencia entre los resultados obtenidos para ambas alternativas de procesamiento de texto (es decir, la alternativa de procesamiento de texto no tenía ningún efecto sobre la distribución de puntuaciones de las métricas), mientras que la hipótesis alternativa indicaba que había una diferencia significativa en la distribución de puntuaciones de ambas alternativas de procesamiento de
texto. La prueba estadística mostró que (con una confianza de 0,01) las diferencias en las puntuaciones
obtenidas para ambas alternativas de procesamiento de texto eran estadísticamente insignificantes. La evaluación estadística se verificó considerando solo el conjunto de características que aparecen en ambas alternativas de procesamiento de texto y aplicando la prueba de Wilcoxon para muestras relacionadas. Dado que las distribuciones de puntuaciones encontradas para ambas alternativas eran similares, solo se
reportan los resultados obtenidos para la estrategia de perfilesFU LL.
Distribución Estadística de las Puntuaciones
Para entender el comportamiento de las métricas de relevancia de características analizadas, la Figu- ra 5.10 muestra para cada métrica la distribución estadística de las puntuaciones. La mayoría de las métricas presentaron una distribución de similitud inclinada hacia las puntuaciones bajas, en las que el primer cuartil y la mediana tenían el mismo valor, es decir, las puntuaciones de las características se distribuían sobre un pequeño rango de valores. Esta asimetría puede deberse a la existencia de valores
atípicos o características irrelevantes.GReIGpresentaron casi la misma distribución estadística, mos-
trando que a pesar de la normalización, las tendencias de puntuación se mantienen. La mayor distribución
de puntuaciones se encontró paraIDF. Por último, las puntuaciones deGI presentaron el mayor rango
5.2. ANÁLISIS DE LA RELEVANCIA DE LAS CARACTERÍSTICAS
Figura 5.10: Distribuciones de Puntuaciones de Relevancia para la Colección de Datos Completa
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
TF DF IDF TF-IDF TVQ FiS TS IG GR X2 GI OR
Figura 5.11: Puntuaciones de Relevancia Ordenadas
de expansión.
De forma similar, la Figura 5.11 muestra cómo se relacionan las puntuaciones de las diferentes mé- tricas en términos de cómo se distribuyen las características entre las puntuaciones y en qué medida las características comparten las mismas puntuaciones. Para cada métrica, las puntuaciones se ordenan en orden descendente. Como muestra la Figura, las métricas de relevancia pueden clasificarse en tres grupos. En primer lugar, las métricas que asignan altas puntuaciones a la mayoría de las características