5.4 Evaluación
5.4.3 Evaluación de la agrupación
5.4.3.5 Resultados evaluación externa
En esta fase, los grupos formados por MultiSearchBP y los algoritmos evaluados fueron comparados con los grupos formados manualmente por un grupo de expertos. En el proceso de formación manual de grupos se ejecutaron las mismas 6 consultas de la fase de evaluación previa. Con los resultados considerados como relevantes por los evaluadores en cada consulta se formaron los grupos y asignaron sus etiquetas. A continuación, la Tabla 11 presenta en forma general los resultados de los grupos formados por los expertos en cada consulta.
Tabla 11. Elementos relevantes y grupos formados por consulta.
Consulta Elementos relevantes Grupos formados Elementos por grupo Q1 10 3 3,33 Q2 12 4 3 Q3 13 3 4,33 Q4 11 3 3,66 Q5 14 4 3,5 Q6 14 4 3,5
Fuente: elaboración propia.
La Tabla 12, expone los promedios alcanzados de Precisión, Recuerdo y Medida F, en la evaluación de los grupos formados por MultiSearchBP y los algoritmos evaluados, en comparación a los grupos formados manualmente por los expertos (evaluación externa). En relación con la precisión, los mejores valores son reportados por MultiSearchBP (0,801), seguido, en segundo lugar, por Lingo (0,502) y STC (0,401), en tercer lugar, el resto de algoritmos mantiene un promedio entre (0,34 y 0,38). En general, MultiSearchBP aumenta la precisión en 30% con relación a Lingo
y 40% con STC y 42% en relación al resto de algoritmos. El promedio de precisión permite definir que los grupos generados por MultiSearchBP tienen estrecha similitud con los grupos formados manualmente (“ideales”), debido al número elevado de elementos compartidos. Por otra parte, la combinación de información estructural y textual utilizada para realizar la agrupación por parte de MultiSearchBP, permite crear grupos con mayor similitud a los grupos formados por los expertos, quienes tuvieron en cuenta varios tipos de información presente en los BP para realizar la agrupación. En este contexto, Lingo y STC obtienen valores elevados debido a la cantidad de grupos formados y el número de elementos por grupo, esto hace que los ítems considerados como relevantes existan de alguna forma en uno o varios grupos. En relación con el recuerdo, los mejores valores son alcanzados por MultiSearchBP logra (0,638), STC que reporta el segundo mejor promedio (0,581) y K-means este algoritmo obtiene el tercer mejor valor con (0,424), el resto de algoritmos mantienen un promedio de recuerdo que oscila entre (0,134 y 0,30). En consecuencia, MultiSearchBP tiene un aumento de 6% con relación a STC, 19% de aumento en relación con K-Means y un promedio de 59% en relación al resto de algoritmos. El valor del recuerdo alcanzado demuestra que algunos de los elementos en los grupos formados por MultiSearchBP, se encuentran dispersos en los grupos de la formación manual. Además, la eliminación de factores como el solapamiento, un valor de umbral y el número de grupos a formar permiten que MultiSearchBP reduzca el valor de falsos negativos (FN) es decir aquellos elementos del grupo j que fueron ubicados en un grupo diferente al que indicaba su etiqueta. La cantidad de grupos formados por STC y el número de elementos por grupo, hacen que este algoritmo aumente el valor de verdaderos positivos (VP), es decir, aquellos elementos que fueron ubicados por el algoritmo en el mismo grupo que indicaba la agrupación manual realizada por los expertos, sin embargo también aumenta el valor de los falsos negativos (FN), como resultado, el valor de recuerdo disminuye un poco. Por otra parte, el valor de los grupos a formar y el número de iteraciones a realizar es un factor determinante para K-means, en consecuencia, la precisión disminuye, debido que el número de falsos positivos aumenta (FP), es decir, aquellos elementos que fueron ubicados por el algoritmo en el grupo j, pero en la formación manual realizada por los expertos pertenecen a otro grupo.
Los valores de Medida F más altos, al igual que en la medida anterior, son obtenidos por MultiSearchBP que logra un 23% más que STC y un 33% más que K-means. El
Capítulo 5. Prototipo y experimentación 85 __________________________________________________________________ (0,7065) de Medida-f de MultiSearchBP determina el rendimiento de la agrupación realizada por el método propuesto. Esto permite definir que los grupos creados son relevantes y coinciden en alto grado con los grupos formados manualmente por los expertos en un ambiente colaborativo.
Tabla 12. Promedios de Precisión, Recuerdo y Medida-F en la evaluación externa.
Algoritmo Medida Q1 Q2 Q3 Q4 Q5 Q6 PROMEDIO Nc Ne
MultiSearchBP P 0,857 0,786 0,764 0,730 0,844 0,823 0,801 6,3 2,9 R 0,714 0,614 0,543 0,763 0,610 0,581 0,638 Medida-F 0,779 0,690 0,635 0,746 0,708 0,681 0,707 Cliques P 0,684 0,385 0,632 0,018 0,373 0,183 0,379 2,3 6,9 R 0,158 0,121 0,174 0,036 0,132 0,175 0,133 Medida-F 0,257 0,184 0,272 0,024 0,195 0,179 0,185 FullStars P 0,449 0,385 0,621 0,030 0,441 0,267 0,366 19,6 17,9 R 0,241 0,158 0,174 0,071 0,173 0,250 0,178 Medida-F 0,314 0,224 0,271 0,042 0,248 0,258 0,226 Stars P 0,449 0,385 0,632 0,018 0,373 0,183 0,340 4,0 8,4 R 0,168 0,121 0,174 0,036 0,132 0,175 0,134 Medida-F 0,245 0,184 0,272 0,024 0,195 0,179 0,153 K-means P 0,759 0,450 0,292 0,037 0,421 0,303 0,377 3,0 6,3 R 0,462 0,400 0,338 0,083 0,583 0,675 0,424 Medida-F 0,575 0,424 0,313 0,051 0,489 0,418 0,378 Lingo P 0,583 0,483 0,411 0,487 0,502 0,545 0,502 12,3 2,6 R 0,279 0,300 0,235 0,346 0,331 0,309 0,300 Medida-F 0,378 0,370 0,299 0,405 0,399 0,395 0,374 STC P 0,405 0,341 0,338 0,432 0,441 0,446 0,401 12,0 7,3 R 0,530 0,565 0,533 0,708 0,523 0,628 0,581 Medida-F 0,459 0,426 0,413 0,537 0,478 0,522 0,473
La Figura 28, presenta los resultados de la evaluación externa según el tipo de algoritmo. En estos resultados, el algoritmo basado en teoría de grafos que mejores resultados género fue FullStars, el cual logra un rendimiento (Medida F) de 0,2263 en relación con la formación manual de los expertos, esto es debido a que FullStar permite solapamiento y genera un considerable número de grupos, los cuales contienen elementos comunes entre ellos, una de las desventajas presentes en estos algoritmos es el valor de umbral para determinar la similitud de los elementos para asignar a cada grupo, esto hace que en la agrupación se dejen de lado algunos elementos que pueden ser relevantes para cada grupo (FN). Por otra parte, el algoritmo para agrupación de documentos web que mejores resultados reportó fue STC con 0,4725 de rendimiento, ya que al igual que FullStar permite solapamiento y genera un número considerable de grupos con elementos comunes entre sí. Aunque este algoritmo no requiere de un umbral o del número de grupos a formar, se basa en un árbol de sufijos construido a partir de la información textual presente en los BP, lo que hace que agrupe elementos que comparten solo este tipo de información. En relación a K-means algoritmo para agrupación de datos, el rendimiento alcanzado sobre la formación manual fue 0,3783, aunque K-means no permite solapamiento, el valor de (K) grupos a formar hace que el número de VP disminuya, debido a este parámetro.
Figura 28. Promedios alcanzados en la evaluación manual.
Finalmente, los valores de Ng y Ne obtenidos por MultiSearchBP, demuestran que los grupos y el número de elementos pertenecientes a cada grupo, son
Capítulo 5. Prototipo y experimentación 87 __________________________________________________________________ proporcionales con el número de resultados retornados como relevantes en cada una consulta.