En esta sección se describen cada una de las pruebas realizadas y se exponen los resulta- dos obtenidos con cada uno de los clasificadores, para cada uno de los usuarios estudia- dos.
Se proponen cinco pruebas en total, en las cuales el valor de BADUSE será 1 considerando una única de las condiciones iniciales (ver 5.2.2.1), para las pruebas 1 a 4, y en la última prueba el valor de BADUSE será 1 si se cumple al menos una de las condiciones iniciales. En todas las pruebas se busca obtener nuevo conocimiento, para ver como influyen el resto de los atributos en el valor de BADUSE, a pesar de no haberse considerado en alguna de las condiciones iniciales planteadas. Por este motivo es que en cada una de las pruebas, previo a ejecutar alguno de los clasificadores, se eliminan los atributos que participan en la generación del valor de BADUSE.
En todas las pruebas siempre se utilizaPercentage Split = 30%y se selecciona como clase el atributo BADUSE, el cual indica, como se ha mencionado con anterioridad, si se está desperdiciando o no la energía del dispositivo, según ciertas pre-condiciones (ver 5.2.2.1). Para el análisis de los resultados y la comparación entre los diferentes clasificadores se tomarán en cuenta los siguientes índices arrojados por Weka:
• F-measure: el Valor-F (denominada también F-score o medida-F). En estadística es la medida de precisión que tiene un test. Se emplea en la determinación de un valor único ponderado de la precisión y la exhaustividad.
El valor F se considera como una media armónica que combina los valores de la precisión y de la exhaustividad. De tal forma que:
F1=2× Precicion´ ×Exhaustividad
Precision´ +Exhaustividad
La fórmula general para un número realβes:
Fβ= (1+β)× Precision´ ×Exhaustividad (β2×Precision´ ) +Exhaustividad
Siβes igual a uno, se está dando la misma ponderación (o importancia) a Precisión que a la Exhaustividad, siβ es mayor que uno de damos más importancia a Exhaustividad, mientras que si es menor que uno se le da más importancia a la Precisión.
• Success: porcentaje de acierto. Indica que porcentaje del total de las instancias evaluadas fueron clasificadas correctamente.
• Correctly Instances: instancias correctamente clasificadas. Indica que cantidad de instancias del atributo considerado como clase fueron clasificadas correctamente. Está íntimamente relacionado con la matriz de confusión, explicada en el siguiente punto.
• Matriz de confusión: permite la visualización del desempeño de un algoritmo que se emplea en aprendizaje supervisado. Cada columna de la matriz representa el número de predicciones de cada clase, mientras que cada fila representa a las in- stancias en la clase real. Uno de los beneficios de las matrices de confusión es que facilitan ver si el sistema está confundiendo dos clases. Si en los datos de entrada el número de muestras de clases diferentes cambia mucho la tasa de error del clasi- ficador no es representativa de lo bien que realiza la tarea el clasificador. Si por ejemplo hay 990 muestras de la clase 1 y sólo 10 de la clase 2, el clasificador puede tener fácilmente un sesgo hacia la clase 1. Si el clasificador clasifica todas las mues- tras como clase 1 su precisión será del 99%. Esto no significa que sea un buen clasificador, pues tuvo un 100% de error en la clasificación de las muestras de la clase 2 [2].
5.3.1 Prueba 1
En este caso el valor de BADUSE estará dado solo por la siguiente condición:
• Si se tiene encendido el periférico de Bluetooth pero no se está conectado a ningún dispositivo mediante este protocolo (ver 5.2.2.1).
Se utiliza el conjunto de datos ya filtrados (ver 5.2.2.1), eliminando los atributos que participan en las pre-condiciones utilizadas para la generación del valor del atributo BADUSE:
• BLUETOOTH-STATE • BLUETOOTH-NAME Se utilizaPercentage Split = 30%.
En las tablas 5.1, 5.2, 5.3 y 5.4 se muestran los resultados arrojados por los cuatro clasi- ficadores seleccionados, para cada uno de los usuarios. Si se observan los valores de F-Measure (ver 5.3), aunque son semejantes entre los diferentes clasificadores, en térmi- nos generales el clasificador J48 es el que arroja los mejores valores para la prueba en cuestión. Esto se puede ver con mayor claridad en la figura 5.12.
Los resultados para el Usuario 4 se destacan por presentar los valores de precisión más altos para todos los clasificadores, con casi un 100% de acierto y un valor de 1 en el caso de F-Measure. Al observar los datos de este usuario desde Weka para los atributos BLUETOOTH-STATE y BLUETOOTH-NAME (ver figura 5.13), aunque luego se elimi- nan, se visualiza que en la mayoría de los casos el periférico de Bluetooth estaba activado y no estaba emparejado a ningún otro dispositivo. Según la condición inicial utilizada para el valor de BADUSE en esta prueba, puede considerarse al Usuario 4 como un usuario “inconsciente”, el cual hace un uso ineficiente de su dispositivo móvil, siem- pre desde el punto de vista del consumo energético. Esto se transforma en un factor condicionante para esta prueba y el Usuario 4, lo cual dificulta la extracción de nuevo conocimiento, dado que sin importar lo que suceda con el resto de los atributos, BADUSE siempre será 1.
Lo mismo se aprecia al observar el porcentaje de acierto y las instancias correctamente clasificadas en cada caso. Para un análisis detallado de estas últimas se pueden obser- var los cuadros 5.5, 5.6, 5.7 y 5.8 donde se exponen las matrices de confusión para cada usuario y clasificador. En estas se puede ver que:
Figura 5.11:Parámetros de configuración Ridor
F-Measure Success Correctly Instances
J48 0.91 92.31% 7937
Naives Bayes 0.89 91.96% 7907
SMO 0.89 92.30% 7936
Ridor 0.89 92.30% 7936
Instances 8598
Tabla 5.1:Prueba 1 - Usuario 1
F-Measure Success Correctly Instances
J48 0.83 83.12% 3508
Naives Bayes 0.8 82.11% 3465
SMO 0.79 84.05% 3547
Ridor 0.79 83.62% 3529
Instances 4220
Tabla 5.2:Prueba 1 - Usuario 2
F-Measure Success Correctly Instances
J48 0.77 79.05% 8148
Naives Bayes 0.74 74.77% 7707
SMO 0.71 77.89% 8029
Ridor 0.67 76.57% 7892
Instances 10307 Tabla 5.3:Prueba 1 - Usuario 3
F-Measure Success Correctly Instances J48 1 99.99% 13085 Naives Bayes 1 99.97% 13083 SMO 1 99.99% 13085 Ridor 1 99.98% 13084 Instances 13086 Tabla 5.4:Prueba 1 - Usuario 4
0 0,2 0,4 0,6 0,8 1 1,2 1 2 3 4 F -Me as u re Usuarios J48 Naives Bayes SMO Ridor
Figura 5.12:Prueba 1 - Valores F-Measure
0 5000 10000 15000 20000 25000 30000 35000 40000 45000 BADUSE=0 BADUSE=1 in s ta n ce s BLUETOOTH-STATE 3 1 0 0,5 1 1,5 2 2,5 3 3,5 - Sole_s3 instan ce s BLUETOOTH-NAME
• En general J48, salvo para el usuario 4, presenta problemas para clasificar correcta- mente cuando se está o no desperdiciando energía.
• Para los usuarios 1, 2 y 4, SMO muestra un 100% de efectividad clasificando instan- cias de BADUSE =1 correctamente. Lo mismo ocurre con Ridor para los usuario 1 y 4.
• En las matrices del usuario 3, ver 5.7, se nota un claro problema para distinguir cuando el usuario está desperdiciando energía, dado que para todos los clasifi- cadores BADUSE = 1 es clasificado como 0 en la mayoría de los casos, no así cuando BADUSE es 0.
Descartando el caso del Usuario 4 recientemente analizado, a pesar de haberse eliminado los atributos utilizados para la generación de los valores de BADUSE, se obtienen buenos resultados, lo cual significa que es posible extraer nuevo conocimiento a partir de los atributos restantes, para inferir cuando un usuario está desperdiciando la energía de su dispositivo.
5.3.2 Prueba 2
En este caso el valor de BADUSE estará dado solo por la siguiente condición: • Si la antena WiFi está encendida y no se tiene conexión a Internet. (ver 5.2.2.1) Al igual que en la prueba anterior, se utiliza el conjunto de datos ya filtrados (ver 5.2.2.1), eliminando los atributos que participan en las pre-condiciones utilizadas para la gen- eración del valor del atributo BADUSE:
• WIFI-IACCESS • WIFI-STATE • WIFI-SSID
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
204 520 0 83 641 0 62 662 0 62 662 0
141 773 1 50 7824 1 0 7874 1 0 7874 1
Tabla 5.5:Prueba 1 - Usuario 1- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
409 417 0 262 564 0 153 673 0 165 661 0
295 3099 1 191 3203 1 0 3394 1 30 3364 1
Tabla 5.6:Prueba 1 - Usuario 2- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
7264 577 0 6633 1208 0 7736 105 0 7837 4 0
1582 884 1 1392 1074 1 2173 293 1 2411 55 1
Tabla 5.7:Prueba 1 - Usuario 3- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
1 1 0 0 2 0 1 1 0 0 2 0
0 13084 1 1 13083 1 0 13084 1 0 13084 1
Tabla 5.8:Prueba 1 - Usuario 4- Matrices de confusión
F-Measure Success Correctly Instances
J48 0.70 70.01% 6020
Naives Bayes 0.70 70.56% 6067
SMO 0.72 71.50% 6148
Ridor 0.72 71.71% 6166
Instances 8598
Tabla 5.9:Prueba 2 - Usuario 1
F-Measure Success Correctly Instances
J48 0.62 62.70% 2646
Naives Bayes 0.64 65.00% 2743
SMO 0.64 66.14% 2812
Ridor 0.61 75.20% 2764
Instances 4220
Se utilizaPercentage Split = 30%.
Como se puede observar en los cuadros 5.9, 5.10, 5.11 y 5.12, con respecto a la prueba 1 los valores son inferiores para todos los parámetros considerados, F-Measure, porcentaje de acierto e instancias correctamente clasificadas. Aunque los resultados son buenos, para analizar mas en detalle como fue la clasificación en cada caso, se pueden observar las matrices de confusión, ver cuadros 5.13, 5.14, 5.15 y 5.16, donde se destaca lo siguiente:
• J48 y Naives Bayes presentan los mayores problemas en la correcta clasificación de instancias de BADUSE = 0, alcanzando porcentajes de error del 70% o superiores para el usuario 1, ver 5.13.
• En las matrices del usuario 2, ver 5.14, se ven problemas clasificando instancias de BADUSE = 1 para todos los clasificadores. Salvo J48, aunque con resultados que se pueden considerar malos, con un porcentaje de error de casi un 90%, Naives Bayes, SMO y Ridor clasificaron mayor cantidad de instancias de BADUSE =1 como 0. No ocurre lo mismo para las instancias de BADUSE = 0, donde los resultados mejoran, sobre todo para los clasificadores SMO y Ridor.
Se podría decir que en términos generales esta prueba no arroja resultados determi- nantes. Aunque es posible extraer nuevo conocimiento, no aplica para todos los usuarios ni en todos los casos. Observando las matrices de confusión, los clasificadores mues- tran mejores resultados para conocer cuando un usuario no está desperdiciando energía, BADUSE = 0, que para conocer cuando están desperdiciando energía, BADUSE = 1.
F-Measure Success Correctly Instances J48 0.74 74.04% 7661 Naives Bayes 0.71 71.38% 7357 SMO 0.73 73.13% 7538 Ridor 0.71 71.90% 7411 Instances 10307 Tabla 5.11:Prueba 2 - Usuario 3
F-Measure Success Correctly Instances
J48 0.78 78.71% 10300
Naives Bayes 0.77 76.56% 10019
SMO 0.79 79.89% 10608
Ridor 0.79 78.40% 10410
Instances 13086 Tabla 5.12:Prueba 2 - Usuario 4
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
1936 1442 0 2004 1364 0 2471 897 0 2539 829 0
1146 4084 1 1167 4063 1 1553 3677 1 1603 3627 1
Tabla 5.13:Prueba 2 - Usuario 1- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
1667 704 0 1831 540 0 2122 340 0 2223 239 0
870 979 1 937 912 1 1099 690 1 1248 541 1
Tabla 5.14:Prueba 2 - Usuario 2- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
3335 1346 0 2789 1892 0 4170 511 0 2393 2288 0
1330 4296 1 1058 4568 1 2258 3368 1 608 5018 1
Tabla 5.15:Prueba 2 - Usuario 3- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
7302 1276 0 6230 2348 0 7819 891 0 6720 1990 0
1510 2998 1 719 3789 1 1779 2789 1 878 3690 1
5.3.3 Prueba 3
En este caso el valor de BADUSE estará dado solo por la siguiente condición: • Si se tiene el GPS encendido pero se está quieto. (ver 5.2.2.1)
Al igual que en la pruebas anteriores, se utiliza el conjunto de datos ya filtrados (ver 5.2.2.1), eliminando los atributos que participan en las pre-condiciones utilizadas para la generación del valor del atributo BADUSE:
• GPS-STATE • ACTIVITY-ACT
Se utilizaPercentage Split = 30%.
Como se puede observar en los cuadros 5.17, 5.18, 5.19 y 5.20 los resultados arrojados por los algoritmos, con excepción del usuario 3, son extremadamente buenos. Esto se puede ver con mayor claridad en la figura 5.15, donde se muestran en comparación los valores de F-Measure para cada usuario y clasificador. Dada esta notoria diferencia, se encontró que para los usuarios 1, 2 y 4 la información almacenada refleja que el uso del GPS no es habitual en su vida cotidiana. Es por este motivo que los algoritmos de clasificación resuelven que en el 99 % de los casos, los usuarios no desperdician la energía de su dis- positivo con respecto a la condición de BADUSE estudiada. Para el caso del usuario 3 la información obtenida durante la recolección, indica que este utiliza con más frecuencia el GPS, lo que hace que sus datos sean mas variados e interesantes para la prueba actual. Por esta razón, solo se toman en cuenta los valores de efectividad obtenidos por los clasi- ficadores con base en la información del usuario 3. En la figura 5.14 se observa la relación existente entre los atributos WIFI-SSID y BADUSE en la cual se puede apreciar que ex- iste un gran número de posibles valores para el atributo WIFI-SSID, y cerca del 50% de los casos en los que BADUSE es 1 se relacionan con valores de WIFI-SSID diferentes a indefinido, representado por el símbolo "-". Estos datos son consistentes con el hecho de que, si se está conectado a una red WiFi, es muy probable que se esté relativamente quieto en un área geográfica limitada.
F-Measure Success Correctly Instances J48 0.99 99.60% 8564 Naives Bayes 0.99 99.59% 8563 SMO 0.99 99.60% 8564 Ridor 0.99 99.51% 8556 Instances 8598
Tabla 5.17:Prueba 3 - Usuario 1
F-Measure Success Correctly Instances
J48 0.99 99.62% 4204
Naives Bayes 0.99 99.60% 4203
SMO 0.99 99.60% 4234
Ridor 0.99 99.25% 4219
Instances 4220
Tabla 5.18:Prueba 3 - Usuario 2
F-Measure Success Correctly Instances
J48 0.80 82.24% 8477
Naives Bayes 0.76 77.95% 8035
SMO 0.77 80.78% 8327
Ridor 0.88 89.30% 9205
Instances 10307 Tabla 5.19:Prueba 3 - Usuario 3
F-Measure Success Correctly Instances
J48 0.99 99.70% 13047
Naives Bayes 0.99 99.66% 13042
SMO 0.99 99.58% 13031
Ridor 0.99 99.58% 13031
Instances 13086 Tabla 5.20:Prueba 3 - Usuario 4
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
8559 5 0 8559 5 0 8564 0 0 8547 17 0
29 5 1 30 4 1 34 0 1 25 9 1
0 2 00 0 4 600 0 800 0 10 00 0 12 00 0 BADUSE = 0 BADUSE = 1 WIFI-SSID
- ATCCO-HOTSPOT-18 casa Clinica_Modelo E1200 E1200P el-juan Fibertel_WiFi954 Globant-Visitors gonzaloleani HomeBrain linksys MollyMalone Municipio_de_Tandil Rancho_Pizza_2 RanchoPizza RED_CARO Si_Senor Speedy-2E3DC4 Speedy-AF1F2A TP-LINK Wifi_Q4_Lan1 WiFi_Q4_Lan2 Wifi_Q4_Outlan WiFi-Arnet289 XedefGuestBS Yanina_WiFi
Figura 5.14:Relación WIFI-SSID BADUSE - Usuario 4
0 2 4 8 1 1,2 1 2 3 4 F -Meas u re Usuarios J48 Naives Bayes SMO Ridor
Figura 5.15:Prueba 3 - Valores F-Measure
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
4204 0 0 4203 1 0 4234 0 0 4219 15 0
16 0 1 16 0 1 17 0 1 17 0 1
Observando las matrices de confusión de los usuarios 1, 2 y 4 (ver: 5.21 ,5.22 y 5.24) se puede apreciar que los clasificadores tienen problemas para identificar el valor de BADUSE = 1 ya que en ninguno de los casos los valores obtenidos son certeros, no así para el caso BADUSE = 0, esto se debe a que como se mencionó anteriormente dichos usuarios prácticamente no registran uso de GPS y por lo tanto los algoritmos infieren que en general BADUSE = 0. Para el caso del usuario 3, se pueden apreciar las matrices de confusión (ver: 5.23) en donde los casos de acierto son mayores para BADUSE = 1 pero no así para BADUSE = 0. Esta diferencia se debe a la variedad en la información correspondiente al usuario 3.
En esta prueba se puede comprobar como, aún eliminando los atributos que dan ini- cialmente valor a BADUSE, es posible obtener nuevo conocimiento, dado que los clasifi- cadores infieren relaciones similares con sustento en los atributos restantes.
5.3.4 Prueba 4
En este caso el valor de BADUSE estará dado solo por la siguiente condición: • Si la antena WiFi está encendida y los datos móviles también (ver 5.2.2.1).
Al igual que en la pruebas anteriores, se utiliza el conjunto de datos ya filtrados (ver 5.2.2.1), eliminando los atributos que participan en las pre-condiciones utilizadas para la generación del valor del atributo BADUSE:
• WIFI-IACCESS • WIFI-STATE • WIFI-SSID
• CONNECTION-STATE Se utilizaPercentage Split = 30%.
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
7434 487 0 7141 780 0 7636 285 0 7815 106 0
1343 1043 1 1492 894 1 1695 691 1 996 1390 1
Tabla 5.23:Prueba 3 - Usuario 3- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
13045 7 0 13042 10 0 13223 0 0 13223 0 0
32 2 1 34 0 1 55 0 1 55 0 1
Tabla 5.24:Prueba 3 - Usuario 4- Matrices de confusión
F-Measure Success Correctly Instances
J48 0.56 56.61% 4868
Naives Bayes 0.60 60.60% 5211
SMO 0.57 57.90% 4983
Ridor 0.60 60.54% 5210
Instances 8598
Tabla 5.25:Prueba 4 - Usuario 1
F-Measure Success Correctly Instances
J48 0.94 94.59% 3992
Naives Bayes 0.93 95.23% 4019
SMO 0.93 95.55% 4062
Ridor 0.94 95.64% 4066
Instances 4220
Tabla 5.26:Prueba 4 - Usuario 2
F-Measure Success Correctly Instances
J48 0.72 76.63% 7868
Naives Bayes 0.67 75.91% 7825
SMO 0.68 75.58% 7790
Ridor 0.64 74.91% 7721
Instances 10307 Tabla 5.27:Prueba 4 - Usuario 3
Como se puede observar en los cuadros 5.25, 5.26, 5.27 y 5.28, los valores son inferiores a los obtenidos en la prueba anterior. Se destacan el usuario 1 y 2, por presentar los valores mas bajos y mas altos, para todos los clasificadores, respectivamente. Se observa en los detalles del algoritmo Ridor que es el usuario 2 quien obtiene una única excepción para el caso de BADUSE = 1:
<BADUSE> = 0 (6073.0/273.0) Except (<LOCATION-GROUP> = Group_22) and (<TIME- ISWEEKDAY> = 0) and (<TIME-HOUR> > 13) and (<ACTIVITY-ACT> = ON_FOOT) => <BADUSE> = 1 (9.0/1.0) [6.0/1.0]
En el resto de los casos se obtiene múltiples excepciones. Esto último indica que el usuario 2 parece tener una actitud mas responsable con respecto a la condición evalu- ada.
Observando las matrices de confusión, ver cuadros 5.29, 5.30, 5.31 y 5.32, se destaca lo siguiente:
• En general todos los clasificadores presentan problemas para, valga la redundancia, clasificar correctamente los valores de BADUSE = 1. Mas notorio es el caso del usuario 2 (ver cuadro 5.30), donde para SMO y Naives Bayes el porcentaje de error es de casi el 100%
• Contrario al punto anterior, en general los clasificadores no presentan grandes prob- lemas a la hora de clasificar correctamente valores de BADUSE = 0. Al igual que en el punto anterior, el caso del usuario 2 es el mas notorio, que además de presen- tar los porcentajes de acierto y valores de F-Measure mas elevados, el error de los cuatro clasificadores es casi nulo, al clasificar correctamente valores de BADUSE = 0.
F-Measure Success Correctly Instances J48 0.78 79.48% 10402 Naives Bayes 0.75 73.29% 9591 SMO 0.75 79.42% 10545 Ridor 0.74 79.40% 10543 Instances 13086 Tabla 5.28:Prueba 4 - Usuario 4
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
2731 1564 0 2778 1517 0 3218 1097 0 2469 1846 0
2766 2137 1 1870 2433 1 2525 1765 1 1549 2741 1
Tabla 5.29:Prueba 4 - Usuario 1- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
3933 89 0 4017 5 0 4062 0 0 4050 12 0
139 59 1 196 2 1 189 0 1 173 16 1
Tabla 5.30:Prueba 4 - Usuario 2- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
7284 428 0 7550 162 0 7565 147 0 7708 4 0
2011 584 1 2320 275 1 2370 225 1 2582 13 1
Tabla 5.31:Prueba 4 - Usuario 3- Matrices de confusión
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
9175 909 0 7497 2587 0 9939 389 0 10136 192 0
1775 1227 1 908 2094 1 2344 606 1 2546 407 1
5.3.5 Prueba 5
Para esta última prueba el valor de BADUSE está dado considerando cualquiera de las condiciones mencionadas en 5.2.2.1. Al igual que en la pruebas anteriores, se utiliza el conjunto de datos ya filtrados (ver 5.2.2.1), eliminando los atributos que participan en las pre-condiciones utilizadas para la generación del valor del atributo BADUSE:
• BLUETOOTH-NAME • BLUETOOTH-STATE • CONNECTION-STATE • GPS-STATE • WIFI-IACCESS • WIFI-SSID • WIFI-STATE
De esta manera se intenta descubrir como influyen el resto de los atributos que no se tuvieron en cuenta inicialmente en el valor de BADUSE.
Como se puede observar en los cuadros 5.33, 5.34, 5.35 y 5.36,
Observando las matrices de confusión, ver cuadros 5.37, 5.38, 5.39 y 5.40, se pude ver que:
• Todos los clasificadores y para todos los usuarios presentan problemas para, valga la redundancia, clasificar correctamente instancias de BADUSE = 0, con porcentajes de error del 100%, o cercanos a este.
• Ocurre todo lo contrario para el caso de clasificar correctamente instancias de BADUSE=1, donde el porcentaje de acierto es cercano al 100% en la mayoría de los casos.
F-Measure Success Correctly Instances J48 0.96 97.23% 8360 Naives Bayes 0.96 97.25% 8362 SMO 0.96 97.39% 8374 Ridor 0.96 97.39% 8374 Instances 8598
Tabla 5.33:Prueba 5 - Usuario 1
F-Measure Success Correctly Instances
J48 0.87 90.09% 3629
Naives Bayes 0.87 88.18% 3552
SMO 0.87 89.20% 3593
Ridor 0.87 90.29% 3637
Instances 4220
Tabla 5.34:Prueba 5 - Usuario 2
F-Measure Success Correctly Instances
J48 0.72 80.67% 8315
Naives Bayes 0.72 80.01% 8247
SMO 0.72 80.67% 8315
Ridor 0.72 80.67% 8315
Instances 10307 Tabla 5.35:Prueba 5 - Usuario 3
F-Measure Success Correctly Instances
J48 1 99.98% 13276
Naives Bayes 1 99.97% 13274
SMO 1 99.98% 13276
Ridor 1 99.98% 13276
Instances 13278 Tabla 5.36:Prueba 5 - Usuario 4
J48 Naives Bayes SMO Ridor
0 1 0 1 0 1 0 1
15 209 0 1 223 0 0 224 0 0 224 0
29 8345 1 13 8361 1 0 8374 1 0 8374 1
Al igual que sucedió en la prueba 1 (ver 5.3.1), el usuario 4 se destaca por presentar los valores mas altos y es por la misma razón, dado que la misma condición inicial consid- erada para dar valor a BADUSE en la prueba 1, es una de las utilizadas en esta prueba, resultando, de la misma manera, un factor condicionante, impidiendo descubrir nuevo conocimiento a partir de los atributos restantes.
Como conclusión general de la prueba se puede decir que es posible extraer nuevo conocimiento, a pesar de haber eliminado los atributos considerados inicialmente para dar valor a
BADUSE, lo cual permitiría conocer si un usuario está efectivamente desperdiciando en- ergía.
5.3.6 Conclusiones generales
En esta sección se exponen algunas conclusiones generales sobre las pruebas mostradas en la sección anterior (ver 5.3) realizando una comparación en función de los resultados obtenidos, para encontrar, si es posible, cuál de los clasificadores elegidos es el más apto para la obtención de nuevo conocimiento, basándose en los datos recolectados en este trabajo.
5.3.6.1 Clasificación de estados
A la hora de clasificar los distintos valores de BADUSE, existe una variación considerable en los valores de precisión obtenidos en cada prueba. En las pruebas 1 y 5 (ver 5.3.1 y 5.3.5), se observan problemas generales de clasificación para los casos en los que BADUSE es igual a 0, y un alto porcentaje de acierto en los casos en que BADUSE es igual a 1. Por el contrario, las pruebas 2, 3 y 4 (ver 5.3.2, 5.3.3 y 5.3.4) muestran problemas en la clasifi- cación de los casos en los que BADUSE es igual a 1 y altos porcentajes de acierto en los casos en que BADUSE es igual a 0.
No existen diferencias significativas entre los resultados obtenidos dentro de una única prueba para los diferentes clasificadores. En todas las pruebas los cuatro clasificadores elegidos presentan los mismos problemas y obtienen valores similares. Es por esto que
no es posible distinguir un único clasificador como el mejor. En la figura 5.16 se muestra la precisión promedio de cada algoritmo, en la cual se tienen en cuenta todas las pruebas realizadas. Allí se muestran los siguientes indicadores para cada clasificador:
• TT (true-true): porcentaje de acierto promedio de instancias de BADUSE = 1, que fueron clasificadas correctamente
• FT (false-true): porcentaje de acierto promedio de instancias de BADUSE = 0, que fueron clasificadas incorrectamente
• TF (true-false): porcentaje de acierto promedio de instancias de BADUSE = 1, que