3.6 Modelos Ocultos de Markov
4.5.3 Reglas de Asociación
4.5.3 Reglas de Asociación
Las pruebas se desarrollaron con el paquete de software Weka, utilizando la base completa y considerando válidos solamente los resultados para las instancias con un 100% de confianza y un alto grado de soporte. Se consideraron también la convicción, el leverage y el lift para la selección reglas de con utilidad para este problema. El objetivo de las reglas obtenidas mediante este algoritmo consiste en el descubrimiento de patrones o reglas que incluyan atributos que tengan entre sí una alta dependencia estadística. La utilidad de este tipo de reglas en el trabajo a futuro radica en la posibilidad de identificar atributos con alta dependencia estadística y eliminarlos del conjunto de datos que se alimenta al algoritmo Naive-Bayes. Esto con el fin de reducir el error provocado por la dependencia estadística de los datos de nuestro conjunto y obtener con ello una mejora significativa en los resultados obtenidos mediante el citado algoritmo.
A partir de los resultados, mostrados en la Tabla 2, se puede confirmar la alta dependencia estadística existente entre los atributos de las reglas seleccionadas como útiles para este problema.
Tabla 2 Resultados de reglas de asociación
Regla Soporte
(%)
Confianza (%)
Lift Leverage Convicción
A 78 100 1.26 0.16 76.57
60
C 75 100 1.26 0.17 74.07
D 70 100 1.31 0.17 79.42
E 72 100 1.31 0.17 40.54
Las reglas obtenidas mediante este proceso son las siguientes: Regla A:
PulDur_0=1 y PulseHalfFM=0 y relAmpl_H2=0 PulDur_10=1
Regla B:
PulDur_0=1 PulDur_10=1 y PulseHalfFM=0 y relAmpl_H2=0
Regla C:
PulDur_0=1 y Ener_90-Peak_Beg=1 y relAmpl_H2=0 PulDur_10=1 y PulseHalfFM=0
Regla D:
PulDur_0=1 y PulOn_90=1 y Ener_90-Peak_Beg=1 y PulseHalfFM=0 y relAmpl_H2=0 PulDur_10=1 y PulOn_peak=1
Regla E:
PulDur_0=1 y PulOn_90=1 y PulseHalfFM=0 PulDur_10=1 y PulOn_peak=1
Interpretación:
= 1significa un valor alto
= 0 significa un valor bajo
PulDur_0 = Duración de un pulso en el eje inicial (0%) de una llamada
PulDur_10 = Duración de un pulso al 10% de la llamada
PulseHalfFM = Tiempo en el cual se alcanza la mitad de la modulación de la frecuencia en el pulso
relAmpl_H2 = Amplitud relativa del segundo armónico
PulOn_90 = Tiempo del inicio de pulso al 90%
Ener_90_Peak_Beg = Energía en el 90% inicial de la llamada (amplitud pico)
PulOn_peak = Tiempo del pulso del inicio al pico (elevación)
Así, traduciendo las reglas conformadas por los atributos de Sound Ruler al español, tenemos lo siguiente:
Regla A: Si la duración del pulso en el eje inicial (0%) de una llamada es alta y el tiempo en el cual se alcanza la mitad de la modulación de la frecuencia en el pulso es bajo y la amplitud relativa del segundo armónico es baja, entonces la duración del pulso al 10% de la llamada es alta.
Regla B: Si la duración del pulso en el eje inicial (0%) de una llamada es alta, entonces la duración del pulso al 10% de la llamada es alta y el tiempo en el cual se alcanza la mitad de la modulación de la frecuencia en el pulso es bajo y la amplitud relativa del segundo armónico es baja.
Regla C: Si la duración del pulso en el eje inicial (0%) de una llamada es alta y la energía en el 90% inicial de la llamada (amplitud pico) es alta y la amplitud relativa del segundo armónico es
61
baja, entonces la duración del pulso al 10% de la llamada es alta y el tiempo en el cual se alcanza la mitad de la modulación de la frecuencia en el pulso es bajo.
Regla D: Si la duración de un pulso en el eje inicial (0%) de una llamada es alta y el tiempo del inicio de pulso al 90% es alto y la energía en el 90% inicial de la llamada (amplitud pico) es alta y el tiempo en el cual se alcanza la mitad de la modulación de la frecuencia en el pulso es bajo y la amplitud relativa del segundo armónico es baja, entonces la duración de un pulso al 10% de la llamada es alta y el tiempo del pulso del inicio al pico (elevación) es alto.
Regla E: Si la duración de un pulso en el eje inicial (0%) de una llamada es alta y el tiempo del inicio de pulso al 90% es alto y el tiempo en el cual se alcanza la mitad de la modulación de la frecuencia en el pulso es bajo, entonces la duración de un pulso al 10% de la llamada es alta y el tiempo del pulso del inicio al pico (elevación) es alto.
Analizando las reglas obtenidas, vemos que en todos los casos hay un valor de “lift” mayor a 1, lo que nos indica que efectivamente existe una relación de dependencia probabilística entre X y Y (Cuando el valor de “lift” es 1, se considera que X y Y son probabilísticamente independientes). Sabemos que “leverage” y “lift” miden cosas similares, excepto que “leverage” mide la probabilidad de co-ocurrencia de X y Y como las probabilidades independientes de cada uno, de X y de Y. En otras palabras, “leverage” mide la proporción de casos adicionales cubiertos por ambos, X y Y, arriba de aquellos esperados si X y Y fueran independientes uno de otro. Como podemos ver, en las reglas obtenidas hay valores por encima de 0 en todos los casos, lo que nos indica una vez más que sí hay de dependencia para estas reglas. La convicción es similar al “lift” pero mide también el efecto de que Y no sea verdad. Como podemos apreciar, todas las reglas obtenidas tienen un alto valor de convicción, indicando una vez más que hay un alto grado de relación entre los atributos del antecedente y el consecuente. Todas las reglas obtenidas tienen un 100% de confianza, indicando que Y aparece en todas las instancias que contienen a X, es decir, que predicen correctamente para todas las instancias para las cuales aplican. También se tiene en todas las reglas un alto porcentaje de soporte, del 72% al 78%, indicando que la regla aparece en un alto porcentaje de instancias de la base.
Al parecer, estas reglas no tienen un valor biológico o de clasificación directamente, sin embargo, está confirmado mediante las medidas anteriormente analizadas, que los atributos mencionados son los que en mayor medida de los 71 atributos tienen una alta dependencia entre ellos, lo que nos puede guiar en el trabajo a futuro a hacer más pruebas con Naive-Bayes con un conjunto de datos en el cual estos atributos hayan sido removidos, esperando ver una mejora significativa en el desempeño de dicho algoritmo. Ésta suposición se basa en que se sabe a partir de la literatura que Naive-Bayes se desempeña mejor con datos probabilísticamente independientes.