• No se han encontrado resultados

Palabras clave: Reglas de asociación, Conocimiento impreciso, Redundancia basada en conocimiento

N/A
N/A
Protected

Academic year: 2021

Share "Palabras clave: Reglas de asociación, Conocimiento impreciso, Redundancia basada en conocimiento"

Copied!
17
0
0

Texto completo

(1)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

Tipo de artículo: Artículo original Temática: Inteligencia Organizacional Recibido: 30/10/2015 | Aceptado: 13/01/2016

Uso de conocimiento impreciso de usuario para reducir

redundancia en reglas de asociación

The use of user imprecise knowledge to reduce redundancy in

association rules

Andy Fernandez Garabote1*, Guillermo Manuel Negrín Ortiz2, Giselle Parronda Pupo3, Julio Díaz Vera4

1 Facultad 3. Universidad de las Ciencias Informáticas, Carretera a San Antonio de los Baños, km 2 ½, La Lisa,

Torrens, La Habana. Cuba {agarabote, gmnegrin, gparronda, jcdiaz}@uci.cu

* Autor para correspondencia: agarabote@uci.cu

Resumen

La reducción de redundancia en reglas de asociación es una dificultad. Se convierte en una limitación para usar modelos de reglas para dar soporte a la toma de decisiones. Recientemente se ha propuesto una técnica basada en conocimiento del usuario, que apunta a la eliminación de la redundancia. Sin embargo, ignora la naturaleza imprecisa del conocimiento. En este artículo la noción de redundancia del conocimiento se generaliza y se desarrolla un método de propagar la certeza del usuario sobre reglas derivadas. Se usan modelos de factor de certeza. Los resultados obtenidos han mostrado una reducción del modelo del 50% con conocimiento previo por debajo del 3%. Este método mejora la eficiencia de las reglas de asociación y el uso de reglas de asociación descubiertas.

Palabras clave: Reglas de asociación, Conocimiento impreciso, Redundancia basada en conocimiento

Abstract

Redundancy is a handicap in association rules. It be-comes a limitation to use rules models in order to sup-port the decision-making process. A technique based on user knowledge has been proposed recently, which aims at eliminating redundancy. However, it ignores the imprecise nature of knowledge. In this paper, the notion of knowledge redundancy is generalized and a method to propagate the user certainty over derivate rules is developed. Certainty factor models are used. Obtained results have shown a model reduction of 50% with previous knowledge below 3%. This method improves the efficiency of association rules and the use of discovered association rules.

(2)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

Introducción

Las reglas de asociación trabajan con el descubrimiento de relaciones y correlaciones entre atributos en grandes bases de datos. Son uno de los modelos de minería de datos más estudiados y aplicados. Sin embargo, algunos problemas hacen difícil usarlas para dar soporte a la toma de decisiones

1. Se descubren un gran número de reglas.

2. No todas las reglas descubiertas son interesantes.

3. Los algoritmos de descubrimiento de reglas tienen un coste computacional alto.

Varias investigaciones se han realizado para reducir el impacto negativo de estos problemas. Una línea importante de investigación apunta a mejorar el desempeño de los algoritmos de minado. La mayoría se enfoca en podar el espacio de búsqueda o de definir estructuras de datos más eficientes y organización más efectiva (Sadh, 2013), (Dhanabhakyam, 2011), (Valêncio, 2011).

Otra línea importante de investigación ha estudiado el problema de reducción de la salida siguiendo dos enfoques: 1- La generación de representaciones compactas llamadas bases (Zaki, 2004), (Hamilton, 2004), (Liu, 2011), (Xu, 2011).

2- El uso de restricciones (Baralis, 2012), (Srikant, 1997), dentro del algoritmo de extracción para limitar las reglas que aparecen en el modelo final.

El último enfoque requiere que los algoritmos de extracción sean ejecutados para cada usuario con diferentes restricciones. Esta condición sobrecarga el costo computacional.

Varias investigaciones se han enfocado en definir medidas de interés objetivas (Geng, 2006), (Lenca, 2008), (McGarry, 2005), (Tan, 2004). Sin embargo, los investigadores prestan cada vez más atención a medidas subjetivas basadas en factores controlados por el usuario.

La presencia de reglas redundantes es un factor que afecta negativamente el tamaño de los modelos de reglas de asociación. “Una regla de asociación es redundante si contienen la misma información –o información menos general- que la información contenida en otra regla de asociación de la misma utilidad y relevancia” (Bastide, 2000). La mayoría de los artículos acerca de redundancia en reglas de asociación tratan de obtener bases usando algún criterio asociado a la estructura de la regla y medidas objetivas. Estos enfoques permiten evaluar la relevancia de la regla, pero es prácticamente imposible evaluar su utilidad. Esta es la razón por la que depende del problema específico y del conocimiento del dominio.

(3)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

Si una regla en el modelo es conocida por el usuario, o puede ser derivada directamente de lo que él o ella ya sabe, entonces la regla sería inútil. Cada usuario debe tener diferente nivel de conocimiento sobre el dominio, por tanto, los conjuntos de reglas ya conocidas pueden ser diferentes para cada usuario. Se propuso una definición de redundancia en (Diaz, 2013). Se enfoca en la habilidad del usuario para expresar reglas como conocimiento previo de dominio y tarea específica a desarrollar. Además, se desarrolló un algoritmo para detectar y eliminar reglas redundantes. Sin embargo, no tiene en cuenta cuan impreciso es el conocimiento humano.

Este artículo aspira a generalizar la redundancia el conocimiento previo para trabajar con conocimiento impreciso. Producirá modelos que están más cerca de los usuarios. También se verifica la manera en que las diferentes medidas de extracción objetivas afectan el proceso de eliminación.

Este artículo tiene la siguiente estructura: la sección 2 discute la redundancia basada en el conocimiento en reglas de asociación. En la sección 3 se presenta el problema. En la sección 4 se generaliza la redundancia del conocimiento y se usan modelos de factor de certeza para la propagación de certeza sobre reglas derivadas. En la sección 5 se prueba la solución con tres datasets. La sección 6 presenta las conclusiones alcanzadas.

Materiales y métodos

Para la realización de este trabajo se utilizaron métodos del nivel teórico como el Análisis Histórico – Lógico: Lo histórico está vinculado al estudio de antecedentes, mientras que lo lógico permitió conocer cuáles han sido las

tendencias y su desarrollo. El Analítico – Sintético: En el estudio de los referentes teóricos relacionados con la

temática de estudio y en la comprensión de los resultados. El método Inductivo – Deductivo: En la interpretación de la información y para la elaboración de la propuesta de algoritmos de reducción de reglas de asociación. El enfoque sistémico: Posibilitó interrelacionar y correlacionar los referentes teórico-metodológicos. En el nivel empírico se aplicó la modelación del algoritmo de reducción de reglas asociación. Los resultados se expresan en tablas y gráficos utilizando el análisis porcentual.

Resultados y discusión

1. Redundancia basada en conocimiento in reglas de asociación

Sea I un itemset particular y T un conjunto de transacciones, cada una de ellas un subconjunto de I. Una regla de asociación es una implicación 𝑋 → 𝑌 cuyo significado es la relación de ambos (tanto X como Y) en una transacción en T, que también cumple: X, Y ⊂ I, X ∩ Y = ∅ and X, Y ≠ ∅.

(4)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

La calidad de la regla es evaluada usando diferentes métricas. El más difundido entre ellos es el soporte, que representa la probabilidad de aparecer en 𝑇 𝑋 ∪ 𝑌 y la confianza cuyo significado es la probabilidad condicional p(Y|X ).

1.1 Redundancia del conocimiento previo

La redundancia basada en el conocimiento se definió en (Diaz, 2013). Sea 𝑆 un conjunto de reglas de asociación y 𝑆𝑐

un conjunto de reglas de conocimiento previo, 𝑆y 𝑆𝑐 están definidas sobre el mismo dominio. Una regla de asociación

𝑅: 𝑋 → 𝑌 es redundante respecto a 𝑆𝑐 si hay una regla 𝑅′: 𝑋′ → 𝑌′ y cumple alguna de las siguientes condiciones:

1. 𝑋′ ⊆ 𝑋 ⋀ 𝑌⊆ 𝑌

2. 𝑋′ ⊆ 𝑋 ∧ ∃𝑅′′: 𝑋′′ → 𝑌′′ ∈ 𝑆𝑐: 𝑋′′ ⊆ 𝑌 ∧ 𝑌 ⊆ 𝑌′′

3. 𝑋′ ⊆ 𝑋 ⋀ 𝑌 ⊆ 𝑌

4. 𝑋′ ⊆ 𝑋 ⋀ 𝑌⊆ 𝑋

5. 𝑋′ ⊆ 𝑌 ⋀ 𝑌⊆ 𝑌

Se propusieron dos algoritmos. Ambos usan un mecanismo de inferencia basado en los axiomas de Armstrong. A pesar de que los axiomas de Armstrong no pueden ser usados para inferir reglas de asociación porque ellos no garantizan el umbral de confianza para reglas inferidas (Balcázar, 2010). En este caso, se usan para evaluar si una regla tiene redundancia del conocimiento previo. Debida a la propiedad de cláusula de soporte descendente, cada regla reducida cumple el umbral de soporte y no se generan nuevas reglas.

El primer algoritmo se usa para identificar y eliminar ítems redundantes en una regla (ver algoritmo 1) y el segundo se usa para determinar si la regla entera es redundante (ver algoritmo 2)

Input: Set of previous knowledge rules 𝑆𝑐

A rule 𝑅𝑖in form 𝑋𝑌

Output: Rewritten rule 𝑅𝑖

𝐹 = 𝑅𝑐 ∪ {𝑅𝑖}

For all item A in X do

If ((𝑋 − {𝐴}) + 𝑜𝑣𝑒𝑟 𝐹 = (𝑋 − {𝐴}) + 𝑜𝑣𝑒𝑟 ((𝐹 − {𝑅 𝑖}) ∪ (𝑋 − {𝐴}) → 𝑌)) then 𝑅𝑖 = 𝑋 − {𝐴} → 𝑌 End If End for If (𝑐𝑜(𝑅𝑖) ≤ 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑) then 𝑝𝑟𝑢𝑛𝑒(𝑅𝑖) End If

(5)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210 If (𝑋+𝑜𝑣𝑒𝑟𝐹 = 𝑋+𝑜𝑣𝑒𝑟 ((𝐹 − {𝑅 𝑖}) ∪ (𝑋 → 𝑌 − {𝑊})) then 𝑅𝑖 = 𝑋 → 𝑌 − {𝑊} End If End for Return 𝑅𝑖

Algoritmo 1. Reescritura de reglas

Input: Set of previous knowledge rules 𝑆𝑐

A rule 𝑅𝑖in form 𝑋𝑌

Output: Boolean: true Si rule must be pruned false other case.

𝐹 = 𝑅 then Return true Else Return false End If

Algoritmo 2. Poda de reglas

1.2. Conocimiento previo

El conocimiento previo, como se plantea en este artículo, consiste en relaciones entre atributos del dominio, los cuales son conocidos previamente por el usuario. Son el resultado de la experiencia del experto en el área de trabajo. Por lo tanto, este conocimiento está considerado de alguna manera más comprensible que las reglas extraídas de un dataset particular, el cual contiene información parcial. El usuario puede representar el conocimiento previo de diferentes formas, tal como redes semánticas, ontologías y algunos otros.

El conocimiento previo está incorporado al modelo usando formato de reglas de asociación, basado en el hecho de que el experto está interesado en el descubrimiento de reglas de asociación. Por ejemplo, un experto sabe los clientes con altos ingresos ([income]. [high]) pagan sus préstamos en tiempo y por lo tanto sus solicitudes deben ser aprobadas. Este conocimiento puede ser representado como la regla de asociación {[income]. [high]} -> {[loan]. [yes]}.

Un elemento importante a ser considerado es la naturaleza imprecisa del conocimiento del experto. Esto requiere agregar un grado de certeza a la representación del conocimiento del usuario. El conocimiento expresado en ejemplos previos es representado en una forma más natural como 80% de los clientes de alto ingreso pagan sus préstamos en

(6)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

tiempo. Las reglas de asociación que representan este conocimiento requieren un valor de certeza {[income]. [high]} -> {[loan]. [yes]} certainty= 0.8.

2. Planteamiento del problema

Sea D una base de datos, A una técnica para minería de reglas de asociación sobre D y 𝑆𝑐 una representación del

conocimiento previo que contiene el grado de certeza para cada regla. El conjunto de reglas 𝑅 contiene las reglas minadas. Un subconjunto 𝑅’ de 𝑅 contiene las reglas que pueden ser derivadas de 𝑆𝑐, por lo tanto, son reglas

redundantes. Es necesario prestar atención a dos hechos importantes:

1. El mismo modelo de reglas 𝑅 puede tener diferentes modelos redundantes 𝑅’ asociados a usuarios con diferente conocimiento previo

2. El conocimiento del usuario puede ser modificado dentro del proceso; por lo tanto, determinar las reglas redundantes es un procedimiento dinámico e interactivo.

El conjunto de reglas potencialmente interesantes es {𝑅 − 𝑅′}. Usualmente es marcadamente más pequeño que 𝑅, por

tanto, se desea que muestre solo estas reglas.

El problema de eliminar la redundancia del conocimiento previo de reglas de asociación está definido como: dado un conjunto de reglas de asociación 𝑅 y conocimiento previo del usuario 𝑆𝑐 encontrar el conjunto de reglas no

redundantes en un momento determinado.

Algunas técnicas se usan para lidiar con el grado de certeza en el conocimiento del usuario, para resolver dos situaciones concretas:

1. La propagación de certeza del conocimiento del usuario a las reglas derivadas. 2. Un umbral de certeza para considerar una regla derivada como no redundante.

3. Eliminación de redundancia basada en conocimiento en presencia de conocimiento impreciso

Es posible desarrollar un sistema basado en reglas, de condiciones de redundancia dadas en la definición de redundancia basada en el conocimiento, para determinar si una regla es redundante o no. Cada condición planteada en la definición será una regla en el sistema basado en reglas:

1. Si 𝑋′⊆𝑋 ⋀𝑌′⊆𝑌 entonces 𝑋→𝑌 es redundante

2. Si 𝑋′⊆𝑋 ∧∃𝑅′′: 𝑋′′→𝑌′′∈ 𝑆𝑐: 𝑋′′⊆𝑌′ ∧𝑌⊆𝑌′′ entonces 𝑋→𝑌 es redundante 3. Si 𝑋′⊆𝑋⋀𝑌⊆𝑌′ entonces 𝑋→𝑌 es redundante

4. Si 𝑋′⊆𝑋⋀𝑌′⊆𝑋 entonces 𝑋→𝑌 es redundante 5. Si 𝑋′⊆𝑌⋀𝑌′⊆𝑌 entonces 𝑋→𝑌 es redundante

(7)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

El modelo de factor de certeza (CF) se propone para gestionar la propagación de la certeza. Define un grupo de funciones para combinar el CF de las reglas:

 Combinación paralela  Combinación serial  Conjunción de evidencia 𝐶𝐹𝐴&𝐵=min (𝐶𝐹𝐴, 𝐶𝐹𝐵)  Disyunción de evidencia 𝐶𝐹𝐴|𝐵=max (𝐶𝐹𝐴, 𝐶𝐹𝐵)

La combinación paralela se usa para combinar el CF de dos reglas con la misma hipótesis. La combinación serial se usa para combinar dos reglas cuando la hipótesis de una regla es la evidencia de la otra regla. La conjunción de evidencia se usa cuando la evidencia de la regla es una conjunción de elementos. La disyunción de evidencia se usa cuando la evidencia de la regla es una disyunción de elementos.

El valor de CF de la regla es la multiplicación de evidencia por CF de la regla. La propagación de CF se ilustra en el siguiente ejemplo:

La Tabla 1 representa un conjunto de transacciones, la primera columna contiene un identificador de transacción y la segunda tiene una lista con ítems en la transacción:

Tabla 1. Base de datos transaccional

TID Items

1 [unemployed.no], [income.high], [loan.no] 2 [balance.high], [income.high], [loan.yes]

3 [unemployed.no], [balance.high], [income.high], [loan.yes] 4 [balance.high], [loan.yes]

5 [unemployed.no], [balance.high], [in come.high], [loan.yes]

Asumiendo conocimiento previo 𝑆𝑐={[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ]→[𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ] 𝑐𝑓=0.8, [𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] 𝑐𝑓=0.75}. Con un umbral del 40% para la confianza y el soporte de la regla

(8)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

{[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] } es parte del modelo de regla de asociación. Para comprobar si {[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] }} es redundante respecto a 𝑆𝑐, el sistema basado en reglas se construye.

La condición para la regla 1 se satisface porque [𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]⊆[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ] y [𝑙𝑜𝑎𝑛.𝑦𝑒𝑠]⊆[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] por tanto la regla:

Si [𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] entonces {[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] es redundante y se añade al sistema basado en reglas. La condición para la regla 2 también se cumple porque [𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ]⊆[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ], [𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]⊆[𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ] y [𝑙𝑜𝑎𝑛.𝑦𝑒𝑠]⊆[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] por tanto la regla: si [𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ]→[𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]∧[𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] entonces [𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] es redundante. La condición para la regla también se cumple porque [𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]⊆[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ] y [𝑙𝑜𝑎𝑛.𝑦𝑒𝑠]⊆[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠], por tanto la regla si [𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] entonces [𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] es redundante y se añade al sistema basado en reglas. La condición para la regla 4 se satisface porque [𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ]⊆[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ] y [𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]⊆[𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ] por tanto la regla si [𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ]→[𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ] entonces [𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] es redundante y se añade al sistema basado en reglas. Las reglas 1 y 3 en el sistema basado en reglas son las mismas por lo tanto solo una aparece en el sistema. 1. Si ([𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠])entonces ([𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] es redundante) 2. Si ([𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ]→[𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]∧[𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠]) entonces ([𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] es redundante) 3. Si ([𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ]→[𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]) entonces ([𝑏𝑎𝑙𝑎𝑛𝑐𝑒.ℎ𝑖𝑔ℎ][𝑖𝑛𝑐𝑜𝑚𝑒.ℎ𝑖𝑔ℎ]→[𝑙𝑜𝑎𝑛.𝑦𝑒𝑠] es redundante)

La regla 2 en el sistema basado en reglas se forma por la conjunción de la regla 1 y 3, por lo tanto, esta regla no se considera para calcular la propagación de certeza porque puede duplicar el efecto de la evidencia sobre la hipótesis. La certeza total es garantía para cada regla en el sistema basado en reglas, pero la evidencia de las reglas puede ser incierta, por tanto, en CF será equivalente al CF de la evidencia. La combinación paralela de la regla 1 y 3 se usa para calcular la propagación de certeza.

(9)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

El problema del umbral requiere un compromiso entre la cantidad de reglas en el modelo final y la posible pérdida de información. Si el umbral es muy bajo, la mayoría de las reglas serán podadas. Incluye aquellas con valores de medidas de calidad (confianza, factor de certeza) mayor que el CF de la redundancia. La opción de compromiso es establecer un umbral de corte al mismo nivel de la medida de calidad para cada regla individual. Por tanto, una regla será redundante si el CF de la regla es igual o mayor que el valor de la medida de calidad usado en el algoritmo de extracción.

3.1. Algoritmo para eliminar Redundancia Basada en Conocimiento con conocimiento impreciso

La lógica desarrollada para eliminar redundancia en reglas de asociación respecto a conocimiento impreciso contiene los siguientes estados:

1. Determinar la redundancia de la regla usando una versión modificada del algoritmo 1.

2. Establecer las reglas en el conocimiento previo que proveen evidencia a la redundancia. Esta operación se realiza por una modificación al algoritmo de cierre.

3. Combinando el CF para cada evidencia. El algoritmo 3 realiza estos pasos:

(10)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

Algoritmo 3. Eliminación de redundancia basada en conocimiento impreciso

La función 𝑐𝑓_𝑐𝑙𝑜𝑠𝑢() computa el antecedente en el cierre de 𝑅𝑖 y encuentra las reglas en 𝑆𝑐 soportando redundancia en 𝑅𝑖 porque se usan para agregar elementos al cierre, su operación se muestra a continuación:

Algoritmo 4. Función cf_closure()

4. Aplicación del proceso

La efectividad de la propuesta se probó aplicando el proceso de eliminación de redundancia sobre tres datasets disponibles en el repositorio de la UCI (Blake, 1998). El primero Adult, con datos sobre el censo de EE.UU., el segundo Mushroom, con datos hipotéticos sobre hongos y el último BC con datos asociados el cáncer de mama. Para todos los experimentos se usó un conocimiento previo 𝑆𝑐 con cuatro reglas. Las reglas de asociación se obtuvieron usando dos medidas de calidad, la confianza y el factor de certeza.

La Tabla 2 representa las características generales de cada experimento

1. La Columna 1 contiene el id del experimento para enlazar con la Tabla 3. 2. La Columna 2 contiene el nombre del dataset.

3. La Columna 3 contiene el umbral de soporte usado en minería de itemsets frecuentes. 4. La Columna 4 contiene la métrica de calidad usada.

5. La Columna 5 contiene el número total de reglas minadas. Tabla 2. Información general

ID Data Soporte Medida Reglas 1 Adult 0.25 Conf: 0.5 3136

2 Adult 0.25 Cf: 0.5 704

3 Adult 0.25 Conf: 0.6 2469

(11)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210 5 Adult 0.25 Conf: 0.7 1999 6 Adult 0.25 Cf:0.7 422 7 Adult 0.35 Conf: 0.5 849 8 Adult 0.35 Cf: 0.5 79 9 Adult 0.35 Conf: 0.6 683 10 Adult 0.35 Cf: 0.6 77 11 Adult 0.35 Conf: 0.7 531 12 Adult 0.35 Cf:0.7 64 13 BC 0.25 Conf: 0.5 5939 14 BC 0.25 Cf: 0.5 3978 15 BC 0.25 Conf: 0.6 5498 16 BC 0.25 Cf: 0.6 2626 17 BC 0.25 Conf: 0.7 4297 18 BC 0.25 Cf:0.7 1493 19 BC 0.35 Conf: 0.5 3070 20 BC 0.35 Cf: 0.5 2293 21 BC 0.35 Conf: 0.6 2961 22 BC 0.35 Cf: 0.6 1632 23 BC 0.35 Conf: 0.7 2514 24 BC 0.35 Cf:0.7 993 25 Mush 0.25 Conf: 0.5 92089 26 Mush 0.25 Cf: 0.5 51159 27 Mush 0.25 Conf: 0.6 76706 28 Mush 0.25 Cf: 0.6 42066 29 Mush 0.25 Conf: 0.7 61963 30 Mush 0.25 Cf:0.7 31320 31 Mush 0.35 Conf: 0.5 13908 32 Mush 0.35 Cf: 0.5 6369 33 Mush 0.35 Conf: 0.6 12031 34 Mush 0.35 Cf: 0.6 5397 35 Mush 0.35 Conf: 0.7 9822 36 Mush 0.35 Cf:0.7 4380

La Tabla 3 presenta la información asociada a la eliminación de redundancia basada en el conocimiento. 1. La columna 1 contiene el id del experimento para enlazar con la Tabla 2.

2. La columna 2 contiene la cantidad de reglas podadas.

3. La columna 3 contiene la cantidad de reglas redundantes no podadas porque sus CFs son menores que la medida de calidad.

4. La columna 4 contiene la razón entre las reglas de las que no se tiene suficiente certeza y el número total de reglas.

(12)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

Tabla 3. Eliminación de redundancia

ID ID Podadas Insuficiente certeza Razón de poda Razón de insuficiente certeza

1 1 1945 472 62 15 2 2 471 136 66.9 19.3 3 3 1566 296 63.4 11.9 4 4 395 102 68.2 17.6 5 5 1305 242 65.2 12.1 6 6 289 82 68.4 19.4 7 13 417 143 49.11 16.8 8 14 25 25 31.6 31.6 9 15 355 86 51.9 12.5 10 16 25 23 32.4 29.8 11 17 267 77 50.2 14.5 12 18 23 21 35.9 32.8 13 19 3331 1569 56 26.4 14 20 2483 682 62.4 17.4 15 21 3184 1313 57.9 23.9 16 22 1717 348 65.4 13.3 17 23 2627 783 61.1 18.2 18 24 965 174 64.6 11.7 19 31 1427 728 46.4 23.7 20 32 1184 398 51.6 17.3 21 33 1429 655 48.3 22.1 22 34 925 216 56.7 13.2 23 35 1262 474 50.2 18.9 24 36 568 109 57.2 11 25 37 45282 30243 49.1 32.8 26 38 23264 19158 45.4 37.4 27 39 36583 26320 47.7 34.3 28 40 18159 16677 43.2 39.6 29 41 28239 22715 45.6 36.7 30 42 12086 13599 38.6 43.4 31 49 6541 4633 47.0 33.3 32 50 2724 2418 42.7 37.9 33 51 5483 4154 45.6 34.5 34 52 2193 2184 40.6 40.5 35 53 4245 2645 43.2 37.1 36 54 1637 1905 37.4 43.5

En las figuras 1, 2 y 3 se presentan los niveles de poda alcanzados en la medida CF para los datasets Adult, BC y Mush respectivamente. En las figuras 4, 5 y 6 se presentan los niveles de poda para la medida de calidad confianza. En ambos casos, se calcula la razón para valores de soporte de 0.25, 0.3 y 0.53.

(13)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

Figura 1. Razón de poda para el dataset Adult con CF

Figura 2. Razón de poda para el dataset BC con CF

(14)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

Hay dos hechos relevantes en estos resultados. El primero es que el nivel de poda de alrededor del 50% se logra con relativamente poco conocimiento, solo cuatro reglas, y el segundo es que las razones de poda mayores se logran con los menores valores de soporte.

La influencia de la medida de calidad sobre la razón de poda fue evaluada por el factor simple ANOVA con un error del 5%. La variable independiente fue la medida de calidad (confianza y factor de certeza con valores de 0.5, 0.6 y 0.7) y la variable dependiente fue factor de poda para los diferentes valores de soporte (0.25, 0.3, 0.35). Las otras variables fueron controladas.

ANOVA se ejecutó para los tres datasets (Adult, Mush y BC) y los tres valores de medidas de calidad (0.5, 0.6 y 0.7). La calidad del conocimiento previo fue invariable para todos los casos. Los resultados de ANOVA para Adult_05, Adult_06, Adult_07, BC_05, BC_06, BC_07, Mush_05, Mush_06 and Mush_07 se presentan en las tablas 4, 5, 6, 7, 8, 9, 10, 11 y 12 respectivamente.

Tabla 4: ANOVA para el dataset Adult_05.

Tabla 5: ANOVA para el dataset Adult_06.

Tabla 6: ANOVA para el dataset Adult_07.

Fuente SS df MS F F crit Entre

grupos

97.6 1 97.6 4.37 7.70 Figura 4. Razón de poda para el dataset Adult con confianza

Fuentes SS df MS F F crit Entre grupos 33.1 1 33.1 0,17 7,70 Dentro de los grupos 758 4 189.5 Total 791.1 5 Fuente SS df MS F F crit Entre 39 1 39 0.2 7.70 Fuente SS df MS F F crit Entre grupos 14.7 1 14.7 0.08 7.70 Dentro de los grupos 695.5 4 173.9 Total 710.6 5 Figura 5. Razón de poda para el dataset BC con confianza

(15)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210 Dentro de los grupos 89.1 4 22.2 Total 186.7 5 Tabla 8: ANOVA para el dataset BC_06.

Fuente SS df MS F F crit Entre grupos 35.5 1 35.5 1.5 7.70 Dentro de los grupos 94.1 4 23.5 Total 129 5

Tabla 9: ANOVA para el dataset BC_07. Fuente SS df MS F F crit Entre grupos 17,34 1 17,34 3,44 7,7 Dentro de los grupos 20,16 4 5,04 Total 37,5 5

Tabla 10: ANOVA para el dataset Mush_05. Fuente SS df MS F F crit Entre grupos 22.4 1 22.4 3.2 7.70 Dentro de los grupos 27.9 4 6.98 Total 50.3 5

Tabla 11: ANOVA para el dataset Mush_05.

Fuente SS df MS F F crit Entre grupos 42.6 1 42.6 4.37 7.70 Dentro de los grupos 39 4 9.75 Total 81.6 5

Tabla 12: ANOVA para el dataset Mush_05.

En todos los casos, el valor de F es menor que el valor crítico de F. Por tanto, se acepta la hipótesis de que no hay diferencias significativas entre las medidas de calidad. La validez de este planteamiento es parcial y necesitaría más experimentación, pero los resultados son suficientemente buenos para sustentar futuros trabajos en esta línea de investigación.

Conclusiones

La noción de redundancia basada en el conocimiento en reglas de asociación se ha generalizado. Brinda al usuario la posibilidad de expresar conocimiento con un grado de certeza. Esta representación del conocimiento está más cerca de la realidad e incrementa el poder expresivo del usuario para representar su conocimiento sobre el dominio.

En esta etapa se pueden obtener modelos de reglas de asociación no redundantes que hacen más fácil el proceso de toma de decisiones.

Agradecimientos

Esta investigación está parcialmente respaldada por los proyectos de investigación P10-6109 y TIC-1582 de la Junta de Anda-Lucía (España)

(16)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

Referencias

J. L. BALCÁZAR, «Redundancy, deduction schemes, and minimum-size bases for association rules», Log. Methods Comput. Sci., vol. 6, n.o 2-3, pp. 1-33, 2010.

E. BARALIS, L. CAGLIERO, T. CERQUITELLI, P. GARZA, «Generalized association rule mining with con-straints», Inf. Sci., vol. 194, pp. 68–84, 2012.

Y. BASTIDE, N. PASQUIER, R. TAOUIL, G. STUMME, L. LAKHAL, «Mining minimal non-redundant asso-ciation rules using frequent closed itemsets», en Computational Logic—CL 2000, Springer, 2000, pp. 972–986.

C. BLAKE, C. MERZ, «UCI Repository of Machine Learning Databases». University of California, Department of Information and Computer Science, Irvine, CA, 1998.

M. DHANABHAKYAM, M. PUNITHAVALLI, «A survey on Data mining algorithm for market basket anal-ysis», Glob. J. Comput. Sci. Technol., vol. 11, n.o 11, 2011.

J. DIAZ, C. MOLINA, M.A VILA, «A Model for Re-dundancy Reduction in multidimentional Associ-ation Rules», IADIS European Conference on Data Mining, Prague, 2013.

L. GENG, H. J. HAMILTON, «Interestingness measures for data mining: A survey», ACM Com-put. Surv. CSUR, vol. 38, n.o 3, p. 9, 2006.

G. LI, H. J. HAMILTON, «Basic association rules», en Fourth SIAM International Conference on Data Mining, 2004.

P. LENCA, P. MEYER, B. VAILLANT, S. LALLICH, «On selecting interestingness measures for association rules: User oriented description and multiple cri-teria decision aid», Eur. J. Oper. Res., vol. 184, n.o 2, pp. 610–626, 2008.

H. LIU, L. LIU, H. ZHANG, «A fast pruning redun-dant rule method using Galois connection», Appl. Soft Comput., vol. 11, n.o 1, pp. 130–137, 2011.

K. MCGARRY, «A survey of interestingness measures for knowledge discovery», Knowl. Eng Rev., vol. 20, n.o 1, pp. 39–61, 2005.

A. S. SADH, N. SHUKLA, «Association Rules Opti-mization: A Survey», Int. J. Adv. Comput. Res. IJACR, vol. 3, 2013.

R. SRIKANT, Q. VU, R. AGRAWAL, «Mining Associa-tion Rules with Item Constraints. », en KDD, 1997, vol. 97, pp. 67–73.

(17)

Serie Científica de la Universidad de las Ciencias Informáticas Vol. 9, No. 1, Enero, 2016

ISSN: 2306-2495 | RNPS: 2343 http://publicaciones.uci.cu Pág. 194-210

P.-N. TAN, V. KUMAR, J. SRIVASTAVA, «Selecting the right objective measure for association analy-sis», Inf. Syst., vol. 29, n.o 4, pp. 293–313, 2004.

C. R. VALÊNCIO, F. T. OYAMA, P. S. NETO, R. C. G. DE SOUZA, «Comparative Study of Algorithms for Mining Association Rules: Traditional Approach versus Multi-relational Approach», Parallel and Distributed Computing, Applications and Tech-nologies (PDCAT), 2011 12th International Con-ference on, 2011, pp. 275–280.

Y. XU, Y. LI, G. SHAW, «Reliable representations for association rules», Data Knowl. Eng., vol. 70, n.o 6, pp. 555–575, 2011.

M. J. ZAKI, «Mining non-redundant association rules», Data Min. Knowl. Discov., vol. 9, n.o 3, pp. 223– 248, 2004.

Referencias

Documento similar

El contar con el financiamiento institucional a través de las cátedras ha significado para los grupos de profesores, el poder centrarse en estudios sobre áreas de interés

U-Ranking cuenta con la colaboración del Ministe- rio de Universidades, al permitirnos el acceso al Sistema Integrado de Información Universitaria (SIIU). El SIIU es

El valor agregado 6 del indicador por universidad se pre- senta en una escala de 0 (mínimo valor obtenido por una universidad del sistema en ese indicador) a 100 (correspondiente

El segundo paso es elegir la comunidad autónoma o comunidades que se contemplan como lugares en los que cursar los estudios. Para ello, el usuario debe marcar las elegidas

El segundo paso es elegir la comunidad autónoma o comunidades que se contemplan como lugares en los que cursar los estudios. Para ello, el usuario debe marcar las elegidas

La combinación, de acuerdo con el SEG, de ambos estudios, validez y fiabilidad (esto es, el estudio de los criterios de realidad en la declaración), verificada la

The aim of this study is to analyse the factors related to the use of addictive substances in adolescence using association rules, descriptive tools included in Data Mining.. Thus,

Among the most widely- used prediction techniques are the Naive Bayes classifier (NB), as a modern statistical technique, and the Artificial Neural Networks (ANN) and Decision