Reglas de Asociaci´ on Difusas:
Nuevos Retos
Miguel Delgado, Mar´ıa Dolores Ruiz, Daniel S´anchez
Dpto. Ciencias de la Computaci´on e I.A.
Universidad de Granada
[email protected] 18 de septiembre de 2008
Contenido
Introducci´on
De Reglas Cuantitativas a Reglas Difusas
Ultimos Trabajos y Nuevos Retos´
Conclusiones y Nuevos Retos
Introducci´ on (I)
I Las reglas de asociaci´on han sido ampliamente estudiadas desde su primera aparici´on en los trabajos de Agrawal et al.
I Herramienta para extraer conocimiento de la base de datos.
I Las reglas de asociaci´on son expresiones de la forma X → Y donde X e Y son conjuntos de items.
I En general, un item ser´a un par hatributo, valori
I Idea: Expresar una relaci´on entre la ocurrencia conjunta de X e Y .
I Numerosas medidas: validez, representatividad, inter´es... de la regla
I Las m´as usadas: Soporte y Confianza
⇒ El conocimiento extra´ıdo debe ser: v´alido, novedoso, ´util y comprensible.
Introducci´ on (II)
Teor´ıa de Subconjuntos Difusos
I Representar los posibles tipos de imprecisi´on en la informaci´on (base de datos)
I Representar el conocimiento obtenido de forma comprensible para el usuario.
⇒ Reglas de Asociaci´on Difusas
De Reglas Cuantitativas a Reglas Difusas: Primeros trabajos
I RA cuantitativas: hatributo, valori hatributo, intervaloi
I Surgen varios problemas:
I Problema de la frontera (elecci´on de los intervalos)
⇒ Uso de conjuntos difusos en lugar de intervalos:
hatributo, intervaloi hatributo, etiqueta difusai
I Conseguimos:
I Solucionar el problema de la frontera las fronteras se suavizan
I Sem´antica significativa para el usuario usando t´erminos ling¨u´ısticos
Reglas de Asociaci´ on Difusas
I D = {t1, . . . , tn} base de datos transaccional
I ER = {A1, . . . , Am} atributos en D
I Cada atributo tendr´a asociado varios conjuntos difusos describen el rango de valores del atributo.
I FAk = {a1k, . . . , alk} conjuntos difusos asociados a Ak
I Item: hAk, ajki, Itemset: hAi, aii ∪ · · · ∪ hAj, aji
I Notaci´on itemset: hX, Ai con X = {atributos} y A = {conjuntos dif usos}
I Regla de asociaci´on difusa:
Si X es A entonces Y es B
I Notaci´on: hX, Ai → hY, Bi
Generalizaci´ on de las Medidas de Soporte y Confianza
I Kuok et al. [1], Gyenesei [2]
I Soporte difuso de un itemset:
F Sop(hX, Ai) = X
ti∈D
Y
xj∈X
µiaj(xj)
|D| (1)
µiaj(xj) es el grado de pertenencia del atributo xj en la transacci´on i-´esima al conjunto difuso axj.
I Se puede sustituir el producto por cualquier t-norma.
I Soporte y confianza de una regla de asociaci´on difusa:
F Sop(hX, Ai → hY, Bi) = F Sop(X ∪ Y, A ∪ B) F Conf (hX, Ai → hY, Bi) = F Sop(hX ∪ Y, A ∪ Bi)
F Sop(hX, Ai)
(2)
Reglas de Asociaci´ on Difusas en Bases de Datos Difusas (I)
Si la informaci´on viene dada de forma imprecisa Bases de datos transaccionales difusas
I Delgado et al. [3]
I I = {i1, . . . , im} conjunto finito de items
I Transacci´on difusa: un subconjunto difuso no vac´ıo ˜τ ⊆ I.
I Un item i ∈ I pertenecer´a a ˜τ con grado ˜τ (i) ∈ [0, 1].
I Un itemset A ⊂ I pertenecer´a a ˜τ con grado ˜τ (A) = m´ın
i∈Aτ (i)˜
I Una regla de asociaci´on difusa A → B se cumple en D ⇔
˜
τ (A) ≤ ˜τ (B) ∀˜τ ∈ D (3)
I Con esta definici´on, se preserva el significado de las reglas de asociaci´on crisp
Reglas de Asociaci´ on Difusas en Bases de Datos Difusas (II)
I Definici´on de las medidas de soporte y confianza de forma sem´antica basada en la evaluaci´on de sentencias cuantificadas.
I F Sop(A), es la evaluaci´on de la sentencia cuantificada
Q de los D son ˜ΓA (4)
donde ˜ΓAes un conjunto difuso en D definido como Γ˜A(˜τ ) = ˜τ (A) y Q es un cuantificador relativo difuso (la mayor´ıa, muchos, casi todos).
I Soporte de la regla A → B se define como F Sop(A ∪ B).
I La confianza de A → B como la evaluaci´on de la sentencia cuantificada
Q de los ˜ΓA son ˜ΓB. (5)
I En particular, eligiendo el m´etodo GD para evaluar las sentencias y el cuantificador la mayor´ıa: QM(x) = x se obtiene una generalizaci´on al caso crisp.
Ultimos Trabajos y Nuevos Retos (I) ´
I B´usqueda de medidas de inter´es adecuadas para trabajar con incertidumbre en la base de datos.
I Extensi´on o adaptaci´on de las existentes para el caso crisp.
I Nuevas medidas teniendo en cuenta el aspecto sem´antico o bien la forma de representar el conocimiento.
⇒ Nuevas propuestas para la representaci´on del conocimiento que ayuden a definir nuevos m´etodos para medir el inter´es o bien para estudiar las propiedades de las reglas.
Ultimos Trabajos y Nuevos Retos (II) ´
I Uso de reglas difusas para expresar el conocimiento del usuario. [Liu99]
I Definici´on de medidas de inter´es subjetivas.
⇒ B´usqueda de nuevas formas de representaci´on del conocimiento
⇒ Nuevas medidas para comparar las creencias del usuario con las reglas obtenidas.
Ultimos Trabajos y Nuevos Retos (III) ´
Uso de reglas de asociaci´on difusas para extraer distintos tipos de conocimiento:
I Dependencias difusas
I Dependencias graduales difusas
I Refinamiento de consultas en miner´ıa web
I Reglas difusas en bolsas
I Conocimiento adaptado a varias ´areas cient´ıficas: Biolog´ıa, Medicina...
I Expresar restricciones temporales: reglas difusas peri´odicas
I Asociaciones ling¨u´ısticas
Ultimos Trabajos y Nuevos Retos (IV) ´
Mejoras en la automatizaci´on de la extracci´on de reglas difusas
I Mecanismos para la elecci´on de los umbrales para el soporte y la confianza
I Automatizar la definici´on de los conjuntos difusos asociados a un atributo, as´ı como sus funciones de pertenencia.
Conclusiones
I Destacar el gran potencial de los conjuntos difusos para:
I Expresar y manejar cantidades de forma coherente y sem´antica
I Representar incertidumbre, gradualidad y granularidad de conceptos
I Facilidad en la agregaci´on, combinaci´on y fusi´on de la informaci´on
Nuevos Retos
I Incorporar el conocimiento del usuario reglas m´as interesantes
I Elecci´on del tipo de conocimiento para cada situaci´on individual
I Extracci´on de otros tipos de conocimiento conocimiento excepcional, an´omalo o peculiar.
I Descubrimiento de tendencias, patrones secuenciales...
I Nuevos modelos para la representaci´on y estudio de las medidas de inter´es de reglas de asociaci´on difusas.
Alguna Bibliograf´ıa
C.M. Kuok, A.W. Fu, and M.H. Wong.
Mining fuzzy association rules in databases. SIGMOD Record, 27(1):41-46, 1998.
A. Gyenesei.
A fuzzy approach for mining quantitative association rules.
Acta Cybern., 15(2), 2001.
M. Delgado, N. Mar´ın, D. S´anchez, and M.A. Vila.
Mining fuzzy association rules: An overview. BISC
International Workshop on Soft computing for Inter- net and Bioinformatics, pages 351-374, 2003.
B. Liu, W. Hsu, L. Mun, and H. Lee.
Finding interesting patterns using user expectations. IEEE Transactions on Knowledge and Data Engeneering, 11(6):817-832, 1999.