Reglas de Asociaci´
on Difusas para la Detecci´
on
de Anomal´ıas
M.D. Ruiz
, D. S´
anchez, M.J. Martin-Bautista,
M.A. Vila, M. Delgado
Motivaci´
on
I
Las Reglas de Asociaci´
on permiten identificar conocimiento
potencialmente nuevo, ´
util y comprensible para el usuario.
I
Representan la aparici´
on conjunta de un conjunto de ´ıtems en
la mayor´ıa de las transacciones de una base de datos.
I
Anteriores propuestas usan t´
ecnicas de miner´ıa de datos para:
• Descubrir los perfilesusualesdel comportamiento de los clientes
Motivaci´
on
I
Las Reglas de Asociaci´
on An´
omalas permiten la extracci´
on
de conocimiento mediante reglas de asociaci´
on, obteniendo:
• el patr´on usual/normal
• el patr´on an´omalo asociado al usual/normal.
I
Mucha de la informaci´
on disponible es imprecisa, ambigua o
incierta
;
Uso de la Teor´ıa de Subconjuntos Difusos
I
Propuesta:
Reglas Difusas An´
omalas
I
Ventajas:
1. Conocimiento comprensible y sem´anticamente significante para el usuario.
2. Comportamiento usual y el an´omalo asociado a ´este.
Campos de Aplicaci´
on
I
Seguridad, detecci´
on de fraude
I
An´
alisis de datos financieros
I
An´
alisis de flujos en redes de datos
Resumen
1. Trabajos relacionados
2. Breve Introducci´
on a las Reglas de Asociaci´
on Crisp y Difusas
3. Reglas de Asociaci´
on An´
omalas
Trabajos relacionados
Existen otros tipos de reglas infrecuentes que capturan
conocimiento que puede ser de inter´
es para el usuario:
I
Reglas Peculiares
I
Reglas Infrecuentes
I
Reglas de Excepci´
on
Reglas de Asociaci´
on Crisp
I Una base de datos D estar´a compuesta por transacciones ti (filas) y
atributos (columnas).
I Llamaremos ´ıtem a un par del tipo hatributo, valori or hatributo, intervaloi. D i1 i2 . . . ij ij+1 . . . im t1 1 0 . . . 0 1 . . . 0 t2 0 1 . . . 1 1 . . . 1 .. . ... ... . .. ... ... . .. ... tn 1 1 . . . 0 1 . . . 1
I UnaRegla de Asociaci´on es una expresi´on de la forma A → B donde A, B son conjuntos no vac´ıos de ´ıtems con intersecci´on vac´ıa.
Reglas de Asociaci´
on Crisp
I El soportede un itemset A se define como la probabilidad de que una transacci´on contenga a A
supp(A) = |t ∈ D : A ⊆ t| |D|
I Para validar la regla, se suele utilizar elsoporte(probabilidad conjunta P (A ∪ B)) y la conf ianza(probabilidad condicionada P (B|A))
Sop(A → B) = sop(A ∪ B)
|D| ; Conf(A → B) =
sop(A ∪ B) sop (A)
Reglas de Asociaci´
on Crisp
I Debido a algunos problemas al usar la confianza, usaremos como alternativa el uso delfactor de certeza, F C(A → B)
Conf(A → B) − sop(B)
1 − sop(B) if Conf(A → B) > sop(B) Conf(A → B) − sop(B)
sop(B) if Conf(A → B) < sop(B)
0 en otro caso.
I El FC mide c´omo nuestra creencia de que B est´a en una transacci´on cambia cuando sabemos que A est´a en dicha transacci´on.
I El Factor de Certeza posee mejores propiedades que la confianza y que otras medidas, en particular, reduce el n´umero de reglas obtenidas filtrando aquellas que corresponden a dependencias negativas o independencia estad´ıstica.
Reglas de Asociaci´
on Difusas
I
I un conjunto finito de ´ıtems.
I
Una transacci´
on difusa es un subconjunto difuso no vac´ıo
˜
τ ⊆ I.
I
Un ´ıtem i ∈ I pertenecer´
a a ˜
τ con grado ˜
τ (i) ∈ [0, 1].
I
Un itemset A ⊂ I pertenecer´
a a ˜
τ con grado
˜
τ (A) = min
i∈A
τ (i)
˜
I
Una regla de asociaci´
on difusa A → B se cumplir´
a en ˜
D ⇔
˜
τ (A) ≤ ˜
τ (B)
∀ ˜
τ ∈ ˜
D
Reglas de Asociaci´
on Difusas
Las medidas de soporte, confianza y factor de certeza se
generalizan al caso difuso mediante la evaluaci´
on de sentencias
cuantificadas con el cuantificador Q(x) = x de la forma:
I
Dado A conjunto de ´ıtems, ˜
Γ
A(˜
τ ) = ˜
τ (A).
I
Soporte de A es la evaluaci´
on de la sentencia cuantificada “Q
de los ˜
D son ˜
Γ
A”.
I
Fsop(A → B) en ˜
D es la evaluaci´
on de la sentencia
cuantificada “Q de los ˜
D son (˜
Γ
A∩ ˜
Γ
B)”.
I
FConf(A → B), es la evaluaci´
on de la sentencia cuantificada
“Q de los ˜
Γ
Ason ˜
Γ
B” .
Reglas de Asociaci´
on Difusas
Para evaluar la sentencia cuantificada “Q de los F son G”
usaremos el m´
etodo GD:
GD
Q(G/F ) =
X
αi∈Λ(G/F )(α
i− α
i+1) Q
|(G ∩ F )
αi|
|F
αi|
donde Λ(G/F ) = Λ(G ∩ F ) ∪ Λ(F ), siendo Λ(F ) el conjunto de
niveles de F , y Λ(G/F ) = {α
1, . . . , α
p} con α
i> α
i+1para
cualquier i ∈ {1, . . . , p − 1} donde α
p+1= 0. El conjunto F
Reglas de Asociaci´
on Difusas
Ejemplo:
I
Conjunto de ´ıtems I = {i
1, i
2, i
3, i
4}
I
Conjunto de transacciones difusas
i
1i
2i
3i
4i
5˜
τ
11
0.2
1
0.9
0.9
˜
τ
21
1
0.8
0
0
˜
τ
30.5
0.1
0.7
0.6
0
˜
τ
40.6
0
0
0.5
0.5
˜
τ
50.4
0.1
0.6
0
0
˜
τ
60
1
0
0
0
I
τ
˜
6es una transacci´
on crisp.
I
Algunos grados de pertenencia son: ˜
τ
1({i
3, i
4}) = 0.9,
˜
Reglas de Asociaci´
on Difusas
Algunas reglas difusas que pueden encontrarse:
Regla
Fsop
FConf
FFC
{i
1, i
2} → {i
3}
0.167
0.8
0.6
Reglas de Asociaci´
on An´
omalas
Idea: Las Reglas An´omalas surgen cuando se elimina el efecto dominante producido por la regla frecuente (csr) [Berzal et al., 2004]
I Interpretaci´on:
Cuando se da X, entonces tendremos Y (usual) o A (inusual)
I Esta sem´antica se captura con el conjunto de reglas: X implica de forma fuerte a Y , pero en los casos donde X implica ¬Y , entonces X implica confidentemente A
I Ejemplo:
“SI un paciente tiene s´ıntomas X,
ENTONCES normalmente tendr´a la enfermedad Y, SI NO, tendr´a la enfermedad A”,
Reglas An´
omalas Difusas
I Formalmente, let ˜DX = {t ∈ ˜D : X ⊂ t}.
I Unaregla an´omala difusaser´a una terna (F csr, F anom, F ref ) cumpliendo:
• X → Y (Fcsr) es frecuente y fiable en ˜D.
• ¬Y → A (Fanom) es fiable en ˜DX.
• A → ¬Y (Fref) es fiable in ˜DX.
I Ventajas:
• La cantidad de ternas (csr, anom, ref ) se reduce al usar el Factor de Certeza.
Experimentos y Resultados
Algunos problemas de implementaci´on:
I La extracci´on de reglas difusas es algor´ıtmicamente m´as costoso que extraer reglas crisp.
I Las reglas an´omalas son infrecuentes;Las t´ecnicas de poda no pueden usarse.
Soluci´on:
I Extraer reglas difusas mediante una paralelizaci´on por niveles.
Experimentos y Resultados
Bases de datos: Auto-mpg y German-statLog del repositorio UCI
Machine Learning.
I
Auto-mpg (cilindrada, peso, aceleraci´
on,...)
I
398 tuplas
Experimentos y Resultados
German-statLog (sobre cr´
editos y clientes de un banco alem´
an)
I
1000 transacciones
Experimentos y Resultados
I
Ejemplo de regla obtenida en Auto-mpg
“SI consumo=alto
EN T ON CES cilindrada = 4 (Fsop = 0.206 & FFC = 0.912)
O n.
de cilindros = en la media (inusual FFC
1= 1, FFC
2= 1)”.
Interpretaci´
on:
Conclusiones y Trabajos Futuros
I Hemos propuesto el uso de reglas an´omalas difusas pare representar el comportamiento an´omalo o inusual que se desv´ıa del normal.
I Usamos el Factor de Certeza, obteniendo un conjunto m´as peque˜no y fiable de reglas.
I Proponemos adaptar un algoritmo ya conocido para reglas difusas.
I Probado en distintas bases de datos donde se han fuzzificado varios atributos continuos.
Futuro: Desarrollar algoritmos m´as eficientes.
Referencias
[Berzal et al., 2004]F. Berzal, J.C. Cubero, N. Mar´ın, and M. G´amez. Anomalous association rules. In IEEE ICDM Workshop Alternative Techniques for Data Mining and Knowledge Discovery, 2004.