Reglas de Asociación Difusas para la Detección

(1)

Reglas de Asociaci´

on Difusas para la Detecci´

on

de Anomal´ıas

M.D. Ruiz

, D. S´

anchez, M.J. Martin-Bautista,

M.A. Vila, M. Delgado

(2)

Motivaci´

on

I

Las Reglas de Asociaci´

on permiten identificar conocimiento

potencialmente nuevo, ´

util y comprensible para el usuario.

I

Representan la aparici´

on conjunta de un conjunto de ´ıtems en

la mayor´ıa de las transacciones de una base de datos.

I

Anteriores propuestas usan t´

ecnicas de miner´ıa de datos para:

• Descubrir los perfilesusualesdel comportamiento de los clientes

(3)

Motivaci´

on

I

Las Reglas de Asociaci´

on An´

omalas permiten la extracci´

on

de conocimiento mediante reglas de asociaci´

on, obteniendo:

• el patr´on usual/normal

• el patr´on an´omalo asociado al usual/normal.

I

Mucha de la informaci´

on disponible es imprecisa, ambigua o

incierta

;

Uso de la Teor´ıa de Subconjuntos Difusos

I

Propuesta:

Reglas Difusas An´

omalas

I

Ventajas:

1. Conocimiento comprensible y sem´anticamente significante para el usuario.

2. Comportamiento usual y el an´omalo asociado a ´este.

(4)

Campos de Aplicaci´

on

I

Seguridad, detecci´

on de fraude

I

An´

alisis de datos financieros

I

An´

alisis de flujos en redes de datos

(5)

Resumen

1. Trabajos relacionados

2. Breve Introducci´

on a las Reglas de Asociaci´

on Crisp y Difusas

3. Reglas de Asociaci´

on An´

omalas

(6)

Trabajos relacionados

Existen otros tipos de reglas infrecuentes que capturan

conocimiento que puede ser de inter´

es para el usuario:

I

Reglas Peculiares

I

Reglas Infrecuentes

I

Reglas de Excepci´

on

(7)

Reglas de Asociaci´

on Crisp

I Una base de datos D estar´a compuesta por transacciones ti (filas) y

atributos (columnas).

I Llamaremos ´ıtem a un par del tipo hatributo, valori or hatributo, intervaloi. D i1 i2 . . . ij ij+1 . . . im t1 1 0 . . . 0 1 . . . 0 t2 0 1 . . . 1 1 . . . 1 .. . ... ... . .. ... ... . .. ... tn 1 1 . . . 0 1 . . . 1

I UnaRegla de Asociación es una expresión de la forma A → B donde A, B son conjuntos no vac´ıos de ´ıtems con intersección vac´ıa.

(8)

Reglas de Asociaci´

on Crisp

I El soportede un itemset A se define como la probabilidad de que una transacci´on contenga a A

supp(A) = |t ∈ D : A ⊆ t| |D|

I Para validar la regla, se suele utilizar elsoporte(probabilidad conjunta P (A ∪ B)) y la conf ianza(probabilidad condicionada P (B|A))

Sop(A → B) = sop(A ∪ B)

|D| ; Conf(A → B) =

sop(A ∪ B) sop (A)

(9)

Reglas de Asociaci´

on Crisp

I Debido a algunos problemas al usar la confianza, usaremos como alternativa el uso delfactor de certeza, F C(A → B)

           Conf(A → B) − sop(B)

1 − sop(B) if Conf(A → B) > sop(B) Conf(A → B) − sop(B)

sop(B) if Conf(A → B) < sop(B)

0 en otro caso.

I El FC mide cómo nuestra creencia de que B está en una transacción cambia cuando sabemos que A está en dicha transacción.

I El Factor de Certeza posee mejores propiedades que la confianza y que otras medidas, en particular, reduce el n´umero de reglas obtenidas filtrando aquellas que corresponden a dependencias negativas o independencia estad´ıstica.

(10)

Reglas de Asociaci´

on Difusas

I

I un conjunto finito de ´ıtems.

I

Una transacci´

on difusa es un subconjunto difuso no vac´ıo

˜

τ ⊆ I.

I

Un ´ıtem i ∈ I pertenecer´

a a ˜

τ con grado ˜

τ (i) ∈ [0, 1].

I

Un itemset A ⊂ I pertenecer´

a a ˜

τ con grado

˜

τ (A) = min

i∈A

τ (i)

˜

I

Una regla de asociaci´

on difusa A → B se cumplir´

a en ˜

D ⇔

˜

τ (A) ≤ ˜

τ (B)

∀ ˜

τ ∈ ˜

D

(11)

Reglas de Asociaci´

on Difusas

Las medidas de soporte, confianza y factor de certeza se

generalizan al caso difuso mediante la evaluaci´

on de sentencias

cuantificadas con el cuantificador Q(x) = x de la forma:

I

Dado A conjunto de ´ıtems, ˜

Γ

A

(˜

τ ) = ˜

τ (A).

I

Soporte de A es la evaluaci´

on de la sentencia cuantificada “Q

de los ˜

D son ˜

Γ

A

”.

I

Fsop(A → B) en ˜

D es la evaluaci´

on de la sentencia

cuantificada “Q de los ˜

D son (˜

Γ

A

∩ ˜

Γ

B

)”.

I

FConf(A → B), es la evaluaci´

on de la sentencia cuantificada

“Q de los ˜

Γ

A

son ˜

Γ

B

” .

(12)

Reglas de Asociaci´

on Difusas

Para evaluar la sentencia cuantificada “Q de los F son G”

usaremos el m´

etodo GD:

GD

Q

(G/F ) =

X

αi∈Λ(G/F )

(α

i

− α

i+1

) Q

|(G ∩ F )

αi

|

|F

_α_i

|

donde Λ(G/F ) = Λ(G ∩ F ) ∪ Λ(F ), siendo Λ(F ) el conjunto de

niveles de F , y Λ(G/F ) = {α

1

, . . . , α

p

} con α

i

> α

i+1

para

cualquier i ∈ {1, . . . , p − 1} donde α

p+1

= 0. El conjunto F

(13)

Reglas de Asociaci´

on Difusas

Ejemplo:

I

Conjunto de ´ıtems I = {i

1

, i

2

, i

3

, i

4

}

I

Conjunto de transacciones difusas

i

1

i

2

i

3

i

4

i

5

˜

τ

1

0.2

1

0.9

0.9 ˜

τ

2

1

0.8

0

0 ˜

τ

3

0.5

0.1

0.7

0.6

0 ˜

τ

4

0.6

0

0.5

0.5 ˜

τ

5

0.4

0.1

0.6

0

0 ˜

τ

6

0

1

0

I

τ

˜

6

es una transacci´

on crisp.

I

Algunos grados de pertenencia son: ˜

τ

1

({i

3

, i

4

}) = 0.9,

˜

(14)

Reglas de Asociaci´

on Difusas

Algunas reglas difusas que pueden encontrarse:

Regla

Fsop

FConf

FFC

{i

1

, i

2

} → {i

3

}

0.167

0.8

0.6

(15)

Reglas de Asociaci´

on An´

omalas

Idea: Las Reglas An´omalas surgen cuando se elimina el efecto dominante producido por la regla frecuente (csr) [Berzal et al., 2004]

I Interpretaci´on:

Cuando se da X, entonces tendremos Y (usual) o A (inusual)

I Esta sem´antica se captura con el conjunto de reglas: X implica de forma fuerte a Y , pero en los casos donde X implica ¬Y , entonces X implica confidentemente A

I Ejemplo:

“SI un paciente tiene s´ıntomas X,

ENTONCES normalmente tendr´a la enfermedad Y, SI NO, tendr´a la enfermedad A”,

(16)

Reglas An´

omalas Difusas

I Formalmente, let ˜DX = {t ∈ ˜D : X ⊂ t}.

I Unaregla an´omala difusaser´a una terna (F csr, F anom, F ref ) cumpliendo:

• X → Y (Fcsr) es frecuente y fiable en ˜D.

• ¬Y → A (Fanom) es fiable en ˜DX.

• A → ¬Y (Fref) es fiable in ˜DX.

I Ventajas:

• La cantidad de ternas (csr, anom, ref ) se reduce al usar el Factor de Certeza.

(17)

Experimentos y Resultados

Algunos problemas de implementaci´on:

I La extracci´on de reglas difusas es algor´ıtmicamente m´as costoso que extraer reglas crisp.

I Las reglas an´omalas son infrecuentes;Las t´ecnicas de poda no pueden usarse.

Soluci´on:

I Extraer reglas difusas mediante una paralelizaci´on por niveles.

(18)

Experimentos y Resultados

Bases de datos: Auto-mpg y German-statLog del repositorio UCI

Machine Learning.

I

Auto-mpg (cilindrada, peso, aceleraci´

on,...)

I

398 tuplas

(19)

Experimentos y Resultados

German-statLog (sobre cr´

editos y clientes de un banco alem´

an)

I

1000 transacciones

(20)

Experimentos y Resultados

I

Ejemplo de regla obtenida en Auto-mpg

“SI consumo=alto

EN T ON CES cilindrada = 4 (Fsop = 0.206 & FFC = 0.912)

O n.

de cilindros = en la media (inusual FFC

1

= 1, FFC

2

= 1)”.

Interpretaci´

on:

(21)

Conclusiones y Trabajos Futuros

I Hemos propuesto el uso de reglas an´omalas difusas pare representar el comportamiento an´omalo o inusual que se desv´ıa del normal.

I Usamos el Factor de Certeza, obteniendo un conjunto m´as peque˜no y fiable de reglas.

I Proponemos adaptar un algoritmo ya conocido para reglas difusas.

I Probado en distintas bases de datos donde se han fuzzificado varios atributos continuos.

Futuro: Desarrollar algoritmos m´as eficientes.

(22)

Referencias

[Berzal et al., 2004]F. Berzal, J.C. Cubero, N. Mar´ın, and M. G´amez. Anomalous association rules. In IEEE ICDM Workshop Alternative Techniques for Data Mining and Knowledge Discovery, 2004.

(23)