• No se han encontrado resultados

Reglas de Asociación Difusas para la Detección

N/A
N/A
Protected

Academic year: 2021

Share "Reglas de Asociación Difusas para la Detección"

Copied!
23
0
0

Texto completo

(1)

Reglas de Asociaci´

on Difusas para la Detecci´

on

de Anomal´ıas

M.D. Ruiz

, D. S´

anchez, M.J. Martin-Bautista,

M.A. Vila, M. Delgado

(2)

Motivaci´

on

I

Las Reglas de Asociaci´

on permiten identificar conocimiento

potencialmente nuevo, ´

util y comprensible para el usuario.

I

Representan la aparici´

on conjunta de un conjunto de ´ıtems en

la mayor´ıa de las transacciones de una base de datos.

I

Anteriores propuestas usan t´

ecnicas de miner´ıa de datos para:

• Descubrir los perfilesusualesdel comportamiento de los clientes

(3)

Motivaci´

on

I

Las Reglas de Asociaci´

on An´

omalas permiten la extracci´

on

de conocimiento mediante reglas de asociaci´

on, obteniendo:

• el patr´on usual/normal

• el patr´on an´omalo asociado al usual/normal.

I

Mucha de la informaci´

on disponible es imprecisa, ambigua o

incierta

;

Uso de la Teor´ıa de Subconjuntos Difusos

I

Propuesta:

Reglas Difusas An´

omalas

I

Ventajas:

1. Conocimiento comprensible y sem´anticamente significante para el usuario.

2. Comportamiento usual y el an´omalo asociado a ´este.

(4)

Campos de Aplicaci´

on

I

Seguridad, detecci´

on de fraude

I

An´

alisis de datos financieros

I

An´

alisis de flujos en redes de datos

(5)

Resumen

1. Trabajos relacionados

2. Breve Introducci´

on a las Reglas de Asociaci´

on Crisp y Difusas

3. Reglas de Asociaci´

on An´

omalas

(6)

Trabajos relacionados

Existen otros tipos de reglas infrecuentes que capturan

conocimiento que puede ser de inter´

es para el usuario:

I

Reglas Peculiares

I

Reglas Infrecuentes

I

Reglas de Excepci´

on

(7)

Reglas de Asociaci´

on Crisp

I Una base de datos D estar´a compuesta por transacciones ti (filas) y

atributos (columnas).

I Llamaremos ´ıtem a un par del tipo hatributo, valori or hatributo, intervaloi. D i1 i2 . . . ij ij+1 . . . im t1 1 0 . . . 0 1 . . . 0 t2 0 1 . . . 1 1 . . . 1 .. . ... ... . .. ... ... . .. ... tn 1 1 . . . 0 1 . . . 1

I UnaRegla de Asociaci´on es una expresi´on de la forma A → B donde A, B son conjuntos no vac´ıos de ´ıtems con intersecci´on vac´ıa.

(8)

Reglas de Asociaci´

on Crisp

I El soportede un itemset A se define como la probabilidad de que una transacci´on contenga a A

supp(A) = |t ∈ D : A ⊆ t| |D|

I Para validar la regla, se suele utilizar elsoporte(probabilidad conjunta P (A ∪ B)) y la conf ianza(probabilidad condicionada P (B|A))

Sop(A → B) = sop(A ∪ B)

|D| ; Conf(A → B) =

sop(A ∪ B) sop (A)

(9)

Reglas de Asociaci´

on Crisp

I Debido a algunos problemas al usar la confianza, usaremos como alternativa el uso delfactor de certeza, F C(A → B)

           Conf(A → B) − sop(B)

1 − sop(B) if Conf(A → B) > sop(B) Conf(A → B) − sop(B)

sop(B) if Conf(A → B) < sop(B)

0 en otro caso.

I El FC mide c´omo nuestra creencia de que B est´a en una transacci´on cambia cuando sabemos que A est´a en dicha transacci´on.

I El Factor de Certeza posee mejores propiedades que la confianza y que otras medidas, en particular, reduce el n´umero de reglas obtenidas filtrando aquellas que corresponden a dependencias negativas o independencia estad´ıstica.

(10)

Reglas de Asociaci´

on Difusas

I

I un conjunto finito de ´ıtems.

I

Una transacci´

on difusa es un subconjunto difuso no vac´ıo

˜

τ ⊆ I.

I

Un ´ıtem i ∈ I pertenecer´

a a ˜

τ con grado ˜

τ (i) ∈ [0, 1].

I

Un itemset A ⊂ I pertenecer´

a a ˜

τ con grado

˜

τ (A) = min

i∈A

τ (i)

˜

I

Una regla de asociaci´

on difusa A → B se cumplir´

a en ˜

D ⇔

˜

τ (A) ≤ ˜

τ (B)

∀ ˜

τ ∈ ˜

D

(11)

Reglas de Asociaci´

on Difusas

Las medidas de soporte, confianza y factor de certeza se

generalizan al caso difuso mediante la evaluaci´

on de sentencias

cuantificadas con el cuantificador Q(x) = x de la forma:

I

Dado A conjunto de ´ıtems, ˜

Γ

A

τ ) = ˜

τ (A).

I

Soporte de A es la evaluaci´

on de la sentencia cuantificada “Q

de los ˜

D son ˜

Γ

A

”.

I

Fsop(A → B) en ˜

D es la evaluaci´

on de la sentencia

cuantificada “Q de los ˜

D son (˜

Γ

A

∩ ˜

Γ

B

)”.

I

FConf(A → B), es la evaluaci´

on de la sentencia cuantificada

“Q de los ˜

Γ

A

son ˜

Γ

B

” .

(12)

Reglas de Asociaci´

on Difusas

Para evaluar la sentencia cuantificada “Q de los F son G”

usaremos el m´

etodo GD:

GD

Q

(G/F ) =

X

αi∈Λ(G/F )

i

− α

i+1

) Q

 |(G ∩ F )

αi

|

|F

αi

|



donde Λ(G/F ) = Λ(G ∩ F ) ∪ Λ(F ), siendo Λ(F ) el conjunto de

niveles de F , y Λ(G/F ) = {α

1

, . . . , α

p

} con α

i

> α

i+1

para

cualquier i ∈ {1, . . . , p − 1} donde α

p+1

= 0. El conjunto F

(13)

Reglas de Asociaci´

on Difusas

Ejemplo:

I

Conjunto de ´ıtems I = {i

1

, i

2

, i

3

, i

4

}

I

Conjunto de transacciones difusas

i

1

i

2

i

3

i

4

i

5

˜

τ

1

1

0.2

1

0.9

0.9

˜

τ

2

1

1

0.8

0

0

˜

τ

3

0.5

0.1

0.7

0.6

0

˜

τ

4

0.6

0

0

0.5

0.5

˜

τ

5

0.4

0.1

0.6

0

0

˜

τ

6

0

1

0

0

0

I

τ

˜

6

es una transacci´

on crisp.

I

Algunos grados de pertenencia son: ˜

τ

1

({i

3

, i

4

}) = 0.9,

˜

(14)

Reglas de Asociaci´

on Difusas

Algunas reglas difusas que pueden encontrarse:

Regla

Fsop

FConf

FFC

{i

1

, i

2

} → {i

3

}

0.167

0.8

0.6

(15)

Reglas de Asociaci´

on An´

omalas

Idea: Las Reglas An´omalas surgen cuando se elimina el efecto dominante producido por la regla frecuente (csr) [Berzal et al., 2004]

I Interpretaci´on:

Cuando se da X, entonces tendremos Y (usual) o A (inusual)

I Esta sem´antica se captura con el conjunto de reglas: X implica de forma fuerte a Y , pero en los casos donde X implica ¬Y , entonces X implica confidentemente A

I Ejemplo:

“SI un paciente tiene s´ıntomas X,

ENTONCES normalmente tendr´a la enfermedad Y, SI NO, tendr´a la enfermedad A”,

(16)

Reglas An´

omalas Difusas

I Formalmente, let ˜DX = {t ∈ ˜D : X ⊂ t}.

I Unaregla an´omala difusaser´a una terna (F csr, F anom, F ref ) cumpliendo:

• X → Y (Fcsr) es frecuente y fiable en ˜D.

• ¬Y → A (Fanom) es fiable en ˜DX.

• A → ¬Y (Fref) es fiable in ˜DX.

I Ventajas:

• La cantidad de ternas (csr, anom, ref ) se reduce al usar el Factor de Certeza.

(17)

Experimentos y Resultados

Algunos problemas de implementaci´on:

I La extracci´on de reglas difusas es algor´ıtmicamente m´as costoso que extraer reglas crisp.

I Las reglas an´omalas son infrecuentes;Las t´ecnicas de poda no pueden usarse.

Soluci´on:

I Extraer reglas difusas mediante una paralelizaci´on por niveles.

(18)

Experimentos y Resultados

Bases de datos: Auto-mpg y German-statLog del repositorio UCI

Machine Learning.

I

Auto-mpg (cilindrada, peso, aceleraci´

on,...)

I

398 tuplas

(19)

Experimentos y Resultados

German-statLog (sobre cr´

editos y clientes de un banco alem´

an)

I

1000 transacciones

(20)

Experimentos y Resultados

I

Ejemplo de regla obtenida en Auto-mpg

“SI consumo=alto

EN T ON CES cilindrada = 4 (Fsop = 0.206 & FFC = 0.912)

O n.

de cilindros = en la media (inusual FFC

1

= 1, FFC

2

= 1)”.

Interpretaci´

on:

(21)

Conclusiones y Trabajos Futuros

I Hemos propuesto el uso de reglas an´omalas difusas pare representar el comportamiento an´omalo o inusual que se desv´ıa del normal.

I Usamos el Factor de Certeza, obteniendo un conjunto m´as peque˜no y fiable de reglas.

I Proponemos adaptar un algoritmo ya conocido para reglas difusas.

I Probado en distintas bases de datos donde se han fuzzificado varios atributos continuos.

Futuro: Desarrollar algoritmos m´as eficientes.

(22)

Referencias

[Berzal et al., 2004]F. Berzal, J.C. Cubero, N. Mar´ın, and M. G´amez. Anomalous association rules. In IEEE ICDM Workshop Alternative Techniques for Data Mining and Knowledge Discovery, 2004.

(23)

ESTYLF 2014

Referencias

Documento similar

Podemos definir un estado del algoritmo mediante los siguientes elementos: el texto de entrada, el conjunto de reglas candidatas, la regla de mayor puntuaci´ on y el conjunto de

Si, como acabamos de señalar, el problema de la paradoja de la regla de revisión constitucional no sólo depende de las características internas de la regla (en concreto, de

Preliminares Los procesos infinitos y sus paradojas ¿Cu´ antos infinitos hay?. ¿A qu´ e

conquista en una línea de tiempo y las acciones que se llevaron a cabo para que la corona española cumpliera sus objetivos (incorporación de nuevos.. territorios, evangelización

La dispersi´ on (o difusi´ on) de la luz es el fen´ omeno mediante el cual la radiaci´ on electromagn´ etica, al chocar con peque˜ nas part´ıculas de tipo coloidal o

Amplitud y secci´ on eficaz de dispersi´ on. Aproximaci´ on de Born. Dispersi´ on por ´ atomos con nube electr´ onica. Teor´ıa de la dispersi´ on por ondas parciales.

Como en el caso de los tipos enteros, los lenguajes suelen soportar varios tipos real, de modo que el programador pueda seleccionar aquel cuyo rango y precisi´on en el coeficiente

El inconveniente operativo que presenta el hecho de que la distribuci´ on de probabilidad de una variable aleatoria es una funci´ on de conjunto se resuelve mediante el uso de