• No se han encontrado resultados

Detección No-Paramétrica de Estructuras Geométricas Anómalas en Redes

N/A
N/A
Protected

Academic year: 2021

Share "Detección No-Paramétrica de Estructuras Geométricas Anómalas en Redes"

Copied!
38
0
0

Texto completo

(1)

Detecci´

on No-Param´

etrica de

Estructuras Geom´

etricas An´

omalas en

Redes

Quantil S.A.S.

Juan Pablo Lozano

(2)

1 Descripci´on del Problema.

2 Preliminares.

(3)

Detectar cadenas de nodos an´omalos en redes. Lineales.

Anillos. Lattices 2D.

Lattices Multidimenasionales.

Se tiene una red de n nodos y se supone que cada nodo i en la

estructura se relaciona con una muestra aleatoria de una variable aleatoriaYi.

(4)

Evaluar la siguiente hip´otesis:

H0=Yi ∼P ∀i= 1, . . . , n. H1=Yi ∼Q parai∈R.

Donde R es una regi´on de nodos contiguos de la red, P y Q son

distribuciones tales queP 6=Q.

Es una prueba de hip´otesis compuesta pues se eval´uan todas las

regiones posibles de la red.

(5)

Problemas:

¿Qu´e pasa cuando n→ ∞? ¿Qu´e pasa con las pruebas?

(6)

Aplicaciones:

Secuencias an´omalas de ADN.

Virus en redes computacionales.

(7)

Seaχ un conjunto, F su “feature space” con producto interno yψ

el mapa entre ellos tal que:

ψ:χ→F dondex→ψ(x).

ComoFtiene producto interno, se puede evaluar como: k(x, x0) =

hψ(x), ψ(x0)i. A kse le llama funci´on kernel.

No se necesita saber la estructura de ψ para evaluar el producto

(8)

Sik es semi-definido positivo, siempre existe un ψ:χ→ Ftal que

k(x, x0) =hψ(x), ψ(x0)i.

Teorema (Representaci´on de Riesz)

SiA:H →R es un operador lineal acotado en un espacio de

HilbertH, existe ungA∈ H tal que: A(f) =hf, gAiH,∀f ∈ H

(9)

Definici´on

Para un conjunto arbitrarioχ yHun espacio de Hilbert sobre las

funcionesf :χ→R.

Se dice queH es un espacio de Hilbert con kernel reproducible si:

(10)

Proposici´on (Propiedad de Reproducci´on)

Para cadax∈χ existe una funci´onkx ∈ H tal que: Lx[f] =f(x) =hf, kxi,∀H ∈ H

Se dice quek es el kernel reproducible del puntox.

El RKHS est´a completamente caracterizado por su kernel

repro-ducible.

(11)

Cualquier funci´on mediblef sobre un conjuntoχen integrable sobre la medida de Dirac. M´as a´un:

R

f(t)dδx(t) =f(x).

Cuandof pertenece al espacio de Hilbert con kernel reproducible de

funciones sobreχ se tiene:

Z f(t)dδx(t) = Z hf, k(t,·)iHdδx(t) (1) = f, Z k(t,·)dδx(t) H (2) =hf, k(x,·)iH (3)

(12)

Se puede definir un feature mapψque vaya del espacio de medidas

de Dirac aHcomo:

δx→ R

χk(y,·)dδx(y).

La medida de Dirac es una medida de probabilidad sobre (χ,A).

DondeA es unaσ-´algebra sobre χ.

Se puede extender esto a medidas de probabilidad en general. SiM+1(χ)es el espacio de medidas de probabilidad sobre un espacio

medible χ, se puede definir la representaci´on en H de acualquier

medida de probabilidadPcomo:

(13)

A estas funciones se les conoce como embebimientos en espacios de

Hilbert. En particularµP es el embebimiento d media de la medida

P.

Proposici´on SiEχ∼P[

p

k(χ, χ)]≤ ∞entonces µP∈ H yEP[f(x)] =hf, µPiH

En otras palabras esta es la propiedad de reproducci´on del operador

de esperanza enH.

(14)

¿Para que se quiere hacer todo esto?

Por medio de funciones de kernel conocidas como kernels carac-ter´ısticos, se puede capturar toda la informaci´on de una distribuci´on

P. Lo que quiere decir que µP es inyectiva. (||µP−µQ||H = 0⇔

P=Q).

Por esta v´ıa se quiere llegar a hacer la prueba de hip´otesis que dice

(15)

Definici´on (MMD)

Para dos distribuciones de probabilidadPyQ, se define la medida

de m´axima discrepancia media (MMD) entre ellas como:

M M D[P,Q] = sup

||f||H≤1

EP[f(x)]−EQ[f(x)].

A partir de esta definici´on se puede mostrar tambi´en queM M D[P,Q] =

||µP −µQ||H. Se determina una m´etrica sobre distribuciones que permite saber si dos distribuciones son iguales o no.

(16)

MMD tiene un estimador no param´etrico insesgado que se define por medio de:

M M Du2[X, Y] = 1 n(n−1) n X i=1 n X j6=i k(xi, xj) + 1 m(m−1) m X i=1 m X j6=i k(yi, yj) (4) − 2 nm) n X i=1 m X j=1 k(xi, yj) (5)

Donde X = [x1, . . . , xn] y Y = [y1, . . . , ym] son muestras de dos

(17)

Comenzando con las redes m´as sencillas: redes lineales.

(18)

Se denominaI un conjunto de ´ındices de nodos consecutivos el cual se conoce como intervalo. Se quiere revisar si los nodos del intervalo est´an asociados a una distribuci´on distinta al resto de los nodos.

Sobre una red dennodos, se define el conjuntoIn(a)={I :Imin<|I|< Imax}.

Se supone que los intervalos de tama˜no delimitado entreIminyImax

son los posibles candidatos a ser an´omalos. La prueba de hip´otesis es entonces:

H0 :Yi es i.i.d. para todoi= 1, . . . , n de una distribuci´onP.

H1 : Existe un intervalo I ∈ In(a) tal que Yi∈I ∼ Q y Yi /∈I ∼ P.

(19)

La hip´otesis alternativa es compuesta ya que hay muchos

inter-valos de distintos tama˜nos en el conjunto de posibles candidatos

an´omalos.

Las distribuciones son arbitrarias y no se conocen a priori.

Es de inter´es ver que pasa cuando n→ ∞ y las repercusiones que

esto tiene en los l´ımites de los tama˜nos de intervalos an´omalos. Es

decir, se necesita cierto tama˜no de intervalos para que la prueba

funcione bien.

Para medir el desempe˜no del test se mira el riesgo minimaxRnm =

P(H1|H0) +max

i∈In(a)

(20)

Definici´on

Un test se dice consistente si el riesgo minimaxRnm →0cuando

(21)

Para cada intervaloI se tomaYI como las muestras del intervaloI

yYI como las muestras fuera del intervaloI.

Se computaM M D2u,I(YI, YI)para cada intervaloI ∈ In(a). Lo cual

es una estimaci´on deM M Du(P,Q).

Bajo la hip´otesis nula, todos los nodos son generados por la misma

distribuci´on lo que implica que para todos los intervalos evaluados

M M Du,I2 (YI, YI) = 0.

Bajo la hip´otesis alternativa, existe alg´un intervalo an´omalo que har´a que M M Du,I2 (YI, YI) se aleje de 0 pues las ditribuciones no

(22)

Especificamente se eval´ua el siguiente test para aceptar o rechazar la hip´otesis nula:

max I∈In(a) M M Du,I2 (YI, YI) ≥t, se rechaza H0 ≤t, se aceptaH0 Dondet es un umbral.

(23)

Teorema

Suponiendo el test anterior. Si el kernel est´a acotado

0< k(x, y)≤K para todox yy. Entonces los errores de tipo I y tipo II est´an acotados por:

P(H0|H1)≤ X i:Imin≤|I|≤Imax e− t2|I|(n−|I|) 8K2n P(H1|H0)≤e− (M M D2[p,q]−t)2|I|(n−|I|) 8K2n ,para todoI ∈ I(a) n

(24)

Adem´as, el test es (universalmente) consistente si:

Imin≥

16K2(1 +η)

t2 log(n)→Imin =ω(log(n))

Imax≤n−

16K2(1 +η)

t2 log . . . log un numero arbitrariok

(n)

→n−Imax= Ω( log . . . log

un numero arbitrariok

(n))

(25)

Si se conocen las distribuciones a priori, se puede definir un umbral

t= (1−δ)M M D2[

P,Q]para δ∈(0,1).

Si no se conocen las distribuciones entonces t se escala a medida

que lim

(26)

La idea es similar a las redes lineales. El n´umero de intervalos es diferente a las redes lineales.

El numero de intervalos es mayor pues no se reduce a medida que los nodos del intervalo aumenten.

(27)

Especificamente se eval´ua el siguiente test para aceptar o rechazar la hip´otesis nula:

max I∈In(a) M M Du,I2 (YI, YI) ≥t, se rechaza H0 ≤t, se aceptaH0 Dondet es un umbral.

(28)

Al igual que antes los errores se pueden acotar:

P(H0|H1)≤e2log(n)−

t2min{Imin(n−Imin),Imax(n−Imax)}

8K2n

P(H1|H0)≤e−

(M M D2[p,q]−t)2|I|(n−|I|)

8K2n ,para todoI ∈ In(a)

(29)

Adem´as, el test es (universalmente) consistente si:

Imin≥

16K2(1 +η)

t2 log(n)→Imin =ω(log(n))

Imax≤n−

16K2(1 +η)

t2 log(n) →n−Imax =ω(log(n))

(30)

Ya no se observan intervalos sino discos. Se deine entonces el con-junto de todos los posibles discos an´omalos.

Dn(a) = {D:Dmin ≤ |D| ≤Dmax}. Donde |D| es el n´umero de

(31)

Especificamente se eval´ua el siguiente test para aceptar o rechazar la hip´otesis nula:

max D∈Dn(a) M M Du,D2 (YD, YD) ≥t, se rechaza H0 ≤t, se aceptaH0 Dondet es un umbral.

(32)

Al igual que antes los errores se pueden acotar:

P(H0|H1)≤e3log(n)

−t

2min{

Dmin(n2−Dmin),Dmax(n2−Dmax)} 8K2n2

P(H1|H0)≤e−

(M M D2[p,q]−t)2|D|(n2−|D|)

8K2n ,para todoD∈ D(a)

n

(33)

Adem´as, el test es (universalmente) consistente si:

Imin≥

24K2(1 +η)

t2 log(n)→Imin =ω(log(n))

ElImax est´a acotado porcn2 donde c <1 por la geometr´ıa.

(34)

Tomando una red lineal y de anillo de 200 nodos, se calculo el riesgo minimax para distintos l´ımites del tama˜no de los intervalos.

Utilizaron un kernel gaussiano y definieron P ∼ N(0,1) y Q ∼

N(1,1).

Riesgo.png

(35)

Figure:Tablas del desempe˜no del algoritmo.

Se nota como a medida que se disminuyeImaxy se aumentaIminse mejora el desempe˜no. Esto es l´ogico pues

el n´umero de candidatos an´omalos disminuye (reduce la dificultad de detecci´on).

Adem´as aumenta el n´umero de muestras m´ınimas que deben haber dentro y fuera del intervalo, mejorando la informaci´on de las distribuciones.

(36)

Se compara el m´etodo contra distintos tests para una red lineal de 100 nodos:

t-test

Smirnov (KS multidimensional)

KDR (Kernel dimensionality reduction) (PCA con kernels) KFDA (Kernel fisher discriminant analysis)

MMD.

Se tom´oP∼ N(0,2)yQcomo una mixtura de gaussianasN)(−1,1)

yN(1,1)con igual probabilidad. De esta manera P y Q tienen la

(37)

Figure:Tablas de comparacion de algoritmos.

Los mejores resultados se tienen para KDR y MMD mientras que el t-test y Smirnov no son muy buenos.

T-test compara medias y desviaciones est´andar mientras que para

(38)

Zou S., Yiang Y., Poor V., 2016. Nonparametric Detection of Geometric Structures over Networks.

Muandet K. et al, 2016. Kernel Men Embedding of Distributions: A Review and Beyond.

Referencias

Documento similar

La invalidez en el MMPI por no respuestas no se considera criterio positivo (sólo se puede considerar tal posibilidad en caso de daño neurológico que justifique tal estilo

Gastos derivados de la recaudación de los derechos económicos de la entidad local o de sus organis- mos autónomos cuando aquélla se efectúe por otras enti- dades locales o

1. LAS GARANTÍAS CONSTITUCIONALES.—2. C) La reforma constitucional de 1994. D) Las tres etapas del amparo argentino. F) Las vías previas al amparo. H) La acción es judicial en

Pero antes hay que responder a una encuesta (puedes intentar saltarte este paso, a veces funciona). ¡Haz clic aquí!.. En el segundo punto, hay que seleccionar “Sección de titulaciones

El contar con el financiamiento institucional a través de las cátedras ha significado para los grupos de profesores, el poder centrarse en estudios sobre áreas de interés

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados

A medida que las organizaciones evolucionan para responder a los cambios del ambiente tanto para sobrevivir como para crecer a partir de la innovación (Stacey, 1996), los

En cuarto lugar, se establecen unos medios para la actuación de re- fuerzo de la Cohesión (conducción y coordinación de las políticas eco- nómicas nacionales, políticas y acciones