Estimación de dimensión intrínseca de variedades de datos

(1)

Estimaci´

on de Dimensi´

on Intr´ınseca en

Variedades de Datos

Autor

Juan Sebastian Osuna Barreto

Universidad de los Andes

Asesor

Adolfo Quiroz, Ph.D.

Universidad de los Andes

Tesis de Pregrado

Departamento de Matem´

aticas

Facultad de Ciencias

Universidad de los Andes

Bogot´

a D.C., Colombia

Diciembre de 2013

(2)

Dedicado a mis progenitores, H´ector y Martha, por su gran apoyo e infinita paciencia, y a mi hermana Mar´ıa Paula por su cari˜no incondicional.

(3)

´

_{Indice general}

1. Resumen 1

2. Introducci´on 2

2.1. Estructura del documento . . . 3

2.2. Notaci´on . . . 4

3. Preliminares 6 3.1. Grafos . . . 6

3.1.1. MST . . . 7

3.2. Vecinos m´as cercanos . . . 8

3.3. Generaci´on de datos . . . 9

3.3.1. Esfera d-dimensional_Sd _[_Sd_] _{. . . .} ₉

3.3.2. Swiss Roll [SR] . . . 10

3.3.3. Toro _S1×_S1 _[_T_{] . . . .} ₁₁

3.3.4. Paraboloide d-dimensional Pd _[_Pd_{] . . . .} ₁₂

3.3.5. Superficie suave [M1] . . . 13

3.3.6. Variedad producto M1×T [M2] . . . 14

3.3.7. Dimensiones redundantes . . . 15

4. Estimaci´on de la dimensi´on intr´ınseca 17 4.1. Levina-Bickel . . . 17

4.2. Farahmand et al. . . 18

4.3. Sricharan et al. . . 20

4.4. Alcance (Quiroz et al.) . . . 22

4.5. Grados del MST (Quiroz et al.) . . . 24

4.6. Di´ametro del MST local . . . 25

4.7. Entrenamiento Bayesiano . . . 27

(4)

´

INDICE GENERAL _iii

5. Resultados 29

(5)

´

_{Indice de figuras}

3.1. Datos en_S1 _y

S2 . . . 10

3.2. Datos en el Swiss Roll. . . 11

3.3. Datos en el toro . . . 12

3.4. Vistas de los datos en P2_{. . . .} ₁₃

3.5. Vistas de los datos en la superficie suaveM1. . . 14

4.1. Dn contra n en el cubo unitario 2-dimensional (Cubo 2-dimensional). . . 26

4.2. Gr´afica loglog de Dn contra k (Cubo 2-dimensional). . . 26

4.3. Gr´afica loglog de Dn contra k para varias dimensiones. . . 27

5.1. 25 Muestras de _S8_{; dimensi´}_{on estimada promedio: 7.4 . . . . .} ₃₄

5.2. 25 Muestras de _S1_× S1; dimensi´on estimada promedio: 2 . . . 34

(6)

Lista de Tablas

3.1. Dimensiones de los datos utilizados. . . 16

5.1. Dimensiones de las muestras generadas. . . 29

5.2. Resultados para Levina-Bickel, Farahmand y Sricharan. . . 30

5.3. Par´ametros del entramiento Bayesiano. . . 31

5.4. Resultados del entramiento Bayesiano. . . 31

5.5. Resultados para Alcance y Grados del MST. . . 32

5.6. Resultados de las rectas para el algoritmo de Di´ametros. . . . 32

5.7. Resultados para Di´ametro. . . 33

(7)

Resumen

En este documento se presenta una evaluación de cinco algoritmos de estimación de dimensión intr´ınseca global de datos propuestos en la literatura. Los algoritmos estudiados fueron propuestos por (M.R. Brito, A.J. Quiroz, J.E.Yukich),[1][2], (A. Farahmand, C. Szepesvári, J.Y. Audibert), [3], (E. Levina, P.J. Bickel), [4], y (K. Sricharan, R. Raich, A.O. Hero),[5]. Los algoritmos se evaluaron con conjuntos de datos de variedades comunmente utilizadas en la literatura, como la esfera d-dimensional _Sd, el

Swiss Roll, el toro _S1 _×

S1 y el paraboloide d-dimensional; tambi´en se construyeron otros conjuntos de datos basados en superficies suaves en _R3 _y

en variedades producto.

Adicionalmente, se continuó la búsqueda de estad´ısticos de la dimensión intr´ınseca basados en grafos inspirado en el trabajo de Quiroz et al. [1] para lo cual se propone un nuevo algoritmo basado en el diámetro del M´ınimo

´

Arbol Recubridor del grafo de los k-Vecinos M´as Cercanos.

(8)

Introducci´

on

Cuando trabajamos con datos con altas dimensiones, es común encontrarse con conjuntos de datos que son representables es una dimensión mucho menor. Tal es el caso en procesamiento de imágenes, donde, por ejemplo una foto de n ×m pixeles puede estar representada como un punto en un espacio de dimensiónn×m×3, viendo cada pixel en representación RGB. Por esto, es natural preguntarse, si es posible representar los datos originales en dimensiones más bajas, sin perder la información de los datos.

Todo un campo de investigación llamado Manifold Learning se ha desarrollado alrededor de este problema. El objetivo de Manifold Learning, también llamado Reducción Dimensional No-lineal, es reconstruir la variedad M donde en realidad viven los datos. La dimensión de dicha variedad es conocida como la dimensión intr´ınseca y la podemos interpretar como el número de componentes independientes necesarios para caracterizar los datos originales.

Ser capaz de reducir la dimensión de los datos es una de las herramientas esenciales para algunos algoritmos de Manifold Learning, mejorando su eficiencia y evitando la Maldición de las Altas Dimensiones1. Sin embargo, lo métodos de reducción dimensional requieren algunos pasos de pre procesamiento de los datos antes de poder ser utilizados, entre estos se encuentra la estimación de la dimensión intr´ınseca (en caso de no ser conocida a priori).

1_{Este t´}_{ermino fue acu˜}_{nado por Richard Bellman en 1961 en su libro}_{Adaptive Control}

Processes: A Guided Tour. En nuestro contexto, la Maldici´on de las Altas Dimensiones hace referencia a que en altas dimensiones, la distancia entre dos puntos cercanos tiende a converger, lo que dificulta distinguirlos.

(9)

CAP´ITULO 2. INTRODUCCI ´ON 3

En este documento estudiamos el caso en el que tenemos datos en _Rd _y

suponemos que estos datos en realidad viven en una subvariedad M de _Rd

C1 _{y de dimensi´}_on _m_, _m _≤ _d_{, dotada con la topolog´ıa de subespacio.}

Nuestro objetivo es evaluar algunos algoritmos que dan lugar a estimadores de la dimensi´on de Ma partir de una muestra i.i.d.

Los algoritmos tratados en este documento se pueden clasificar como métodos basados en Vecinos Más Cercanos (VMC) y métodos basados en grafos. Entre los métodos basados en VMC se encuentran el de Levina-Bickel[4], Farahmand et al.[3] y Sricharan et al.[5]. As´ı mismo, los algoritmos basados en grafos son los de Alcance y Grados del MST; ambos de Quiroz et al.[1][2].

Adicionalmente, se propone un nuevo algoritmo basado en el di´ametro del MST del grafo de los Vecinos M´as Cercanos.

2.1. Estructura del documento

Este documento est´a estructurado de la siguiente manera

Cap´ıtulo 1.

Resumen: se describe brevemente el contenido de este documento; la motivaci´on, el trabajo realizado y los resultados obtenidos.

Cap´ıtulo 2.

Introducción: se detalla el propósito del trabajo realizado, se traza la estructura del documento y se especifica la notación usada.

Cap´ıtulo 3.

Preliminares: se describe brevemente detalles de la teor´ıa y como se generaron los datos usados para la evaluaci´on de los algoritmos.

Cap´ıtulo 4.

Estimación de la dimensión intr´ınseca: se enumeran y describen los algoritmos analizados en este documento para la estimación de dimensión intr´ınseca de variedades de datos.

(10)

Cap´ıtulo 5.

Resultados: se documenta los resultados obtenidos.

Cap´ıtulo 6.

Conclusiones: se analizan los resultados obtenidos durante la evaluaci´on de los algoritmos.

2.2. Notaci´

on

Sd : Esfera unitaria d-dimensional en Rd+1.

Pd _{: Paraboloide} _d_{-dimensional en}

Rd+1.

Nd₍_{µ, σ}2_{) : Distribuci´}_{on normal multivariada de dimensi´}_on_d _{con media}_µ_y

varianza σ2_.

Exp(λ) : Distribuci´on exponencial con par´ametro λ.

Gamma(α, β) : Distribuci´on Gamma con par´ametrosα y β.

Xn,Yn,Zn, . . . : Muestras generales de tama˜non.

x(i) _{: Si} _x_∈

Rm, x(i) denota la i-´esima coordenada de x (1≤i≤m).

kxk : Norma eucl´ıdea dex.

Ck : Una funci´on f :_Rm →_Rd _es _Ck _si _f _{es continua y todas sus derivadas}

parciales de orden menor e igual a k son continuas.

C∞ : Una funci´on f :_Rm _→

Rd esC∞ sif esCk para todok ≥1.

MST : Minimum Spanning Tree (M´ınimo ´Arbol Recubridor)

Tk(x) : Para una muestraXn,Tk(x) es la distancia eucl´ıdea dexa suk-vecino

m´as cercano enXn.

Las muestras de n datos de las variedades se denotan de las siguientes maneras:

- _Sd: S_nd

(11)

- _S1_×

S1: Tn

- Pd_: _Pd n

- Superficie Suave:M1n

(12)

Preliminares

3.1. Grafos

Recordemos que un grafo G es una pareja (V, A) donde V es un conjunto cuyos elementos son llamados v´ertices y A es un subconjunto de P(V) tal que cada elemento de A tiene exacatamente 2 elementos, y cada elemento de A se llama arista. Si para x, y ∈ V,{x, y} ∈ A se dicen que x e y est´an

conectados. Si x ∈ V el grado de x, deg(x), se define como el n´umero de elementos en el conjunto {y ∈ V : {x, y} ∈ A}. Un camino en G es una sucesi´on x1, . . . , xn de elementos distintos de V tal que

{{x1, x2},{x2, x3}, . . . ,{xn−1, xn}} ⊂ A; decimos que tal camino tiene

longitud n. Decimos que un grafo G tiene pesos si existe una funci´on

f : A → _R que a cada arista le asigna un valor llamado su peso; f es llamada la funci´on de pesos.

Decimos que un grafo G tiene ciclos si existe x ∈ V tal que existe un camino x1, . . . , xn con n > 1 tal que x1 = x y xn = x. G es conexo si para

todo x ∈ V y todo y ∈ V existe un camino que conecta x e y. Un ´arbol A

enG es un subgrafo conexo de Gsin ciclos. Eldi´ametro de un ´arbolA deG

es la longitud del camino m´as largo en A.

Dado un ´arbol A el siguiente es un algoritmo lineal que calcula el di´ametro de A:

(13)

CAP´ITULO 3. PRELIMINARES 7

Algoritmo 1 Algoritmo lineal para calcular di´ametro de un ´arbol.

Entrada: Arbol´ A

Salida: Di´ametro de A, diam(A)

1: x←v´ertice cualquiera;

2: y←v´ertice m´as lejano ax;

3: x←v´ertice m´as lejano ay;

4: devolver n´umero de aristas entre y y x;

3.1.1. MST

Sea G un grafo conexo con pesos, el MST (Minimum Spanning Tree) o M´ınimo Árbol Recubridor de G es el único árbol de G tal que los vértices del MST son los mismos que los de G y la suma de los pesos de las aristas del MST es m´ınima.

Algunos algoritmos conocidos para encontrar el MST de un grafo son los algoritmos de Prim, Kruskal, Boruvka y Bentley-Friedman[7]. Para m´as detalles ver [8].

Para todos los algoritmos en los que se requirió calcular el MST se utilizó el algoritmo de Friedman, descrito a continuación.

(14)

Algoritmo 2 Algoritmo de Friedman para encontrar el MST.

Entrada: Grafo conexo con pesos G= (V, A)

Salida: MST de G

1: M ST ={}

2: dnn←pesos de los arcos

3: mientras V tenga vertices sin marcar hacer

4: m←arista no marcada con m´ınimo valor en dnn;

5: Agregar m aM ST;

6: Marcar m;

7: V2←vertices deG\V ert(M ST) conectados a alg´un vertice de M ST;

8: para todov ∈V2 hacer

9: d←peso m´ınimo de v a los vertices conectados en M ST;

10: r ←arco correspondiente ad;

11: si d < peso(m) entonces 12: Cambiar el paso de r endnn;

13: fin si 14: fin para 15: fin mientras

16: devolver lista de aristas del MST

3.2. Vecinos m´

as cercanos

El concepto de vecinos más cercano hace referencia a ordenar un conjunto de puntos según su distancia a otro punto de referencia. Para los fines de este documento, basta hacer la definición para conjuntos finitos. Formalmente, sea X = {x1, . . . , xn} un subconjunto finito de un espacio eucl´ıdeo V. Sea

y∈V. El 1-vecino m´as cercano ay enX es

n1 = arg m´ın

x∈X kx−yk (3.1)

Notemos que si y ∈X entonces n1 =y.

El k-vecino m´as cercano ay en X es

nk = arg m´ın x∈X\Nk−1

(15)

donde Nk−1 ={n1, n2, . . . , nk−1}.

El conjunto Nk son losk-vecinos m´as cercanos de y enX.

3.3. Generaci´

on de datos

Para estudiar los métodos de estimación de la dimensión, se utilizaron muestras de distintas variedades. La mayor´ıa de estas variedades son de baja dimensión, de 2 a 4, sin embargo algunas variedades son facilmente generalizables a dimensiones más altas, lo cual permite un estudio más exhaustivo. Las variedades que permitieron tal generalización son la esfera y el paraboloide.

Algunas de las variedades utilizadas se encuentran comunmente en la literatura como los conjuntos estándar para realizar pruebas de los métodos de estimación y reducción dimensional. Por lo tanto, decidimos crear conjuntos de datos distintos y más complejos. En particular, se utilizaron muestras de una variedad producto, la cual provee una estructura distinta, con el fin de realmente poner a prueba los algoritmos analizados.

A continuaci´on se describe como se generaron las muestras en las distintas variedades utilizadas.

3.3.1. Esfera

d

-dimensional

_S

d

[

S

d

]

La esfera d-dimensional se define como

Sd ={x∈Rd+1 :kxk= 1} ⊂Rd+1 (3.3) con la topolog´ıa de subespacio heredada de la topolog´ıa usual de _Rd+1.

Dada esta definici´on, es posible demostrar que la dimensi´on intr´ınseca de la esfera d-dimensional es d. En particular, note que para todo x∈_Sd

x(d+1) =±p1−x(1)₊_{· · ·}₊_x(d) _(3.4)

Para la generaci´on de una muestra normalSd

ncon ndatos enSd, se tom´o una

(16)

Nd+1₍₀_,_{1) y se normalizaron los datos de la muestra, es decir}

S_nd =

x

kxk :x∈ Xn

⊂_Sd _(3.5)

Figura 3.1: Datos en _S1 _y

S2

3.3.2. Swiss Roll

[

SR

]

El Swiss Roll es una superficie en _R3 similar a un espiral. Como variedad, consideramos el Swiss Roll como subespacio topologico de _R3, con dimensi´on intr´ınseca 2.

(17)

Figura 3.2: Datos en el Swiss Roll.

La construcción de las muestras en el Swiss Roll se realizó tomando n datos de una distribución normal estandar N2₍₀_,_{1), luego se particionaron los}

datos en 4 clusters con centros en (7.5,7.5), (7.5,10.5), (12.5,7.5) y (12.5,10.5). Finalmente, se utiliz´o la parametrizaci´on

f(x, y) = (xcosx, y, xsinx) (3.6) sobre cada cluster. El resultado es un conjunto de puntos como se muestran en la Figura (3.2).

3.3.3. Toro

_S

1

×

_S

1

[

T

]

Dentro del contexto de este documento, consideraremos al toro simplemente la superficie cerrada en _R3_{, con radio interno 1 y radio exterior 2,}

parametrizada por

f(x, y) = ((2 + cosy) cosx,(2 + cosy) sinx,siny) (3.7) Con esta parametrizaci´on, es posible demostrar que nuestro toro es una variedad C∞ con dimensi´on intr´ınseca 2.

(18)

La creaci´on de muestras Tn de puntos en el toro sea realiz´o tomando dos

muestrasXn,Yn distribuidas uniformemente en el intervalo [0,2π] de tama˜no

n y aplicando la parametrizaci´on (3.7) a Xn× Yn; en otras palabras

Tn={f(x, y) :x∈ Xn, y ∈ Yn} ⊂S1×S1 (3.8)

Figura 3.3: Datos en el toro

3.3.4. Paraboloide

d

-dimensional

P

d

_[

_P

d

_]

Una muestra de n datos en el paraboloide d-dimensional es un subconjunto de _Rd+1

P_nd=x∈_Rd+1 _{: (}_x(1)₎2_{+ (}_x(2)₎2₊_{· · ·}_{+ (}_x(d)₎2₋_x(d+1) _{= 0} _{⊂ P}d _(3.9)

de tama˜non.

Para la construcci´on de los conjuntos de datos, se tomaron d muestras

Xn,1, . . . ,Xn,d de tama˜no n de una distribuci´on Burr 1, Burr(1,1,1), y se

1_{La distribuci´}_{on Burr Type XII es una distribuci´}_{on log´ıstica continua positiva tal que}

Burr(a, b, c) ∼ 1 +_GammaExp(a₍)_b,c₎

−b

. En este caso, a y b son parámetros de forma de la distribución, ycun parámetro de escala.

(19)

construy´o Pd

n concatenando las muestras y la suma de los cuadrados de las

coordenadas, es decir

P_nd=

(

(x(1), . . . , x(d), x(d+1))∈_Rd+1 _:_x(i) _{∈ X}

n,i, x(d+1) = d

X

i=1

x(i)2

)

(3.10)

Figura 3.4: Vistas de los datos en P2_.

El usar datos de la distribuci´on Burr hace que los puntos en el paraboloide obtenidos tengan todas sus coordenadas positivas y que haya una mayor densidad de puntos cerca al origen.

3.3.5. Superficie suave

[

M

1]

La variedad M1 utilizada para probar los algoritmos, es la superficie suave parametrizada por

f(x, y) = (x, ycosx, xsinx) (3.11) donde 0 ≤x≤1 y−5≤y≤5.

Si consideramos la superficie con la topolog´ıa de subespacio heredada de R3, es f´acil ver que M1 es una variedad cerrada y compacta.

(20)

Adicionalmente, es claro que f esC∞ en (0,1)×(−5,5).

Para tomar una muestraM1nde tama˜non enM1, se tomaron dos muestras

Xn,Yn tal que Xn se distribuye uniformemente en el intervalo [−5,5] , y Yn

se distribuye normal est´andar, N(0,1), de manera que

M1n ={f(x, y) :x∈ Xn, y ∈ Yn} ⊂R3 (3.12)

De la parametrizaci´on (3.11) es claro que la dimensi´on intr´ınseca de la superficie es 2.

Figura 3.5: Vistas de los datos en la superficie suaveM1.

3.3.6. Variedad producto

M

1 ×

T

[

M

2]

La variedad M2 es la variedad producto de M1 y el toro. Como conjunto,

M2 :=(x, y) :x∈M1, y ∈_S1_×

S1 , (3.13)

(21)

Ya que tantoM1 como el toro son subconjuntos de_R3_,_M_{2 es subconjunto de}

R6. As´ı mismo, la dimensi´on intr´ınseca deM2 es 4; la suma de las dimensiones de M1 y el toro.

3.3.7. Dimensiones redundantes

Con el fin realizar una evaluación más robusta de los algoritmos, decidimos añadir ruido en los datos para ver que tanto de este ruido pueden filtrar los algoritmos. El ruido se introdujo en forma de dimensiones reduntantes. Las dimensiones redudantes son coordenadas adicionales, cuyos valores son dependientes de las coordenadas reales.

Una adici´on de dimensiones redundantes a una muestra Xn es una funci´on

inyectiva

R :Xn ⊂Rd→Rt;

x7→(x, g1(x), g2(x), . . . , gn(x))

(3.14)

tal que t > d, gi es una funci´on de Xn enRti y d+

P

ti =t.

Es obvio que para todo x ∈ Xn, x concuerda con las d primeras

coordenadas de R(x), de tal manera que la informaci´on de la muestra no se pierde al agregarle dimensiones redundantes.

Si R : Xn ⊂ Rd → Rt es una adici´on de coordenadas redundantes a Xn,

decimos que d es la dimensi´on real de la muestra y t es la dimensi´on presentada.

Algunos ejemplos de adiciones de dimensiones redudantes utilizadas fueron:

R1 :Xn⊂Rd→R3d;

x7→(x,sinx, x2) (3.15) donde sinx y x2 _{se consideran como funciones aplicadas a cada componente}

(22)

R2 :Xn ⊂Rd1 ×Rd2 →R3d1+9d2

(x, y)7→R1(x, R1(y))

(3.16)

Ac´a notemos que (x, R1(y))∈Rd1+3d2.

Rl₃ :Xn⊂Rd→Rld

x7→(x, x2, . . . , xl) (3.17) Para la evaluaci´on de los algoritmos, fueron utilizadas estas 3 adiciones de dimensiones redundantes para muestras en el Swiss Roll, el toro y la variedad producto, a saber, se utilizar´o R1 para el toro, R2 para la variedad

pregunta y, R1

3, R23, R33 para el Swiss Roll.

A continuaci´on se muestran las dimensiones con las que algoritmos trabajaron.

Variedad Dimensi´on presentada

Dimensi´on real

Dimensi´on intr´ınseca

Sd d+ 1 d+ 1 d

(Swiss Roll)γ 3γ 3 2

S1×S1 9 3 2

Pd _d_{+ 1} _d_{+ 1} _d

M1 3 3 2

M2 36 6 4

(23)

Estimaci´

on

de

la

dimensi´

on

intr´ınseca

4.1. Levina-Bickel

En [4], Levina & Bickel proponen un estimador local ˆm(x) de m´axima

verosimilitud de la dimensi´on intr´ınseca para un punto x ∈ M. Bajo la hip´otesis de que todos los punto de una muestra Xn = {X1, . . . , Xn} i.i.d

viven en la misma variedad M, Levina-Bickel proponen un estimador global como el promedio de ˆm(Xi) conXi ∈ Xn.

Para un >0, el estimador local propuesto por Levina-Bickel es

ˆ

m(x) =





1

N(, x)

N(,x) X j=1 ln Tj(x)





−1

(4.1)

donde N(, x) es el n´umero de puntos en Xn dentro de la bola de radio

centrada en x y Tj(x) es la distancia eucl´ıdea de x al j-´esimo punto m´as

cercano en Xn.

Sin embargo, nuestro prop´osito es estimar la dimensi´on de M suponiendo que Xn ⊂ M, de manera que en vez observar bolas de radio podemos

observar los k vecinos m´as cercanos a x en Xn. Entonces, si yk es el k + 1

vecino m´as cercano ax enXn, esto es equivalente a tomar =kx−ykk.

Entonces, para k >3 fijo, el estimador en 4.1 se vuelve

ˆ

mk(x) =

1

k−2

k−1

X

j=1

ln

Tk(x)

Tj(x)

!−1

. (4.2)

(24)

CAPÍTULO 4. ESTIMACI ÓN DE LA DIMENSI ÓN INTRÍNSECA 18

Cabe notar que el k − 1 en la sumatoria del estimador se debe a que, si

x∈ Xn, el vecino m´as cercano a x enXn va a ser xmismo y por lo tanto se

excluye este caso. Similarmente, expresi´on en 4.2 se divide por k −2 para que el estimador sea insesgado.

De manera que, dado unk > 3 fijo, el estimador de m´axima verosimilitud de la dimensi´on de M es

ˆ

m= 1

n

X

i=1

ˆ

mk(Xi) (4.3)

Dada una muestraXni.i.d, el estimador de m´axima verosimilitud ˆmse puede

calcular con el siguiente algoritmo.

Algoritmo 3 Algoritmo para calcular el estimador de Levina-Bickel

Entrada: Muestra Xn ={x1, . . . , xn}; n´umero de vecinos a observar k

Salida: mˆ

1: m←0;

2: para todo x∈ Xn hacer

3: mk ←0;

4: para j = 1 hasta k−1hacer

5: xk ←k-vecino m´as cercano ax en Xn;

6: dk ← distancia(x, xk);

7: xj ←j-vecino m´as cercano a x enXn;

8: dj ← distancia(x, xj);

9: mk←mk+ln(dk/dj);

10: fin para

11: m←m+ ((k−2)/mk);

12: fin para

13: devolver m/n;

4.2. Farahmand et al.

El algoritmo propuesto por Farahmand et al. en [3], sigue un procedimiento similar el de Levina-Bickel; define un estimador local dˆ(x) para la dimensi´on y luego define el estimador de la dimensi´on intr´ınseca ˆm como el promedio de ˆd(Xi) sobre la muestra Xn ={X1, . . . , Xn} ⊂Rd.

(25)

Defina η(x, ) tal que

P({Xi ∈B(x)}) = η(x, )m (4.4)

donde B(x) es la bola abierta centrada enx de radio y m es la dimensi´on

de M.

Esto es equivalente a

ln(P({Xi ∈B(x)})) = ln (η(x, )) +mln () (4.5)

Ahora, como Mes una variedad, podemos suponer que η(x, ) es constante en B(x) con suficientemente peque˜no, ya que M es localmente plana1

por ser una variedad.

De la misma manera que llegamos al estimador local 4.2 de Levina-Bickel, en vez de observar las bolas alrededor dex, observemos solamente los puntos de Xn m´as cercanos a x. Sea X(k) elk-vecino m´as cercano a x en Xn, y sea

k = Tk(x) =k X(k)−x k, en [3], Farahmand et al. demostraron que para n

suficientemente grande

P({Xi ∈Bk(x)})≈k/n (4.6)

De manera que, reemplazando en 4.5 para k y k/2 obtenemos ln(k/n)≈ln(ηk) +mln(Tk(x))

ln(k/(2n))≈ln(ηk) +mln(Tdk/2e(x))

(4.7)

Finalmente, restando las ecuaciones en 4.7 y despejando m, obtenemos el estimador local de Farahmand

ˆ

d(x) = ln(2)

ln(Tk(x)/(Tdk/2e(x))

(4.8)

Y el estimador de la dimensi´on intr´ınseca de Farahmand et al. es

ˆ

m= 1

n

X

i=1

min( ˆd(Xi), d) (4.9)

(Recordemos que Xn ={X1, . . . , Xn} ⊂Rd).

El algoritmo para calcular el estad´ıstico de Farahmand et al. es

1_{Al decir que} _M _{es localmente plana nos referimos a que es localmente difeomorfa a}

(26)

Algoritmo 4 Algoritmo para calcular el estimador de Farahmand et al.

Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar k;

dimension obsevada d

Salida: mˆ

1: m←0, k2← dk/2e;

3: xk←k-vecino m´as cercano a x enXn;

4: rk← distancia(x, xk);

5: xk2 ←k2-vecino m´as cercano a x enXn;

6: rk2 ←distancia(x, xk2);

7: dx ←ln(2)/ln(rk/rk2);

8: m←m+min(d, dx);

9: fin para

10: devolver m/n;

4.3. Sricharan et al.

Sricharan et al. proponen un algoritmo más directo para estimar la dimensión intr´ınseca. Sea Xn una muestra i.i.d de tamaño n. Particione Xn

en dos submuestras disjuntas YN, ZM de tama˜nos N y M respectivamente

tal que N +M =n.

Defina Lk(Xn) como

Lk(Xn) =

γ N

N

X

i=1

ln (Tk(Xi)) (4.10)

tal que γ >0 y Xi ∈ YN.

Finalmente, como se muestra en [5] y [1], el estad´ıstico de la dimensi´on intr´ınseca de Sricharan et al. es

ˆ

m =γln(k2−1)−ln(k1−1) Lk2(Xn)−Lk1(Xn)

(4.11)

(27)

Algoritmo 5 Algoritmo para calcular el estimador de Sricharan et al.

Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar 2 <

k1 < k2; constante γ; tama˜no de la partici´on N

Salida: mˆ

1: m←0;

2: M ←n−N;

3: Y_N ← {x1. . . , xN};

4: Z_M ={xN+1, . . . , xn};

5: para todo x∈ YN hacer

6: xk←k1-vecino m´as cercano ax enZM;

8: m1 ←m1+γln(rk)/N;

9: fin para

10: para todo x∈ YN hacer

11: xk←k2-vecino m´as cercano ax enZM;

13: m2 ←m2+γln(rk)/N;

14: fin para

(28)

4.4. Alcance (Quiroz et al.)

Sea Xn = {X1, . . . , Xn} una muestra i.i.d. El grafo de los k-vecinos m´as

cercanos de Xn, Gk(Xn), se define como el grafo con pesos cuyos v´ertices

son los elementos de Xn y entre dos v´ertices x, y existe una arista si y solo

si x es uno de los k-vecinos más cercanos a y o y es uno de los k-vecinos más cercanos a y en Xn. Los pesos las aristas de Gk(Xn) están dados por la

distancia eucl´ıdea entre los v´ertices conectados por la arista.

Si x1 y x2 son v´ertices en Gk(Xn), decimos que x2 puede ser alcanzado en j

pasos desde x1 si existe un camino v0, v1, . . . , vj tal que v0 = x1 y vj = x2.

Definamos el número rj,k(x,Xn) como el número de vértices que pueden ser

alcanzados desde x enj o menos pasos en Gk(Xn).

Como se explica en [1], la intuición indica que a medida que la dimensión se incrementa hay más direcciones en las cuales pueden haber caminos, de manera que el cada punto en Gk(Xn) puede tener un mayor alcance dentro

del grafo.

Algoritmo 6 Algoritmo para calcular el estad´ıstico de Alcance.

Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar k;

n´umero de pasos j

Salida: r¯j,k(Xn)

1: Construir el grafo Gk de losk-vecinos m´as cercanos;

2: r ←0;

4: rj ←0;

5: para i= 1 hasta j hacer

6: rj ←rj+ n´umero de v´ertices alcanzables en ipasos;

7: fin para 8: r←r+rj;

9: fin para

10: devolver r/n;

(29)

de rj,k(x,Xn) sobre la muestra.

¯

rj,k(Xn) =

1

n

X

i=1

rj,k(Xi,Xn) (4.12)

Claramente ¯rj,k(Xn) no es un estimador directo de la dimensi´on intr´ınseca,

de manera que es necesario pasar ¯rj,k(Xn) por el proceso de entrenamiento

Bayesiano descrito en la Secci´on 4.7 para obtener un estimador ˆ

m(¯rj,k(Xn)).

La validez de est´a procedimiento esta justificada por el siguiente resultado sobre el comportamiento asint´otico de ciertos funcionales, demostrado por Quiroz et al.

Sea M una subvariedad cerrada m-dimensional C1 _de

Rd y sea κ una densidad de probabilidad continua casi siempre, acotada con soporte compacto sobre M. Si Xn es una muestra i.i.d. con densidad κ entonces,

dado j , para todo k∈_N enL2 _{y casi siempre}

σ2(ri,j) := l´ım

n→∞nV ar(rj,k(Xn)) = V

rj,k₍_m₎₋_(∆rj,k₍_m₎₎2 _(4.13)

y cuando n→ ∞ √

n(rj,k −E(rj,k))→N(0, σ2(rj,k)) (4.14)

en distribuci´on. Donde

Vrj,k₍_m_{) =}_E₍_r

j,k(0,Xn)2)+

Z

Rm

(E(rj,k(0,Xn∪z)rj,k(z,Xn∪0))−E(rj,k(0,Xn))2)dz

(4.15) y

∆rj,k₍_m_{) =}_E₍_r

j,k(0,Xn)) +

Z

Rm

(30)

4.5. Grados del MST (Quiroz et al.)

Un segundo estad´ıstico basado en grafos presentado por Quiroz et al. en [1] consiste en construir el MST de la muestra Xn = {X1, . . . , Xn}. Luego,

definimos el estad´ıstico

Mn=

1

n

X

i=1

deg(Xi)2 (4.17)

donde deg(Xi) es el grado del vertice Xi ∈ Xn en el MST de los k-vecinos

m´as cercanos.

Este estad´ıstico está basado en los resultados de Steele, Shepp & Eddy [6] sobre el número de vértices con gradoj en un MST proveniente de datos en un espacio euclidiano. Los resultados en [6] establecen que el número de vértices de grado j provenientes de una distribución continua en _Rd

converge casi siempre a un l´ımite que solamente depende de j y d.

Algoritmo 7 Algoritmo para calcular el estad´ıstico de Grados del MST.

Entrada: Muestra Xn ={x1, . . . , xn}

Salida: Mn

1: Construir el MST de Xn;

2: d←0;

4: d←d+deg(Xi)2;

5: fin para

6: devolver d/n;

La idea tras Mn es usar esta convergencia para estimar el l´ımite en funci´on

de d y posteriormente usar el proceso de entrenamiento Bayesiano de la secci´on 4.7 para producir un estimador ˆm(Mn) de la dimensi´on intr´ınseca

(31)

4.6. Di´

ametro del MST local

Finalmente, describimos el nuevo algoritmo propuesto en este documento.

El objetivo de este algoritmo es usar el diámetro de cierto MST para inferir información local sobre los datos. El estad´ıstico basado en este diámetro nos da información sobre que tan cercanos están los puntos de las muestra. A continuación hacemos una descripción del algoritmo propuesto.

Sea Xn una muestra i.i.d de tama˜no n. Sea k =

√

n. Para cada x ∈ Xn

encontramos los k-vecinos m´as cercanos dexy construimos el MST de estos

k+ 1 puntos (xy los k vecinos). Ahora calculamos el di´ametro d(k)x del MST

en x. Nuestro estad´ıstico lo definimos como

Dn=

1

n

X

i=1

d(k)_X

i (4.18)

Las pruebas in´ıciales con este estad´ıstico se realizaron con muestras con distribución uniforme sobre el cubo unitario d-dimensional. Estos resultados previos mostraron que nuestro estad´ıstico depende de la dimensión intr´ınseca y del tamaño de la muestra.

En las Figuras 4.1 y 4.2 se muestra la dependencia logar´ıtmica de nuestro estad´ıstico Dn con el tama˜no de la muestra n.

(32)

Figura 4.1: Dn contra n en el cubo unitario dimensional (Cubo

2-dimensional).

Figura 4.2: Gr´afica loglog de Dn contra k (Cubo 2-dimensional).

(33)

Figura 4.3: Gr´afica loglog de Dn contra k para varias dimensiones.

En la Figura 4.3 se ve claramente que para cada dimensi´on, la recta loglog tiene un intercepto distinto con el eje log(Dn) y distinta pendiente. De

manera que cada dimensi´on la podemos identificar con una pareja (α0, α1)

tal que ln(Dn) = α0 + α1ln(k). Para estimar la dimensi´on intr´ınseca

basados en Dn, basta encontrar la recta m´as cercana dentro de la familia de

rectas para cada dimensi´on.

También notamos que para dimensiones altas, las rectas se acercan cada vez más. Este es un claro ejemplo de la Maldición de las altas dimensiones, ya que a medida que la dimensión se incrementa, se disminuye la distancia entre las rectas, lo cual dificulta distinguir la dimensión estimada sin aumentar considerablemente el error.

4.7. Entrenamiento Bayesiano

A continuaci´on describimos el proceso utilizado en [1] para producir estimadores de la dimensi´on intr´ınseca a partir de estad´ısticos basados en grafos; llamaremos a este proceso entrenamiento Bayesiano.

Sea Sn un estad´ıstico basado en grafos. Suponemos que Sn tiene una

(34)

Rd, de dimensi´on m, m ≤ d, suponemos que Sn((X)\) converge en norma

L2 a un l´ımite µ(m) que depende ´unicamente de la dimensi´on intr´ınseca m.

Suponemos tambi´en que

nVar(Sn(Xn))→σ2(m), cuando n → ∞ (4.19)

y que _√

n(Sn(Xn))−E(Sn(Xn))∼ N(0, σ2(m)) (4.20)

Notemos que los resultados (4,13) y (4,14), demostrados por Quiroz et al. justifican las suposiciones anteriores.

Consideramos un conjunto finito F de posibles dimensiones intr´ınsecas. Para cada j ∈ F generamos L muestras de tamaño n de una distribución uniforme sobre el cubo j-dimensional. Notemos que en este caso, la dimensión intr´ınseca de los datos es j. Para cada muestra calculamos Sn y

obtenemos los promedios ˆµj y las varianzas muestrales ˆσj2 para cada j ∈F.

Para producir el estimador de la dimensi´on para una muestra arbitraria de tama˜non0, calculamos el estad´ısticoSn0 para la nueva muestra y calculamos

ˆ

m(Sn0) = 

 

P

j∈F

jfˆj(Sn0)

P

j∈F

ˆ

fj(Sn0) 



 (4.21)

donde ˆfj es la funci´on de densidad de probabilidad de la distribuci´on

normal N( ˆµk,σˆj2) y [·] es la funci´on de redondeo al entero m´as cercano.2

El Teorema 4 de [1] justifica el uso de este procedimiento.

Teorema: (Teorema 4 de [1]) Sean m y ˆm, la dimensi´on intr´ınseca de Xn0 y su estimador (4.21), respectivamente. Bajo las condiciones anteriormente descritas, ˆm→m casi siempre cuando L, n, n0 → ∞.

2_{Esta f´}_{ormula corresponde a un Clasificador Bayesiano que maximiza la probabilidad}

(35)

Resultados

Para las pruebas de cada algoritmo, se utilizaron muestras en las siguientes variedades: _S2_,

S3,S5,S6,S8,S9,(SwissRoll)1,(SwissRoll)2,(SwissRoll)3, S1×S1,P2,P5,P9, M1 y M2.

Las dimensiones para las muestras usadas son

Variedad Dimensi´on presentada

Dimensi´on real

Dimensi´on intr´ınseca

S2 3 3 2

S3 4 4 3

S5 6 6 5

S6 7 7 6

S8 9 9 8

S9 10 10 9

(Swiss Roll)1 3 3 2

(Swiss Roll)2 6 3 2

(Swiss Roll)3 ₉ ₃ ₂

S1 ×S1 9 3 2

P2 ₃ ₃ ₂

P5 ₆ ₆ ₅

P9 ₁₀ ₁₀ ₉

M1 3 3 2

M2 36 6 4

Tabla 5.1: Dimensiones de las muestras generadas.

Para cada una de las pruebas de los algoritmos de Levina-Bickel, Farahmand et al. y Sricharan et al. se generaron 50 muestras distintas de

(36)

CAP´ITULO 5. RESULTADOS 30

tamaño n = 1000 de cada variedad listada. Se registró la dimensión estimada promedio ¯m y el ECM1.

Se utilizaron los siguiente par´ametros, Levina-Bickel (k = 10), Farahmand (k = 5) y Sricharan(k1 = 5, k2 = 10, N = 200, γ = 1).

Los resultados fueron los siguientes:

Levina-Bickel Farahmand Sricharan

Variedad m¯ ECM m¯ ECM m¯ ECM

S2 1,9984 5,72e-4 2,3849 0,1491 2,1835 0,0385

S3 2,992 1,2e-3 3,3258 0,1075 3,26 0,0773

S5 4,8599 0,0257 5,1348 0,0202 5,2185 0,0775

S6 5,7302 0,08 6,0171 0,0032 6,188 0,0829

S8 7,4008 0,3896 7,7477 0,0688 7,9413 0,0621

S9 8,1749 0,6952 8,5982 0,1679 8,8055 0,1277

(Swiss Roll)1 ₂_,₀₀₄₇ ₉_,_25e-4 ₂_,₃₇₅₈ ₀_,₁₄₈₀ ₂_,₄₃₉₁ ₀_,₂₁₇₈

(Swiss Roll)2 ₂_,₂₆₂₄ ₀_,₀₈₈₅ ₃_,₉₆₀₈ ₃_,₈₅₃₇ ₂_,₃₈₂₇ ₀_,₁₇₄₁

(Swiss Roll)3 2,1605 0,0267 4,1783 4,7567 2,1002 0,0240

S1×S1 2,0657 0,0049 3,7756 3,1602 2,2442 0,0647

P2 ₁_,₉₇₆₃ ₉_,_91e-4 ₂_,₃₇₄₂ ₀_,₁₄₀₉ ₂_,₁₃₄₃ ₀_,₀₂₂₉

P5 ₄_,₄₉₃₃ ₀_,₂₁₉₈ ₄_,₉₈₂₁ ₀_,₀₀₃₅ ₄_,₆₃₉ ₀_,₁₆₄₀

P9 ₇_,₁₁₈₂ ₃_,₅₄₉₄ ₈_,₁₉₅₃ ₀_,₆₅₂₆ ₇_,₁₈₆₄ ₃_,₄₀₁

M1 2,0088 6,71e-4 2,3838 0,1478 2,1392 0,0269

M2 4,4294 0,1882 9,2641 27,7649 4,5354 0,3223

Tabla 5.2: Resultados para Levina-Bickel, Farahmand y Sricharan.

Por otro lado, los algoritmos de Alcance y Grados del MST requirieron ejecutar el entrenamiento Bayesiano antes. Los par´ametros del entranamiento Bayesiano para ambos casos fueron

1_{Error Cuadr´}_{atico Medio:} P50

i=1

(37)

F L n

{2,3, . . . ,12} 100 5000

Tabla 5.3: Par´ametros del entramiento Bayesiano.

Los resultados del entrenamiento Bayesiano fueron

Alcance Grados Dimensi´on µˆj nσˆj2 µˆj nσˆj2

2 8,9666 0,2307 3,9988 7,17e-7

3 10,4250 0,3542 4,455388 6,67e-3

4 11,5151 0,2610 4,6409 0,0128

5 12,3393 0,3787 4,7610 0,189

6 12,9933 0,2805 4,8530 0,0278

7 13,5402 0,2775 4,9278 0,0289

8 13,9935 0,1838 4,999 0,0409

9 14,3915 0,2847 5,1197 0,0452

10 14,7233 0,2032 5,1792 0,0461

11 15,0242 0,2161 5,2416 0,0509

12 15,2787 0,18 5,3096 0,0731

Tabla 5.4: Resultados del entramiento Bayesiano.

Usando el procedimiento descrito en la Secci´on (4.7) junto con los resultados del entrenamiento, el estimador producido para los estad´ısticos de Alcance (con par´ametros j = 2, k = 4) y Grados del MST dieron los siguientes resultados

(38)

Alcance Grados

Variedad m¯ ECM m¯ ECM

S2 2 0 2 0

S3 3 0 3,02 0,02

S5 5,06 0,06 4,62 0,46

S6 6,1 0,1 5,06 1,1

S8 8 0,16 6,04 4,36

S9 8,96 0,04 6,54 5,42

(Swiss Roll)1 2 0 2 0

(Swiss Roll)2 ₂ ₀ ₂ ₀

(Swiss Roll)3 ₂ ₀ ₂ ₀

S1×S1 2 0 2 0

P2 ₂ ₀ ₂ ₀

P5 ₄_,₇₆ ₀_,₂₄ ₅_,₂ ₀_,₄

P9 ₇_,₁₂ ₃_,₆₄ ₉_,₆₈ ₁_,₂₄

M1 2,1392 0,0269 2 0

M2 4,5354 0,3223 3 1

Tabla 5.5: Resultados para Alcance y Grados del MST.

Finalmente, para el algoritmo de Di´ametros se obtuvieron los siguientes resultados para las rectas que representan cada dimensi´on

Dimensi´on α0 α1

2 0,4536 0,7247

3 0,5469 0,6572

4 0,5997 0,6215

5 0,6061 0,6058

6 0,6273 0,5896

7 0,6431 0,5786

8 0,6553 0,5682

9 0,6683 0,5599

10 0,6979 0,5479

11 0,7007 0,5437

12 0,6981 0,5409

(39)

donde ln(Dn) = α0+ α₂1 ln(n).

Y encontrando la recta m´as cercana a ln(Dn) para cada muestra se obtuvieron

los siguientes resultados:

Di´ametro

Variedad m¯ ECM

S2 2 0

S3 3 0

S5 5 0

S6 5,72 0,28

S8 7,4 0,6

S9 8,24 0,76

(Swiss Roll)1 ₂ ₀

(Swiss Roll)2 ₂ ₀

(Swiss Roll)3 2 0

S1×S1 2 0

P2 ₂ ₀

P5 ₄_,₈ ₀_,₂

P9 ₇_,₈₄ ₁_,₉₆

M1 2 0

M2 3,6 0,4

Tabla 5.7: Resultados para Di´ametro.

Para mayor familiaridad con el nuevo algoritmo, incluimos algunas im´agenes producidas por este.

(40)

Figura 5.1: 25 Muestras de _S8_{; dimensi´}_{on estimada promedio: 7.4}

(41)

Conclusiones

De los resultados obtenidos, podemos observar que en la gran mayor´ıa de los casos, los algoritmos estimaron dimensiones cercanas a las dimensiones reales. En particular para dimensiones bajas de variedades sencillas como la esfera y paraboloide, todos los algoritmos presentaron un buen rendimiento.

Para las variedades de baja dimensi´on (_S2_,

S3,P2, M1 y el toro), el mejor rendimiento lo obtuvo el estimador de Di´ametros del MST local con el estimado de Alcance en un cercano segundo lugar, mientras que el peor rendimiento lo obtuvo Farahmand seguido por Sricharan, los cuales tuvieron un mayor ECM para las dimensiones m´as bajas.

Para variedades de alta dimensión, el estad´ıstico de Farahmand fue el que tuvo el mejor ECM , seguido por el estad´ıstico de Diámetro del MST local. No es sorprendente ver el estad´ıstico de Diámetro teniendo buen desempeño para altas dimensiones, ya la estructura intr´ınseca del MST, y por tanto su diámetro, se deber´ıa mantener bajo cambios proporcionales de las distancias entre los puntos, causado por el problema de alta dimensionalidaden en el que los puntos parecen aislados. Por otro lado, los que peor rendimiento tuvieron en dimensiones altas fueron Levina-Bickel y el estad´ıstico de Grados, obteniendo hasta 3 y 5 puntos completos en el ECM.

Las dimensiones redundantes no afectaron en lo absoluto a los métodos basados en grafos, y en muy poca medida a los demás algoritmos, excepto por el estad´ıstico de Farahmand, el cual tuvo un desempeño desastroso en las variedades con dimensiones redundantes (Toro, Swiss Roll y la variedad producto) llegando hasta 27 puntos de ECM en la variedad producto. Esto es un clara evidencia de la robustez de los métodos basados en grafos, lo

(42)

CAP´ITULO 6. CONCLUSIONES 36

cual es una caracter´ıstica importante para aplicaciones con datos reales.

La variedad que peor se comportó respecto a los resultados fue el paraboloide 9-dimensional, ya que la mayor´ıa de los algoritmos estimaban su dimensión hasta 2 unidades por debajo de su dimensión real. Una posible razón para esto, es la distribución Burr de la que se toman los datos con los que se construye. Como ya notamos, esta distribución causa que haya una mayor densidad de puntos cerca del origen, que a su vez es donde la variedad tiene menor curvatura. Nuestra hipótesis, es que estos dos hechos hacen ver la variedad demasiado “plana” en vecindades cercanas al origen, lo cual causa que los algoritmos subestimen su dimensión intr´ınseca.

A pesar de traer una estructura fuera de lo usual, la variedad producto M2 se comporto bien, y los algoritmos, con excepción de Farahmand, fueron capaces de estimar aproximadamente su dimensión intr´ınseca. Nuestra hipótesis acerca de la gran discrepancia entre el estad´ıstico de Farahmand y la realidad, es que la distorsión fue causada por la gran cantidad de dimensiones redundantes, más que por la estructura de la variedad producto.

Finalmente, el nuevo algoritmo basado en el diámetro del MST local mostró los mejores resultados sobre todos los demás algoritmos, solamente teniendo error significativo para P9_{. Sin embargo, a su vez su costo}

computacional era mayor que el de los demás algoritmos. Es necesario estudiarlo más a fondo para determinar si el desempeño que obtuvo justifica el sobrecosto computacional para muestras más grandes.

(43)

Bibliograf´ıa

[1] M.R. Brito, A.J. Quiroz, J.E. Yukich. Intrinsic dimension identification via graph-theoretic methods. Journal of Multivariate Analysis 116, pp. 263-277, 2013.

[2] M.R.Brito, A.J. Quiroz, J.E. Yukich. Graph theoretic procedures for dimension identification. Journal of Multivariate Analysis 81, pp. 67-84, 2002.

[3] A. Farahmand, C.Szepesv´ari, J. Y. Audibert. Manifold-adaptive dimension estimation. Z. Ghahramani (Ed.), Proceedings in the 24th International Conference on Machine Learning, ACM, New York, pp. 256-272, 2007.

[4] E. Levina, P.J. Bickel. Maximum likelihood estimation of intrinsic dimension. L.K. Saul, Y. Weiss, L. Bottou (Eds.), Advances in Neural Information Processing Systems, Volume 17, 2005.

[5] K. Sricharan, R. Raich, A.O. Hero. Optimized intrinsic dimension estimation using nearest neighbor graphs. IEEE Internation Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE Conference Publication, pp. 5418-5421, 2010.

[6] J.M. Steele, L.A. Shepp, W.F. Eddy. On the number of leaves of a Euclidean minimal spanning tree. Journal of Applied Probability 24, pp. 809-826, 1987.

[7] J.L. Bentley, J.H. Friedman Fast Algorithms for Constructing Minimal Spanning Trees in Coordinate Spaces IEEE Transactions On Computers, Vol. c-27, No. 2, pp. 97-105, 1978.

(44)

BIBLIOGRAF´IA 38

[8] J. Eisner State-of-the-Art Algorithms for Minimum Spanning Trees: A tutorial Discussion. University of Pennsylvania, 1997.

[9] J.L. Bentley, J.H. Friedman, R.A. Finkel An Algorithm for Finding Best Matches in Logrithmic Expected Time ACM Transactions on Mathematical Software, Vol. 3, No. 3, 1976.