Estimaci´
on de Dimensi´
on Intr´ınseca en
Variedades de Datos
Autor
Juan Sebastian Osuna Barreto
Universidad de los Andes
Asesor
Adolfo Quiroz, Ph.D.
Universidad de los Andes
Tesis de Pregrado
Departamento de Matem´
aticas
Facultad de Ciencias
Universidad de los Andes
Bogot´
a D.C., Colombia
Diciembre de 2013
Dedicado a mis progenitores, H´ector y Martha, por su gran apoyo e infinita paciencia, y a mi hermana Mar´ıa Paula por su cari˜no incondicional.
´
Indice general
1. Resumen 1
2. Introducci´on 2
2.1. Estructura del documento . . . 3
2.2. Notaci´on . . . 4
3. Preliminares 6 3.1. Grafos . . . 6
3.1.1. MST . . . 7
3.2. Vecinos m´as cercanos . . . 8
3.3. Generaci´on de datos . . . 9
3.3.1. Esfera d-dimensionalSd [Sd] . . . . 9
3.3.2. Swiss Roll [SR] . . . 10
3.3.3. Toro S1×S1 [T] . . . . 11
3.3.4. Paraboloide d-dimensional Pd [Pd] . . . . 12
3.3.5. Superficie suave [M1] . . . 13
3.3.6. Variedad producto M1×T [M2] . . . 14
3.3.7. Dimensiones redundantes . . . 15
4. Estimaci´on de la dimensi´on intr´ınseca 17 4.1. Levina-Bickel . . . 17
4.2. Farahmand et al. . . 18
4.3. Sricharan et al. . . 20
4.4. Alcance (Quiroz et al.) . . . 22
4.5. Grados del MST (Quiroz et al.) . . . 24
4.6. Di´ametro del MST local . . . 25
4.7. Entrenamiento Bayesiano . . . 27
´
INDICE GENERAL iii
5. Resultados 29
´
Indice de figuras
3.1. Datos enS1 y
S2 . . . 10
3.2. Datos en el Swiss Roll. . . 11
3.3. Datos en el toro . . . 12
3.4. Vistas de los datos en P2. . . . 13
3.5. Vistas de los datos en la superficie suaveM1. . . 14
4.1. Dn contra n en el cubo unitario 2-dimensional (Cubo 2-dimensional). . . 26
4.2. Gr´afica loglog de Dn contra k (Cubo 2-dimensional). . . 26
4.3. Gr´afica loglog de Dn contra k para varias dimensiones. . . 27
5.1. 25 Muestras de S8; dimensi´on estimada promedio: 7.4 . . . . . 34
5.2. 25 Muestras de S1× S1; dimensi´on estimada promedio: 2 . . . 34
Lista de Tablas
3.1. Dimensiones de los datos utilizados. . . 16
5.1. Dimensiones de las muestras generadas. . . 29
5.2. Resultados para Levina-Bickel, Farahmand y Sricharan. . . 30
5.3. Par´ametros del entramiento Bayesiano. . . 31
5.4. Resultados del entramiento Bayesiano. . . 31
5.5. Resultados para Alcance y Grados del MST. . . 32
5.6. Resultados de las rectas para el algoritmo de Di´ametros. . . . 32
5.7. Resultados para Di´ametro. . . 33
Resumen
En este documento se presenta una evaluaci´on de cinco algoritmos de estimaci´on de dimensi´on intr´ınseca global de datos propuestos en la literatura. Los algoritmos estudiados fueron propuestos por (M.R. Brito, A.J. Quiroz, J.E.Yukich),[1][2], (A. Farahmand, C. Szepesv´ari, J.Y. Audibert), [3], (E. Levina, P.J. Bickel), [4], y (K. Sricharan, R. Raich, A.O. Hero),[5]. Los algoritmos se evaluaron con conjuntos de datos de variedades comunmente utilizadas en la literatura, como la esfera d-dimensional Sd, el
Swiss Roll, el toro S1 ×
S1 y el paraboloide d-dimensional; tambi´en se construyeron otros conjuntos de datos basados en superficies suaves en R3 y
en variedades producto.
Adicionalmente, se continu´o la b´usqueda de estad´ısticos de la dimensi´on intr´ınseca basados en grafos inspirado en el trabajo de Quiroz et al. [1] para lo cual se propone un nuevo algoritmo basado en el di´ametro del M´ınimo
´
Arbol Recubridor del grafo de los k-Vecinos M´as Cercanos.
Introducci´
on
Cuando trabajamos con datos con altas dimensiones, es com´un encontrarse con conjuntos de datos que son representables es una dimensi´on mucho menor. Tal es el caso en procesamiento de im´agenes, donde, por ejemplo una foto de n ×m pixeles puede estar representada como un punto en un espacio de dimensi´onn×m×3, viendo cada pixel en representaci´on RGB. Por esto, es natural preguntarse, si es posible representar los datos originales en dimensiones m´as bajas, sin perder la informaci´on de los datos.
Todo un campo de investigaci´on llamado Manifold Learning se ha desarrollado alrededor de este problema. El objetivo de Manifold Learning, tambi´en llamado Reducci´on Dimensional No-lineal, es reconstruir la variedad M donde en realidad viven los datos. La dimensi´on de dicha variedad es conocida como la dimensi´on intr´ınseca y la podemos interpretar como el n´umero de componentes independientes necesarios para caracterizar los datos originales.
Ser capaz de reducir la dimensi´on de los datos es una de las herramientas esenciales para algunos algoritmos de Manifold Learning, mejorando su eficiencia y evitando la Maldici´on de las Altas Dimensiones1. Sin embargo, lo m´etodos de reducci´on dimensional requieren algunos pasos de pre procesamiento de los datos antes de poder ser utilizados, entre estos se encuentra la estimaci´on de la dimensi´on intr´ınseca (en caso de no ser conocida a priori).
1Este t´ermino fue acu˜nado por Richard Bellman en 1961 en su libroAdaptive Control
Processes: A Guided Tour. En nuestro contexto, la Maldici´on de las Altas Dimensiones hace referencia a que en altas dimensiones, la distancia entre dos puntos cercanos tiende a converger, lo que dificulta distinguirlos.
CAP´ITULO 2. INTRODUCCI ´ON 3
En este documento estudiamos el caso en el que tenemos datos en Rd y
suponemos que estos datos en realidad viven en una subvariedad M de Rd
C1 y de dimensi´on m, m ≤ d, dotada con la topolog´ıa de subespacio.
Nuestro objetivo es evaluar algunos algoritmos que dan lugar a estimadores de la dimensi´on de Ma partir de una muestra i.i.d.
Los algoritmos tratados en este documento se pueden clasificar como m´etodos basados en Vecinos M´as Cercanos (VMC) y m´etodos basados en grafos. Entre los m´etodos basados en VMC se encuentran el de Levina-Bickel[4], Farahmand et al.[3] y Sricharan et al.[5]. As´ı mismo, los algoritmos basados en grafos son los de Alcance y Grados del MST; ambos de Quiroz et al.[1][2].
Adicionalmente, se propone un nuevo algoritmo basado en el di´ametro del MST del grafo de los Vecinos M´as Cercanos.
2.1.
Estructura del documento
Este documento est´a estructurado de la siguiente manera
Cap´ıtulo 1.
Resumen: se describe brevemente el contenido de este documento; la motivaci´on, el trabajo realizado y los resultados obtenidos.
Cap´ıtulo 2.
Introducci´on: se detalla el prop´osito del trabajo realizado, se traza la estructura del documento y se especifica la notaci´on usada.
Cap´ıtulo 3.
Preliminares: se describe brevemente detalles de la teor´ıa y como se generaron los datos usados para la evaluaci´on de los algoritmos.
Cap´ıtulo 4.
Estimaci´on de la dimensi´on intr´ınseca: se enumeran y describen los algoritmos analizados en este documento para la estimaci´on de dimensi´on intr´ınseca de variedades de datos.
CAP´ITULO 2. INTRODUCCI ´ON 4
Cap´ıtulo 5.
Resultados: se documenta los resultados obtenidos.
Cap´ıtulo 6.
Conclusiones: se analizan los resultados obtenidos durante la evaluaci´on de los algoritmos.
2.2.
Notaci´
on
Sd : Esfera unitaria d-dimensional en Rd+1.
Pd : Paraboloide d-dimensional en
Rd+1.
Nd(µ, σ2) : Distribuci´on normal multivariada de dimensi´ond con mediaµy
varianza σ2.
Exp(λ) : Distribuci´on exponencial con par´ametro λ.
Gamma(α, β) : Distribuci´on Gamma con par´ametrosα y β.
Xn,Yn,Zn, . . . : Muestras generales de tama˜non.
x(i) : Si x∈
Rm, x(i) denota la i-´esima coordenada de x (1≤i≤m).
kxk : Norma eucl´ıdea dex.
Ck : Una funci´on f :Rm →Rd es Ck si f es continua y todas sus derivadas
parciales de orden menor e igual a k son continuas.
C∞ : Una funci´on f :Rm →
Rd esC∞ sif esCk para todok ≥1.
MST : Minimum Spanning Tree (M´ınimo ´Arbol Recubridor)
Tk(x) : Para una muestraXn,Tk(x) es la distancia eucl´ıdea dexa suk-vecino
m´as cercano enXn.
Las muestras de n datos de las variedades se denotan de las siguientes maneras:
- Sd: Snd
CAP´ITULO 2. INTRODUCCI ´ON 5
- S1×
S1: Tn
- Pd: Pd n
- Superficie Suave:M1n
Preliminares
3.1.
Grafos
Recordemos que un grafo G es una pareja (V, A) donde V es un conjunto cuyos elementos son llamados v´ertices y A es un subconjunto de P(V) tal que cada elemento de A tiene exacatamente 2 elementos, y cada elemento de A se llama arista. Si para x, y ∈ V,{x, y} ∈ A se dicen que x e y est´an
conectados. Si x ∈ V el grado de x, deg(x), se define como el n´umero de elementos en el conjunto {y ∈ V : {x, y} ∈ A}. Un camino en G es una sucesi´on x1, . . . , xn de elementos distintos de V tal que
{{x1, x2},{x2, x3}, . . . ,{xn−1, xn}} ⊂ A; decimos que tal camino tiene
longitud n. Decimos que un grafo G tiene pesos si existe una funci´on
f : A → R que a cada arista le asigna un valor llamado su peso; f es llamada la funci´on de pesos.
Decimos que un grafo G tiene ciclos si existe x ∈ V tal que existe un camino x1, . . . , xn con n > 1 tal que x1 = x y xn = x. G es conexo si para
todo x ∈ V y todo y ∈ V existe un camino que conecta x e y. Un ´arbol A
enG es un subgrafo conexo de Gsin ciclos. Eldi´ametro de un ´arbolA deG
es la longitud del camino m´as largo en A.
Dado un ´arbol A el siguiente es un algoritmo lineal que calcula el di´ametro de A:
CAP´ITULO 3. PRELIMINARES 7
Algoritmo 1 Algoritmo lineal para calcular di´ametro de un ´arbol.
Entrada: Arbol´ A
Salida: Di´ametro de A, diam(A)
1: x←v´ertice cualquiera;
2: y←v´ertice m´as lejano ax;
3: x←v´ertice m´as lejano ay;
4: devolver n´umero de aristas entre y y x;
3.1.1.
MST
Sea G un grafo conexo con pesos, el MST (Minimum Spanning Tree) o M´ınimo ´Arbol Recubridor de G es el ´unico ´arbol de G tal que los v´ertices del MST son los mismos que los de G y la suma de los pesos de las aristas del MST es m´ınima.
Algunos algoritmos conocidos para encontrar el MST de un grafo son los algoritmos de Prim, Kruskal, Boruvka y Bentley-Friedman[7]. Para m´as detalles ver [8].
Para todos los algoritmos en los que se requiri´o calcular el MST se utiliz´o el algoritmo de Friedman, descrito a continuaci´on.
CAP´ITULO 3. PRELIMINARES 8
Algoritmo 2 Algoritmo de Friedman para encontrar el MST.
Entrada: Grafo conexo con pesos G= (V, A)
Salida: MST de G
1: M ST ={}
2: dnn←pesos de los arcos
3: mientras V tenga vertices sin marcar hacer
4: m←arista no marcada con m´ınimo valor en dnn;
5: Agregar m aM ST;
6: Marcar m;
7: V2←vertices deG\V ert(M ST) conectados a alg´un vertice de M ST;
8: para todov ∈V2 hacer
9: d←peso m´ınimo de v a los vertices conectados en M ST;
10: r ←arco correspondiente ad;
11: si d < peso(m) entonces 12: Cambiar el paso de r endnn;
13: fin si 14: fin para 15: fin mientras
16: devolver lista de aristas del MST
3.2.
Vecinos m´
as cercanos
El concepto de vecinos m´as cercano hace referencia a ordenar un conjunto de puntos seg´un su distancia a otro punto de referencia. Para los fines de este documento, basta hacer la definici´on para conjuntos finitos. Formalmente, sea X = {x1, . . . , xn} un subconjunto finito de un espacio eucl´ıdeo V. Sea
y∈V. El 1-vecino m´as cercano ay enX es
n1 = arg m´ın
x∈X kx−yk (3.1)
Notemos que si y ∈X entonces n1 =y.
El k-vecino m´as cercano ay en X es
nk = arg m´ın x∈X\Nk−1
CAP´ITULO 3. PRELIMINARES 9
donde Nk−1 ={n1, n2, . . . , nk−1}.
El conjunto Nk son losk-vecinos m´as cercanos de y enX.
3.3.
Generaci´
on de datos
Para estudiar los m´etodos de estimaci´on de la dimensi´on, se utilizaron muestras de distintas variedades. La mayor´ıa de estas variedades son de baja dimensi´on, de 2 a 4, sin embargo algunas variedades son facilmente generalizables a dimensiones m´as altas, lo cual permite un estudio m´as exhaustivo. Las variedades que permitieron tal generalizaci´on son la esfera y el paraboloide.
Algunas de las variedades utilizadas se encuentran comunmente en la literatura como los conjuntos est´andar para realizar pruebas de los m´etodos de estimaci´on y reducci´on dimensional. Por lo tanto, decidimos crear conjuntos de datos distintos y m´as complejos. En particular, se utilizaron muestras de una variedad producto, la cual provee una estructura distinta, con el fin de realmente poner a prueba los algoritmos analizados.
A continuaci´on se describe como se generaron las muestras en las distintas variedades utilizadas.
3.3.1.
Esfera
d
-dimensional
S
d[
S
d]
La esfera d-dimensional se define como
Sd ={x∈Rd+1 :kxk= 1} ⊂Rd+1 (3.3) con la topolog´ıa de subespacio heredada de la topolog´ıa usual de Rd+1.
Dada esta definici´on, es posible demostrar que la dimensi´on intr´ınseca de la esfera d-dimensional es d. En particular, note que para todo x∈Sd
x(d+1) =±p1−x(1)+· · ·+x(d) (3.4)
Para la generaci´on de una muestra normalSd
ncon ndatos enSd, se tom´o una
CAP´ITULO 3. PRELIMINARES 10
Nd+1(0,1) y se normalizaron los datos de la muestra, es decir
Snd =
x
kxk :x∈ Xn
⊂Sd (3.5)
Figura 3.1: Datos en S1 y
S2
3.3.2.
Swiss Roll
[
SR
]
El Swiss Roll es una superficie en R3 similar a un espiral. Como variedad, consideramos el Swiss Roll como subespacio topologico de R3, con dimensi´on intr´ınseca 2.
CAP´ITULO 3. PRELIMINARES 11
Figura 3.2: Datos en el Swiss Roll.
La construcci´on de las muestras en el Swiss Roll se realiz´o tomando n datos de una distribuci´on normal estandar N2(0,1), luego se particionaron los
datos en 4 clusters con centros en (7.5,7.5), (7.5,10.5), (12.5,7.5) y (12.5,10.5). Finalmente, se utiliz´o la parametrizaci´on
f(x, y) = (xcosx, y, xsinx) (3.6) sobre cada cluster. El resultado es un conjunto de puntos como se muestran en la Figura (3.2).
3.3.3.
Toro
S
1×
S
1[
T
]
Dentro del contexto de este documento, consideraremos al toro simplemente la superficie cerrada en R3, con radio interno 1 y radio exterior 2,
parametrizada por
f(x, y) = ((2 + cosy) cosx,(2 + cosy) sinx,siny) (3.7) Con esta parametrizaci´on, es posible demostrar que nuestro toro es una variedad C∞ con dimensi´on intr´ınseca 2.
CAP´ITULO 3. PRELIMINARES 12
La creaci´on de muestras Tn de puntos en el toro sea realiz´o tomando dos
muestrasXn,Yn distribuidas uniformemente en el intervalo [0,2π] de tama˜no
n y aplicando la parametrizaci´on (3.7) a Xn× Yn; en otras palabras
Tn={f(x, y) :x∈ Xn, y ∈ Yn} ⊂S1×S1 (3.8)
Figura 3.3: Datos en el toro
3.3.4.
Paraboloide
d
-dimensional
P
d[
P
d]
Una muestra de n datos en el paraboloide d-dimensional es un subconjunto de Rd+1
Pnd=x∈Rd+1 : (x(1))2+ (x(2))2+· · ·+ (x(d))2−x(d+1) = 0 ⊂ Pd (3.9)
de tama˜non.
Para la construcci´on de los conjuntos de datos, se tomaron d muestras
Xn,1, . . . ,Xn,d de tama˜no n de una distribuci´on Burr 1, Burr(1,1,1), y se
1La distribuci´on Burr Type XII es una distribuci´on log´ıstica continua positiva tal que
Burr(a, b, c) ∼ 1 +GammaExp(a()b,c)
−b
. En este caso, a y b son par´ametros de forma de la distribuci´on, ycun par´ametro de escala.
CAP´ITULO 3. PRELIMINARES 13
construy´o Pd
n concatenando las muestras y la suma de los cuadrados de las
coordenadas, es decir
Pnd=
(
(x(1), . . . , x(d), x(d+1))∈Rd+1 :x(i) ∈ X
n,i, x(d+1) = d
X
i=1
x(i)2
)
(3.10)
Figura 3.4: Vistas de los datos en P2.
El usar datos de la distribuci´on Burr hace que los puntos en el paraboloide obtenidos tengan todas sus coordenadas positivas y que haya una mayor densidad de puntos cerca al origen.
3.3.5.
Superficie suave
[
M
1]
La variedad M1 utilizada para probar los algoritmos, es la superficie suave parametrizada por
f(x, y) = (x, ycosx, xsinx) (3.11) donde 0 ≤x≤1 y−5≤y≤5.
Si consideramos la superficie con la topolog´ıa de subespacio heredada de R3, es f´acil ver que M1 es una variedad cerrada y compacta.
CAP´ITULO 3. PRELIMINARES 14
Adicionalmente, es claro que f esC∞ en (0,1)×(−5,5).
Para tomar una muestraM1nde tama˜non enM1, se tomaron dos muestras
Xn,Yn tal que Xn se distribuye uniformemente en el intervalo [−5,5] , y Yn
se distribuye normal est´andar, N(0,1), de manera que
M1n ={f(x, y) :x∈ Xn, y ∈ Yn} ⊂R3 (3.12)
De la parametrizaci´on (3.11) es claro que la dimensi´on intr´ınseca de la superficie es 2.
Figura 3.5: Vistas de los datos en la superficie suaveM1.
3.3.6.
Variedad producto
M
1
×
T
[
M
2]
La variedad M2 es la variedad producto de M1 y el toro. Como conjunto,
M2 :=(x, y) :x∈M1, y ∈S1×
S1 , (3.13)
CAP´ITULO 3. PRELIMINARES 15
Ya que tantoM1 como el toro son subconjuntos deR3,M2 es subconjunto de
R6. As´ı mismo, la dimensi´on intr´ınseca deM2 es 4; la suma de las dimensiones de M1 y el toro.
3.3.7.
Dimensiones redundantes
Con el fin realizar una evaluaci´on m´as robusta de los algoritmos, decidimos a˜nadir ruido en los datos para ver que tanto de este ruido pueden filtrar los algoritmos. El ruido se introdujo en forma de dimensiones reduntantes. Las dimensiones redudantes son coordenadas adicionales, cuyos valores son dependientes de las coordenadas reales.
Una adici´on de dimensiones redundantes a una muestra Xn es una funci´on
inyectiva
R :Xn ⊂Rd→Rt;
x7→(x, g1(x), g2(x), . . . , gn(x))
(3.14)
tal que t > d, gi es una funci´on de Xn enRti y d+
P
ti =t.
Es obvio que para todo x ∈ Xn, x concuerda con las d primeras
coordenadas de R(x), de tal manera que la informaci´on de la muestra no se pierde al agregarle dimensiones redundantes.
Si R : Xn ⊂ Rd → Rt es una adici´on de coordenadas redundantes a Xn,
decimos que d es la dimensi´on real de la muestra y t es la dimensi´on presentada.
Algunos ejemplos de adiciones de dimensiones redudantes utilizadas fueron:
R1 :Xn⊂Rd→R3d;
x7→(x,sinx, x2) (3.15) donde sinx y x2 se consideran como funciones aplicadas a cada componente
CAP´ITULO 3. PRELIMINARES 16
R2 :Xn ⊂Rd1 ×Rd2 →R3d1+9d2
(x, y)7→R1(x, R1(y))
(3.16)
Ac´a notemos que (x, R1(y))∈Rd1+3d2.
Rl3 :Xn⊂Rd→Rld
x7→(x, x2, . . . , xl) (3.17) Para la evaluaci´on de los algoritmos, fueron utilizadas estas 3 adiciones de dimensiones redundantes para muestras en el Swiss Roll, el toro y la variedad producto, a saber, se utilizar´o R1 para el toro, R2 para la variedad
pregunta y, R1
3, R23, R33 para el Swiss Roll.
A continuaci´on se muestran las dimensiones con las que algoritmos trabajaron.
Variedad Dimensi´on presentada
Dimensi´on real
Dimensi´on intr´ınseca
Sd d+ 1 d+ 1 d
(Swiss Roll)γ 3γ 3 2
S1×S1 9 3 2
Pd d+ 1 d+ 1 d
M1 3 3 2
M2 36 6 4
Estimaci´
on
de
la
dimensi´
on
intr´ınseca
4.1.
Levina-Bickel
En [4], Levina & Bickel proponen un estimador local ˆm(x) de m´axima
verosimilitud de la dimensi´on intr´ınseca para un punto x ∈ M. Bajo la hip´otesis de que todos los punto de una muestra Xn = {X1, . . . , Xn} i.i.d
viven en la misma variedad M, Levina-Bickel proponen un estimador global como el promedio de ˆm(Xi) conXi ∈ Xn.
Para un >0, el estimador local propuesto por Levina-Bickel es
ˆ
m(x) =
1
N(, x)
N(,x) X j=1 ln Tj(x)
−1
(4.1)
donde N(, x) es el n´umero de puntos en Xn dentro de la bola de radio
centrada en x y Tj(x) es la distancia eucl´ıdea de x al j-´esimo punto m´as
cercano en Xn.
Sin embargo, nuestro prop´osito es estimar la dimensi´on de M suponiendo que Xn ⊂ M, de manera que en vez observar bolas de radio podemos
observar los k vecinos m´as cercanos a x en Xn. Entonces, si yk es el k + 1
vecino m´as cercano ax enXn, esto es equivalente a tomar =kx−ykk.
Entonces, para k >3 fijo, el estimador en 4.1 se vuelve
ˆ
mk(x) =
1
k−2
k−1
X
j=1
ln
Tk(x)
Tj(x)
!−1
. (4.2)
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 18
Cabe notar que el k − 1 en la sumatoria del estimador se debe a que, si
x∈ Xn, el vecino m´as cercano a x enXn va a ser xmismo y por lo tanto se
excluye este caso. Similarmente, expresi´on en 4.2 se divide por k −2 para que el estimador sea insesgado.
De manera que, dado unk > 3 fijo, el estimador de m´axima verosimilitud de la dimensi´on de M es
ˆ
m= 1
n
n
X
i=1
ˆ
mk(Xi) (4.3)
Dada una muestraXni.i.d, el estimador de m´axima verosimilitud ˆmse puede
calcular con el siguiente algoritmo.
Algoritmo 3 Algoritmo para calcular el estimador de Levina-Bickel
Entrada: Muestra Xn ={x1, . . . , xn}; n´umero de vecinos a observar k
Salida: mˆ
1: m←0;
2: para todo x∈ Xn hacer
3: mk ←0;
4: para j = 1 hasta k−1hacer
5: xk ←k-vecino m´as cercano ax en Xn;
6: dk ← distancia(x, xk);
7: xj ←j-vecino m´as cercano a x enXn;
8: dj ← distancia(x, xj);
9: mk←mk+ln(dk/dj);
10: fin para
11: m←m+ ((k−2)/mk);
12: fin para
13: devolver m/n;
4.2.
Farahmand et al.
El algoritmo propuesto por Farahmand et al. en [3], sigue un procedimiento similar el de Levina-Bickel; define un estimador local dˆ(x) para la dimensi´on y luego define el estimador de la dimensi´on intr´ınseca ˆm como el promedio de ˆd(Xi) sobre la muestra Xn ={X1, . . . , Xn} ⊂Rd.
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 19
Defina η(x, ) tal que
P({Xi ∈B(x)}) = η(x, )m (4.4)
donde B(x) es la bola abierta centrada enx de radio y m es la dimensi´on
de M.
Esto es equivalente a
ln(P({Xi ∈B(x)})) = ln (η(x, )) +mln () (4.5)
Ahora, como Mes una variedad, podemos suponer que η(x, ) es constante en B(x) con suficientemente peque˜no, ya que M es localmente plana1
por ser una variedad.
De la misma manera que llegamos al estimador local 4.2 de Levina-Bickel, en vez de observar las bolas alrededor dex, observemos solamente los puntos de Xn m´as cercanos a x. Sea X(k) elk-vecino m´as cercano a x en Xn, y sea
k = Tk(x) =k X(k)−x k, en [3], Farahmand et al. demostraron que para n
suficientemente grande
P({Xi ∈Bk(x)})≈k/n (4.6)
De manera que, reemplazando en 4.5 para k y k/2 obtenemos ln(k/n)≈ln(ηk) +mln(Tk(x))
ln(k/(2n))≈ln(ηk) +mln(Tdk/2e(x))
(4.7)
Finalmente, restando las ecuaciones en 4.7 y despejando m, obtenemos el estimador local de Farahmand
ˆ
d(x) = ln(2)
ln(Tk(x)/(Tdk/2e(x))
(4.8)
Y el estimador de la dimensi´on intr´ınseca de Farahmand et al. es
ˆ
m= 1
n
n
X
i=1
min( ˆd(Xi), d) (4.9)
(Recordemos que Xn ={X1, . . . , Xn} ⊂Rd).
El algoritmo para calcular el estad´ıstico de Farahmand et al. es
1Al decir que M es localmente plana nos referimos a que es localmente difeomorfa a
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 20
Algoritmo 4 Algoritmo para calcular el estimador de Farahmand et al.
Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar k;
dimension obsevada d
Salida: mˆ
1: m←0, k2← dk/2e;
2: para todo x∈ Xn hacer
3: xk←k-vecino m´as cercano a x enXn;
4: rk← distancia(x, xk);
5: xk2 ←k2-vecino m´as cercano a x enXn;
6: rk2 ←distancia(x, xk2);
7: dx ←ln(2)/ln(rk/rk2);
8: m←m+min(d, dx);
9: fin para
10: devolver m/n;
4.3.
Sricharan et al.
Sricharan et al. proponen un algoritmo m´as directo para estimar la dimensi´on intr´ınseca. Sea Xn una muestra i.i.d de tama˜no n. Particione Xn
en dos submuestras disjuntas YN, ZM de tama˜nos N y M respectivamente
tal que N +M =n.
Defina Lk(Xn) como
Lk(Xn) =
γ N
N
X
i=1
ln (Tk(Xi)) (4.10)
tal que γ >0 y Xi ∈ YN.
Finalmente, como se muestra en [5] y [1], el estad´ıstico de la dimensi´on intr´ınseca de Sricharan et al. es
ˆ
m =γln(k2−1)−ln(k1−1) Lk2(Xn)−Lk1(Xn)
(4.11)
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 21
Algoritmo 5 Algoritmo para calcular el estimador de Sricharan et al.
Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar 2 <
k1 < k2; constante γ; tama˜no de la partici´on N
Salida: mˆ
1: m←0;
2: M ←n−N;
3: YN ← {x1. . . , xN};
4: ZM ={xN+1, . . . , xn};
5: para todo x∈ YN hacer
6: xk←k1-vecino m´as cercano ax enZM;
7: rk← distancia(x, xk);
8: m1 ←m1+γln(rk)/N;
9: fin para
10: para todo x∈ YN hacer
11: xk←k2-vecino m´as cercano ax enZM;
12: rk← distancia(x, xk);
13: m2 ←m2+γln(rk)/N;
14: fin para
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 22
4.4.
Alcance (Quiroz et al.)
Sea Xn = {X1, . . . , Xn} una muestra i.i.d. El grafo de los k-vecinos m´as
cercanos de Xn, Gk(Xn), se define como el grafo con pesos cuyos v´ertices
son los elementos de Xn y entre dos v´ertices x, y existe una arista si y solo
si x es uno de los k-vecinos m´as cercanos a y o y es uno de los k-vecinos m´as cercanos a y en Xn. Los pesos las aristas de Gk(Xn) est´an dados por la
distancia eucl´ıdea entre los v´ertices conectados por la arista.
Si x1 y x2 son v´ertices en Gk(Xn), decimos que x2 puede ser alcanzado en j
pasos desde x1 si existe un camino v0, v1, . . . , vj tal que v0 = x1 y vj = x2.
Definamos el n´umero rj,k(x,Xn) como el n´umero de v´ertices que pueden ser
alcanzados desde x enj o menos pasos en Gk(Xn).
Como se explica en [1], la intuici´on indica que a medida que la dimensi´on se incrementa hay m´as direcciones en las cuales pueden haber caminos, de manera que el cada punto en Gk(Xn) puede tener un mayor alcance dentro
del grafo.
Algoritmo 6 Algoritmo para calcular el estad´ıstico de Alcance.
Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar k;
n´umero de pasos j
Salida: r¯j,k(Xn)
1: Construir el grafo Gk de losk-vecinos m´as cercanos;
2: r ←0;
3: para todo x∈ Xn hacer
4: rj ←0;
5: para i= 1 hasta j hacer
6: rj ←rj+ n´umero de v´ertices alcanzables en ipasos;
7: fin para 8: r←r+rj;
9: fin para
10: devolver r/n;
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 23
de rj,k(x,Xn) sobre la muestra.
¯
rj,k(Xn) =
1
n
n
X
i=1
rj,k(Xi,Xn) (4.12)
Claramente ¯rj,k(Xn) no es un estimador directo de la dimensi´on intr´ınseca,
de manera que es necesario pasar ¯rj,k(Xn) por el proceso de entrenamiento
Bayesiano descrito en la Secci´on 4.7 para obtener un estimador ˆ
m(¯rj,k(Xn)).
La validez de est´a procedimiento esta justificada por el siguiente resultado sobre el comportamiento asint´otico de ciertos funcionales, demostrado por Quiroz et al.
Sea M una subvariedad cerrada m-dimensional C1 de
Rd y sea κ una densidad de probabilidad continua casi siempre, acotada con soporte compacto sobre M. Si Xn es una muestra i.i.d. con densidad κ entonces,
dado j , para todo k∈N enL2 y casi siempre
σ2(ri,j) := l´ım
n→∞nV ar(rj,k(Xn)) = V
rj,k(m)−(∆rj,k(m))2 (4.13)
y cuando n→ ∞ √
n(rj,k −E(rj,k))→N(0, σ2(rj,k)) (4.14)
en distribuci´on. Donde
Vrj,k(m) =E(r
j,k(0,Xn)2)+
Z
Rm
(E(rj,k(0,Xn∪z)rj,k(z,Xn∪0))−E(rj,k(0,Xn))2)dz
(4.15) y
∆rj,k(m) =E(r
j,k(0,Xn)) +
Z
Rm
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 24
4.5.
Grados del MST (Quiroz et al.)
Un segundo estad´ıstico basado en grafos presentado por Quiroz et al. en [1] consiste en construir el MST de la muestra Xn = {X1, . . . , Xn}. Luego,
definimos el estad´ıstico
Mn=
1
n
n
X
i=1
deg(Xi)2 (4.17)
donde deg(Xi) es el grado del vertice Xi ∈ Xn en el MST de los k-vecinos
m´as cercanos.
Este estad´ıstico est´a basado en los resultados de Steele, Shepp & Eddy [6] sobre el n´umero de v´ertices con gradoj en un MST proveniente de datos en un espacio euclidiano. Los resultados en [6] establecen que el n´umero de v´ertices de grado j provenientes de una distribuci´on continua en Rd
converge casi siempre a un l´ımite que solamente depende de j y d.
Algoritmo 7 Algoritmo para calcular el estad´ıstico de Grados del MST.
Entrada: Muestra Xn ={x1, . . . , xn}
Salida: Mn
1: Construir el MST de Xn;
2: d←0;
3: para todo x∈ Xn hacer
4: d←d+deg(Xi)2;
5: fin para
6: devolver d/n;
La idea tras Mn es usar esta convergencia para estimar el l´ımite en funci´on
de d y posteriormente usar el proceso de entrenamiento Bayesiano de la secci´on 4.7 para producir un estimador ˆm(Mn) de la dimensi´on intr´ınseca
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 25
4.6.
Di´
ametro del MST local
Finalmente, describimos el nuevo algoritmo propuesto en este documento.
El objetivo de este algoritmo es usar el di´ametro de cierto MST para inferir informaci´on local sobre los datos. El estad´ıstico basado en este di´ametro nos da informaci´on sobre que tan cercanos est´an los puntos de las muestra. A continuaci´on hacemos una descripci´on del algoritmo propuesto.
Sea Xn una muestra i.i.d de tama˜no n. Sea k =
√
n. Para cada x ∈ Xn
encontramos los k-vecinos m´as cercanos dexy construimos el MST de estos
k+ 1 puntos (xy los k vecinos). Ahora calculamos el di´ametro d(k)x del MST
en x. Nuestro estad´ıstico lo definimos como
Dn=
1
n
n
X
i=1
d(k)X
i (4.18)
Las pruebas in´ıciales con este estad´ıstico se realizaron con muestras con distribuci´on uniforme sobre el cubo unitario d-dimensional. Estos resultados previos mostraron que nuestro estad´ıstico depende de la dimensi´on intr´ınseca y del tama˜no de la muestra.
En las Figuras 4.1 y 4.2 se muestra la dependencia logar´ıtmica de nuestro estad´ıstico Dn con el tama˜no de la muestra n.
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 26
Figura 4.1: Dn contra n en el cubo unitario dimensional (Cubo
2-dimensional).
Figura 4.2: Gr´afica loglog de Dn contra k (Cubo 2-dimensional).
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 27
Figura 4.3: Gr´afica loglog de Dn contra k para varias dimensiones.
En la Figura 4.3 se ve claramente que para cada dimensi´on, la recta loglog tiene un intercepto distinto con el eje log(Dn) y distinta pendiente. De
manera que cada dimensi´on la podemos identificar con una pareja (α0, α1)
tal que ln(Dn) = α0 + α1ln(k). Para estimar la dimensi´on intr´ınseca
basados en Dn, basta encontrar la recta m´as cercana dentro de la familia de
rectas para cada dimensi´on.
Tambi´en notamos que para dimensiones altas, las rectas se acercan cada vez m´as. Este es un claro ejemplo de la Maldici´on de las altas dimensiones, ya que a medida que la dimensi´on se incrementa, se disminuye la distancia entre las rectas, lo cual dificulta distinguir la dimensi´on estimada sin aumentar considerablemente el error.
4.7.
Entrenamiento Bayesiano
A continuaci´on describimos el proceso utilizado en [1] para producir estimadores de la dimensi´on intr´ınseca a partir de estad´ısticos basados en grafos; llamaremos a este proceso entrenamiento Bayesiano.
Sea Sn un estad´ıstico basado en grafos. Suponemos que Sn tiene una
CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 28
Rd, de dimensi´on m, m ≤ d, suponemos que Sn((X)\) converge en norma
L2 a un l´ımite µ(m) que depende ´unicamente de la dimensi´on intr´ınseca m.
Suponemos tambi´en que
nVar(Sn(Xn))→σ2(m), cuando n → ∞ (4.19)
y que √
n(Sn(Xn))−E(Sn(Xn))∼ N(0, σ2(m)) (4.20)
Notemos que los resultados (4,13) y (4,14), demostrados por Quiroz et al. justifican las suposiciones anteriores.
Consideramos un conjunto finito F de posibles dimensiones intr´ınsecas. Para cada j ∈ F generamos L muestras de tama˜no n de una distribuci´on uniforme sobre el cubo j-dimensional. Notemos que en este caso, la dimensi´on intr´ınseca de los datos es j. Para cada muestra calculamos Sn y
obtenemos los promedios ˆµj y las varianzas muestrales ˆσj2 para cada j ∈F.
Para producir el estimador de la dimensi´on para una muestra arbitraria de tama˜non0, calculamos el estad´ısticoSn0 para la nueva muestra y calculamos
ˆ
m(Sn0) =
P
j∈F
jfˆj(Sn0)
P
j∈F
ˆ
fj(Sn0)
(4.21)
donde ˆfj es la funci´on de densidad de probabilidad de la distribuci´on
normal N( ˆµk,σˆj2) y [·] es la funci´on de redondeo al entero m´as cercano.2
El Teorema 4 de [1] justifica el uso de este procedimiento.
Teorema: (Teorema 4 de [1]) Sean m y ˆm, la dimensi´on intr´ınseca de Xn0 y su estimador (4.21), respectivamente. Bajo las condiciones anteriormente descritas, ˆm→m casi siempre cuando L, n, n0 → ∞.
2Esta f´ormula corresponde a un Clasificador Bayesiano que maximiza la probabilidad
Resultados
Para las pruebas de cada algoritmo, se utilizaron muestras en las siguientes variedades: S2,
S3,S5,S6,S8,S9,(SwissRoll)1,(SwissRoll)2,(SwissRoll)3, S1×S1,P2,P5,P9, M1 y M2.
Las dimensiones para las muestras usadas son
Variedad Dimensi´on presentada
Dimensi´on real
Dimensi´on intr´ınseca
S2 3 3 2
S3 4 4 3
S5 6 6 5
S6 7 7 6
S8 9 9 8
S9 10 10 9
(Swiss Roll)1 3 3 2
(Swiss Roll)2 6 3 2
(Swiss Roll)3 9 3 2
S1 ×S1 9 3 2
P2 3 3 2
P5 6 6 5
P9 10 10 9
M1 3 3 2
M2 36 6 4
Tabla 5.1: Dimensiones de las muestras generadas.
Para cada una de las pruebas de los algoritmos de Levina-Bickel, Farahmand et al. y Sricharan et al. se generaron 50 muestras distintas de
CAP´ITULO 5. RESULTADOS 30
tama˜no n = 1000 de cada variedad listada. Se registr´o la dimensi´on estimada promedio ¯m y el ECM1.
Se utilizaron los siguiente par´ametros, Levina-Bickel (k = 10), Farahmand (k = 5) y Sricharan(k1 = 5, k2 = 10, N = 200, γ = 1).
Los resultados fueron los siguientes:
Levina-Bickel Farahmand Sricharan
Variedad m¯ ECM m¯ ECM m¯ ECM
S2 1,9984 5,72e-4 2,3849 0,1491 2,1835 0,0385
S3 2,992 1,2e-3 3,3258 0,1075 3,26 0,0773
S5 4,8599 0,0257 5,1348 0,0202 5,2185 0,0775
S6 5,7302 0,08 6,0171 0,0032 6,188 0,0829
S8 7,4008 0,3896 7,7477 0,0688 7,9413 0,0621
S9 8,1749 0,6952 8,5982 0,1679 8,8055 0,1277
(Swiss Roll)1 2,0047 9,25e-4 2,3758 0,1480 2,4391 0,2178
(Swiss Roll)2 2,2624 0,0885 3,9608 3,8537 2,3827 0,1741
(Swiss Roll)3 2,1605 0,0267 4,1783 4,7567 2,1002 0,0240
S1×S1 2,0657 0,0049 3,7756 3,1602 2,2442 0,0647
P2 1,9763 9,91e-4 2,3742 0,1409 2,1343 0,0229
P5 4,4933 0,2198 4,9821 0,0035 4,639 0,1640
P9 7,1182 3,5494 8,1953 0,6526 7,1864 3,401
M1 2,0088 6,71e-4 2,3838 0,1478 2,1392 0,0269
M2 4,4294 0,1882 9,2641 27,7649 4,5354 0,3223
Tabla 5.2: Resultados para Levina-Bickel, Farahmand y Sricharan.
Por otro lado, los algoritmos de Alcance y Grados del MST requirieron ejecutar el entrenamiento Bayesiano antes. Los par´ametros del entranamiento Bayesiano para ambos casos fueron
1Error Cuadr´atico Medio: P50
i=1
CAP´ITULO 5. RESULTADOS 31
F L n
{2,3, . . . ,12} 100 5000
Tabla 5.3: Par´ametros del entramiento Bayesiano.
Los resultados del entrenamiento Bayesiano fueron
Alcance Grados Dimensi´on µˆj nσˆj2 µˆj nσˆj2
2 8,9666 0,2307 3,9988 7,17e-7
3 10,4250 0,3542 4,455388 6,67e-3
4 11,5151 0,2610 4,6409 0,0128
5 12,3393 0,3787 4,7610 0,189
6 12,9933 0,2805 4,8530 0,0278
7 13,5402 0,2775 4,9278 0,0289
8 13,9935 0,1838 4,999 0,0409
9 14,3915 0,2847 5,1197 0,0452
10 14,7233 0,2032 5,1792 0,0461
11 15,0242 0,2161 5,2416 0,0509
12 15,2787 0,18 5,3096 0,0731
Tabla 5.4: Resultados del entramiento Bayesiano.
Usando el procedimiento descrito en la Secci´on (4.7) junto con los resultados del entrenamiento, el estimador producido para los estad´ısticos de Alcance (con par´ametros j = 2, k = 4) y Grados del MST dieron los siguientes resultados
CAP´ITULO 5. RESULTADOS 32
Alcance Grados
Variedad m¯ ECM m¯ ECM
S2 2 0 2 0
S3 3 0 3,02 0,02
S5 5,06 0,06 4,62 0,46
S6 6,1 0,1 5,06 1,1
S8 8 0,16 6,04 4,36
S9 8,96 0,04 6,54 5,42
(Swiss Roll)1 2 0 2 0
(Swiss Roll)2 2 0 2 0
(Swiss Roll)3 2 0 2 0
S1×S1 2 0 2 0
P2 2 0 2 0
P5 4,76 0,24 5,2 0,4
P9 7,12 3,64 9,68 1,24
M1 2,1392 0,0269 2 0
M2 4,5354 0,3223 3 1
Tabla 5.5: Resultados para Alcance y Grados del MST.
Finalmente, para el algoritmo de Di´ametros se obtuvieron los siguientes resultados para las rectas que representan cada dimensi´on
Dimensi´on α0 α1
2 0,4536 0,7247
3 0,5469 0,6572
4 0,5997 0,6215
5 0,6061 0,6058
6 0,6273 0,5896
7 0,6431 0,5786
8 0,6553 0,5682
9 0,6683 0,5599
10 0,6979 0,5479
11 0,7007 0,5437
12 0,6981 0,5409
CAP´ITULO 5. RESULTADOS 33
donde ln(Dn) = α0+ α21 ln(n).
Y encontrando la recta m´as cercana a ln(Dn) para cada muestra se obtuvieron
los siguientes resultados:
Di´ametro
Variedad m¯ ECM
S2 2 0
S3 3 0
S5 5 0
S6 5,72 0,28
S8 7,4 0,6
S9 8,24 0,76
(Swiss Roll)1 2 0
(Swiss Roll)2 2 0
(Swiss Roll)3 2 0
S1×S1 2 0
P2 2 0
P5 4,8 0,2
P9 7,84 1,96
M1 2 0
M2 3,6 0,4
Tabla 5.7: Resultados para Di´ametro.
Para mayor familiaridad con el nuevo algoritmo, incluimos algunas im´agenes producidas por este.
CAP´ITULO 5. RESULTADOS 34
Figura 5.1: 25 Muestras de S8; dimensi´on estimada promedio: 7.4
Conclusiones
De los resultados obtenidos, podemos observar que en la gran mayor´ıa de los casos, los algoritmos estimaron dimensiones cercanas a las dimensiones reales. En particular para dimensiones bajas de variedades sencillas como la esfera y paraboloide, todos los algoritmos presentaron un buen rendimiento.
Para las variedades de baja dimensi´on (S2,
S3,P2, M1 y el toro), el mejor rendimiento lo obtuvo el estimador de Di´ametros del MST local con el estimado de Alcance en un cercano segundo lugar, mientras que el peor rendimiento lo obtuvo Farahmand seguido por Sricharan, los cuales tuvieron un mayor ECM para las dimensiones m´as bajas.
Para variedades de alta dimensi´on, el estad´ıstico de Farahmand fue el que tuvo el mejor ECM , seguido por el estad´ıstico de Di´ametro del MST local. No es sorprendente ver el estad´ıstico de Di´ametro teniendo buen desempe˜no para altas dimensiones, ya la estructura intr´ınseca del MST, y por tanto su di´ametro, se deber´ıa mantener bajo cambios proporcionales de las distancias entre los puntos, causado por el problema de alta dimensionalidaden en el que los puntos parecen aislados. Por otro lado, los que peor rendimiento tuvieron en dimensiones altas fueron Levina-Bickel y el estad´ıstico de Grados, obteniendo hasta 3 y 5 puntos completos en el ECM.
Las dimensiones redundantes no afectaron en lo absoluto a los m´etodos basados en grafos, y en muy poca medida a los dem´as algoritmos, excepto por el estad´ıstico de Farahmand, el cual tuvo un desempe˜no desastroso en las variedades con dimensiones redundantes (Toro, Swiss Roll y la variedad producto) llegando hasta 27 puntos de ECM en la variedad producto. Esto es un clara evidencia de la robustez de los m´etodos basados en grafos, lo
CAP´ITULO 6. CONCLUSIONES 36
cual es una caracter´ıstica importante para aplicaciones con datos reales.
La variedad que peor se comport´o respecto a los resultados fue el paraboloide 9-dimensional, ya que la mayor´ıa de los algoritmos estimaban su dimensi´on hasta 2 unidades por debajo de su dimensi´on real. Una posible raz´on para esto, es la distribuci´on Burr de la que se toman los datos con los que se construye. Como ya notamos, esta distribuci´on causa que haya una mayor densidad de puntos cerca del origen, que a su vez es donde la variedad tiene menor curvatura. Nuestra hip´otesis, es que estos dos hechos hacen ver la variedad demasiado “plana” en vecindades cercanas al origen, lo cual causa que los algoritmos subestimen su dimensi´on intr´ınseca.
A pesar de traer una estructura fuera de lo usual, la variedad producto M2 se comporto bien, y los algoritmos, con excepci´on de Farahmand, fueron capaces de estimar aproximadamente su dimensi´on intr´ınseca. Nuestra hip´otesis acerca de la gran discrepancia entre el estad´ıstico de Farahmand y la realidad, es que la distorsi´on fue causada por la gran cantidad de dimensiones redundantes, m´as que por la estructura de la variedad producto.
Finalmente, el nuevo algoritmo basado en el di´ametro del MST local mostr´o los mejores resultados sobre todos los dem´as algoritmos, solamente teniendo error significativo para P9. Sin embargo, a su vez su costo
computacional era mayor que el de los dem´as algoritmos. Es necesario estudiarlo m´as a fondo para determinar si el desempe˜no que obtuvo justifica el sobrecosto computacional para muestras m´as grandes.
Bibliograf´ıa
[1] M.R. Brito, A.J. Quiroz, J.E. Yukich. Intrinsic dimension identification via graph-theoretic methods. Journal of Multivariate Analysis 116, pp. 263-277, 2013.
[2] M.R.Brito, A.J. Quiroz, J.E. Yukich. Graph theoretic procedures for dimension identification. Journal of Multivariate Analysis 81, pp. 67-84, 2002.
[3] A. Farahmand, C.Szepesv´ari, J. Y. Audibert. Manifold-adaptive dimension estimation. Z. Ghahramani (Ed.), Proceedings in the 24th International Conference on Machine Learning, ACM, New York, pp. 256-272, 2007.
[4] E. Levina, P.J. Bickel. Maximum likelihood estimation of intrinsic dimension. L.K. Saul, Y. Weiss, L. Bottou (Eds.), Advances in Neural Information Processing Systems, Volume 17, 2005.
[5] K. Sricharan, R. Raich, A.O. Hero. Optimized intrinsic dimension estimation using nearest neighbor graphs. IEEE Internation Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE Conference Publication, pp. 5418-5421, 2010.
[6] J.M. Steele, L.A. Shepp, W.F. Eddy. On the number of leaves of a Euclidean minimal spanning tree. Journal of Applied Probability 24, pp. 809-826, 1987.
[7] J.L. Bentley, J.H. Friedman Fast Algorithms for Constructing Minimal Spanning Trees in Coordinate Spaces IEEE Transactions On Computers, Vol. c-27, No. 2, pp. 97-105, 1978.
BIBLIOGRAF´IA 38
[8] J. Eisner State-of-the-Art Algorithms for Minimum Spanning Trees: A tutorial Discussion. University of Pennsylvania, 1997.
[9] J.L. Bentley, J.H. Friedman, R.A. Finkel An Algorithm for Finding Best Matches in Logrithmic Expected Time ACM Transactions on Mathematical Software, Vol. 3, No. 3, 1976.