• No se han encontrado resultados

Estimación de dimensión intrínseca de variedades de datos

N/A
N/A
Protected

Academic year: 2020

Share "Estimación de dimensión intrínseca de variedades de datos"

Copied!
44
0
0

Texto completo

(1)

Estimaci´

on de Dimensi´

on Intr´ınseca en

Variedades de Datos

Autor

Juan Sebastian Osuna Barreto

Universidad de los Andes

Asesor

Adolfo Quiroz, Ph.D.

Universidad de los Andes

Tesis de Pregrado

Departamento de Matem´

aticas

Facultad de Ciencias

Universidad de los Andes

Bogot´

a D.C., Colombia

Diciembre de 2013

(2)

Dedicado a mis progenitores, H´ector y Martha, por su gran apoyo e infinita paciencia, y a mi hermana Mar´ıa Paula por su cari˜no incondicional.

(3)

´

Indice general

1. Resumen 1

2. Introducci´on 2

2.1. Estructura del documento . . . 3

2.2. Notaci´on . . . 4

3. Preliminares 6 3.1. Grafos . . . 6

3.1.1. MST . . . 7

3.2. Vecinos m´as cercanos . . . 8

3.3. Generaci´on de datos . . . 9

3.3.1. Esfera d-dimensionalSd [Sd] . . . . 9

3.3.2. Swiss Roll [SR] . . . 10

3.3.3. Toro SS1 [T] . . . . 11

3.3.4. Paraboloide d-dimensional Pd [Pd] . . . . 12

3.3.5. Superficie suave [M1] . . . 13

3.3.6. Variedad producto M1×T [M2] . . . 14

3.3.7. Dimensiones redundantes . . . 15

4. Estimaci´on de la dimensi´on intr´ınseca 17 4.1. Levina-Bickel . . . 17

4.2. Farahmand et al. . . 18

4.3. Sricharan et al. . . 20

4.4. Alcance (Quiroz et al.) . . . 22

4.5. Grados del MST (Quiroz et al.) . . . 24

4.6. Di´ametro del MST local . . . 25

4.7. Entrenamiento Bayesiano . . . 27

(4)

´

INDICE GENERAL iii

5. Resultados 29

(5)

´

Indice de figuras

3.1. Datos enS1 y

S2 . . . 10

3.2. Datos en el Swiss Roll. . . 11

3.3. Datos en el toro . . . 12

3.4. Vistas de los datos en P2. . . . 13

3.5. Vistas de los datos en la superficie suaveM1. . . 14

4.1. Dn contra n en el cubo unitario 2-dimensional (Cubo 2-dimensional). . . 26

4.2. Gr´afica loglog de Dn contra k (Cubo 2-dimensional). . . 26

4.3. Gr´afica loglog de Dn contra k para varias dimensiones. . . 27

5.1. 25 Muestras de S8; dimensi´on estimada promedio: 7.4 . . . . . 34

5.2. 25 Muestras de S1× S1; dimensi´on estimada promedio: 2 . . . 34

(6)

Lista de Tablas

3.1. Dimensiones de los datos utilizados. . . 16

5.1. Dimensiones de las muestras generadas. . . 29

5.2. Resultados para Levina-Bickel, Farahmand y Sricharan. . . 30

5.3. Par´ametros del entramiento Bayesiano. . . 31

5.4. Resultados del entramiento Bayesiano. . . 31

5.5. Resultados para Alcance y Grados del MST. . . 32

5.6. Resultados de las rectas para el algoritmo de Di´ametros. . . . 32

5.7. Resultados para Di´ametro. . . 33

(7)

Resumen

En este documento se presenta una evaluaci´on de cinco algoritmos de estimaci´on de dimensi´on intr´ınseca global de datos propuestos en la literatura. Los algoritmos estudiados fueron propuestos por (M.R. Brito, A.J. Quiroz, J.E.Yukich),[1][2], (A. Farahmand, C. Szepesv´ari, J.Y. Audibert), [3], (E. Levina, P.J. Bickel), [4], y (K. Sricharan, R. Raich, A.O. Hero),[5]. Los algoritmos se evaluaron con conjuntos de datos de variedades comunmente utilizadas en la literatura, como la esfera d-dimensional Sd, el

Swiss Roll, el toro S1 ×

S1 y el paraboloide d-dimensional; tambi´en se construyeron otros conjuntos de datos basados en superficies suaves en R3 y

en variedades producto.

Adicionalmente, se continu´o la b´usqueda de estad´ısticos de la dimensi´on intr´ınseca basados en grafos inspirado en el trabajo de Quiroz et al. [1] para lo cual se propone un nuevo algoritmo basado en el di´ametro del M´ınimo

´

Arbol Recubridor del grafo de los k-Vecinos M´as Cercanos.

(8)

Introducci´

on

Cuando trabajamos con datos con altas dimensiones, es com´un encontrarse con conjuntos de datos que son representables es una dimensi´on mucho menor. Tal es el caso en procesamiento de im´agenes, donde, por ejemplo una foto de n ×m pixeles puede estar representada como un punto en un espacio de dimensi´onn×m×3, viendo cada pixel en representaci´on RGB. Por esto, es natural preguntarse, si es posible representar los datos originales en dimensiones m´as bajas, sin perder la informaci´on de los datos.

Todo un campo de investigaci´on llamado Manifold Learning se ha desarrollado alrededor de este problema. El objetivo de Manifold Learning, tambi´en llamado Reducci´on Dimensional No-lineal, es reconstruir la variedad M donde en realidad viven los datos. La dimensi´on de dicha variedad es conocida como la dimensi´on intr´ınseca y la podemos interpretar como el n´umero de componentes independientes necesarios para caracterizar los datos originales.

Ser capaz de reducir la dimensi´on de los datos es una de las herramientas esenciales para algunos algoritmos de Manifold Learning, mejorando su eficiencia y evitando la Maldici´on de las Altas Dimensiones1. Sin embargo, lo m´etodos de reducci´on dimensional requieren algunos pasos de pre procesamiento de los datos antes de poder ser utilizados, entre estos se encuentra la estimaci´on de la dimensi´on intr´ınseca (en caso de no ser conocida a priori).

1Este t´ermino fue acu˜nado por Richard Bellman en 1961 en su libroAdaptive Control

Processes: A Guided Tour. En nuestro contexto, la Maldici´on de las Altas Dimensiones hace referencia a que en altas dimensiones, la distancia entre dos puntos cercanos tiende a converger, lo que dificulta distinguirlos.

(9)

CAP´ITULO 2. INTRODUCCI ´ON 3

En este documento estudiamos el caso en el que tenemos datos en Rd y

suponemos que estos datos en realidad viven en una subvariedad M de Rd

C1 y de dimensi´on m, m d, dotada con la topolog´ıa de subespacio.

Nuestro objetivo es evaluar algunos algoritmos que dan lugar a estimadores de la dimensi´on de Ma partir de una muestra i.i.d.

Los algoritmos tratados en este documento se pueden clasificar como m´etodos basados en Vecinos M´as Cercanos (VMC) y m´etodos basados en grafos. Entre los m´etodos basados en VMC se encuentran el de Levina-Bickel[4], Farahmand et al.[3] y Sricharan et al.[5]. As´ı mismo, los algoritmos basados en grafos son los de Alcance y Grados del MST; ambos de Quiroz et al.[1][2].

Adicionalmente, se propone un nuevo algoritmo basado en el di´ametro del MST del grafo de los Vecinos M´as Cercanos.

2.1.

Estructura del documento

Este documento est´a estructurado de la siguiente manera

Cap´ıtulo 1.

Resumen: se describe brevemente el contenido de este documento; la motivaci´on, el trabajo realizado y los resultados obtenidos.

Cap´ıtulo 2.

Introducci´on: se detalla el prop´osito del trabajo realizado, se traza la estructura del documento y se especifica la notaci´on usada.

Cap´ıtulo 3.

Preliminares: se describe brevemente detalles de la teor´ıa y como se generaron los datos usados para la evaluaci´on de los algoritmos.

Cap´ıtulo 4.

Estimaci´on de la dimensi´on intr´ınseca: se enumeran y describen los algoritmos analizados en este documento para la estimaci´on de dimensi´on intr´ınseca de variedades de datos.

(10)

CAP´ITULO 2. INTRODUCCI ´ON 4

Cap´ıtulo 5.

Resultados: se documenta los resultados obtenidos.

Cap´ıtulo 6.

Conclusiones: se analizan los resultados obtenidos durante la evaluaci´on de los algoritmos.

2.2.

Notaci´

on

Sd : Esfera unitaria d-dimensional en Rd+1.

Pd : Paraboloide d-dimensional en

Rd+1.

Nd(µ, σ2) : Distribuci´on normal multivariada de dimensi´ond con mediaµy

varianza σ2.

Exp(λ) : Distribuci´on exponencial con par´ametro λ.

Gamma(α, β) : Distribuci´on Gamma con par´ametrosα y β.

Xn,Yn,Zn, . . . : Muestras generales de tama˜non.

x(i) : Si x

Rm, x(i) denota la i-´esima coordenada de x (1≤i≤m).

kxk : Norma eucl´ıdea dex.

Ck : Una funci´on f :Rm →Rd es Ck si f es continua y todas sus derivadas

parciales de orden menor e igual a k son continuas.

C∞ : Una funci´on f :Rm

Rd esC∞ sif esCk para todok ≥1.

MST : Minimum Spanning Tree (M´ınimo ´Arbol Recubridor)

Tk(x) : Para una muestraXn,Tk(x) es la distancia eucl´ıdea dexa suk-vecino

m´as cercano enXn.

Las muestras de n datos de las variedades se denotan de las siguientes maneras:

- Sd: Snd

(11)

CAP´ITULO 2. INTRODUCCI ´ON 5

- S1×

S1: Tn

- Pd: Pd n

- Superficie Suave:M1n

(12)

Preliminares

3.1.

Grafos

Recordemos que un grafo G es una pareja (V, A) donde V es un conjunto cuyos elementos son llamados v´ertices y A es un subconjunto de P(V) tal que cada elemento de A tiene exacatamente 2 elementos, y cada elemento de A se llama arista. Si para x, y ∈ V,{x, y} ∈ A se dicen que x e y est´an

conectados. Si x ∈ V el grado de x, deg(x), se define como el n´umero de elementos en el conjunto {y ∈ V : {x, y} ∈ A}. Un camino en G es una sucesi´on x1, . . . , xn de elementos distintos de V tal que

{{x1, x2},{x2, x3}, . . . ,{xn−1, xn}} ⊂ A; decimos que tal camino tiene

longitud n. Decimos que un grafo G tiene pesos si existe una funci´on

f : A → R que a cada arista le asigna un valor llamado su peso; f es llamada la funci´on de pesos.

Decimos que un grafo G tiene ciclos si existe x ∈ V tal que existe un camino x1, . . . , xn con n > 1 tal que x1 = x y xn = x. G es conexo si para

todo x ∈ V y todo y ∈ V existe un camino que conecta x e y. Un ´arbol A

enG es un subgrafo conexo de Gsin ciclos. Eldi´ametro de un ´arbolA deG

es la longitud del camino m´as largo en A.

Dado un ´arbol A el siguiente es un algoritmo lineal que calcula el di´ametro de A:

(13)

CAP´ITULO 3. PRELIMINARES 7

Algoritmo 1 Algoritmo lineal para calcular di´ametro de un ´arbol.

Entrada: Arbol´ A

Salida: Di´ametro de A, diam(A)

1: x←v´ertice cualquiera;

2: y←v´ertice m´as lejano ax;

3: x←v´ertice m´as lejano ay;

4: devolver n´umero de aristas entre y y x;

3.1.1.

MST

Sea G un grafo conexo con pesos, el MST (Minimum Spanning Tree) o M´ınimo ´Arbol Recubridor de G es el ´unico ´arbol de G tal que los v´ertices del MST son los mismos que los de G y la suma de los pesos de las aristas del MST es m´ınima.

Algunos algoritmos conocidos para encontrar el MST de un grafo son los algoritmos de Prim, Kruskal, Boruvka y Bentley-Friedman[7]. Para m´as detalles ver [8].

Para todos los algoritmos en los que se requiri´o calcular el MST se utiliz´o el algoritmo de Friedman, descrito a continuaci´on.

(14)

CAP´ITULO 3. PRELIMINARES 8

Algoritmo 2 Algoritmo de Friedman para encontrar el MST.

Entrada: Grafo conexo con pesos G= (V, A)

Salida: MST de G

1: M ST ={}

2: dnn←pesos de los arcos

3: mientras V tenga vertices sin marcar hacer

4: m←arista no marcada con m´ınimo valor en dnn;

5: Agregar m aM ST;

6: Marcar m;

7: V2←vertices deG\V ert(M ST) conectados a alg´un vertice de M ST;

8: para todov ∈V2 hacer

9: d←peso m´ınimo de v a los vertices conectados en M ST;

10: r ←arco correspondiente ad;

11: si d < peso(m) entonces 12: Cambiar el paso de r endnn;

13: fin si 14: fin para 15: fin mientras

16: devolver lista de aristas del MST

3.2.

Vecinos m´

as cercanos

El concepto de vecinos m´as cercano hace referencia a ordenar un conjunto de puntos seg´un su distancia a otro punto de referencia. Para los fines de este documento, basta hacer la definici´on para conjuntos finitos. Formalmente, sea X = {x1, . . . , xn} un subconjunto finito de un espacio eucl´ıdeo V. Sea

y∈V. El 1-vecino m´as cercano ay enX es

n1 = arg m´ın

x∈X kx−yk (3.1)

Notemos que si y ∈X entonces n1 =y.

El k-vecino m´as cercano ay en X es

nk = arg m´ın x∈X\Nk−1

(15)

CAP´ITULO 3. PRELIMINARES 9

donde Nk−1 ={n1, n2, . . . , nk−1}.

El conjunto Nk son losk-vecinos m´as cercanos de y enX.

3.3.

Generaci´

on de datos

Para estudiar los m´etodos de estimaci´on de la dimensi´on, se utilizaron muestras de distintas variedades. La mayor´ıa de estas variedades son de baja dimensi´on, de 2 a 4, sin embargo algunas variedades son facilmente generalizables a dimensiones m´as altas, lo cual permite un estudio m´as exhaustivo. Las variedades que permitieron tal generalizaci´on son la esfera y el paraboloide.

Algunas de las variedades utilizadas se encuentran comunmente en la literatura como los conjuntos est´andar para realizar pruebas de los m´etodos de estimaci´on y reducci´on dimensional. Por lo tanto, decidimos crear conjuntos de datos distintos y m´as complejos. En particular, se utilizaron muestras de una variedad producto, la cual provee una estructura distinta, con el fin de realmente poner a prueba los algoritmos analizados.

A continuaci´on se describe como se generaron las muestras en las distintas variedades utilizadas.

3.3.1.

Esfera

d

-dimensional

S

d

[

S

d

]

La esfera d-dimensional se define como

Sd ={x∈Rd+1 :kxk= 1} ⊂Rd+1 (3.3) con la topolog´ıa de subespacio heredada de la topolog´ıa usual de Rd+1.

Dada esta definici´on, es posible demostrar que la dimensi´on intr´ınseca de la esfera d-dimensional es d. En particular, note que para todo x∈Sd

x(d+1) =±p1−x(1)+· · ·+x(d) (3.4)

Para la generaci´on de una muestra normalSd

ncon ndatos enSd, se tom´o una

(16)

CAP´ITULO 3. PRELIMINARES 10

Nd+1(0,1) y se normalizaron los datos de la muestra, es decir

Snd =

x

kxk :x∈ Xn

Sd (3.5)

Figura 3.1: Datos en S1 y

S2

3.3.2.

Swiss Roll

[

SR

]

El Swiss Roll es una superficie en R3 similar a un espiral. Como variedad, consideramos el Swiss Roll como subespacio topologico de R3, con dimensi´on intr´ınseca 2.

(17)

CAP´ITULO 3. PRELIMINARES 11

Figura 3.2: Datos en el Swiss Roll.

La construcci´on de las muestras en el Swiss Roll se realiz´o tomando n datos de una distribuci´on normal estandar N2(0,1), luego se particionaron los

datos en 4 clusters con centros en (7.5,7.5), (7.5,10.5), (12.5,7.5) y (12.5,10.5). Finalmente, se utiliz´o la parametrizaci´on

f(x, y) = (xcosx, y, xsinx) (3.6) sobre cada cluster. El resultado es un conjunto de puntos como se muestran en la Figura (3.2).

3.3.3.

Toro

S

1

×

S

1

[

T

]

Dentro del contexto de este documento, consideraremos al toro simplemente la superficie cerrada en R3, con radio interno 1 y radio exterior 2,

parametrizada por

f(x, y) = ((2 + cosy) cosx,(2 + cosy) sinx,siny) (3.7) Con esta parametrizaci´on, es posible demostrar que nuestro toro es una variedad C∞ con dimensi´on intr´ınseca 2.

(18)

CAP´ITULO 3. PRELIMINARES 12

La creaci´on de muestras Tn de puntos en el toro sea realiz´o tomando dos

muestrasXn,Yn distribuidas uniformemente en el intervalo [0,2π] de tama˜no

n y aplicando la parametrizaci´on (3.7) a Xn× Yn; en otras palabras

Tn={f(x, y) :x∈ Xn, y ∈ Yn} ⊂S1×S1 (3.8)

Figura 3.3: Datos en el toro

3.3.4.

Paraboloide

d

-dimensional

P

d

[

P

d

]

Una muestra de n datos en el paraboloide d-dimensional es un subconjunto de Rd+1

Pnd=x∈Rd+1 : (x(1))2+ (x(2))2+· · ·+ (x(d))2x(d+1) = 0 ⊂ Pd (3.9)

de tama˜non.

Para la construcci´on de los conjuntos de datos, se tomaron d muestras

Xn,1, . . . ,Xn,d de tama˜no n de una distribuci´on Burr 1, Burr(1,1,1), y se

1La distribuci´on Burr Type XII es una distribuci´on log´ıstica continua positiva tal que

Burr(a, b, c) ∼ 1 +GammaExp(a()b,c)

−b

. En este caso, a y b son par´ametros de forma de la distribuci´on, ycun par´ametro de escala.

(19)

CAP´ITULO 3. PRELIMINARES 13

construy´o Pd

n concatenando las muestras y la suma de los cuadrados de las

coordenadas, es decir

Pnd=

(

(x(1), . . . , x(d), x(d+1))∈Rd+1 :x(i) ∈ X

n,i, x(d+1) = d

X

i=1

x(i)2

)

(3.10)

Figura 3.4: Vistas de los datos en P2.

El usar datos de la distribuci´on Burr hace que los puntos en el paraboloide obtenidos tengan todas sus coordenadas positivas y que haya una mayor densidad de puntos cerca al origen.

3.3.5.

Superficie suave

[

M

1]

La variedad M1 utilizada para probar los algoritmos, es la superficie suave parametrizada por

f(x, y) = (x, ycosx, xsinx) (3.11) donde 0 ≤x≤1 y−5≤y≤5.

Si consideramos la superficie con la topolog´ıa de subespacio heredada de R3, es f´acil ver que M1 es una variedad cerrada y compacta.

(20)

CAP´ITULO 3. PRELIMINARES 14

Adicionalmente, es claro que f esC∞ en (0,1)×(−5,5).

Para tomar una muestraM1nde tama˜non enM1, se tomaron dos muestras

Xn,Yn tal que Xn se distribuye uniformemente en el intervalo [−5,5] , y Yn

se distribuye normal est´andar, N(0,1), de manera que

M1n ={f(x, y) :x∈ Xn, y ∈ Yn} ⊂R3 (3.12)

De la parametrizaci´on (3.11) es claro que la dimensi´on intr´ınseca de la superficie es 2.

Figura 3.5: Vistas de los datos en la superficie suaveM1.

3.3.6.

Variedad producto

M

1

×

T

[

M

2]

La variedad M2 es la variedad producto de M1 y el toro. Como conjunto,

M2 :=(x, y) :x∈M1, y ∈S1×

S1 , (3.13)

(21)

CAP´ITULO 3. PRELIMINARES 15

Ya que tantoM1 como el toro son subconjuntos deR3,M2 es subconjunto de

R6. As´ı mismo, la dimensi´on intr´ınseca deM2 es 4; la suma de las dimensiones de M1 y el toro.

3.3.7.

Dimensiones redundantes

Con el fin realizar una evaluaci´on m´as robusta de los algoritmos, decidimos a˜nadir ruido en los datos para ver que tanto de este ruido pueden filtrar los algoritmos. El ruido se introdujo en forma de dimensiones reduntantes. Las dimensiones redudantes son coordenadas adicionales, cuyos valores son dependientes de las coordenadas reales.

Una adici´on de dimensiones redundantes a una muestra Xn es una funci´on

inyectiva

R :Xn ⊂Rd→Rt;

x7→(x, g1(x), g2(x), . . . , gn(x))

(3.14)

tal que t > d, gi es una funci´on de Xn enRti y d+

P

ti =t.

Es obvio que para todo x ∈ Xn, x concuerda con las d primeras

coordenadas de R(x), de tal manera que la informaci´on de la muestra no se pierde al agregarle dimensiones redundantes.

Si R : Xn ⊂ Rd → Rt es una adici´on de coordenadas redundantes a Xn,

decimos que d es la dimensi´on real de la muestra y t es la dimensi´on presentada.

Algunos ejemplos de adiciones de dimensiones redudantes utilizadas fueron:

R1 :Xn⊂Rd→R3d;

x7→(x,sinx, x2) (3.15) donde sinx y x2 se consideran como funciones aplicadas a cada componente

(22)

CAP´ITULO 3. PRELIMINARES 16

R2 :Xn ⊂Rd1 ×Rd2 →R3d1+9d2

(x, y)7→R1(x, R1(y))

(3.16)

Ac´a notemos que (x, R1(y))∈Rd1+3d2.

Rl3 :Xn⊂Rd→Rld

x7→(x, x2, . . . , xl) (3.17) Para la evaluaci´on de los algoritmos, fueron utilizadas estas 3 adiciones de dimensiones redundantes para muestras en el Swiss Roll, el toro y la variedad producto, a saber, se utilizar´o R1 para el toro, R2 para la variedad

pregunta y, R1

3, R23, R33 para el Swiss Roll.

A continuaci´on se muestran las dimensiones con las que algoritmos trabajaron.

Variedad Dimensi´on presentada

Dimensi´on real

Dimensi´on intr´ınseca

Sd d+ 1 d+ 1 d

(Swiss Roll)γ 3γ 3 2

S1×S1 9 3 2

Pd d+ 1 d+ 1 d

M1 3 3 2

M2 36 6 4

(23)

Estimaci´

on

de

la

dimensi´

on

intr´ınseca

4.1.

Levina-Bickel

En [4], Levina & Bickel proponen un estimador local ˆm(x) de m´axima

verosimilitud de la dimensi´on intr´ınseca para un punto x ∈ M. Bajo la hip´otesis de que todos los punto de una muestra Xn = {X1, . . . , Xn} i.i.d

viven en la misma variedad M, Levina-Bickel proponen un estimador global como el promedio de ˆm(Xi) conXi ∈ Xn.

Para un >0, el estimador local propuesto por Levina-Bickel es

ˆ

m(x) =

1

N(, x)

N(,x) X j=1 ln Tj(x)

−1

(4.1)

donde N(, x) es el n´umero de puntos en Xn dentro de la bola de radio

centrada en x y Tj(x) es la distancia eucl´ıdea de x al j-´esimo punto m´as

cercano en Xn.

Sin embargo, nuestro prop´osito es estimar la dimensi´on de M suponiendo que Xn ⊂ M, de manera que en vez observar bolas de radio podemos

observar los k vecinos m´as cercanos a x en Xn. Entonces, si yk es el k + 1

vecino m´as cercano ax enXn, esto es equivalente a tomar =kx−ykk.

Entonces, para k >3 fijo, el estimador en 4.1 se vuelve

ˆ

mk(x) =

1

k−2

k−1

X

j=1

ln

Tk(x)

Tj(x)

!−1

. (4.2)

(24)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 18

Cabe notar que el k − 1 en la sumatoria del estimador se debe a que, si

x∈ Xn, el vecino m´as cercano a x enXn va a ser xmismo y por lo tanto se

excluye este caso. Similarmente, expresi´on en 4.2 se divide por k −2 para que el estimador sea insesgado.

De manera que, dado unk > 3 fijo, el estimador de m´axima verosimilitud de la dimensi´on de M es

ˆ

m= 1

n

n

X

i=1

ˆ

mk(Xi) (4.3)

Dada una muestraXni.i.d, el estimador de m´axima verosimilitud ˆmse puede

calcular con el siguiente algoritmo.

Algoritmo 3 Algoritmo para calcular el estimador de Levina-Bickel

Entrada: Muestra Xn ={x1, . . . , xn}; n´umero de vecinos a observar k

Salida: mˆ

1: m←0;

2: para todo x∈ Xn hacer

3: mk ←0;

4: para j = 1 hasta k−1hacer

5: xk ←k-vecino m´as cercano ax en Xn;

6: dk ← distancia(x, xk);

7: xj ←j-vecino m´as cercano a x enXn;

8: dj ← distancia(x, xj);

9: mk←mk+ln(dk/dj);

10: fin para

11: m←m+ ((k−2)/mk);

12: fin para

13: devolver m/n;

4.2.

Farahmand et al.

El algoritmo propuesto por Farahmand et al. en [3], sigue un procedimiento similar el de Levina-Bickel; define un estimador local dˆ(x) para la dimensi´on y luego define el estimador de la dimensi´on intr´ınseca ˆm como el promedio de ˆd(Xi) sobre la muestra Xn ={X1, . . . , Xn} ⊂Rd.

(25)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 19

Defina η(x, ) tal que

P({Xi ∈B(x)}) = η(x, )m (4.4)

donde B(x) es la bola abierta centrada enx de radio y m es la dimensi´on

de M.

Esto es equivalente a

ln(P({Xi ∈B(x)})) = ln (η(x, )) +mln () (4.5)

Ahora, como Mes una variedad, podemos suponer que η(x, ) es constante en B(x) con suficientemente peque˜no, ya que M es localmente plana1

por ser una variedad.

De la misma manera que llegamos al estimador local 4.2 de Levina-Bickel, en vez de observar las bolas alrededor dex, observemos solamente los puntos de Xn m´as cercanos a x. Sea X(k) elk-vecino m´as cercano a x en Xn, y sea

k = Tk(x) =k X(k)−x k, en [3], Farahmand et al. demostraron que para n

suficientemente grande

P({Xi ∈Bk(x)})≈k/n (4.6)

De manera que, reemplazando en 4.5 para k y k/2 obtenemos ln(k/n)≈ln(ηk) +mln(Tk(x))

ln(k/(2n))≈ln(ηk) +mln(Tdk/2e(x))

(4.7)

Finalmente, restando las ecuaciones en 4.7 y despejando m, obtenemos el estimador local de Farahmand

ˆ

d(x) = ln(2)

ln(Tk(x)/(Tdk/2e(x))

(4.8)

Y el estimador de la dimensi´on intr´ınseca de Farahmand et al. es

ˆ

m= 1

n

n

X

i=1

min( ˆd(Xi), d) (4.9)

(Recordemos que Xn ={X1, . . . , Xn} ⊂Rd).

El algoritmo para calcular el estad´ıstico de Farahmand et al. es

1Al decir que M es localmente plana nos referimos a que es localmente difeomorfa a

(26)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 20

Algoritmo 4 Algoritmo para calcular el estimador de Farahmand et al.

Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar k;

dimension obsevada d

Salida: mˆ

1: m←0, k2← dk/2e;

2: para todo x∈ Xn hacer

3: xk←k-vecino m´as cercano a x enXn;

4: rk← distancia(x, xk);

5: xk2 ←k2-vecino m´as cercano a x enXn;

6: rk2 ←distancia(x, xk2);

7: dx ←ln(2)/ln(rk/rk2);

8: m←m+min(d, dx);

9: fin para

10: devolver m/n;

4.3.

Sricharan et al.

Sricharan et al. proponen un algoritmo m´as directo para estimar la dimensi´on intr´ınseca. Sea Xn una muestra i.i.d de tama˜no n. Particione Xn

en dos submuestras disjuntas YN, ZM de tama˜nos N y M respectivamente

tal que N +M =n.

Defina Lk(Xn) como

Lk(Xn) =

γ N

N

X

i=1

ln (Tk(Xi)) (4.10)

tal que γ >0 y Xi ∈ YN.

Finalmente, como se muestra en [5] y [1], el estad´ıstico de la dimensi´on intr´ınseca de Sricharan et al. es

ˆ

m =γln(k2−1)−ln(k1−1) Lk2(Xn)−Lk1(Xn)

(4.11)

(27)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 21

Algoritmo 5 Algoritmo para calcular el estimador de Sricharan et al.

Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar 2 <

k1 < k2; constante γ; tama˜no de la partici´on N

Salida: mˆ

1: m←0;

2: M ←n−N;

3: YN ← {x1. . . , xN};

4: ZM ={xN+1, . . . , xn};

5: para todo x∈ YN hacer

6: xk←k1-vecino m´as cercano ax enZM;

7: rk← distancia(x, xk);

8: m1 ←m1+γln(rk)/N;

9: fin para

10: para todo x∈ YN hacer

11: xk←k2-vecino m´as cercano ax enZM;

12: rk← distancia(x, xk);

13: m2 ←m2+γln(rk)/N;

14: fin para

(28)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 22

4.4.

Alcance (Quiroz et al.)

Sea Xn = {X1, . . . , Xn} una muestra i.i.d. El grafo de los k-vecinos m´as

cercanos de Xn, Gk(Xn), se define como el grafo con pesos cuyos v´ertices

son los elementos de Xn y entre dos v´ertices x, y existe una arista si y solo

si x es uno de los k-vecinos m´as cercanos a y o y es uno de los k-vecinos m´as cercanos a y en Xn. Los pesos las aristas de Gk(Xn) est´an dados por la

distancia eucl´ıdea entre los v´ertices conectados por la arista.

Si x1 y x2 son v´ertices en Gk(Xn), decimos que x2 puede ser alcanzado en j

pasos desde x1 si existe un camino v0, v1, . . . , vj tal que v0 = x1 y vj = x2.

Definamos el n´umero rj,k(x,Xn) como el n´umero de v´ertices que pueden ser

alcanzados desde x enj o menos pasos en Gk(Xn).

Como se explica en [1], la intuici´on indica que a medida que la dimensi´on se incrementa hay m´as direcciones en las cuales pueden haber caminos, de manera que el cada punto en Gk(Xn) puede tener un mayor alcance dentro

del grafo.

Algoritmo 6 Algoritmo para calcular el estad´ıstico de Alcance.

Entrada: Muestra Xn = {x1, . . . , xn}; n´umero de vecinos a observar k;

n´umero de pasos j

Salida: r¯j,k(Xn)

1: Construir el grafo Gk de losk-vecinos m´as cercanos;

2: r ←0;

3: para todo x∈ Xn hacer

4: rj ←0;

5: para i= 1 hasta j hacer

6: rj ←rj+ n´umero de v´ertices alcanzables en ipasos;

7: fin para 8: r←r+rj;

9: fin para

10: devolver r/n;

(29)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 23

de rj,k(x,Xn) sobre la muestra.

¯

rj,k(Xn) =

1

n

n

X

i=1

rj,k(Xi,Xn) (4.12)

Claramente ¯rj,k(Xn) no es un estimador directo de la dimensi´on intr´ınseca,

de manera que es necesario pasar ¯rj,k(Xn) por el proceso de entrenamiento

Bayesiano descrito en la Secci´on 4.7 para obtener un estimador ˆ

m(¯rj,k(Xn)).

La validez de est´a procedimiento esta justificada por el siguiente resultado sobre el comportamiento asint´otico de ciertos funcionales, demostrado por Quiroz et al.

Sea M una subvariedad cerrada m-dimensional C1 de

Rd y sea κ una densidad de probabilidad continua casi siempre, acotada con soporte compacto sobre M. Si Xn es una muestra i.i.d. con densidad κ entonces,

dado j , para todo k∈N enL2 y casi siempre

σ2(ri,j) := l´ım

n→∞nV ar(rj,k(Xn)) = V

rj,k(m)(∆rj,k(m))2 (4.13)

y cuando n→ ∞ √

n(rj,k −E(rj,k))→N(0, σ2(rj,k)) (4.14)

en distribuci´on. Donde

Vrj,k(m) =E(r

j,k(0,Xn)2)+

Z

Rm

(E(rj,k(0,Xn∪z)rj,k(z,Xn∪0))−E(rj,k(0,Xn))2)dz

(4.15) y

∆rj,k(m) =E(r

j,k(0,Xn)) +

Z

Rm

(30)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 24

4.5.

Grados del MST (Quiroz et al.)

Un segundo estad´ıstico basado en grafos presentado por Quiroz et al. en [1] consiste en construir el MST de la muestra Xn = {X1, . . . , Xn}. Luego,

definimos el estad´ıstico

Mn=

1

n

n

X

i=1

deg(Xi)2 (4.17)

donde deg(Xi) es el grado del vertice Xi ∈ Xn en el MST de los k-vecinos

m´as cercanos.

Este estad´ıstico est´a basado en los resultados de Steele, Shepp & Eddy [6] sobre el n´umero de v´ertices con gradoj en un MST proveniente de datos en un espacio euclidiano. Los resultados en [6] establecen que el n´umero de v´ertices de grado j provenientes de una distribuci´on continua en Rd

converge casi siempre a un l´ımite que solamente depende de j y d.

Algoritmo 7 Algoritmo para calcular el estad´ıstico de Grados del MST.

Entrada: Muestra Xn ={x1, . . . , xn}

Salida: Mn

1: Construir el MST de Xn;

2: d←0;

3: para todo x∈ Xn hacer

4: d←d+deg(Xi)2;

5: fin para

6: devolver d/n;

La idea tras Mn es usar esta convergencia para estimar el l´ımite en funci´on

de d y posteriormente usar el proceso de entrenamiento Bayesiano de la secci´on 4.7 para producir un estimador ˆm(Mn) de la dimensi´on intr´ınseca

(31)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 25

4.6.

Di´

ametro del MST local

Finalmente, describimos el nuevo algoritmo propuesto en este documento.

El objetivo de este algoritmo es usar el di´ametro de cierto MST para inferir informaci´on local sobre los datos. El estad´ıstico basado en este di´ametro nos da informaci´on sobre que tan cercanos est´an los puntos de las muestra. A continuaci´on hacemos una descripci´on del algoritmo propuesto.

Sea Xn una muestra i.i.d de tama˜no n. Sea k =

n. Para cada x ∈ Xn

encontramos los k-vecinos m´as cercanos dexy construimos el MST de estos

k+ 1 puntos (xy los k vecinos). Ahora calculamos el di´ametro d(k)x del MST

en x. Nuestro estad´ıstico lo definimos como

Dn=

1

n

n

X

i=1

d(k)X

i (4.18)

Las pruebas in´ıciales con este estad´ıstico se realizaron con muestras con distribuci´on uniforme sobre el cubo unitario d-dimensional. Estos resultados previos mostraron que nuestro estad´ıstico depende de la dimensi´on intr´ınseca y del tama˜no de la muestra.

En las Figuras 4.1 y 4.2 se muestra la dependencia logar´ıtmica de nuestro estad´ıstico Dn con el tama˜no de la muestra n.

(32)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 26

Figura 4.1: Dn contra n en el cubo unitario dimensional (Cubo

2-dimensional).

Figura 4.2: Gr´afica loglog de Dn contra k (Cubo 2-dimensional).

(33)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 27

Figura 4.3: Gr´afica loglog de Dn contra k para varias dimensiones.

En la Figura 4.3 se ve claramente que para cada dimensi´on, la recta loglog tiene un intercepto distinto con el eje log(Dn) y distinta pendiente. De

manera que cada dimensi´on la podemos identificar con una pareja (α0, α1)

tal que ln(Dn) = α0 + α1ln(k). Para estimar la dimensi´on intr´ınseca

basados en Dn, basta encontrar la recta m´as cercana dentro de la familia de

rectas para cada dimensi´on.

Tambi´en notamos que para dimensiones altas, las rectas se acercan cada vez m´as. Este es un claro ejemplo de la Maldici´on de las altas dimensiones, ya que a medida que la dimensi´on se incrementa, se disminuye la distancia entre las rectas, lo cual dificulta distinguir la dimensi´on estimada sin aumentar considerablemente el error.

4.7.

Entrenamiento Bayesiano

A continuaci´on describimos el proceso utilizado en [1] para producir estimadores de la dimensi´on intr´ınseca a partir de estad´ısticos basados en grafos; llamaremos a este proceso entrenamiento Bayesiano.

Sea Sn un estad´ıstico basado en grafos. Suponemos que Sn tiene una

(34)

CAP´ITULO 4. ESTIMACI ´ON DE LA DIMENSI ´ON INTR´INSECA 28

Rd, de dimensi´on m, m ≤ d, suponemos que Sn((X)\) converge en norma

L2 a un l´ımite µ(m) que depende ´unicamente de la dimensi´on intr´ınseca m.

Suponemos tambi´en que

nVar(Sn(Xn))→σ2(m), cuando n → ∞ (4.19)

y que

n(Sn(Xn))−E(Sn(Xn))∼ N(0, σ2(m)) (4.20)

Notemos que los resultados (4,13) y (4,14), demostrados por Quiroz et al. justifican las suposiciones anteriores.

Consideramos un conjunto finito F de posibles dimensiones intr´ınsecas. Para cada j ∈ F generamos L muestras de tama˜no n de una distribuci´on uniforme sobre el cubo j-dimensional. Notemos que en este caso, la dimensi´on intr´ınseca de los datos es j. Para cada muestra calculamos Sn y

obtenemos los promedios ˆµj y las varianzas muestrales ˆσj2 para cada j ∈F.

Para producir el estimador de la dimensi´on para una muestra arbitraria de tama˜non0, calculamos el estad´ısticoSn0 para la nueva muestra y calculamos

ˆ

m(Sn0) = 

 

P

j∈F

jfˆj(Sn0)

P

j∈F

ˆ

fj(Sn0) 

 (4.21)

donde ˆfj es la funci´on de densidad de probabilidad de la distribuci´on

normal N( ˆµk,σˆj2) y [·] es la funci´on de redondeo al entero m´as cercano.2

El Teorema 4 de [1] justifica el uso de este procedimiento.

Teorema: (Teorema 4 de [1]) Sean m y ˆm, la dimensi´on intr´ınseca de Xn0 y su estimador (4.21), respectivamente. Bajo las condiciones anteriormente descritas, ˆm→m casi siempre cuando L, n, n0 → ∞.

2Esta f´ormula corresponde a un Clasificador Bayesiano que maximiza la probabilidad

(35)

Resultados

Para las pruebas de cada algoritmo, se utilizaron muestras en las siguientes variedades: S2,

S3,S5,S6,S8,S9,(SwissRoll)1,(SwissRoll)2,(SwissRoll)3, S1×S1,P2,P5,P9, M1 y M2.

Las dimensiones para las muestras usadas son

Variedad Dimensi´on presentada

Dimensi´on real

Dimensi´on intr´ınseca

S2 3 3 2

S3 4 4 3

S5 6 6 5

S6 7 7 6

S8 9 9 8

S9 10 10 9

(Swiss Roll)1 3 3 2

(Swiss Roll)2 6 3 2

(Swiss Roll)3 9 3 2

S1 ×S1 9 3 2

P2 3 3 2

P5 6 6 5

P9 10 10 9

M1 3 3 2

M2 36 6 4

Tabla 5.1: Dimensiones de las muestras generadas.

Para cada una de las pruebas de los algoritmos de Levina-Bickel, Farahmand et al. y Sricharan et al. se generaron 50 muestras distintas de

(36)

CAP´ITULO 5. RESULTADOS 30

tama˜no n = 1000 de cada variedad listada. Se registr´o la dimensi´on estimada promedio ¯m y el ECM1.

Se utilizaron los siguiente par´ametros, Levina-Bickel (k = 10), Farahmand (k = 5) y Sricharan(k1 = 5, k2 = 10, N = 200, γ = 1).

Los resultados fueron los siguientes:

Levina-Bickel Farahmand Sricharan

Variedad m¯ ECM m¯ ECM m¯ ECM

S2 1,9984 5,72e-4 2,3849 0,1491 2,1835 0,0385

S3 2,992 1,2e-3 3,3258 0,1075 3,26 0,0773

S5 4,8599 0,0257 5,1348 0,0202 5,2185 0,0775

S6 5,7302 0,08 6,0171 0,0032 6,188 0,0829

S8 7,4008 0,3896 7,7477 0,0688 7,9413 0,0621

S9 8,1749 0,6952 8,5982 0,1679 8,8055 0,1277

(Swiss Roll)1 2,0047 9,25e-4 2,3758 0,1480 2,4391 0,2178

(Swiss Roll)2 2,2624 0,0885 3,9608 3,8537 2,3827 0,1741

(Swiss Roll)3 2,1605 0,0267 4,1783 4,7567 2,1002 0,0240

S1×S1 2,0657 0,0049 3,7756 3,1602 2,2442 0,0647

P2 1,9763 9,91e-4 2,3742 0,1409 2,1343 0,0229

P5 4,4933 0,2198 4,9821 0,0035 4,639 0,1640

P9 7,1182 3,5494 8,1953 0,6526 7,1864 3,401

M1 2,0088 6,71e-4 2,3838 0,1478 2,1392 0,0269

M2 4,4294 0,1882 9,2641 27,7649 4,5354 0,3223

Tabla 5.2: Resultados para Levina-Bickel, Farahmand y Sricharan.

Por otro lado, los algoritmos de Alcance y Grados del MST requirieron ejecutar el entrenamiento Bayesiano antes. Los par´ametros del entranamiento Bayesiano para ambos casos fueron

1Error Cuadr´atico Medio: P50

i=1

(37)

CAP´ITULO 5. RESULTADOS 31

F L n

{2,3, . . . ,12} 100 5000

Tabla 5.3: Par´ametros del entramiento Bayesiano.

Los resultados del entrenamiento Bayesiano fueron

Alcance Grados Dimensi´on µˆj nσˆj2 µˆj nσˆj2

2 8,9666 0,2307 3,9988 7,17e-7

3 10,4250 0,3542 4,455388 6,67e-3

4 11,5151 0,2610 4,6409 0,0128

5 12,3393 0,3787 4,7610 0,189

6 12,9933 0,2805 4,8530 0,0278

7 13,5402 0,2775 4,9278 0,0289

8 13,9935 0,1838 4,999 0,0409

9 14,3915 0,2847 5,1197 0,0452

10 14,7233 0,2032 5,1792 0,0461

11 15,0242 0,2161 5,2416 0,0509

12 15,2787 0,18 5,3096 0,0731

Tabla 5.4: Resultados del entramiento Bayesiano.

Usando el procedimiento descrito en la Secci´on (4.7) junto con los resultados del entrenamiento, el estimador producido para los estad´ısticos de Alcance (con par´ametros j = 2, k = 4) y Grados del MST dieron los siguientes resultados

(38)

CAP´ITULO 5. RESULTADOS 32

Alcance Grados

Variedad m¯ ECM m¯ ECM

S2 2 0 2 0

S3 3 0 3,02 0,02

S5 5,06 0,06 4,62 0,46

S6 6,1 0,1 5,06 1,1

S8 8 0,16 6,04 4,36

S9 8,96 0,04 6,54 5,42

(Swiss Roll)1 2 0 2 0

(Swiss Roll)2 2 0 2 0

(Swiss Roll)3 2 0 2 0

S1×S1 2 0 2 0

P2 2 0 2 0

P5 4,76 0,24 5,2 0,4

P9 7,12 3,64 9,68 1,24

M1 2,1392 0,0269 2 0

M2 4,5354 0,3223 3 1

Tabla 5.5: Resultados para Alcance y Grados del MST.

Finalmente, para el algoritmo de Di´ametros se obtuvieron los siguientes resultados para las rectas que representan cada dimensi´on

Dimensi´on α0 α1

2 0,4536 0,7247

3 0,5469 0,6572

4 0,5997 0,6215

5 0,6061 0,6058

6 0,6273 0,5896

7 0,6431 0,5786

8 0,6553 0,5682

9 0,6683 0,5599

10 0,6979 0,5479

11 0,7007 0,5437

12 0,6981 0,5409

(39)

CAP´ITULO 5. RESULTADOS 33

donde ln(Dn) = α0+ α21 ln(n).

Y encontrando la recta m´as cercana a ln(Dn) para cada muestra se obtuvieron

los siguientes resultados:

Di´ametro

Variedad m¯ ECM

S2 2 0

S3 3 0

S5 5 0

S6 5,72 0,28

S8 7,4 0,6

S9 8,24 0,76

(Swiss Roll)1 2 0

(Swiss Roll)2 2 0

(Swiss Roll)3 2 0

S1×S1 2 0

P2 2 0

P5 4,8 0,2

P9 7,84 1,96

M1 2 0

M2 3,6 0,4

Tabla 5.7: Resultados para Di´ametro.

Para mayor familiaridad con el nuevo algoritmo, incluimos algunas im´agenes producidas por este.

(40)

CAP´ITULO 5. RESULTADOS 34

Figura 5.1: 25 Muestras de S8; dimensi´on estimada promedio: 7.4

(41)

Conclusiones

De los resultados obtenidos, podemos observar que en la gran mayor´ıa de los casos, los algoritmos estimaron dimensiones cercanas a las dimensiones reales. En particular para dimensiones bajas de variedades sencillas como la esfera y paraboloide, todos los algoritmos presentaron un buen rendimiento.

Para las variedades de baja dimensi´on (S2,

S3,P2, M1 y el toro), el mejor rendimiento lo obtuvo el estimador de Di´ametros del MST local con el estimado de Alcance en un cercano segundo lugar, mientras que el peor rendimiento lo obtuvo Farahmand seguido por Sricharan, los cuales tuvieron un mayor ECM para las dimensiones m´as bajas.

Para variedades de alta dimensi´on, el estad´ıstico de Farahmand fue el que tuvo el mejor ECM , seguido por el estad´ıstico de Di´ametro del MST local. No es sorprendente ver el estad´ıstico de Di´ametro teniendo buen desempe˜no para altas dimensiones, ya la estructura intr´ınseca del MST, y por tanto su di´ametro, se deber´ıa mantener bajo cambios proporcionales de las distancias entre los puntos, causado por el problema de alta dimensionalidaden en el que los puntos parecen aislados. Por otro lado, los que peor rendimiento tuvieron en dimensiones altas fueron Levina-Bickel y el estad´ıstico de Grados, obteniendo hasta 3 y 5 puntos completos en el ECM.

Las dimensiones redundantes no afectaron en lo absoluto a los m´etodos basados en grafos, y en muy poca medida a los dem´as algoritmos, excepto por el estad´ıstico de Farahmand, el cual tuvo un desempe˜no desastroso en las variedades con dimensiones redundantes (Toro, Swiss Roll y la variedad producto) llegando hasta 27 puntos de ECM en la variedad producto. Esto es un clara evidencia de la robustez de los m´etodos basados en grafos, lo

(42)

CAP´ITULO 6. CONCLUSIONES 36

cual es una caracter´ıstica importante para aplicaciones con datos reales.

La variedad que peor se comport´o respecto a los resultados fue el paraboloide 9-dimensional, ya que la mayor´ıa de los algoritmos estimaban su dimensi´on hasta 2 unidades por debajo de su dimensi´on real. Una posible raz´on para esto, es la distribuci´on Burr de la que se toman los datos con los que se construye. Como ya notamos, esta distribuci´on causa que haya una mayor densidad de puntos cerca del origen, que a su vez es donde la variedad tiene menor curvatura. Nuestra hip´otesis, es que estos dos hechos hacen ver la variedad demasiado “plana” en vecindades cercanas al origen, lo cual causa que los algoritmos subestimen su dimensi´on intr´ınseca.

A pesar de traer una estructura fuera de lo usual, la variedad producto M2 se comporto bien, y los algoritmos, con excepci´on de Farahmand, fueron capaces de estimar aproximadamente su dimensi´on intr´ınseca. Nuestra hip´otesis acerca de la gran discrepancia entre el estad´ıstico de Farahmand y la realidad, es que la distorsi´on fue causada por la gran cantidad de dimensiones redundantes, m´as que por la estructura de la variedad producto.

Finalmente, el nuevo algoritmo basado en el di´ametro del MST local mostr´o los mejores resultados sobre todos los dem´as algoritmos, solamente teniendo error significativo para P9. Sin embargo, a su vez su costo

computacional era mayor que el de los dem´as algoritmos. Es necesario estudiarlo m´as a fondo para determinar si el desempe˜no que obtuvo justifica el sobrecosto computacional para muestras m´as grandes.

(43)

Bibliograf´ıa

[1] M.R. Brito, A.J. Quiroz, J.E. Yukich. Intrinsic dimension identification via graph-theoretic methods. Journal of Multivariate Analysis 116, pp. 263-277, 2013.

[2] M.R.Brito, A.J. Quiroz, J.E. Yukich. Graph theoretic procedures for dimension identification. Journal of Multivariate Analysis 81, pp. 67-84, 2002.

[3] A. Farahmand, C.Szepesv´ari, J. Y. Audibert. Manifold-adaptive dimension estimation. Z. Ghahramani (Ed.), Proceedings in the 24th International Conference on Machine Learning, ACM, New York, pp. 256-272, 2007.

[4] E. Levina, P.J. Bickel. Maximum likelihood estimation of intrinsic dimension. L.K. Saul, Y. Weiss, L. Bottou (Eds.), Advances in Neural Information Processing Systems, Volume 17, 2005.

[5] K. Sricharan, R. Raich, A.O. Hero. Optimized intrinsic dimension estimation using nearest neighbor graphs. IEEE Internation Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE Conference Publication, pp. 5418-5421, 2010.

[6] J.M. Steele, L.A. Shepp, W.F. Eddy. On the number of leaves of a Euclidean minimal spanning tree. Journal of Applied Probability 24, pp. 809-826, 1987.

[7] J.L. Bentley, J.H. Friedman Fast Algorithms for Constructing Minimal Spanning Trees in Coordinate Spaces IEEE Transactions On Computers, Vol. c-27, No. 2, pp. 97-105, 1978.

(44)

BIBLIOGRAF´IA 38

[8] J. Eisner State-of-the-Art Algorithms for Minimum Spanning Trees: A tutorial Discussion. University of Pennsylvania, 1997.

[9] J.L. Bentley, J.H. Friedman, R.A. Finkel An Algorithm for Finding Best Matches in Logrithmic Expected Time ACM Transactions on Mathematical Software, Vol. 3, No. 3, 1976.

Referencias

Documento similar

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

We have created this abstract to give non-members access to the country and city rankings — by number of meetings in 2014 and by estimated total number of participants in 2014 —

(29) Cfr. MUÑOZ MACHADO: Derecho público de las Comunidades Autóno- mas, cit., vol. Es necesario advertir que en la doctrina clásica este tipo de competencias suele reconducirse

Tras establecer un programa de trabajo (en el que se fijaban pre- visiones para las reuniones que se pretendían celebrar los posteriores 10 de julio —actual papel de los

Por PEDRO A. EUROPEIZACIÓN DEL DERECHO PRIVADO. Re- laciones entre el Derecho privado y el ordenamiento comunitario. Ca- racterización del Derecho privado comunitario. A) Mecanismos

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación