Métodos basados en grafos para el problema de dos muestras en datos funcionales

(1)

Universidad de los Andes

Trabajo de grado

M´

etodos basados en grafos para el

problema de dos muestras en datos

funcionales

Autor:

Felipe

_Su´

_{arez Colmenares}

Supervisor:

Prof. Adolfo

_Quiroz

Departamento de Matem´aticas

(2)

(3)

iii

´

_{Indice general}

Introducci´on 1

1. Preliminares 3

1.1. Pruebas de Hip´otesis . . . 3

1.2. Problema de dos muestras . . . 4

1.3. Estad´ıstica no param´etrica . . . 6

1.4. Nociones b´asicas en teor´ıa de grafos . . . 9

1.5. Movimiento Browniano . . . 11

2. Teor´ıa Asint´otica de los Estad´ısticos 15 2.1. Teorema del L´ımite Central Combinatorio . . . 15

2.2. Estad´ıstico de Friedman-Rafsky . . . 21

2.3. Estad´ıstico de Schilling . . . 27

2.4. Estad´ıstico de Esferas de Influencia . . . 31

2.5. Teorema del L´ımite Central para grafos aleatorios . . . 35

3. Evaluaci´on Computacional y Resultados 39 3.1. Simulaciones . . . 39

3.1.1. Datos Finito-Dimensionales . . . 39

3.1.2. Datos Funcionales . . . 46

3.2. Datos Reales . . . 49

4. Discusi´on de resultados 51 5. Conclusiones y trabajo futuro 53 A. Implementaci´on de los algoritmos 55 A.1. Estad´ısticos . . . 56

A.1.1. k−NN . . . 56

A.1.2. k−MST . . . 57

A.1.3. k−SI . . . 58

A.2. Pruebas de Hip´otesis Nula . . . 59

A.2.1. Prueba de Uniformidad delp-valor . . . 59

A.2.2. Prueba de Normalidad de los estad´ısticos . . . 59

A.3. Pruebas de Potencia . . . 60

A.3.1. Prueba de potencia para datos funcionales . . . 60

A.3.2. Prueba de Potencia para movimiento Browniano . . . 61

A.4. M´etodos Adicionales . . . 62

A.4.1. C´alculo de grados en los grafos . . . 62

A.4.2. Generaci´on de los procesos estoc´asticos . . . 63

A.4.3. Estandarizaci´on de Datos . . . 63

A.4.4. Carga de librer´ıas . . . 64

(4)

(5)

1

Introducci´

on

En estad´ıstica matemática surge de manera acertada la pregunta por la naturaleza de un conjunto de datos. Una suposición válida es pensar que el conjunto de datos proviene de la realización de alguna variable aleatoria con distribución desconocida. Por ejemplo, para conjuntos en el espacio_Rd_{, se puede suponer que la distribuci´}_{on es uniforme, normal,} o gamma multivariada, entre otras. En muchos de estos casos existen métodos para encon-trar los parámetros óptimos que se ajustan y se generalizan de la muestra. Sin embargo, en la gran mayor´ıa de aplicaciones, el conjunto de datos se encuentra en dimensiones altas y por lo tanto los modelos paramé tricos no son convenientes.

El problema de dos muestras busca responder a la pregunta de si dos conjuntos de datos {X1, X2, . . . , Xn} y {Y1, Y2, . . . , Ym} provienen de realizaciones de una misma dis-tribución. De esta forma, cuando los datos {Xi, Yj} son representados como vectores en Rd, se le denomina problema de dos muestras multivariado. Cuando los datos provienen de una realización de un proceso estocástico{Xi(t), Yj(t)}, con t∈I,un intervalo enR, se le llama problema de dos muestras para datos funcionales. La naturaleza funcional de los procesos estocásticos sugiere considerar modelos no paramétricos.

Existen varios métodos no paramétricos multivariados para el problema de dos mues-tras. Por ejemplo Wald y Wolfowitz (1940) propusieron un método univaraido basado en el orden natural de_R; Kolmogorov y Smirnov (1948) propusieron un método que se basa en la distancia entre las distribuciones emp´ıricas. También, Friedman y Rafsky (1979) pro-pusieron un método no paramétrico basado en grafos para datos multivariados. Schilling (1986), por su parte, generalizó la idea de Friedman y Rafsky utilizando otros métodos basados en grafos. Todos estos métodos han logrado ser buenos para determinar cuándo las muestras provienen de distribuciones diferentes en casos multivariados finito-dimensiones (dn, m).

En las últimas décadas hemos sido testigos del enorme impacto que ha tenido el cre-ciente desarrollo tecnológico. En el espacio que ocupaba un solo transistor hace 20 años, las máquinas de ahora pueden contener miles de millones. Esto permitió, por ejemplo, que las bases de datos hoy sean más grandes, más abundantes y más diversas. Es por esto que ha crecido el interés por el estudio desde un enfoque estad´ıstico de datos funcionales [16]. El problema de dos muestras para datos funcionales resulta ser de gran importancia tanto para la teor´ıa no-paramétrica estad´ıstica como para todas sus aplicaciones. Es importan-te entonces preguntarse ¿Es posible encontrar una prueba lo suficienimportan-temenimportan-te buena para responder al problema de dos muestras en datos funcionales? ¿Qué tan bueno es el test comparado con sus contrapartes multivariadas o sus contrapartes paramétricas?

Varias posibles aplicaciones podr´ıan ser suponer que se tienen dos conjuntos de curvas, p.e. los niveles de olas en varios puntos del océano en el tiempo cuando hay y no hay tormentas; los resultados de la actividad eléctrica en la cabeza de un individuo (encefa-lograma) bajo distintos est´ımulos; el flujo de carga en el sistema de transmisión cuando se encuentra en operación normal y cuando se presentan fallas, etc. En todos estos casos conviene saber si los conjuntos de curvas vienen de la misma distribución para saber si existe una dependencia probabil´ıstica entre las curvas, p.e. ¿Son los niveles en las olas información relevante sobre las potenciales futuras tormentas? ¿Qué partes del cerebro se afectan con qué est´ımulo? ¿Cómo tener algún grado de certeza de que se produjo una falla teniendo solo las mediciones eléctricas instantáneas en ciertos puntos?

(6)

2 ´Indice general

El objetivo de este trabajo es estudiar, tanto teóricamente como a nivel de desempeño, tres pruebas estad´ısticas conocidas para el problema de dos muestras en datos multivaria-dos y extenderlas a datos funcionales. En el cap´ıtulo 2 se calcularán las distribuciones nulas de los estad´ısticos en cada caso y se probará la consistencia de las pruebas de hipótesis. En el cap´ıtulo 3 se verificará la velocidad de convergencia de los estad´ısticos hacia sus dis-tribuciones nulas correspondientes por métodos de Montecarlo. Se realizarán pruebas de potencia en simulaciones de Movimiento Browniano y varias variaciones, as´ı como versio-nes paramétricas multivaraidas uniforme y normal. Se realizarán comparaciones en datos multivariadas simulados frente a los tests uniformemente más potentes. Finalmente se apli-carán las pruebas en bases de datos reales de Contaminación1_{, Esquizofrenia} 2_{, C´}_ancer

de Mama y C´ancer en general3_.

1_{Los datos fueron obtenidos por medio de los autores en [1].} 2_Ver_{https://www.kaggle.com/c/mlsp-2014-mri}_.

(7)

3

Cap´ıtulo 1

Preliminares

1.1. Pruebas de Hip´

otesis

El procedimiento estad´ıstico por excelencia más ampliamente utilizando para soportar una hipótesis en ciencias es conocido como una prueba de hipótesis. En una prueba de hipótesis estamos interesados en responder a una pregunta que nos permita conocer mejor algún fenómeno aleatorio. Por ejemplo, queremos conocer algún parámetro de una variable aleatoria tal como su media, su varianza, etc. Naturalmente, es necesario utilizar evidencia

{x1, x2, . . . , xn}que nos permita tener una grado de certeza sobre las conclusiones que va-mos a dictar. Entonces, una hipótesisH es una afirmación sobre una variable aleatoriaX, la cual queremos probar o invalidar por medio de una prueba de hipótesis y un conjunto proveniente de realizaciones de X,{x1, x2, . . . , xn}.

La versión propuesta por Fisher [4] para una prueba de hipótesis, también llamada Test de hipótesis nula, tiene como objetivo probar la falsedad de una afirmación a la que denominamos hipótesis nulaH0. El procedimiento consiste de lo siguiente:

Test de Hip´otesis Nula

1. Establecer una hip´otesisH0 que se quiera probar falsa.

2. Definir un estad´ısticoT relevante para la hip´otesis.

3. Calcular la distribuci´on deT asumiendo que la hip´otesisH0es cierta.

4. Tomar una muestra{x1, . . . , xn}1y calcular el valor del estad´ısticoS:=T(x1, . . . , xn). 5. Calcular la probabilidad de haber obtenidoS, o un valor m´as extremo2_que_S_:

p:=_P0(T ≥S) =P(T(X1, . . . , Xn)≥T(x1, . . . , xn)|H0).

6. Concluir queH0es falsa, rechazarH0, sipes suficientemente peque˜no.3.

Neyman y Pearson [14] formularon un esquema de prueba de hipótesis en la que se comparan dos afirmaciones,H0, la hipótesis nula yH1, la hipótesis alternativa

generalizan-do la idea de Fisher. El objetivo es probar queH0 es falsa y validarH1. El procedimiento

es el siguiente.

Test de Hip´otesis Alternativa 1. Establecer dos hip´otesisH0,H1.

2. Definir un estad´ısticoT relevante para las hip´otesis.

3. Basado en las distribuciones de T|H0 yT|H1, encontrar un eventoC que me

indi-que cu´ando rechazar H0, y por lo tanto aceptar H1. Es decir, si {x1, . . . , xn} son realizaciones de una variable aleatoria X : Ω −→ M, y T : Mn _−→

R. Entonces,

1_{En la pr´}_{actica conviene utilizar tantas muestras como sea posible para asegurar mejor convergencia} asint´otica.

2_{La definici´}_{on de extremo depende de la formulaci´}_{on del estad´ıstico y de la hip´}_otesis. 3_{En algunos se casos se considera 0.05 como un umbral apropiado.}

(8)

4 Cap´ıtulo 1. Preliminares

denominamos comoregi´on cr´ıtica C⊆_Ral conjunto tal que se decide:

(

AceptarH1, siT(x1, . . . , xn)∈C,

AceptarH0, siT(x1, . . . , xn)6∈C.

4. Tomar una muestra{x1, . . . , xn}y calcular el valor del estad´ısticoS:=T(x1, . . . , xn).

5. Decidir la hip´otesis aceptada de acuerdo al conjunto C escogido previamente y el valor deS.

Se define elnivel de confianza como la probabilidad de rechazarH0 dado que esta es

cierta,

α:=P(Rechazar H0|H0), β:=P(Rechazar H1|H1).

A la probabilidad_P(AceptarH1|H1) = 1−β se le llamapotencia.

Normalmente, la escogencia de C se hace luego de definir un l´ımite m´aximo para el error de equivocarse al rechazarH0, es decir tener evidencia falsa en contra deH0(falsos

positivos oError tipo 1) . O sea, definimos un valor m´aximo paraαque nos determina la regi´on cr´ıticaC y por lo tanto la potencia 1−β =_P(C|H1). En el mejor de los casos la

potencia debe aproximarse a 1, pues esta me indica qu´e tan bien un estad´ıstico “detecta” correctamente queH1 es cierta. Por lo tanto es fundamental encontrar, para una misma

prueba (H0, H1), el estad´ısticoTn:Mn−→Rque maximiza la potencia.

La potencia nos proporciona una herramienta para comparar dos estad´ısticosT, T0con respecto a una misma prueba (H0, H1). Es claro que los estad´ısticos dependen fuertemente

de la muestra{xi}i≤n, en particular dependen de la cantidad de datos n. Intuitivamente es cierto que sin−→ ∞, entoncesT|H0yT|H1se van a diferenciar m´as notoriamente. As´ı

que se define un estad´ısticoT comoconsistentepara la prueba (H0, H1) siβ−→0, cuando

n−→ ∞.Entonces, más que comparar para unnfijo cuál estad´ıstico es más potente para (H0, H1), se verifica cuál converge más rápidoβ(T), β(T0) a 0.

1.2. Problema de dos muestras

Una de las preguntas más básicas acerca de dos objetosX yY es ¿Cómo se relacionan entre s´ı? En el contexto de probabil´ıstico, asumimos que estos objetos son interpretaciones de eventos abstractos denominados variables aleatorias. Entonces, una indagación cuida-dosa acerca X y Y debe incluir preguntas tales como ¿Qué dependencia probabil´ıstica existe entre X y Y?, ¿Si s´ı existe una dependencia probabil´ıstica entre ellas, cómo se comporta (X, Y) ?, etc. Un caso particular de esta pregunta se puede formular como una prueba de hipótesis conocida como elproblema de dos muestras. El problema de dos mues-tras es una prueba de hipótesis alternativa en la queH0 consiste de la afirmación que dos

variables aleatorias est´an igualmente distribuidas y la alternativa, H1, un subconjunto de

la negaci´on de esta afirmaci´on.

Definici´on 1.0.1. Sean X, Y : Ω −→ M variables aleatorias definidas sobre el mis-mo espacio de probabilidad (Ω,A,P) en el mismo espacio medible (M, λ). Sean Xn :=

{x1, . . . , xn}y Ym:={y1, . . . , ym} realizaciones independientes de X y Y

respectivamen-te. Se define el Problema de dos muestras(Xn,Ym), como la prueba de hip´otesis(H0, H1):

H0:X (d)

=Y, H1:X

(d)

6

=Y.

En otras palabras, estamos interesados en conocer cu´ando FX =FY dadosXn,Ym. Ejemplo 1.0.1.Seanx1, . . . , xnuna muestra de una variable aleatoria distribuidaN(0, σ2),

yy1, . . . , ymmuestras de una variable aleatoria distribuidaN(0, σ21). La prueba de hip´otesis

H0:σ2=σ21 vs H1:σ2> σ21, es un problema de dos muestras univariado.

Para ilustrar el problema mediante un ejemplo sencillo las siguientes dos muestras de puntos enR2.

(9)

1.2. Problema de dos muestras 5 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● _● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● _{● ●}_● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

−4 −2 0 2 4

−4

−2

0

2

4

Samples X and Y

● X Y

Figura 1.1: (a) 400 muestras de X ∼ N(0, I2), 200 muestras Y ∼

N(0, I2).

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

−4 −2 0 2 4

−4

−2

0

2

4

Samples X and Y

● X Y

Figura 1.2: (a) 300 muestras de X ∼ N(0, I2), 300 muestras Y ∼

N( 0₀._.1₁

,1.21I2).

En la literatura existen varias versiones para estad´ısticos apropiados para este problema [17, 21, 8]. Por ejemplo, casos en donde M = _Rd_{, considerar} _T ₌ _||_F_ˆ

X−FˆY||p, o T =

(10)

hecho, estos dos estad´ısticos han sido ampliamente estudiados y se les conoce como los estad´ısticos Kolmogorov-Smirnov y Cramer von-Mises respectivamente. As´ı, para fijar un nivel de confianza es esencial preguntarse c´omo es T|H0 asint´oticamente. Conocer esta

informaci´on presenta inconvenientes cuandoM =Rd, (d−→ ∞) por varias razones:

¿Qu´e tan correctas son las estimaciones de ˆF y ˆf cuandodes grande, especialmente

dm, n?

¿ Es f´acil calcularT|H0? ¿ Se puede encontrarT|H0asint´oticamente independiente

deFX yFY?

¿Qué tan rápido convergeT|H0 a su distribución l´ımite y qué tanto se conoce esta

distribuci´on?

¿Qu´e tan f´acil es implementarT computacionalmente?

Como respuesta a estas preguntas surgió una forma no estándar de utilizar estad´ıstica de tal manera que los estad´ısticos no dependieran muy fuertemente ded, ni tampoco de los (posiblemente infinitos) parámetros que la determinan. Esta área de la estad´ıstica es conocida como estad´ıstica no paramétrica. En particular, cuando la muestra es provenien-te de un proceso estocástico sobre un intervalo I en R, este estudio se concentra en la disciplina más espec´ıfica:Análisis de datos Funcionales.

1.3. Estad´ıstica no param´

etrica

La excelencia de la estad´ıstica como herramienta para la validación rigurosa de una proposición no es hecho trivial, ni mucho menos fortuito. Posiblemente, los teoremas más fundamentales en esta disciplina, que a su vez constituyeron la base de la estad´ıstica moderna, son conocidos como La ley Fuerte de grandes números; El teorema del l´ımite central; y el teorema de Glivenco-Cantelli. A continuación, enuncio la versión estándar de estos tres teoremas y omito su demostración. Para ver pruebas de estos teoremas por favor rem´ıtase a [21].

Teorema 1.0.1. (Ley fuerte de grandes n´umeros). SeanX1, X2, . . . variables aleatorias

i.i.d. tales que _E(X1) =:µ <∞. Se cumple que,

X1+· · ·+Xn

n −→ µ, n−→ ∞ c.s.

Teorema 1.0.2. (Teorema del L´ımite Central cl´asico) SeanX1, X2, . . . variables

aleato-rias i.i.d con _E(X1) = 0, yE(X12) = 1. Entonces,

X1+· · ·+Xn

√ n

(d)

−→ N(0,1), n−→ ∞.

Teorema 1.0.3. labelglivenco-cantelli (Glivenco-Cantelli cl´asico) SeanX1, X2, . . .

varia-bles aleatorias en_Ri.i.d con distribuci´on_F. DefinaFˆn(t) :=_n1P n

i=11(Xi≤t). Entonces,

||_F−Fˆn||∞−→0, n−→ ∞c.s.

La ley de grandes n´umeros nos da la certeza de que el par´ametroµ se puede calcular realizando repeticiones de un experimento. En particular siXi =1(Yi ∈A), entonces se puede aproximar el valor de P(Y ∈A), pues E(X1) =P(Y1 ∈A). El teorema del l´ımite

central nos permite entender qué tan correcta es la aproximación deµal aplicar la ley de grandes números; nos da una región y una probabilidad en donde el verdaderoµ puede estar, esto es, un intervalo de confianza. A su vez, esto permite crear pruebas de hipótesis sobreµbasado en el intervalo de confianza. El tercer teorema consolida el hecho de que s´ı es posible entender completamente un fenómeno aleatorio,X, a partir de sus realizaciones,

X1, X2, . . .. En conjunci´on con estos tres teoremas, el lema de Neyman-Pearson [17] hace

(11)

1.3. Estad´ıstica no param´etrica 7

Ejemplo 1.0.2. Sean la familia de distribuciones normales con varianza 1F, una muestra

X1. . . , Xncon distribuci´onFx∈ F y mediaθ, y un valorθ0. EntoncesZ = (X−θ0)/

√ nes el estad´ıstico uniformemente m´as potente sobreFpara la hip´otesisH0:θ=θ0,H1:θ > θ0

[7].

El desempeño tan sobresaliente de dichos métodos es alcanzado rápidamente por los deseos de aplicarlos en espacios más generales. Si por ejemplo tuviéramos quex1, . . . , xn,

y1, . . . , yn ∈ C[0,1], entonces ¿de qué forma podr´ıamos aplicar estos teoremas para el problema de dos muestras?. La ley de grandes números y el teorema del l´ımite central requieren que la distribución de X1 tenga una media µ, y, además, la velocidad de la

convergencia depende del tipo de distribución X. As´ı mismo sucede con el teorema de Glivenco-Cantelli, para tener una buena confianza de las estimaciones es necesario saber a priori la distribución deX. Por eso, es necesario pensar en teoremas de convergencia que asuman la menor cantidad de hipótesis sobre las variables aleatorias y se puedan aplicar uniformemente en una familia de distribuciones Alo más general posible.

Definici´on 1.0.2. SeanX1, . . . , Xn,Y1, . . . , Yn variables aleatorias i.i.d. sobre un mismo

espacioM. Decimos queT :Mn−→Rm es un estad´ıstico libre de distribuci´on sobre una

familia A, siT(X1, . . . , Xn)

(d)

=T(Y1, . . . , Yn), para cualquier Fx, Fy∈ A.

Ejemplo 1.0.3. SeaA la familia de distribuciones continuas sobreR. Se define el rank,

R, de (X1, . . . , Xn) como el orden de la muestra, es decir R(X(i)) = i, donde X(1) <

X(2) < . . . < X(n) es la muestra ordenada. Entonces R(X1) y R(X1, . . . , Xn) son libres

sobre A.

De hecho, note que

R(X1)∼Unif{1, . . . , n}, (R(X1), . . . , R(Xn))∼Unif(Sn).

Ejemplo 1.0.4. Bajo las mismas condiciones del ejemplo 1.0.3, seanX1, . . . , XnyY1, . . . , Yn

variables aleatorias i.i.d. SeaRel rank de la muestra combinada{X1, . . . , Xn,Y1, . . . , Yn}.

El estad´ıstico de Wilcoxon se define como,

W =

n

X

i=1

R(Xi).

El estad´ıstico de Mann-Whitney se define como

U =X

i,j

1(Yj> Xi).

Los estad´ısticosW yU son libres de distribuci´on sobreA dado queFX =FY c.s.

Estos estad´ısticos se pueden utilizar para llevar a cabo una prueba de dos muestras para datos en _R, más aún, la distribución asintótica de U y W es normal. Por lo tanto, para muestras suficientemente grandes [17], se puede definir un intervalo de confianza a partir de la distribución normal. Se puede verificar fácilmente queW =U + n−₂1

.

El concepto de un estad´ıstico libre de distribución es esencial para desarrollar pruebas cuando no existe un conocimiento a priori más allá de suponer que proviene de una familia

A. En el ejemplo 1.3.3 tenemos dos estad´ısticos que sabemos son asint´oticamente norma-les dado H0, por lo tanto, si poseemos una muestra suficientemente grande 4 podremos

establecer un intervalo de confianza de acuerdo a la distribución normal. Lamentablemen-te, no hay generalidad sobre las distribuciones nula asintóticas. Muchas veces, incluso, es imposible conocer perfectamente el comportamiento de una función que depende de una variable aleatoria; en estos casos se emplean simulaciones.

4_{El umbral para decidir cu´}_{ando es leg´ıtimo considerar un valor grande es propio de cada estad´ıstico y} se puede analizar en algunos casos. Normalmente es suficiente con estimar por simulaciones.

(12)

Losm´etodos de Montecarlo 5 _{son procedimientos para aproximar par´}_{ametros que}

de-penden de fenómenos aleatorios por medio de simulaciones. En este caso queremos conocer cómo se comporta un estad´ıstico bajo una hipótesis nula,T(X1, . . . , Xn)|H0. Para tal fin,

se generan muestras de (X1, . . . , Xn) dadas las condiciones deH0, y se eval´uaT. El

teore-ma de Glivenco-Cantelli nos da la certeza que el procedimiento es asintóticamente correcto. En resumen, queremos construir un estad´ıstico que sea libre de distribución y que bajo la hipótesis nula conozcamos la distribución l´ımite, o en su defecto podamos obtener una distribución emp´ırica por métodos de Montecarlo.

Aun as´ı, es posible que la distribución no sea simulable. Por ejemplo, si tenemos un conjunto de curvas provenientes de una toma de datos real. Si tal fuera el caso, lo más seguro es que no es posible conocer con certezaT|H0. Por ende, la búsqueda de la región

cr´ıtica apropiada requiere de un procedimiento a´un m´as general.

Lema 1.3.1. SeanX1, . . . , Xn variables aleatorias i.i.d. sobre un espacio de probabilidad

discreto (Ω,A,_P) en un espacio medible (M, λ). Sean x1, . . . , xn ∈ M. Para cualquier

σ∈Sn,

P(X1=xσ(1), . . . , Xn =xσ(n)|x1, . . . , xn) = 1

n!.

Definici´on 1.0.3. Seaθ un par´ametro que depende de una variable aleatoriaX por me-dio de θ =_E(T(X1, . . . , Xn)), donde X, X1, . . . , Xn son i.i.d. Se define el estad´ıstico de

permutaci´on como

ˆ

θ:= _n1_! X σ∈Sn

T(Xσ(1), . . . , Xσ(n)).

Lema 1.3.2. SeanX1, X2, . . . variables aleatorias i.i.d. con densidad continua sobre un

espacio medibleX. SeaT :Xn_−→

Run estad´ıstico con distribuci´on continua. Definap

co-mo la funci´onp−valor definida comop(x1, . . . , xn) :=P(Tn(X1, . . . , Xn)> T(x1, . . . , xn)),

entonces

ParaX10, . . . , Xn0, variables aleatorias disitribuidas iguales aX1, . . . , Xn e

independien-tes, se tiene quep(X10, . . . , Xn0)∼Unif(0,1).

Demostraci´on. Es conocido que siX es una variable aleatoria continua con distribuci´on

F es transformada a una uniforme por medio de F, esto es, U :=F(X) est´a distribuida Unif(0,1). Sea u∈[0,1] tal queF−1 _est´_{a bien definida. La monotonicidad de} _F _implica

que_P(F(X)< u) =_P(X < F−1₍_u_{)) =}_F₍_F−1₍_u_{)) =}_u_{. Por continuidad de}_F_, _F−1 _est´_a

bien definida c.s., por tanto_P(F(X)< u) =uc.s.

Ahora, sea F la distribuci´on de T,F(t) =_P(T < t), se sigue que p= 1−F(T), que tambi´en es uniformemente distribuida sobre (0,1).

Lema 1.3.3. Sean{Xi}i∈N, X variables aleatorias continuas tales que, Xn−→dX. SiF

es la distribuci´on deX, entonces F(Xn)−→dU, donde U ∼Unif(0,1).

Demostraci´on. Se sigue directamente del teorema de transformaci´on y el lema 1.3.3. Pues

Xi−→dX implicaF(Xi)−→dF(X), siempre queF sea continua.

Estos lemas construyen la teor´ıa necesaria para enunciar el teorema (fundamental) del procedimiento de permutaci´on.

Teorema 1.0.4. [11] Suponga que Tn : Xn −→ R son una familia de estad´ısticos y

T, X1, X2, . . . variables aleatorias. Seapn(x1, . . . , xm) :=P(Tn(X1, . . . , Xn)> T(x1, . . . , xm))

y pˆn(x1, . . . , xn) = _n1_!#{σ∈Sn:T(Xσ(1), . . . , Xσ(n))> t0}. Entonces bajo las hip´otesis:

1. Tn(X1, . . . , Xn)−→dT,n−→ ∞.

2. _E(Tσ

n|Xn−Tn(X1, . . . , Xn))−→0,n−→ ∞.

Se satisface que,

E(|pˆn−pn|)−→0.

(13)

1.4. Nociones b´asicas en teor´ıa de grafos 9

Los lemas nos proveen con herramientas para detectar posibles valores significativos en una prueba. El lema 1.3.2 nos permite poder realizar un test de hipótesis nula sobre los es-tad´ısticos para verificar qué tan rápido converge elp-valor a la uniforme. Esta información nos puede ayudar a verificar qué estad´ıstico es converge más rápido a su distribución l´ımite para as´ı poder decidir sobre qué tan apropiado es utilizar el valor cr´ıtico de permutación o el valor cr´ıtico de la distribución l´ımite. El lema 1.3.3 nos permite poder simular dicho procedimiento por medio de las variablesXi. Consecuentemente el teorema 1.3.4 posibilita el cálculo delp-valor real a partir del procedimiento de permutación.

1.4. Nociones b´

asicas en teor´ıa de grafos

Definición 1.0.4. Un grafo G= (V, E)es una colección finita de vértices V y de arcos

E ⊆V ×V.Gse dice no dirigido cuando la relaci´onE es sim´etrica.

En este proyecto estamos más interesados en los grafos cuyos vértices están en Rd y cuyos arcos dependen de las distancias Euclidianas entre estos vértices. A estos grafos se llaman grafos geométricos.

Definici´on 1.0.5. Sea Xn = {x1, . . . , xn} ⊆ Rd, se define el grafo de k vecinos m´as

cercanos sobre Xn, k−NN , como el grafo dirigido donde V = Xn y E = {(xi, xj) : #(B||xi−xj||(xi)∩ Xn)≤k}.

Definici´on 1.0.6. Sea Xn = {x1, . . . , xn} ⊆ Rd, se define el grafo del ´arbol generador

m´ınimo sobre Xn,MST , como el grafo donde V =Xn y E es el conjunto de arcos que

minimiza la distancia total de los arcos entre todos los pobiles ´arboles generadores en Xn.

El grafo de k árboles generadores m´ınimos, k−MST , es el grafo compuesto por la unión de los arcos en los kárboles generadores en Xn de m´ınima distancia.

Definici´on 1.0.7. Sea Xn ={x1, . . . , xn} ⊆ Rd, se define el grafo de k Esferas de

in-fluencia sobre Xn, k−SI , como el grafo donde V = Xn y E ={(xi, xj) : ||xi −xj|| ≤

ρk(xi) +ρk(xj)}, dondeρk(xi)es la distancia entrexi y suk−´esimo vecino m´as cercano.

Estos tres grafos son de especial importancia porque conectan vértices cercanos entre s´ı en _Rd_{, y por lo tanto si form´}_{asemos el grafo a partir de dos muestras, la cantidad de} arcos que unen vértices de una misma muestra deber´ıa ser más grande bajoH1que bajo

H0. M´as adelante veremos que un estad´ıstico basado en este conteo resulta potente ante

cualquier alternativa para el problema de dos muestras.

Remark Note que de la definici´on se sigue que el n´umero de arcos en elk−_NN eskn

y el n´umero de arcos en elk−_MSTesk(n−1).

Definici´on 1.0.8. Sea G= (V, E)un grafo geom´etrico.

El grado de un vértice es el número de arcos que salen de él,

deg(xi) := #{(x, y)∈E:x=xi}.

Elk−ésimo vecino más cercano de un vértice se denotaN Nk(xi).

El n´umero de v´ertices de grado kse denota porVk(G).

Ejemplo 1.0.5. Considere el siguiente conjunto de 25 puntos en _R2_{. Se muestran los}

(14)

10 Cap´ıtulo 1. Preliminares ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0 X[,1]

X[,2]

Figura 1.3: 25 muestras aleatorias Unif(0,1)2.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2] ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2]

Figura 1.4:Grafosk−NN sobre la muestra parak= 1,2.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2] ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2]

(15)

1.5. Movimiento Browniano 11 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2] ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2]

Figura 1.6:Grafosk−SI sobre la muestra parak= 1,2.

1.5. Movimiento Browniano

En este trabajo vamos a considerar a un dato funcional como una realización de un proceso estocástico, esto es, una curva aleatoria. Más precisamente, trataremos con colec-ciones de funcolec-cionesfn: [0,1]−→Ren las cuales, para cada tiempot∈[0,1],{fn:n∈N} es un conjunto de realizaciones de una variable aleatoriaX(t). Por sugerencia del asesor y como punto de partida, se probarán los estad´ısticos sobre seis tipos de datos funcionales simualdos: movimiento browniano, movimiento browniando escalado, movimiento brow-niano con memoria, puente browbrow-niano, puente browbrow-niano escalado y puente browbrow-niano con memoria. Para denotar que dos variables X y Y son independientes utilizamos el s´ımbolo⊥.

Definición 1.0.9. Un proceso estocástico es una colección de variables aleatorias{X(t), t∈ T}sobre un mismo espacio de probabilidad(Ω,A,_P)en un espacio medible(S, λ), tales que para cualquier colección de tiempos finitos, t1 < t2 < . . . < tn,(X(t1), X(t2), . . . , X(tn))

es una variable aleatoria sobre Sn_.

Ejemplo 1.0.6. (Movimiento Browniano) Se define el proceso estoc´astico sobreτ = [0, T),

{X(t)}t∈τ como un movimiento browniano cuando,

X(0) = 0.

X(t)es continua c.s.

∀t1, t2, s1, s2∈τ tales ques1< t1≤s2< t2,

X(t1)−X(s1)⊥X(t2)−X(s2).

∀t, s∈τ tales ques < t,X(t)−X(s)∼ N(0, s−t).

Ejemplo 1.0.7. (Movimiento Browniano Escalado) Se define el proceso estoc´astico sobre

τ = [0, T),{X(t)}t∈τ como un movimiento browniano escalado por un factorσ cuando

X(0) = 0.

X(t)es continua c.s.

∀t1, t2, s1, s2∈τ tales ques1< t1≤s2< t2,

X(t1)−X(s1)⊥X(t2)−X(s2).

∀t, s∈τ tales ques < t,X(t)−X(s)∼ N(0, σ2(t−s)).

El movimiento browniano escalado por un factorσ solo altera la distribuci´on del ta-ma˜no de crecimiento. Escoger valores paraσ2_{muy alejados de 1 ser´ıa in´}_{util para comparar}

el desempeño en términos de potencia entre los estad´ısticos propuestos para un mismo ni-velα, pues la discrepancia entre los dos conjuntos será grande y por ende esperar´ıamos que todos los tests se desempañaran igualmente bien. Aunque una alteración en el crecimiento

(16)

promedio por un factor deσnos proporciona una alternativa efectivamente exigente, con-sideraremos ahora un proceso con el mismo factor crecimiento, pero con una leve variaci´on en el signo.

De la definición es claro que el proceso no tiene memoria de los incrementos en el sentido que la distribución de un solo incremento depende únicamente del tiempo transcurrido entre ellos, es decir, si t > s, X(t)−X(s)|X(s) ∼ N(0, t−s). En particular P(X(t)−

X(s) > 0|X(s)) = P(X(t)−X(s) < 0|X(s)) = 0.5. Se propone el siguiente proceso modificado discreto, al que denominaremosMovimiento Browniano memorioso, en el que estas probabilidades dependen del valor deX(S) de la siguiente manera.

Definici´on 1.0.10. Sea 0 = t0 < t1 < . . . < tn = 1 una partici´on de [0,1]. Sean

Nti ∼ N(0, ti −ti−1) y Ui ∼ Unif(0,1) todas independientes. Sea h : R

≥0 _−→ _[0_,_1]

medible,{X(ti)}i∈[n] es un movimiento browniano con memoria hcuando,

X(0) = 0.

∀i= 0, . . . , n−1:

X(ti+1) =X(ti)−(−1)1(Ui<h(|X(ti)|))|Nti|.

En este proceso se est´a condicionando sobre el valor absoluto de la posici´on actual. La idea del proceso es alterar la probabilidad del signo del aumento basado en el valor absoluto de los estados anteriores por medio deh. Note que cuandohes constante igual a

1

2, el proceso es el mismo movimiento browniano en (t1, . . . , tn). De lo contrario, cuandoh

var´ıa a medida que|X(s)|aumenta, la probabilidad de que el proceso crezca o disminuya va a ser distinta.

Ejemplo 1.0.8. En las siguientes figuras se muestran 15 realizaciones de estos tres procesos sobre τ = [0,1): Browniano est´andar {B(t)}t∈τ; Browniano escalado σ = 1.1

{Bσ(t)}t∈τ; y Browniano con memoria h(t) =12+ 1 4

1

1+e3(2−t),{M(t)}t∈τ.

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Movimiento Browniano

t

B(t)

(17)

1.5. Movimiento Browniano 13

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Movimiento Browniano Escalado

t

B(t)

Figura 1.8:Movimiento Browniano Escalado Discretizado en 300 pun-tos.

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Movimiento Browniano Memorioso

t

M(t)

Figura 1.9: Movimiento Browniano Memorioso Discretizado en 300 puntos.

Los procesos alternativos contra el cual evaluaremos la hipótesis de igualdad en dis-tribución consisten de alterar la magnitud por medio de la escala y el signo. Es posible que estas alteraciones se vean reflejadas más notoriamente en los tiempos finales, e.g.

B(1), Bσ(1), M(1), y por eso se decidi´o, por recomendaci´on del asesor, incluir procesos de puente. Con el fin de atenuar las discrepancias aparentemente incrementales en tiempos grandes, se consideran los procesos {X(t)}t∈τ en los queX(0) =X(1) = 0, denominados porPuente Browniano, Puente Browniano Escalado, Puente Browniano memorioso.

Definición 1.0.11. La versión puente del proceso estocástico sobreτ {X(t)}, es el proceso

{Y(t)}t∈τ definido por,

Y(t) :=X(t)−tX(T), Donde T = supτ.

Ejemplo 1.0.9. En las siguientes figuras se muestran 15 realizaciones de estos tres pro-cesos sobre τ = [0,1): Puente Browniano est´andar {B(t)−tB(1)}t∈τ; Puente

Brow-niano escalado σ = 1.1 {Bσ(t)−tBσ(1)}t∈τ; y puente Browniano con memoria h(t) =

1

2+

1 4

1

(18)

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Puente Browniano

t

b(t)−tb(1)

Figura 1.10:Puente Browniano Discretizado en 300 puntos.

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Puente Browniano Escalado

t

bs(t)−tbs(1)

Figura 1.11:Puente Browniano Escalado Discretizado en 300 puntos.

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Puente Browniano Memorioso

t

m(t)−tm(1)

(19)

15

Cap´ıtulo 2

Teor´ıa Asint´

otica de los

Estad´ısticos

2.1. Teorema del L´ımite Central Combinatorio

Las pruebas de Mann-Whitney y Wilcoxon mencionadas en demuestran ser casi tan potentes como los test uniformemente m´as potentes para ciertas familias de distribuciones [17]. Por ejemplo, en el caso de la familia de distribuciones normales de varianza 1, el es-tad´ıstico m´as potente estde student, gracias al lema de Neyman-Pearson. Los resultados simulados muestran que la potencia de W se aproxima a la de t para cualquier nivel de confianza cuando n−→ ∞.

El que las potencias de ambos tests asemejen, suscita una pregunta muy concreta y a la vez muy importante: por qué dos pruebas de naturalezas tan distintas —una,t, basada fuertemente en la distribución normal subyacente, y la otra,W, tan solo preocupada por el orden— capturan la discrepancia de maneras tan semejantes? El éxito del test de Mann-Whitney y Wilcoxon fue fundamental para el desarrollo de otros estad´ısticos no param´ etri-cos. Considere por un lado el estad´ıstico de Kendall,τ, como la cantidad de veces en que los órdenes deXn coinciden con los órdenes deYn de una muestra (X1, Y1), . . . ,(Xn, Yn).

τ= #{(i, j) : (Xi< Xj)∧(Yi< Yj)}. (2.1)

Bajo la hipótesis nula de que las realizaciones deXyY son independientes, Kendall [21] mostró que su estad´ıstico, apropiadamente estandarizado, converge a una normal estándar en distribución. Esto es,

ˆ

τ= τ−

n

2

q _n

2

(2n+ 5)/9

−→dN(0,1).

Por otro lado, bajo la misma idea de medir discrepancia entre dos conjuntos pro-venientes de realizaciones de distribuciones desconocidas, Wald-Wolfowitz definieron su estad´ıstico, R, para medir la discrepancia entre dos muestras Xn,Ym ⊆ R. La idea es contar la cantidad de veces en que se repiten las clases de los puntos, al ubicarlos sobre la recta seg´un su valor. Es decir, seaZ=Xn∪Ym, entonces paraZ(1)≤Z(2)≤ · · · ≤Z(n+m),

se define

R= #{i:Z(i) y Z(i+1)son de la misma clase}. (2.2)

Bajo la hip´otesis nula, Wald y Wolfowitz [6] probaron que,

ˆ

R=R−µm,n

σm,n

−→dN(0,1),

donde,

µm,n= 2mn/(n+m)−1,

(20)

16 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos

Los estad´ısticosW, τ yRson ejemplos del hecho que el orden natural de_Rrevela su-ficiente información sobre el comportamiento aleatorio de una variable cuando n−→ ∞. En todos estos casos la distribución l´ımite bajo la hipótesis nula es normal estándar y en varias familias de distribución, su potencia es comparable con la potencia de los tests más potentes.

Aunque no fue evidente en ese entonces, la relación entre las pruebas basadas en orden y su distribución l´ımite es consecuencia de una serie de teoremas conocidos como teore-mas de l´ımite central combinatorio. W está expl´ıcitamente desarrollado en términos de los ranksR(Xi), R(Yj) en la muestra combinada. De la misma manera, es posible formu-lar τ yR como una relación de estos ranks. Entonces, es natural pensar que, dado que (R(X1), . . . , R(Yn))∼Unif(Sn) (Ejemplo 1.3.2) y ˆW ,ˆτ ,Rˆ−→dN(0,1), las convergencias obedecen a un hecho más general sobre convergencia hacia la normal para estad´ısticos basados en la variable aleatoriaσ∼Unif(Sn).

Teorema 2.2.1. (Teorema de Hoeffding [10]) Para n ∈ _N, sean σ ∼ Unif(Sn) y cn ∈

Mn×n(R) una matriz tal que para

dn(i, j) =cn(i, j)− 1

n n

X

k=1

(cn(i, k) +cn(k, j)) +_n12

X

k,l

cn(k, l),

se cumple que

∀r≥3, l´ım

n−→∞

1

n

P

i,jd r n(i, j) (_n1P

i,jd2n(i, j))r/2 = 0.

Entonces la variable aleatoriaΓn=Pn

i=1cn(i, σ(i))es asint´oticamente normal.

Si X1, . . . , Xn son variables aleatorias i.i.d. entonces se puede aplicar el teorema de Hoeffding para encontrar condiciones suficientes para saber cu´ando Γn=P

n

i=1cn(i, R(Xi)) está asintóticamente distribuida normal. Por ejemplo, cuandocN(i, j) =1(i≤n)j, el es-tad´ıstico de Hoeffding se convierte en el eses-tad´ıstico de Wald-Wolfowitz, Γn = W. Sin embargo, al escribir los estad´ısticosτ yR en términos de los ranksR(Xi), R(Yj), resulta necesario comparar parejas de ranks simultáneamente (R(Zi), R(Zj)) y por lo tanto Γn no los generaliza directamente. Esta necesidad nos conduce al siguiente teorema de Daniels (1944) [2]. La demostración es una explicación rigurosa y detallada de la demostración original en [2].

Teorema 2.2.2. (Teorema de Daniels versi´on fuerte) Sea n∈N,π∼Unif(Sn) y a, b∈

Mn×n(R). Defina,

Γn:= n

X

i,j

ai,jbπ(i),π(j).

Entonces,

Γn−_E(Γn)

V(Γn)1/2

−→dN(0,1),

Siempre que se cumplan las siguientes condiciones,

(i)Σ1a=O(n), Σ1b=O(n), n−→ ∞,

(ii) Σla=O(nl+1₎_, _Σl_b₌_O₍_nl+1₎_, _{l >}₁_{, n}_{−→ ∞}_,

DondeΣla:=Pn

i,i1,...,ilai,i1. . . ai,il.

Demostraci´on. Para facilitar notaci´on, denotemos Σ0_i1,...,i_m como la suma sobre todas las

m−tuplas de ´ındices distintos (i1, . . . , im) en {1, . . . , n}m. Vamos a demostrar que Γn es

asint´oticamente normal calculando su funci´on generadora de momentosE(etΓn_{). Para esto}

vamos a calcular los momentos E(Γmn). Antes recordemos que la funci´on generadora de momentos de una variable distribuidaN(0, σ2_{) es}_ϕ₍_t_{) = exp(}1

2σ

2_t2_{) =}P

m≥0

σ2m 2m

t2m

(21)

2.1. Teorema del L´ımite Central Combinatorio 17

Consideremos primero el caso en el queP0

i,jai,j=

P

iai,i= 0 y

P0

i,jbi,j=

P

ibi,i= 0. Para el primer momento se cumple,

E(Γn) = 1 n! X π∈Sn X i,j

ai,jbπ(i),π(j),

=(n−2)!

n!

X0

i,jai,j

X0

i,jbi,j+

(n−1)!

n!

X

iai,i

X

ibi,i. = 0 + 0.

Consideremos ahora los momentos de ordenp= 2m,

E(Γ2nm) = 1

n!

X

π∈Sn

X

i1,j1,...,i2m,j2m

ai1,j1. . . ai2m,j2mbπ(i1),π(j1). . . bπ(i2m),π(j2m).

Ahora consideramos todas las posibles formas en las que se repiten ´ındices. Los casos en los que existen ´ındices libresikjk son nulos porque los ´ındices libres se pueden factorizar en P0

ik,jkaik,jk= 0. De la misma forma, cuando existen ´ındices libresik =jk el t´ermino

P

ikaik,ik se anula. Por lo tanto cada pareja de ´ındices (ik, jk) debe estar relacionada con

otra (il, jl) por medio ik = il y/o jk = jl. Estos casos se pueden ver ahora analizando todas las posibles formas en las que se relacionan las parejas. La primera forma es que todas las relaciones se den entre solo dos parejas:

X

i1,j1,...,i2m,j2m

ai1,j1. . . ai2m,j2m = (

X

i,j,k

ai,jai,k)m.

Todos los posibles casos deben incluir relaciones que contienen m´as de dos,

X

i1,j1,...,i2m,j2m

ai1,j1. . . ai2m,j2m = (

X

i,j,k

ai,jai,k)m2(

X

i,j,k,l

ai,jai,kai,l)m3. . . ,

= (Σ2a)m2(Σ3a)m3. . .(ΣMa)mM.

Donde, 2m2+ 3m3+. . . M mM = 2m. Ahora bien, la condici´on(ii) nos dice que para cualquier kimpar (Σka)2₌_o_((Σ

2a)k) y (Σka) =o((Σ2a)k/2) parakpar. Por lo tanto,

(Σ2a)m2(Σ3a)m3. . .(ΣMa)mM =o((Σ2a)m), n−→ ∞.

Ahora note que Σ2 se puede formar eligiendo todas las posibles parejas entre 2m: 2m

2,...,2

. Cada una de estosm factores repite un solo ´ındice en una de las cuatro posibles repeticiones: ai,jai,k, ai,jak,i, aj,iai,k, aj,iak,i, y adem´as cada una de estas escogencias requiere de 3 ´ındices distintos, por lo que en (n−3m)! de lasn! permutaciones aparece cada t´ermino. En suma, tenemos que el orden 2mde Γn es,

E(Γ2nm) =

₂_m

2, . . . ,2

₍_n₋₃_m_)!

n! 4 m_[(Σ

2a)m+o((Σ2a)m)] [(Σ2b)m+o((Σ2b)m)].

As´ı que tenemos la siguiente equivalencia asint´otica,n−→ ∞,

1 (2m)!E(Γ

2m n )∼

2m

n3m((Σ2a)(Σ2b)) m_.

Consideremos ahora el casop= 2m+ 1. Al igual que el caso anterior, los ´unicos ´ındices que no se anulan son aquellos en los que hay repeticiones. Por tanto debemos tener que,

X

i1,j1,...,i2m+1,j2m+1

ai1,j1. . . ai2m,j2m = (Σ2a)

m2_(Σ

3a)m3. . .(ΣMa)mM,

donde 2m2+ 3m3+· · ·+M mM = 2m+ 1. Nuevamente de la condici´on (ii) llegamos a,

(22)

Ahora note que las posibles formas de los factores en (Σ2a)m−1(Σ3a) son ₂2_,...,m+1₂_,₃. De

estos m factores los de Σ2 se pueden escoger de 4 formas, los de Σ3 se forman en 8

formas. Adem´as cada una de estas escogencias de ´ındices aparece en (n−3(m−1)−4)! permutaciones de lasn! totales.

1

(2m+ 1)!E(Γ

2m+1

n )∼

(8/3)2m−1

n3m+1 (Σ2aΣ2b)

m−1

(Σ3aΣ3b), n−→ ∞.

Cabe resaltar que la condici´on (ii) tambi´en implica_V(Γn) =O(n3_{), entonces los}

mo-mentos de Γn/n3/2 _son,_n_{−→ ∞}_:

1 (2m)!E((

Γn

n3/2) 2m

)∼ 2

m

n3m_n3m((Σ2a)(Σ2b)) m

=O(1),

1

(2m+ 1)!E(( Γn

n3/2)

2m+1₎_∼ (8/3)2m−1

n3m+1_n3m+1_n1/2(Σ2aΣ2b)

m−1_(Σ

3aΣ3b) =O(

1

n1/2).

De esta forma, los momentos impares de Γn/V(Γn)1/2 son asint´oticamente cero y por lo tanto solo es necesario considerar los momentos pares,

E

et

Γn n3/2

= X

m≥0

E(Γmnn−3m/2)

m! t

m_,

∼ X

m≥0

n−3m E(Γ2nm) (2m)! t

2m_,

= X

m≥0

2m(Σ2aΣ2b)m

n3m_n3m t

2m_,

= exp

2(Σ2aΣ2b)

n6 t

2

= exp(1 2σ

2_t2₎_.

dondeσ2₌ 4(Σ2aΣ2b)

n6 . Por ende, dado queV(Γn) =E(Γ2n) =

2(Σ2aΣ2b)

n3 , llegamos al hecho que quer´ımos,

Γn

V(Γn)1/2

−→dN(0,1).

Ya mostramos el teorema cuando Σ0_i,ja = Σ0_i,jb = 0 y Σiai,i = Σibi,i = 0. Veamos que no se pierde generalidad al suponer que las matrices a y b siempre satisfacen esto. Sean a = 1_nΣ0_i,jai,j, b = 1_nΣ0_i,jbi,j, c = _n1Σiai, d = _n1Σibi,i. As´ı pues Σ0_i,jai,j−a = 0, Σ0_i,jbi,j−b = 0, Piai,i−c = 0 y Pibi,i−d = 0. Adem´as, gracias a la condici´on (i),

a=b=c=d=O(1). Ahora si reemplaz´aramos porai,j porai,j−ay lo mismo para los dem´as, el estad´ıstico Γn cambia solamente o(n3/2),

Γ0_n =X0

i,j(ai,j−a)(bπ(i),π(j)−b) +

X

i

(ai,i−c)(bπ(i),π(i)−d),

=X

i,jai,jbπ(i),π(j)−2(n−1)ab+ab−2ncd+cd,

= Γn+o(n3/2).

Al normalizar con la varianza se llega al resultado deseado,

Γn−Γ0n V(Γn)1/2

(23)

2.1. Teorema del L´ımite Central Combinatorio 19

Teorema 2.2.3. (Teorema de Daniels versi´on d´ebil) Sean ∈_N, π∼Unif(Sn) y a, b∈ Mn×n(R). Defina,

Γn := n

X

i,j

ai,jbπ(i),π(j).

Entonces,

Γn−E(Γn)

V(Γn)1/2 −→dN (0,1),

Siempre que se cumplan las siguientes condiciones,

(i)Σla=O(n), n−→ ∞,

(ii) Σ1b=O(n),Σlb=O(nl+1), l >1, n−→ ∞,

Donde Σla:=P n

i,i1,...,ilai,i1. . . ai,il.

Demostración. Note que la versión débil reemplaza la condición Σla=O(nl+1_{) por Σl}_a₌

O(n). Esta condici´on tambi´en es suficiente pues el hecho que Σla=O(nl+1_{) solo se utiliza}

para mostrar las siguientes dos asint´oticas,

(Σ2a)m2(Σ3a)m3. . .(ΣMa)mM =o((Σ2a)m), n−→ ∞,

(Σ2a)m2(Σ3a)m3. . .(ΣMa)mM =o((Σ2a)m−1Σ3a), n−→ ∞.

Pero estas proposiciones son igualmente ciertas si Σla=O(n), pues,

2m2+· · ·+M mM = 2m ⇒ m2+· · ·+mM < m,

2m2+· · ·+M mM = 2m+ 1 ⇒ m2+· · ·+mM < m.

Las demás afirmaciones siguen siendo válidas, sin embargo ahora _V(Γn) = O(n), de todas maneras los términos_E(( Γ

n1/2

2m

)∼O(1) y_E(( Γ

n1/2

2m+1

)∼o(1).

Al escogeran ybnapropiadamente podemos reducir ΓN enτ 2.1 yR2.2. Por ejemplo al establecer

an(i, j) = sgn(xi−xj),

bn(i, j) = sgn(yi−yj)

EntoncesP

i,jan(i, j)bn(i, j) = 2τ. As´ı mismo, escogiendo las matrices de tal forma que

an(i, j) =₁(Z(i)y Z(j)son consecutivos),

bn(i, j) =₁(Zi y Zj son de la misma clase),

entoncesP

i,jan(i, j)bn(i, j) = 2R. As´ı que bajo la hip´otesis nula tenemos quebn(σ(i), σ(j))

(d)

= bn(i, j) en ambos casos.

Ejemplo 2.2.1. Se calculan los valores de de W, R en dos casos. El primero consta de

X1, . . . , X25, Y1, . . . , Y25 ∼ N(0,1). En el segundo X1, . . . , X25 ∼ N(0,1), Y1, . . . , Y25 ∼

N(1

(24)

−2

−1

0

1

2 −1.0

0.0

1.0 X

rep(0, n)

● ● ●● ● ●● ●● ●●● ●●● ● ●

● ● ● ● ● ●● ●●●● ● ●

Figura 2.1: Wˆ = 0.6061614, ˆR= 0.7812457.

−2

−1

0

1 −1.0

0.0

1.0 X

rep(0, n)

● ●

● ● ●

●●● ● ● ● ● ●

● ● ● ● ● ● ●●

● ● ● ● ●

Figura 2.2:Wˆ =−1.759347, ˆR=−2.604152.

Para extender estos estad´ısticos no paramétricos y libres de distribución a puntos en espacios más generales comoRnoL2([0,1]), una alternativa plausible puede ser considerar

grafos geométricos, y as´ı generalizar la noción de rank en el caso univariado. El propósito de este trabajo es explorar varios posibles grafos de cercan´ıas que capturan la información de cuándo dos conjuntos están cercanos en distribución.

(25)

2.2. Estad´ıstico de Friedman-Rafsky 21

2.2. Estad´ıstico de Friedman-Rafsky

El test de Wald-Wolfowitz cuenta la cantidad de veces en las que se repiten las clases vistas de manera ordenada. Visto de otro modo, si Ges el grafo 1−MST de la muestra combinada Xn∪ Ym, se sigue que R es igual a la cantidad de arcos que unen vértices de la misma clase. Este concepto se puede extender de forma natural a puntos en Rn. Intuitivamente, si FX =FY, entonces el grafo conectará a vértices de clases distintas más frecuentemente que a vértices de la misma clase. Análogamente siFX6=FY en un conjunto de medida positiva, entonces en este conjunto la cantidad de arcos que se forman entre vértices de una misma clase será mayor que la cantidad de arcos entre las dos clases.

Definici´on 2.2.1. Sean Xn y Ym dos muestras en Rd provenientes de distribuciones

continuas. SeaN:=n+myk≤N. Suponga queZN =Xn∪Ymes la muestra combinada.

Definimos el estad´ıstico de Friedman-Rafsy,

TMST

N k (Xn,Ym) := 1 (N−1)k

X

(zi,zj)∈E(G)

1(Zi y Zj son de la misma clase).

Friedman y Rafsky (1979) [6] notaron que la generalizaci´on del estad´ıstico de Wald-Wolfowitz era inmediata. Ellos conjeturaron que la variable aleatoria TMST

nk (Xn,Ym) ser-vir´ıa para rechazar la hipótesis nula en el problema de dos muestras cuando esta tomaba valores grandes. Sin embargo no ten´ıan certeza de cómo era la distribución asintótica de

TMST

nk en el caso general, y por tanto la ´unica forma de medir que un valor era grande, era por medio de un procedimiento de permutaci´on.

De esta manera es posible utilizar una muestra fija Xn,Ym para calcular unp-valor aproximado del TMST

nk para el problema de dos muestras.

LlameZ=Xn∪ Ym. Definat0:=TnkMST(Xn,Ym).

Paraσ∈Unif(Sn+m), se permutan las muestras:

Xσ

n :={zσ(1), . . . , zσ(n)}, Ymσ :={zσ(n+1), . . . , zσ(n+m)}.

CalculeTMST nk (X

σ n,Y

σ m).

Estime elp-valor como ˆp=_n1_!#{σ:TMST nk (X

σ n,Y

σ

m)> t0}.

El lema 1.3.2 nos garantiza que dicho procedimiento es correcto en el sentido que, para muestras grandes, elp-valor se estar´a aproximando correctamente a su valor real. Sin embargo, al utilizar solo la muestra y calcular el estad´ıstico sobre el k−MST generado por Xn yYm, nos estamos restringiendo a un grafo en particular y no al grafo aleatorio general. As´ı, el valor de convergencia depender´a de la estructura particular del grafo. Aun as´ı, Friedman y Rafsky demostraron que en efecto TMST

nk , condicionado a un grafoMST en particular, es asint´oticamente normal.

Teorema 2.2.4. Suponga quen, m∈_N, N=n+m. SeanXn,YmyTnkMST como los

defini-dos en 2.2.1. Entonces paraπ∼Unif(SN)independiente de las variablesX1. . . , Xn, Y1, . . . , Ym,

se tiene que FX = FY y si Uπ es el estad´ıstico de Friedman-Rafsky condicionado en la

muestra, Uπ:=TN kMST(Xnπ,Ymπ)|Xn,Ym,

√ N

_U

π−µN

σN

−→dN(0,1),

donde µN =E(Uπ),σN =V(

√

N Uπ)1/2.

Demostraci´on. Bajo el supuesto que las distribuciones subyacentes son las mismas, se sigue que la elecci´on de las muestras se traduce en una escogencia arbitraria la muestra

combinada, (Xπ n,Ymπ)

(d)

(26)

mismo independiente deπ, la influencia deπenUπ es solamente la clase de cada muestra. De modo que, si definimos,

ai,j=1{(zi, zj)∈E(MST)},

bi,j =1{zi y zj, son de la misma clase}.

Llegamos a que,

1 (N−1)k

X

i,j

ai,jbπ(i),π(j)= 2TN kMST(X π n,Y

π

m)|Xn,Ym,

Por ende, ₍_N₋1₁₎_kΓN = 2Uπ.

Corroboremos ahora las hip´otesis de Daniels. En virtud del teorema de Steele et al. [20] para procesos puntualesZN provenientes de distribuciones continuas enRdexiste una cota para el grado en el MST que de ´el se genere1_{. Esta cota solo depende de la dimensi´}_on

d; esto quiere decir que existe unKd∈Ntal que para todoN,deg(zi)≤Kd c.s. En este orden de ideas Σ1a=N Kd=O(N), en general,

X

i,j,k

ai,jai,k = N

X

i=1

deg(zi)2, X

i,j,k,l

ai,jai,kai,l= N

X

i=1

deg(zi)3.

As´ı que Σla≤N Kdl. Y por lo tanto se satisface la hip´otesis del teorema d´ebil de Daniels paraa. Parabtenemos queP

ijkbijbik=m3+n3=O(N3), puesbijbik es diferente de 0 cuandoi, j, k≤n´oi, j, k > n. En general tenemos que Σlb=ml+1₊_nl+1₌_O₍_Nl+1_{) por}

tanto se cumple la segunda condición del teorema débil de Daniels lo que implica queUπ es asintóticamente normal.

Ahora que sabemos queUπ es normal en el l´ımite, nos basta con encontrar los valores de µN y σN2. El teorema nos dice que para una realizaci´on fija de los procesos Xn, Ym

TMST

N k es normal en el l´ımite, as´ı queµN yσ2N dependen de los grafos en particular que se forman deXn yYm. El siguiente teorema nos da l´ımites para µN yσ2N.

Teorema 2.2.5. Sea Xn,Ym, µN, σN2 como los definidos en el teorema 2.2.4. Sea G el

grafo k_MST generado por la muestra yU el estad´ıstico de Friedman-Rafsky condiciona-do en G. Si C es la cantidad de parejas de arcos en E(G) que comparten un v´ertice y

l´ımn,m→∞_n₊n_m=p, entonces existen µ, λ, σ2∈Rtales que,

µN −→µ, N −→ ∞. C

N −→λ, N −→ ∞,

σ2

N −→σ2, N −→ ∞.

Demostración. La primera afirmación se sigue de la definición deayb,

E(Uπ) = 1 (N−1)k

X

(zi,zj)∈E(G)

E(1(zi y zj son de la misma clase)),

=P(z1 y z2 son de la misma clase),

= n−1

N−1P(z2∈ Xn) +

m−1

N−1P(z2∈ Ym),

= n(n−1) +m(m−1)

N(N−1) −→p

2₊_q2_=:_µ.

La demostraci´on del segundo hecho es consecuencia inmediata del teorema de Steel et al. Por un lado, tenemos que sivi(N) es la cantidad de v´ertices,Z, en elkMST de grado

i, entonces vi(N)

N −→P di. De esta manera, la cantidad de arcos que comparten un v´ertice

1_{No existe actualmente un demostraci´}_{on para el}_k

-MSTcuandok >1, pero verificamos este hecho en simulaci´on.

(27)

se puede relacionar con el grado ide cada v´ertice por medio de:

C= N

X

j=1

deg(zj)

2

.

Por lo tanto,

C N = 1 2N N X j=1

deg(zj)2−deg(zj),

= 1 2N

(N−1)k

X

i=1

i2vi(N)−ivi(N),

=1 2

(N−i)k

X

i=1

(i2−i)vi(N)

N , −→P Kd X i=1 _i 2

di=:λ <∞.

Para calcular el segundo hecho, para e = (zi, zj) ∈ E(G), denotemos por Ue =

1{zi y zj, son de la misma clase}. Ahora consideremosV(Ue) yCov(Ue1, Ue2).

V(Ue) =E(Ue2)−E(Ue)

2

,

=E(Ue)−E(Ue)2,

=p2+q2−(p2+q2)2=µ(1−µ).

Para facilitar la notaci´on, defina (m)k= (m)(m−1)· · · · ·(m−k+ 1).

Cov(Ue1, Ue2) =E(Ue1Ue2)−E(Ue1)

2_,

=_E(Ue1Ue2|e1, e2comparten un nodo)P(e1, e2 comparten un nodo)

+E(Ue1Ue2|e1, e2 No comparten un nodo)P(e1, e2No comparten un nodo)

−E(Ue1)

2_,

=

₍_m₎

3+ (n)3

(m+n)3

_C

|E(G)|

2

!

+

2(m)2(n)2 (m+n)4

+ (n)4 (m+n)4

+ (m)4 (m+n)4

1− C

|E(G)|

2

!

−(p2+q2)2.

Juntando ambos resultados,

V(

√

N Uπ) = N

(N−1)2_k2



 X

e∈E(G)

V(Ue) + 2 X

e1∈E(G)

X

e2∈E(G)\e1

Cov(Ue1, Ue2)





= N

(N−1)2_k2

(N−1)k_V(Ue) + 2

|E(G)|

2

Cov(Ue1, Ue2)

,

−→ µ(1−µ)

k + 2

λ

k2(µ(1−µ)−pq),

= µ(1−µ)

k

1 + 2λ

k

−2λpq

k2 =:σ 2_.

(28)

muy útiles. Por un lado, si asumimos que es cierta la hipótesis nula, Xn y Ym son rea-lizaciones de la misma variable aleatoria, entonces elpvalor debe distribuirse Unif(0,1). Por otro lado, la distribución de permutación es asintóticamente normal. Gracias al le-ma podemos tener la tranquilidad que la distribución de permutación es asintóticamente normal. En su tiempo, Friedman-Rafsky mostraron este teorema, 2.2.5, asumiendo queC

era del orden O(N) mucho antes de que se demostrara el teorema de Steele. Una de las consecuencias de este teorema es que la varianza tiende a un l´ımite que no depende de la distribución de X, incluso siendo una versión condicional. Con esto, el teorema de Steele nos proporciona una herramienta para construir estad´ısticos basados en la distribución de los grados.

El teorema original de Steele solo considera el casok= 1, para ilustrar que el teorema enk >1 considere las siguientes figuras en donde se muestra la distribuci´on de los grados del k_MST para k ∈ {1,2,4} de una muestra uniforme en [0,1]d_, _d _{∈ {}₂_,₄_,₁₆_,₁₂₈_}_{. Se} utilizaron en cada caso muestras de 104 _puntos.

(29)

● ●

●

● ● ● ● ● ● ● ● ● ● ● ●

1 3 5 7 9 11 13 15

0.0 0.1 0.2 0.3 0.4 0.5 1−mst grado frecuencia ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● _● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● d 2 4 16 32 64 128

Figura 2.3:Simulaci´on de la distribuci´on de grados en el 1−MST en

Rd.

● ● ● ● ● ● ● _● _● _● _● _● _● _● _●

1 3 5 7 9 11 13 15

0.0 0.1 0.2 0.3 0.4 0.5 2−mst grado frecuencia ● ● ● ● ● ● ● ● _● _● _● _● _● _● _● ● ● ● ● ● ● ● ● _● ● ● ● ● ● ● ● ● ● ● ● ● ● ● _● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● _● _● _● ● ● ● ● ● ● ● ● ● _● ● _● ● ● ● ● ● d 2 4 16 32 64 128

(30)

26 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

1 4 7 10 14 18 22

0.0 0.1 0.2 0.3 0.4 0.5 4−mst grado frecuencia ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●_● ● ● ● ●_{● ● ● ● ● ● ● ● ● ●} ● ● ● ● ● ● ● ● ● ● ● ● ● ●_{● ● ● ● ● ● ● ● ● ● ●} ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●_{● ● ● ● ● ● ● ● ●} ● ● ● ● ● ● ● ● ● ● ● ● ●_{● ● ● ● ● ● ● ● ● ● ● ●} d 2 4 16 32 64 128

Rd.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●_{● ● ● ● ● ● ● ● ● ● ● ●}

1 5 9 13 18 23 28 33

0.00 0.10 0.20 0.30 8−mst grado frecuencia ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●_● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●_● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●_{● ● ● ● ● ● ● ● ●} ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●_{● ●} ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●_● ● ● ● ● ● ● ● ● ● ●_{● ● ● ● ● ● ● ● ● ● ●} d 2 4 16 32 64 128

Rd.

Las gráficas verifican que la distribución de los grados es acotada incluso para dimen-siones grandes. A medida que aumenta la dimensión, también aumenta la cota máxima de los grados, no obstante incluso para dimensión infinita el grado está uniformemente acotado con probabilidad 1 [20]. Note que la condición que la distribución de los puntos sea continua es fundamental. Se puede construir fácilmente ejemplos en los que el grado esO(d), por ejemplo si el grafo consiste de los vectores 0, e1, . . . , ed, entonces el árbol será

aquel en el que todos los arcos inciden en 0, ergodeg(0) =d−1. Estos casos ocurren con probabilidad 0 en distribuciones continuas.

A continuaci´on, mostramos una versi´on alternativa al estad´ıstico de Friedman-Rafsky construida por Schilling en la que se basa en un grafo que no necesita mayores considera-ciones como en el caso del_MST .

(31)

2.3. Estad´ıstico de Schilling 27

2.3. Estad´ıstico de Schilling

Usar el estad´ıstico de Friedman es posible como consecuencia de los teoremas de Da-niels y Steele. El teorema de DaDa-niels provee las condiciones para que la distribución de permutación del estad´ıstico sea normal y el teorema de Steele da cotas en el grado del grafo y la distribución de los grados. Schilling [18] generalizó esta idea utilizando un grafo distinto al MST en el que el conteo de los grados es más sencillo y por lo tanto el teorema de Daniels se puede aplicar sin necesidad de recurrir a argumentos adicionales.

Definici´on 2.2.2. Sean Xn y Ym dos muestras en Rd provenientes de distribuciones

continuas. SeaN:=n+myk≤N. Suponga queZN =Xn∪Ymes la muestra combinada.

Sea Gel grafo k_NN sobre la muestra combinada. Definimos el estad´ıstico de Schilling,

TNN

nk (Xn,Ym) := 1

nk

X

(Zi,Zj)∈E(G)

1(zi y zj son de la misma clase).

Teorema 2.2.6. Suponga quen, m∈_N, N=n+m. SeanXn,YmyTnkMST como los

defini-dos en 2.2.2. Entonces paraπ∼Unif(SN)independiente de las variablesX1. . . , Xn, Y1, . . . , Ym,

se tiene que, si Uπ es el estad´ıstico de Schilling condicionado en la muestra, Uπ :=

TNN

N k (Xnπ,Ymπ)|Xn,Ym, entonces si FX=FY,

√ N

_U

π−µN

σN

−→dN(0,1),

donde µN =E(Uπ),σN =V(

√

N Uπ)1/2_.

Demostraci´on. Al igual que con el caso del_MST, bajo el supuesto que las distribuciones subyacentes son las mismas, se sigue que (Xπ

n,Ymπ)

(d)

= (Xn,Ym). Por lo tanto, dado que el

k−_NNde (Xπ

n,Ymπ) es el mismo independiete deπ, la influencia deπsobreUπes solamente la clase de cada muestra. De modo que si definimos,

ai,j=1{(zi, zj)∈E(NN )},

bi,j=1{zi y zj, son de la misma clase}.

Llegamos a que,

1

N k

X

i,j

ai,jbπ(i),π(j)=TN kNN(X π n,Y

π

m)|Xn,Ym.

Por ende,

1

N kΓN =Uπ.

Por construcción, sabemos que el grado de cada vértice enGesk, as´ı que la hipótesis del teorema débil de Daniels paraase traduce en,

Σla= N

X

i=1

deg(zi)l=N kl=O(N).

Al igual que con estad´ıstico de Friedman, para b tenemos que Σlb = ml+1+nl+1 =

O(Nl+1_).

Con esto hemos logrado probar que tanto el estad´ıstico de Friedman como el de Schilling son asintóticamente normales condicionalmente. Para el estad´ıstico de Schilling también existen l´ımites para los valores de µN y σN2. En este caso no contaremos la cantidad de parejas de arcos que comparte un vértice diréctamente sino que, dada la definición del grafo, utilizaremos probabibilidades de ser vecinos mutuos y tener un vecino en común respectivamente. Para esto considere el siguiente lema demostrado por Schilling [19].

(32)

Lema 2.3.1. Sean Xn,Ym,ZN como los definidos en el teorema 2.2.6. Sea G el grafo

k_NN generado por la muestra y Uπ el estad´ıstico de Schilling condicionado enG. Para

r, s≤kdefinimos las probabilidades de ser vecinos mutuos y tener un vecino en com´un,

p1(r, s) :=P(N Nr(1) =Z2, N Ns(2) =Z1),

p2(r, s) :=P(N Nr(1) =N Ns(2)).

Entonces, bajoH0,

N p1(r, s)−→α(r, s), N p2(r, s)−→β(r, s),

cuandoN −→ ∞. Adem´as, α(r, s)yβ(r, s)son independientes de la distribuci´on deX.

Con la ayuda de este lema ya podemos proceder a encontrar los valores l´ımites deµN yσ_N2.

Teorema 2.2.7. SeanXn,Ym,ZN, µN, σN2 como los definidos en 2.2.6. Entonces existen

µ, σ2_∈

Rtales que,

µN −→µ, N −→ ∞, V(

√

N Uπ)−→σ2_, _N _{−→ ∞}_.

Demostraci´on. La primera afirmaci´on se demuestra de la misma forma que con el k−

MST:

E(Uπ) = 1 (N−1)k

X

(zi,zj)∈E(G)

E(1(zi y zj son de la misma clase)),

=P(z1 y z2 son de la misma clase),

= n−1

N−1P(z2∈ Xn) +

m−1

N−1P(z2∈ Ym),

= n(n−1) +m(m−1)

N(N−1) −→p

2₊_q2_=:_µ.

Para la segunda primero consideremos,

α:= 1

k2

X

r,s≤k

α(r, s), β := 1

k2

X

r,s≤k

β(r, s).

Ahora, para la muestra combinada,ZN, definaIi(r) =1(ziy N Nr(zi) son de la misma clase). Se reescribe el estad´ıstico de Schilling como,

TNN

N k (Xn,Ym) := 1

N k

N

X

i=1

k

X

r=1

Ii(r).

Por ende,

V(N kUπ) =E 



N

X

i=1

k

X

r=1

Ii(r)

!2

−E "N

X

i=1

k

X

r=1

Ii(r)

#2

= N

X

i,j=1

k

X

r,s=1

P(Ii(r) =Ij(s) = 1)−N2k2(p2+q2)2. (2.3)

Para que ocurra el eventoIi(r) =Ij(s) = 1, es necesario considerar los siguientes casos y probabilidades:

Las variablespi(r, s),i= 1, . . . ,5, representan probabilidades sobre todos los posibles casos de incidencias de dos puntos mencionandas en 2.3.1: