• No se han encontrado resultados

Métodos basados en grafos para el problema de dos muestras en datos funcionales

N/A
N/A
Protected

Academic year: 2020

Share "Métodos basados en grafos para el problema de dos muestras en datos funcionales"

Copied!
69
0
0

Texto completo

(1)

Universidad de los Andes

Trabajo de grado

etodos basados en grafos para el

problema de dos muestras en datos

funcionales

Autor:

Felipe

Su´

arez Colmenares

Supervisor:

Prof. Adolfo

Quiroz

Departamento de Matem´aticas

(2)
(3)

iii

´

Indice general

Introducci´on 1

1. Preliminares 3

1.1. Pruebas de Hip´otesis . . . 3

1.2. Problema de dos muestras . . . 4

1.3. Estad´ıstica no param´etrica . . . 6

1.4. Nociones b´asicas en teor´ıa de grafos . . . 9

1.5. Movimiento Browniano . . . 11

2. Teor´ıa Asint´otica de los Estad´ısticos 15 2.1. Teorema del L´ımite Central Combinatorio . . . 15

2.2. Estad´ıstico de Friedman-Rafsky . . . 21

2.3. Estad´ıstico de Schilling . . . 27

2.4. Estad´ıstico de Esferas de Influencia . . . 31

2.5. Teorema del L´ımite Central para grafos aleatorios . . . 35

3. Evaluaci´on Computacional y Resultados 39 3.1. Simulaciones . . . 39

3.1.1. Datos Finito-Dimensionales . . . 39

3.1.2. Datos Funcionales . . . 46

3.2. Datos Reales . . . 49

4. Discusi´on de resultados 51 5. Conclusiones y trabajo futuro 53 A. Implementaci´on de los algoritmos 55 A.1. Estad´ısticos . . . 56

A.1.1. k−NN . . . 56

A.1.2. k−MST . . . 57

A.1.3. k−SI . . . 58

A.2. Pruebas de Hip´otesis Nula . . . 59

A.2.1. Prueba de Uniformidad delp-valor . . . 59

A.2.2. Prueba de Normalidad de los estad´ısticos . . . 59

A.3. Pruebas de Potencia . . . 60

A.3.1. Prueba de potencia para datos funcionales . . . 60

A.3.2. Prueba de Potencia para movimiento Browniano . . . 61

A.4. M´etodos Adicionales . . . 62

A.4.1. C´alculo de grados en los grafos . . . 62

A.4.2. Generaci´on de los procesos estoc´asticos . . . 63

A.4.3. Estandarizaci´on de Datos . . . 63

A.4.4. Carga de librer´ıas . . . 64

(4)
(5)

1

Introducci´

on

En estad´ıstica matem´atica surge de manera acertada la pregunta por la naturaleza de un conjunto de datos. Una suposici´on v´alida es pensar que el conjunto de datos proviene de la realizaci´on de alguna variable aleatoria con distribuci´on desconocida. Por ejemplo, para conjuntos en el espacioRd, se puede suponer que la distribuci´on es uniforme, normal, o gamma multivariada, entre otras. En muchos de estos casos existen m´etodos para encon-trar los par´ametros ´optimos que se ajustan y se generalizan de la muestra. Sin embargo, en la gran mayor´ıa de aplicaciones, el conjunto de datos se encuentra en dimensiones altas y por lo tanto los modelos param´e tricos no son convenientes.

El problema de dos muestras busca responder a la pregunta de si dos conjuntos de datos {X1, X2, . . . , Xn} y {Y1, Y2, . . . , Ym} provienen de realizaciones de una misma dis-tribuci´on. De esta forma, cuando los datos {Xi, Yj} son representados como vectores en Rd, se le denomina problema de dos muestras multivariado. Cuando los datos provienen de una realizaci´on de un proceso estoc´astico{Xi(t), Yj(t)}, con t∈I,un intervalo enR, se le llama problema de dos muestras para datos funcionales. La naturaleza funcional de los procesos estoc´asticos sugiere considerar modelos no param´etricos.

Existen varios m´etodos no param´etricos multivariados para el problema de dos mues-tras. Por ejemplo Wald y Wolfowitz (1940) propusieron un m´etodo univaraido basado en el orden natural deR; Kolmogorov y Smirnov (1948) propusieron un m´etodo que se basa en la distancia entre las distribuciones emp´ıricas. Tambi´en, Friedman y Rafsky (1979) pro-pusieron un m´etodo no param´etrico basado en grafos para datos multivariados. Schilling (1986), por su parte, generaliz´o la idea de Friedman y Rafsky utilizando otros m´etodos basados en grafos. Todos estos m´etodos han logrado ser buenos para determinar cu´ando las muestras provienen de distribuciones diferentes en casos multivariados finito-dimensiones (dn, m).

En las ´ultimas d´ecadas hemos sido testigos del enorme impacto que ha tenido el cre-ciente desarrollo tecnol´ogico. En el espacio que ocupaba un solo transistor hace 20 a˜nos, las m´aquinas de ahora pueden contener miles de millones. Esto permiti´o, por ejemplo, que las bases de datos hoy sean m´as grandes, m´as abundantes y m´as diversas. Es por esto que ha crecido el inter´es por el estudio desde un enfoque estad´ıstico de datos funcionales [16]. El problema de dos muestras para datos funcionales resulta ser de gran importancia tanto para la teor´ıa no-param´etrica estad´ıstica como para todas sus aplicaciones. Es importan-te entonces preguntarse ¿Es posible encontrar una prueba lo suficienimportan-temenimportan-te buena para responder al problema de dos muestras en datos funcionales? ¿Qu´e tan bueno es el test comparado con sus contrapartes multivariadas o sus contrapartes param´etricas?

Varias posibles aplicaciones podr´ıan ser suponer que se tienen dos conjuntos de curvas, p.e. los niveles de olas en varios puntos del oc´eano en el tiempo cuando hay y no hay tormentas; los resultados de la actividad el´ectrica en la cabeza de un individuo (encefa-lograma) bajo distintos est´ımulos; el flujo de carga en el sistema de transmisi´on cuando se encuentra en operaci´on normal y cuando se presentan fallas, etc. En todos estos casos conviene saber si los conjuntos de curvas vienen de la misma distribuci´on para saber si existe una dependencia probabil´ıstica entre las curvas, p.e. ¿Son los niveles en las olas informaci´on relevante sobre las potenciales futuras tormentas? ¿Qu´e partes del cerebro se afectan con qu´e est´ımulo? ¿C´omo tener alg´un grado de certeza de que se produjo una falla teniendo solo las mediciones el´ectricas instant´aneas en ciertos puntos?

(6)

2 ´Indice general

El objetivo de este trabajo es estudiar, tanto te´oricamente como a nivel de desempe˜no, tres pruebas estad´ısticas conocidas para el problema de dos muestras en datos multivaria-dos y extenderlas a datos funcionales. En el cap´ıtulo 2 se calcular´an las distribuciones nulas de los estad´ısticos en cada caso y se probar´a la consistencia de las pruebas de hip´otesis. En el cap´ıtulo 3 se verificar´a la velocidad de convergencia de los estad´ısticos hacia sus dis-tribuciones nulas correspondientes por m´etodos de Montecarlo. Se realizar´an pruebas de potencia en simulaciones de Movimiento Browniano y varias variaciones, as´ı como versio-nes param´etricas multivaraidas uniforme y normal. Se realizar´an comparaciones en datos multivariadas simulados frente a los tests uniformemente m´as potentes. Finalmente se apli-car´an las pruebas en bases de datos reales de Contaminaci´on1, Esquizofrenia 2, C´ancer

de Mama y C´ancer en general3.

1Los datos fueron obtenidos por medio de los autores en [1]. 2Verhttps://www.kaggle.com/c/mlsp-2014-mri.

(7)

3

Cap´ıtulo 1

Preliminares

1.1.

Pruebas de Hip´

otesis

El procedimiento estad´ıstico por excelencia m´as ampliamente utilizando para soportar una hip´otesis en ciencias es conocido como una prueba de hip´otesis. En una prueba de hip´otesis estamos interesados en responder a una pregunta que nos permita conocer mejor alg´un fen´omeno aleatorio. Por ejemplo, queremos conocer alg´un par´ametro de una variable aleatoria tal como su media, su varianza, etc. Naturalmente, es necesario utilizar evidencia

{x1, x2, . . . , xn}que nos permita tener una grado de certeza sobre las conclusiones que va-mos a dictar. Entonces, una hip´otesisH es una afirmaci´on sobre una variable aleatoriaX, la cual queremos probar o invalidar por medio de una prueba de hip´otesis y un conjunto proveniente de realizaciones de X,{x1, x2, . . . , xn}.

La versi´on propuesta por Fisher [4] para una prueba de hip´otesis, tambi´en llamada Test de hip´otesis nula, tiene como objetivo probar la falsedad de una afirmaci´on a la que denominamos hip´otesis nulaH0. El procedimiento consiste de lo siguiente:

Test de Hip´otesis Nula

1. Establecer una hip´otesisH0 que se quiera probar falsa.

2. Definir un estad´ısticoT relevante para la hip´otesis.

3. Calcular la distribuci´on deT asumiendo que la hip´otesisH0es cierta.

4. Tomar una muestra{x1, . . . , xn}1y calcular el valor del estad´ısticoS:=T(x1, . . . , xn). 5. Calcular la probabilidad de haber obtenidoS, o un valor m´as extremo2queS:

p:=P0(T ≥S) =P(T(X1, . . . , Xn)≥T(x1, . . . , xn)|H0).

6. Concluir queH0es falsa, rechazarH0, sipes suficientemente peque˜no.3.

Neyman y Pearson [14] formularon un esquema de prueba de hip´otesis en la que se comparan dos afirmaciones,H0, la hip´otesis nula yH1, la hip´otesis alternativa

generalizan-do la idea de Fisher. El objetivo es probar queH0 es falsa y validarH1. El procedimiento

es el siguiente.

Test de Hip´otesis Alternativa 1. Establecer dos hip´otesisH0,H1.

2. Definir un estad´ısticoT relevante para las hip´otesis.

3. Basado en las distribuciones de T|H0 yT|H1, encontrar un eventoC que me

indi-que cu´ando rechazar H0, y por lo tanto aceptar H1. Es decir, si {x1, . . . , xn} son realizaciones de una variable aleatoria X : Ω −→ M, y T : Mn −→

R. Entonces,

1En la pr´actica conviene utilizar tantas muestras como sea posible para asegurar mejor convergencia asint´otica.

2La definici´on de extremo depende de la formulaci´on del estad´ıstico y de la hip´otesis. 3En algunos se casos se considera 0.05 como un umbral apropiado.

(8)

4 Cap´ıtulo 1. Preliminares

denominamos comoregi´on cr´ıtica C⊆Ral conjunto tal que se decide:

(

AceptarH1, siT(x1, . . . , xn)∈C,

AceptarH0, siT(x1, . . . , xn)6∈C.

4. Tomar una muestra{x1, . . . , xn}y calcular el valor del estad´ısticoS:=T(x1, . . . , xn).

5. Decidir la hip´otesis aceptada de acuerdo al conjunto C escogido previamente y el valor deS.

Se define elnivel de confianza como la probabilidad de rechazarH0 dado que esta es

cierta,

α:=P(Rechazar H0|H0), β:=P(Rechazar H1|H1).

A la probabilidadP(AceptarH1|H1) = 1−β se le llamapotencia.

Normalmente, la escogencia de C se hace luego de definir un l´ımite m´aximo para el error de equivocarse al rechazarH0, es decir tener evidencia falsa en contra deH0(falsos

positivos oError tipo 1) . O sea, definimos un valor m´aximo paraαque nos determina la regi´on cr´ıticaC y por lo tanto la potencia 1−β =P(C|H1). En el mejor de los casos la

potencia debe aproximarse a 1, pues esta me indica qu´e tan bien un estad´ıstico “detecta” correctamente queH1 es cierta. Por lo tanto es fundamental encontrar, para una misma

prueba (H0, H1), el estad´ısticoTn:Mn−→Rque maximiza la potencia.

La potencia nos proporciona una herramienta para comparar dos estad´ısticosT, T0con respecto a una misma prueba (H0, H1). Es claro que los estad´ısticos dependen fuertemente

de la muestra{xi}i≤n, en particular dependen de la cantidad de datos n. Intuitivamente es cierto que sin−→ ∞, entoncesT|H0yT|H1se van a diferenciar m´as notoriamente. As´ı

que se define un estad´ısticoT comoconsistentepara la prueba (H0, H1) siβ−→0, cuando

n−→ ∞.Entonces, m´as que comparar para unnfijo cu´al estad´ıstico es m´as potente para (H0, H1), se verifica cu´al converge m´as r´apidoβ(T), β(T0) a 0.

1.2.

Problema de dos muestras

Una de las preguntas m´as b´asicas acerca de dos objetosX yY es ¿C´omo se relacionan entre s´ı? En el contexto de probabil´ıstico, asumimos que estos objetos son interpretaciones de eventos abstractos denominados variables aleatorias. Entonces, una indagaci´on cuida-dosa acerca X y Y debe incluir preguntas tales como ¿Qu´e dependencia probabil´ıstica existe entre X y Y?, ¿Si s´ı existe una dependencia probabil´ıstica entre ellas, c´omo se comporta (X, Y) ?, etc. Un caso particular de esta pregunta se puede formular como una prueba de hip´otesis conocida como elproblema de dos muestras. El problema de dos mues-tras es una prueba de hip´otesis alternativa en la queH0 consiste de la afirmaci´on que dos

variables aleatorias est´an igualmente distribuidas y la alternativa, H1, un subconjunto de

la negaci´on de esta afirmaci´on.

Definici´on 1.0.1. Sean X, Y : Ω −→ M variables aleatorias definidas sobre el mis-mo espacio de probabilidad (Ω,A,P) en el mismo espacio medible (M, λ). Sean Xn :=

{x1, . . . , xn}y Ym:={y1, . . . , ym} realizaciones independientes de X y Y

respectivamen-te. Se define el Problema de dos muestras(Xn,Ym), como la prueba de hip´otesis(H0, H1):

H0:X (d)

=Y, H1:X

(d)

6

=Y.

En otras palabras, estamos interesados en conocer cu´ando FX =FY dadosXn,Ym. Ejemplo 1.0.1.Seanx1, . . . , xnuna muestra de una variable aleatoria distribuidaN(0, σ2),

yy1, . . . , ymmuestras de una variable aleatoria distribuidaN(0, σ21). La prueba de hip´otesis

H0:σ2=σ21 vs H1:σ2> σ21, es un problema de dos muestras univariado.

Para ilustrar el problema mediante un ejemplo sencillo las siguientes dos muestras de puntos enR2.

(9)

1.2. Problema de dos muestras 5 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

−4 −2 0 2 4

−4

−2

0

2

4

Samples X and Y

● X Y

Figura 1.1: (a) 400 muestras de X ∼ N(0, I2), 200 muestras Y ∼

N(0, I2).

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

−4 −2 0 2 4

−4

−2

0

2

4

Samples X and Y

● X Y

Figura 1.2: (a) 300 muestras de X ∼ N(0, I2), 300 muestras Y ∼

N( 00..11

,1.21I2).

En la literatura existen varias versiones para estad´ısticos apropiados para este problema [17, 21, 8]. Por ejemplo, casos en donde M = Rd, considerar T = ||Fˆ

X−FˆY||p, o T =

(10)

6 Cap´ıtulo 1. Preliminares

hecho, estos dos estad´ısticos han sido ampliamente estudiados y se les conoce como los estad´ısticos Kolmogorov-Smirnov y Cramer von-Mises respectivamente. As´ı, para fijar un nivel de confianza es esencial preguntarse c´omo es T|H0 asint´oticamente. Conocer esta

informaci´on presenta inconvenientes cuandoM =Rd, (d−→ ∞) por varias razones:

¿Qu´e tan correctas son las estimaciones de ˆF y ˆf cuandodes grande, especialmente

dm, n?

¿ Es f´acil calcularT|H0? ¿ Se puede encontrarT|H0asint´oticamente independiente

deFX yFY?

¿Qu´e tan r´apido convergeT|H0 a su distribuci´on l´ımite y qu´e tanto se conoce esta

distribuci´on?

¿Qu´e tan f´acil es implementarT computacionalmente?

Como respuesta a estas preguntas surgi´o una forma no est´andar de utilizar estad´ıstica de tal manera que los estad´ısticos no dependieran muy fuertemente ded, ni tampoco de los (posiblemente infinitos) par´ametros que la determinan. Esta ´area de la estad´ıstica es conocida como estad´ıstica no param´etrica. En particular, cuando la muestra es provenien-te de un proceso estoc´astico sobre un intervalo I en R, este estudio se concentra en la disciplina m´as espec´ıfica:An´alisis de datos Funcionales.

1.3.

Estad´ıstica no param´

etrica

La excelencia de la estad´ıstica como herramienta para la validaci´on rigurosa de una proposici´on no es hecho trivial, ni mucho menos fortuito. Posiblemente, los teoremas m´as fundamentales en esta disciplina, que a su vez constituyeron la base de la estad´ıstica moderna, son conocidos como La ley Fuerte de grandes n´umeros; El teorema del l´ımite central; y el teorema de Glivenco-Cantelli. A continuaci´on, enuncio la versi´on est´andar de estos tres teoremas y omito su demostraci´on. Para ver pruebas de estos teoremas por favor rem´ıtase a [21].

Teorema 1.0.1. (Ley fuerte de grandes n´umeros). SeanX1, X2, . . . variables aleatorias

i.i.d. tales que E(X1) =:µ <∞. Se cumple que,

X1+· · ·+Xn

n −→ µ, n−→ ∞ c.s.

Teorema 1.0.2. (Teorema del L´ımite Central cl´asico) SeanX1, X2, . . . variables

aleato-rias i.i.d con E(X1) = 0, yE(X12) = 1. Entonces,

X1+· · ·+Xn

√ n

(d)

−→ N(0,1), n−→ ∞.

Teorema 1.0.3. labelglivenco-cantelli (Glivenco-Cantelli cl´asico) SeanX1, X2, . . .

varia-bles aleatorias enRi.i.d con distribuci´onF. DefinaFˆn(t) :=n1P n

i=11(Xi≤t). Entonces,

||F−Fˆn||∞−→0, n−→ ∞c.s.

La ley de grandes n´umeros nos da la certeza de que el par´ametroµ se puede calcular realizando repeticiones de un experimento. En particular siXi =1(Yi ∈A), entonces se puede aproximar el valor de P(Y ∈A), pues E(X1) =P(Y1 ∈A). El teorema del l´ımite

central nos permite entender qu´e tan correcta es la aproximaci´on deµal aplicar la ley de grandes n´umeros; nos da una regi´on y una probabilidad en donde el verdaderoµ puede estar, esto es, un intervalo de confianza. A su vez, esto permite crear pruebas de hip´otesis sobreµbasado en el intervalo de confianza. El tercer teorema consolida el hecho de que s´ı es posible entender completamente un fen´omeno aleatorio,X, a partir de sus realizaciones,

X1, X2, . . .. En conjunci´on con estos tres teoremas, el lema de Neyman-Pearson [17] hace

(11)

1.3. Estad´ıstica no param´etrica 7

Ejemplo 1.0.2. Sean la familia de distribuciones normales con varianza 1F, una muestra

X1. . . , Xncon distribuci´onFx∈ F y mediaθ, y un valorθ0. EntoncesZ = (X−θ0)/

√ nes el estad´ıstico uniformemente m´as potente sobreFpara la hip´otesisH0:θ=θ0,H1:θ > θ0

[7].

El desempe˜no tan sobresaliente de dichos m´etodos es alcanzado r´apidamente por los deseos de aplicarlos en espacios m´as generales. Si por ejemplo tuvi´eramos quex1, . . . , xn,

y1, . . . , yn ∈ C[0,1], entonces ¿de qu´e forma podr´ıamos aplicar estos teoremas para el problema de dos muestras?. La ley de grandes n´umeros y el teorema del l´ımite central requieren que la distribuci´on de X1 tenga una media µ, y, adem´as, la velocidad de la

convergencia depende del tipo de distribuci´on X. As´ı mismo sucede con el teorema de Glivenco-Cantelli, para tener una buena confianza de las estimaciones es necesario saber a priori la distribuci´on deX. Por eso, es necesario pensar en teoremas de convergencia que asuman la menor cantidad de hip´otesis sobre las variables aleatorias y se puedan aplicar uniformemente en una familia de distribuciones Alo m´as general posible.

Definici´on 1.0.2. SeanX1, . . . , Xn,Y1, . . . , Yn variables aleatorias i.i.d. sobre un mismo

espacioM. Decimos queT :Mn−→Rm es un estad´ıstico libre de distribuci´on sobre una

familia A, siT(X1, . . . , Xn)

(d)

=T(Y1, . . . , Yn), para cualquier Fx, Fy∈ A.

Ejemplo 1.0.3. SeaA la familia de distribuciones continuas sobreR. Se define el rank,

R, de (X1, . . . , Xn) como el orden de la muestra, es decir R(X(i)) = i, donde X(1) <

X(2) < . . . < X(n) es la muestra ordenada. Entonces R(X1) y R(X1, . . . , Xn) son libres

sobre A.

De hecho, note que

R(X1)∼Unif{1, . . . , n}, (R(X1), . . . , R(Xn))∼Unif(Sn).

Ejemplo 1.0.4. Bajo las mismas condiciones del ejemplo 1.0.3, seanX1, . . . , XnyY1, . . . , Yn

variables aleatorias i.i.d. SeaRel rank de la muestra combinada{X1, . . . , Xn,Y1, . . . , Yn}.

El estad´ıstico de Wilcoxon se define como,

W =

n

X

i=1

R(Xi).

El estad´ıstico de Mann-Whitney se define como

U =X

i,j

1(Yj> Xi).

Los estad´ısticosW yU son libres de distribuci´on sobreA dado queFX =FY c.s.

Estos estad´ısticos se pueden utilizar para llevar a cabo una prueba de dos muestras para datos en R, m´as a´un, la distribuci´on asint´otica de U y W es normal. Por lo tanto, para muestras suficientemente grandes [17], se puede definir un intervalo de confianza a partir de la distribuci´on normal. Se puede verificar f´acilmente queW =U + n−21

.

El concepto de un estad´ıstico libre de distribuci´on es esencial para desarrollar pruebas cuando no existe un conocimiento a priori m´as all´a de suponer que proviene de una familia

A. En el ejemplo 1.3.3 tenemos dos estad´ısticos que sabemos son asint´oticamente norma-les dado H0, por lo tanto, si poseemos una muestra suficientemente grande 4 podremos

establecer un intervalo de confianza de acuerdo a la distribuci´on normal. Lamentablemen-te, no hay generalidad sobre las distribuciones nula asint´oticas. Muchas veces, incluso, es imposible conocer perfectamente el comportamiento de una funci´on que depende de una variable aleatoria; en estos casos se emplean simulaciones.

4El umbral para decidir cu´ando es leg´ıtimo considerar un valor grande es propio de cada estad´ıstico y se puede analizar en algunos casos. Normalmente es suficiente con estimar por simulaciones.

(12)

8 Cap´ıtulo 1. Preliminares

Losm´etodos de Montecarlo 5 son procedimientos para aproximar par´ametros que

de-penden de fen´omenos aleatorios por medio de simulaciones. En este caso queremos conocer c´omo se comporta un estad´ıstico bajo una hip´otesis nula,T(X1, . . . , Xn)|H0. Para tal fin,

se generan muestras de (X1, . . . , Xn) dadas las condiciones deH0, y se eval´uaT. El

teore-ma de Glivenco-Cantelli nos da la certeza que el procedimiento es asint´oticamente correcto. En resumen, queremos construir un estad´ıstico que sea libre de distribuci´on y que bajo la hip´otesis nula conozcamos la distribuci´on l´ımite, o en su defecto podamos obtener una distribuci´on emp´ırica por m´etodos de Montecarlo.

Aun as´ı, es posible que la distribuci´on no sea simulable. Por ejemplo, si tenemos un conjunto de curvas provenientes de una toma de datos real. Si tal fuera el caso, lo m´as seguro es que no es posible conocer con certezaT|H0. Por ende, la b´usqueda de la regi´on

cr´ıtica apropiada requiere de un procedimiento a´un m´as general.

Lema 1.3.1. SeanX1, . . . , Xn variables aleatorias i.i.d. sobre un espacio de probabilidad

discreto (Ω,A,P) en un espacio medible (M, λ). Sean x1, . . . , xn ∈ M. Para cualquier

σ∈Sn,

P(X1=xσ(1), . . . , Xn =xσ(n)|x1, . . . , xn) = 1

n!.

Definici´on 1.0.3. Seaθ un par´ametro que depende de una variable aleatoriaX por me-dio de θ =E(T(X1, . . . , Xn)), donde X, X1, . . . , Xn son i.i.d. Se define el estad´ıstico de

permutaci´on como

ˆ

θ:= n1! X σ∈Sn

T(Xσ(1), . . . , Xσ(n)).

Lema 1.3.2. SeanX1, X2, . . . variables aleatorias i.i.d. con densidad continua sobre un

espacio medibleX. SeaT :Xn−→

Run estad´ıstico con distribuci´on continua. Definap

co-mo la funci´onp−valor definida comop(x1, . . . , xn) :=P(Tn(X1, . . . , Xn)> T(x1, . . . , xn)),

entonces

ParaX10, . . . , Xn0, variables aleatorias disitribuidas iguales aX1, . . . , Xn e

independien-tes, se tiene quep(X10, . . . , Xn0)∼Unif(0,1).

Demostraci´on. Es conocido que siX es una variable aleatoria continua con distribuci´on

F es transformada a una uniforme por medio de F, esto es, U :=F(X) est´a distribuida Unif(0,1). Sea u∈[0,1] tal queF−1 est´a bien definida. La monotonicidad de F implica

queP(F(X)< u) =P(X < F−1(u)) =F(F−1(u)) =u. Por continuidad deF, F−1 est´a

bien definida c.s., por tantoP(F(X)< u) =uc.s.

Ahora, sea F la distribuci´on de T,F(t) =P(T < t), se sigue que p= 1−F(T), que tambi´en es uniformemente distribuida sobre (0,1).

Lema 1.3.3. Sean{Xi}i∈N, X variables aleatorias continuas tales que, Xn−→dX. SiF

es la distribuci´on deX, entonces F(Xn)−→dU, donde U ∼Unif(0,1).

Demostraci´on. Se sigue directamente del teorema de transformaci´on y el lema 1.3.3. Pues

Xi−→dX implicaF(Xi)−→dF(X), siempre queF sea continua.

Estos lemas construyen la teor´ıa necesaria para enunciar el teorema (fundamental) del procedimiento de permutaci´on.

Teorema 1.0.4. [11] Suponga que Tn : Xn −→ R son una familia de estad´ısticos y

T, X1, X2, . . . variables aleatorias. Seapn(x1, . . . , xm) :=P(Tn(X1, . . . , Xn)> T(x1, . . . , xm))

y pˆn(x1, . . . , xn) = n1!#{σ∈Sn:T(Xσ(1), . . . , Xσ(n))> t0}. Entonces bajo las hip´otesis:

1. Tn(X1, . . . , Xn)−→dT,n−→ ∞.

2. E(Tσ

n|Xn−Tn(X1, . . . , Xn))−→0,n−→ ∞.

Se satisface que,

E(|pˆn−pn|)−→0.

(13)

1.4. Nociones b´asicas en teor´ıa de grafos 9

Los lemas nos proveen con herramientas para detectar posibles valores significativos en una prueba. El lema 1.3.2 nos permite poder realizar un test de hip´otesis nula sobre los es-tad´ısticos para verificar qu´e tan r´apido converge elp-valor a la uniforme. Esta informaci´on nos puede ayudar a verificar qu´e estad´ıstico es converge m´as r´apido a su distribuci´on l´ımite para as´ı poder decidir sobre qu´e tan apropiado es utilizar el valor cr´ıtico de permutaci´on o el valor cr´ıtico de la distribuci´on l´ımite. El lema 1.3.3 nos permite poder simular dicho procedimiento por medio de las variablesXi. Consecuentemente el teorema 1.3.4 posibilita el c´alculo delp-valor real a partir del procedimiento de permutaci´on.

1.4.

Nociones b´

asicas en teor´ıa de grafos

Definici´on 1.0.4. Un grafo G= (V, E)es una colecci´on finita de v´ertices V y de arcos

E ⊆V ×V.Gse dice no dirigido cuando la relaci´onE es sim´etrica.

En este proyecto estamos m´as interesados en los grafos cuyos v´ertices est´an en Rd y cuyos arcos dependen de las distancias Euclidianas entre estos v´ertices. A estos grafos se llaman grafos geom´etricos.

Definici´on 1.0.5. Sea Xn = {x1, . . . , xn} ⊆ Rd, se define el grafo de k vecinos m´as

cercanos sobre Xn, k−NN , como el grafo dirigido donde V = Xn y E = {(xi, xj) : #(B||xi−xj||(xi)∩ Xn)≤k}.

Definici´on 1.0.6. Sea Xn = {x1, . . . , xn} ⊆ Rd, se define el grafo del ´arbol generador

m´ınimo sobre Xn,MST , como el grafo donde V =Xn y E es el conjunto de arcos que

minimiza la distancia total de los arcos entre todos los pobiles ´arboles generadores en Xn.

El grafo de k ´arboles generadores m´ınimos, k−MST , es el grafo compuesto por la uni´on de los arcos en los k´arboles generadores en Xn de m´ınima distancia.

Definici´on 1.0.7. Sea Xn ={x1, . . . , xn} ⊆ Rd, se define el grafo de k Esferas de

in-fluencia sobre Xn, k−SI , como el grafo donde V = Xn y E ={(xi, xj) : ||xi −xj|| ≤

ρk(xi) +ρk(xj)}, dondeρk(xi)es la distancia entrexi y suk−´esimo vecino m´as cercano.

Estos tres grafos son de especial importancia porque conectan v´ertices cercanos entre s´ı en Rd, y por lo tanto si form´asemos el grafo a partir de dos muestras, la cantidad de arcos que unen v´ertices de una misma muestra deber´ıa ser m´as grande bajoH1que bajo

H0. M´as adelante veremos que un estad´ıstico basado en este conteo resulta potente ante

cualquier alternativa para el problema de dos muestras.

Remark Note que de la definici´on se sigue que el n´umero de arcos en elk−NN eskn

y el n´umero de arcos en elk−MSTesk(n−1).

Definici´on 1.0.8. Sea G= (V, E)un grafo geom´etrico.

El grado de un v´ertice es el n´umero de arcos que salen de ´el,

deg(xi) := #{(x, y)∈E:x=xi}.

Elk−´esimo vecino m´as cercano de un v´ertice se denotaN Nk(xi).

El n´umero de v´ertices de grado kse denota porVk(G).

Ejemplo 1.0.5. Considere el siguiente conjunto de 25 puntos en R2. Se muestran los

(14)

10 Cap´ıtulo 1. Preliminares ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

X[,1]

X[,2]

Figura 1.3: 25 muestras aleatorias Unif(0,1)2.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2] ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2]

Figura 1.4:Grafosk−NN sobre la muestra parak= 1,2.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2] ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2]

(15)

1.5. Movimiento Browniano 11 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2] ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0 X[,1] X[,2]

Figura 1.6:Grafosk−SI sobre la muestra parak= 1,2.

1.5.

Movimiento Browniano

En este trabajo vamos a considerar a un dato funcional como una realizaci´on de un proceso estoc´astico, esto es, una curva aleatoria. M´as precisamente, trataremos con colec-ciones de funcolec-cionesfn: [0,1]−→Ren las cuales, para cada tiempot∈[0,1],{fn:n∈N} es un conjunto de realizaciones de una variable aleatoriaX(t). Por sugerencia del asesor y como punto de partida, se probar´an los estad´ısticos sobre seis tipos de datos funcionales simualdos: movimiento browniano, movimiento browniando escalado, movimiento brow-niano con memoria, puente browbrow-niano, puente browbrow-niano escalado y puente browbrow-niano con memoria. Para denotar que dos variables X y Y son independientes utilizamos el s´ımbolo⊥.

Definici´on 1.0.9. Un proceso estoc´astico es una colecci´on de variables aleatorias{X(t), t∈ T}sobre un mismo espacio de probabilidad(Ω,A,P)en un espacio medible(S, λ), tales que para cualquier colecci´on de tiempos finitos, t1 < t2 < . . . < tn,(X(t1), X(t2), . . . , X(tn))

es una variable aleatoria sobre Sn.

Ejemplo 1.0.6. (Movimiento Browniano) Se define el proceso estoc´astico sobreτ = [0, T),

{X(t)}t∈τ como un movimiento browniano cuando,

X(0) = 0.

X(t)es continua c.s.

∀t1, t2, s1, s2∈τ tales ques1< t1≤s2< t2,

X(t1)−X(s1)⊥X(t2)−X(s2).

∀t, s∈τ tales ques < t,X(t)−X(s)∼ N(0, s−t).

Ejemplo 1.0.7. (Movimiento Browniano Escalado) Se define el proceso estoc´astico sobre

τ = [0, T),{X(t)}t∈τ como un movimiento browniano escalado por un factorσ cuando

X(0) = 0.

X(t)es continua c.s.

∀t1, t2, s1, s2∈τ tales ques1< t1≤s2< t2,

X(t1)−X(s1)⊥X(t2)−X(s2).

∀t, s∈τ tales ques < t,X(t)−X(s)∼ N(0, σ2(t−s)).

El movimiento browniano escalado por un factorσ solo altera la distribuci´on del ta-ma˜no de crecimiento. Escoger valores paraσ2muy alejados de 1 ser´ıa in´util para comparar

el desempe˜no en t´erminos de potencia entre los estad´ısticos propuestos para un mismo ni-velα, pues la discrepancia entre los dos conjuntos ser´a grande y por ende esperar´ıamos que todos los tests se desempa˜naran igualmente bien. Aunque una alteraci´on en el crecimiento

(16)

12 Cap´ıtulo 1. Preliminares

promedio por un factor deσnos proporciona una alternativa efectivamente exigente, con-sideraremos ahora un proceso con el mismo factor crecimiento, pero con una leve variaci´on en el signo.

De la definici´on es claro que el proceso no tiene memoria de los incrementos en el sentido que la distribuci´on de un solo incremento depende ´unicamente del tiempo transcurrido entre ellos, es decir, si t > s, X(t)−X(s)|X(s) ∼ N(0, t−s). En particular P(X(t)−

X(s) > 0|X(s)) = P(X(t)−X(s) < 0|X(s)) = 0.5. Se propone el siguiente proceso modificado discreto, al que denominaremosMovimiento Browniano memorioso, en el que estas probabilidades dependen del valor deX(S) de la siguiente manera.

Definici´on 1.0.10. Sea 0 = t0 < t1 < . . . < tn = 1 una partici´on de [0,1]. Sean

Nti ∼ N(0, ti −ti−1) y Ui ∼ Unif(0,1) todas independientes. Sea h : R

≥0 −→ [0,1]

medible,{X(ti)}i∈[n] es un movimiento browniano con memoria hcuando,

X(0) = 0.

∀i= 0, . . . , n−1:

X(ti+1) =X(ti)−(−1)1(Ui<h(|X(ti)|))|Nti|.

En este proceso se est´a condicionando sobre el valor absoluto de la posici´on actual. La idea del proceso es alterar la probabilidad del signo del aumento basado en el valor absoluto de los estados anteriores por medio deh. Note que cuandohes constante igual a

1

2, el proceso es el mismo movimiento browniano en (t1, . . . , tn). De lo contrario, cuandoh

var´ıa a medida que|X(s)|aumenta, la probabilidad de que el proceso crezca o disminuya va a ser distinta.

Ejemplo 1.0.8. En las siguientes figuras se muestran 15 realizaciones de estos tres procesos sobre τ = [0,1): Browniano est´andar {B(t)}t∈τ; Browniano escalado σ = 1.1

{Bσ(t)}t∈τ; y Browniano con memoria h(t) =12+ 1 4

1

1+e3(2−t),{M(t)}t∈τ.

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Movimiento Browniano

t

B(t)

(17)

1.5. Movimiento Browniano 13

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Movimiento Browniano Escalado

t

B(t)

Figura 1.8:Movimiento Browniano Escalado Discretizado en 300 pun-tos.

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Movimiento Browniano Memorioso

t

M(t)

Figura 1.9: Movimiento Browniano Memorioso Discretizado en 300 puntos.

Los procesos alternativos contra el cual evaluaremos la hip´otesis de igualdad en dis-tribuci´on consisten de alterar la magnitud por medio de la escala y el signo. Es posible que estas alteraciones se vean reflejadas m´as notoriamente en los tiempos finales, e.g.

B(1), Bσ(1), M(1), y por eso se decidi´o, por recomendaci´on del asesor, incluir procesos de puente. Con el fin de atenuar las discrepancias aparentemente incrementales en tiempos grandes, se consideran los procesos {X(t)}t∈τ en los queX(0) =X(1) = 0, denominados porPuente Browniano, Puente Browniano Escalado, Puente Browniano memorioso.

Definici´on 1.0.11. La versi´on puente del proceso estoc´astico sobreτ {X(t)}, es el proceso

{Y(t)}t∈τ definido por,

Y(t) :=X(t)−tX(T), Donde T = supτ.

Ejemplo 1.0.9. En las siguientes figuras se muestran 15 realizaciones de estos tres pro-cesos sobre τ = [0,1): Puente Browniano est´andar {B(t)−tB(1)}t∈τ; Puente

Brow-niano escalado σ = 1.1 {Bσ(t)−tBσ(1)}t∈τ; y puente Browniano con memoria h(t) =

1

2+

1 4

1

(18)

14 Cap´ıtulo 1. Preliminares

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Puente Browniano

t

b(t)−tb(1)

Figura 1.10:Puente Browniano Discretizado en 300 puntos.

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Puente Browniano Escalado

t

bs(t)−tbs(1)

Figura 1.11:Puente Browniano Escalado Discretizado en 300 puntos.

0.0 0.2 0.4 0.6 0.8 1.0

−2

0

2

Puente Browniano Memorioso

t

m(t)−tm(1)

(19)

15

Cap´ıtulo 2

Teor´ıa Asint´

otica de los

Estad´ısticos

2.1.

Teorema del L´ımite Central Combinatorio

Las pruebas de Mann-Whitney y Wilcoxon mencionadas en demuestran ser casi tan potentes como los test uniformemente m´as potentes para ciertas familias de distribuciones [17]. Por ejemplo, en el caso de la familia de distribuciones normales de varianza 1, el es-tad´ıstico m´as potente estde student, gracias al lema de Neyman-Pearson. Los resultados simulados muestran que la potencia de W se aproxima a la de t para cualquier nivel de confianza cuando n−→ ∞.

El que las potencias de ambos tests asemejen, suscita una pregunta muy concreta y a la vez muy importante: por qu´e dos pruebas de naturalezas tan distintas —una,t, basada fuertemente en la distribuci´on normal subyacente, y la otra,W, tan solo preocupada por el orden— capturan la discrepancia de maneras tan semejantes? El ´exito del test de Mann-Whitney y Wilcoxon fue fundamental para el desarrollo de otros estad´ısticos no param´ etri-cos. Considere por un lado el estad´ıstico de Kendall,τ, como la cantidad de veces en que los ´ordenes deXn coinciden con los ´ordenes deYn de una muestra (X1, Y1), . . . ,(Xn, Yn).

τ= #{(i, j) : (Xi< Xj)∧(Yi< Yj)}. (2.1)

Bajo la hip´otesis nula de que las realizaciones deXyY son independientes, Kendall [21] mostr´o que su estad´ıstico, apropiadamente estandarizado, converge a una normal est´andar en distribuci´on. Esto es,

ˆ

τ= τ−

n

2

q n

2

(2n+ 5)/9

−→dN(0,1).

Por otro lado, bajo la misma idea de medir discrepancia entre dos conjuntos pro-venientes de realizaciones de distribuciones desconocidas, Wald-Wolfowitz definieron su estad´ıstico, R, para medir la discrepancia entre dos muestras Xn,Ym ⊆ R. La idea es contar la cantidad de veces en que se repiten las clases de los puntos, al ubicarlos sobre la recta seg´un su valor. Es decir, seaZ=Xn∪Ym, entonces paraZ(1)≤Z(2)≤ · · · ≤Z(n+m),

se define

R= #{i:Z(i) y Z(i+1)son de la misma clase}. (2.2)

Bajo la hip´otesis nula, Wald y Wolfowitz [6] probaron que,

ˆ

R=R−µm,n

σm,n

−→dN(0,1),

donde,

µm,n= 2mn/(n+m)−1,

(20)

16 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos

Los estad´ısticosW, τ yRson ejemplos del hecho que el orden natural deRrevela su-ficiente informaci´on sobre el comportamiento aleatorio de una variable cuando n−→ ∞. En todos estos casos la distribuci´on l´ımite bajo la hip´otesis nula es normal est´andar y en varias familias de distribuci´on, su potencia es comparable con la potencia de los tests m´as potentes.

Aunque no fue evidente en ese entonces, la relaci´on entre las pruebas basadas en orden y su distribuci´on l´ımite es consecuencia de una serie de teoremas conocidos como teore-mas de l´ımite central combinatorio. W est´a expl´ıcitamente desarrollado en t´erminos de los ranksR(Xi), R(Yj) en la muestra combinada. De la misma manera, es posible formu-lar τ yR como una relaci´on de estos ranks. Entonces, es natural pensar que, dado que (R(X1), . . . , R(Yn))∼Unif(Sn) (Ejemplo 1.3.2) y ˆW ,ˆτ ,Rˆ−→dN(0,1), las convergencias obedecen a un hecho m´as general sobre convergencia hacia la normal para estad´ısticos basados en la variable aleatoriaσ∼Unif(Sn).

Teorema 2.2.1. (Teorema de Hoeffding [10]) Para n ∈ N, sean σ ∼ Unif(Sn) y cn ∈

Mn×n(R) una matriz tal que para

dn(i, j) =cn(i, j)− 1

n n

X

k=1

(cn(i, k) +cn(k, j)) +n12

X

k,l

cn(k, l),

se cumple que

∀r≥3, l´ım

n−→∞

1

n

P

i,jd r n(i, j) (n1P

i,jd2n(i, j))r/2 = 0.

Entonces la variable aleatoriaΓn=Pn

i=1cn(i, σ(i))es asint´oticamente normal.

Si X1, . . . , Xn son variables aleatorias i.i.d. entonces se puede aplicar el teorema de Hoeffding para encontrar condiciones suficientes para saber cu´ando Γn=P

n

i=1cn(i, R(Xi)) est´a asint´oticamente distribuida normal. Por ejemplo, cuandocN(i, j) =1(i≤n)j, el es-tad´ıstico de Hoeffding se convierte en el eses-tad´ıstico de Wald-Wolfowitz, Γn = W. Sin embargo, al escribir los estad´ısticosτ yR en t´erminos de los ranksR(Xi), R(Yj), resulta necesario comparar parejas de ranks simult´aneamente (R(Zi), R(Zj)) y por lo tanto Γn no los generaliza directamente. Esta necesidad nos conduce al siguiente teorema de Daniels (1944) [2]. La demostraci´on es una explicaci´on rigurosa y detallada de la demostraci´on original en [2].

Teorema 2.2.2. (Teorema de Daniels versi´on fuerte) Sea n∈N,π∼Unif(Sn) y a, b∈

Mn×n(R). Defina,

Γn:= n

X

i,j

ai,jbπ(i),π(j).

Entonces,

Γn−E(Γn)

V(Γn)1/2

−→dN(0,1),

Siempre que se cumplan las siguientes condiciones,

(i)Σ1a=O(n), Σ1b=O(n), n−→ ∞,

(ii) Σla=O(nl+1), Σlb=O(nl+1), l >1, n−→ ∞,

DondeΣla:=Pn

i,i1,...,ilai,i1. . . ai,il.

Demostraci´on. Para facilitar notaci´on, denotemos Σ0i1,...,im como la suma sobre todas las

m−tuplas de ´ındices distintos (i1, . . . , im) en {1, . . . , n}m. Vamos a demostrar que Γn es

asint´oticamente normal calculando su funci´on generadora de momentosE(etΓn). Para esto

vamos a calcular los momentos E(Γmn). Antes recordemos que la funci´on generadora de momentos de una variable distribuidaN(0, σ2) esϕ(t) = exp(1

2t2) =P

m≥0

σ2m 2m

t2m

(21)

2.1. Teorema del L´ımite Central Combinatorio 17

Consideremos primero el caso en el queP0

i,jai,j=

P

iai,i= 0 y

P0

i,jbi,j=

P

ibi,i= 0. Para el primer momento se cumple,

E(Γn) = 1 n! X π∈Sn X i,j

ai,jbπ(i),π(j),

=(n−2)!

n!

X0

i,jai,j

X0

i,jbi,j+

(n−1)!

n!

X

iai,i

X

ibi,i. = 0 + 0.

Consideremos ahora los momentos de ordenp= 2m,

E(Γ2nm) = 1

n!

X

π∈Sn

X

i1,j1,...,i2m,j2m

ai1,j1. . . ai2m,j2mbπ(i1),π(j1). . . bπ(i2m),π(j2m).

Ahora consideramos todas las posibles formas en las que se repiten ´ındices. Los casos en los que existen ´ındices libresikjk son nulos porque los ´ındices libres se pueden factorizar en P0

ik,jkaik,jk= 0. De la misma forma, cuando existen ´ındices libresik =jk el t´ermino

P

ikaik,ik se anula. Por lo tanto cada pareja de ´ındices (ik, jk) debe estar relacionada con

otra (il, jl) por medio ik = il y/o jk = jl. Estos casos se pueden ver ahora analizando todas las posibles formas en las que se relacionan las parejas. La primera forma es que todas las relaciones se den entre solo dos parejas:

X

i1,j1,...,i2m,j2m

ai1,j1. . . ai2m,j2m = (

X

i,j,k

ai,jai,k)m.

Todos los posibles casos deben incluir relaciones que contienen m´as de dos,

X

i1,j1,...,i2m,j2m

ai1,j1. . . ai2m,j2m = (

X

i,j,k

ai,jai,k)m2(

X

i,j,k,l

ai,jai,kai,l)m3. . . ,

= (Σ2a)m2(Σ3a)m3. . .(ΣMa)mM.

Donde, 2m2+ 3m3+. . . M mM = 2m. Ahora bien, la condici´on(ii) nos dice que para cualquier kimpar (Σka)2=o((Σ

2a)k) y (Σka) =o((Σ2a)k/2) parakpar. Por lo tanto,

(Σ2a)m2(Σ3a)m3. . .(ΣMa)mM =o((Σ2a)m), n−→ ∞.

Ahora note que Σ2 se puede formar eligiendo todas las posibles parejas entre 2m: 2m

2,...,2

. Cada una de estosm factores repite un solo ´ındice en una de las cuatro posibles repeticiones: ai,jai,k, ai,jak,i, aj,iai,k, aj,iak,i, y adem´as cada una de estas escogencias requiere de 3 ´ındices distintos, por lo que en (n−3m)! de lasn! permutaciones aparece cada t´ermino. En suma, tenemos que el orden 2mde Γn es,

E(Γ2nm) =

2m

2, . . . ,2

(n3m)!

n! 4 m[(Σ

2a)m+o((Σ2a)m)] [(Σ2b)m+o((Σ2b)m)].

As´ı que tenemos la siguiente equivalencia asint´otica,n−→ ∞,

1 (2m)!E(Γ

2m n )∼

2m

n3m((Σ2a)(Σ2b)) m.

Consideremos ahora el casop= 2m+ 1. Al igual que el caso anterior, los ´unicos ´ındices que no se anulan son aquellos en los que hay repeticiones. Por tanto debemos tener que,

X

i1,j1,...,i2m+1,j2m+1

ai1,j1. . . ai2m,j2m = (Σ2a)

m2

3a)m3. . .(ΣMa)mM,

donde 2m2+ 3m3+· · ·+M mM = 2m+ 1. Nuevamente de la condici´on (ii) llegamos a,

(22)

18 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos

Ahora note que las posibles formas de los factores en (Σ2a)m−1(Σ3a) son 22,...,m+12,3. De

estos m factores los de Σ2 se pueden escoger de 4 formas, los de Σ3 se forman en 8

formas. Adem´as cada una de estas escogencias de ´ındices aparece en (n−3(m−1)−4)! permutaciones de lasn! totales.

1

(2m+ 1)!E(Γ

2m+1

n )∼

(8/3)2m−1

n3m+1 (Σ2aΣ2b)

m−1

(Σ3aΣ3b), n−→ ∞.

Cabe resaltar que la condici´on (ii) tambi´en implicaV(Γn) =O(n3), entonces los

mo-mentos de Γn/n3/2 son,n−→ ∞:

1 (2m)!E((

Γn

n3/2) 2m

)∼ 2

m

n3mn3m((Σ2a)(Σ2b)) m

=O(1),

1

(2m+ 1)!E(( Γn

n3/2)

2m+1) (8/3)2m−1

n3m+1n3m+1n1/2(Σ2aΣ2b)

m−1

3aΣ3b) =O(

1

n1/2).

De esta forma, los momentos impares de Γn/V(Γn)1/2 son asint´oticamente cero y por lo tanto solo es necesario considerar los momentos pares,

E

et

Γn n3/2

= X

m≥0

E(Γmnn−3m/2)

m! t

m,

∼ X

m≥0

n−3m E(Γ2nm) (2m)! t

2m,

= X

m≥0

2m(Σ2aΣ2b)m

n3mn3m t

2m,

= exp

2(Σ2aΣ2b)

n6 t

2

= exp(1 2σ

2t2).

dondeσ2= 4(Σ2aΣ2b)

n6 . Por ende, dado queV(Γn) =E(Γ2n) =

2(Σ2aΣ2b)

n3 , llegamos al hecho que quer´ımos,

Γn

V(Γn)1/2

−→dN(0,1).

Ya mostramos el teorema cuando Σ0i,ja = Σ0i,jb = 0 y Σiai,i = Σibi,i = 0. Veamos que no se pierde generalidad al suponer que las matrices a y b siempre satisfacen esto. Sean a = 1nΣ0i,jai,j, b = 1nΣ0i,jbi,j, c = n1Σiai, d = n1Σibi,i. As´ı pues Σ0i,jai,j−a = 0, Σ0i,jbi,j−b = 0, Piai,i−c = 0 y Pibi,i−d = 0. Adem´as, gracias a la condici´on (i),

a=b=c=d=O(1). Ahora si reemplaz´aramos porai,j porai,j−ay lo mismo para los dem´as, el estad´ıstico Γn cambia solamente o(n3/2),

Γ0n =X0

i,j(ai,j−a)(bπ(i),π(j)−b) +

X

i

(ai,i−c)(bπ(i),π(i)−d),

=X

i,jai,jbπ(i),π(j)−2(n−1)ab+ab−2ncd+cd,

= Γn+o(n3/2).

Al normalizar con la varianza se llega al resultado deseado,

Γn−Γ0n V(Γn)1/2

(23)

2.1. Teorema del L´ımite Central Combinatorio 19

Teorema 2.2.3. (Teorema de Daniels versi´on d´ebil) Sean ∈N, π∼Unif(Sn) y a, b∈ Mn×n(R). Defina,

Γn := n

X

i,j

ai,jbπ(i),π(j).

Entonces,

Γn−E(Γn)

V(Γn)1/2 −→dN (0,1),

Siempre que se cumplan las siguientes condiciones,

(i)Σla=O(n), n−→ ∞,

(ii) Σ1b=O(n),Σlb=O(nl+1), l >1, n−→ ∞,

Donde Σla:=P n

i,i1,...,ilai,i1. . . ai,il.

Demostraci´on. Note que la versi´on d´ebil reemplaza la condici´on Σla=O(nl+1) por Σla=

O(n). Esta condici´on tambi´en es suficiente pues el hecho que Σla=O(nl+1) solo se utiliza

para mostrar las siguientes dos asint´oticas,

(Σ2a)m2(Σ3a)m3. . .(ΣMa)mM =o((Σ2a)m), n−→ ∞,

(Σ2a)m2(Σ3a)m3. . .(ΣMa)mM =o((Σ2a)m−1Σ3a), n−→ ∞.

Pero estas proposiciones son igualmente ciertas si Σla=O(n), pues,

2m2+· · ·+M mM = 2m ⇒ m2+· · ·+mM < m,

2m2+· · ·+M mM = 2m+ 1 ⇒ m2+· · ·+mM < m.

Las dem´as afirmaciones siguen siendo v´alidas, sin embargo ahora V(Γn) = O(n), de todas maneras los t´erminosE(( Γ

n1/2

2m

)∼O(1) yE(( Γ

n1/2

2m+1

)∼o(1).

Al escogeran ybnapropiadamente podemos reducir ΓN enτ 2.1 yR2.2. Por ejemplo al establecer

an(i, j) = sgn(xi−xj),

bn(i, j) = sgn(yi−yj)

EntoncesP

i,jan(i, j)bn(i, j) = 2τ. As´ı mismo, escogiendo las matrices de tal forma que

an(i, j) =1(Z(i)y Z(j)son consecutivos),

bn(i, j) =1(Zi y Zj son de la misma clase),

entoncesP

i,jan(i, j)bn(i, j) = 2R. As´ı que bajo la hip´otesis nula tenemos quebn(σ(i), σ(j))

(d)

= bn(i, j) en ambos casos.

Ejemplo 2.2.1. Se calculan los valores de de W, R en dos casos. El primero consta de

X1, . . . , X25, Y1, . . . , Y25 ∼ N(0,1). En el segundo X1, . . . , X25 ∼ N(0,1), Y1, . . . , Y25 ∼

N(1

(24)

20 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos

−2

−1

0

1

2

−1.0

0.0

1.0

X

rep(0, n)

● ● ●● ● ●● ●● ●●● ●●● ● ●

● ● ● ● ● ●● ●●●● ● ●

Figura 2.1: Wˆ = 0.6061614, ˆR= 0.7812457.

−2

−1

0

1

−1.0

0.0

1.0

X

rep(0, n)

● ●

● ●

● ● ●

●●● ● ● ● ● ●

● ● ● ● ● ● ●●

● ● ● ● ●

Figura 2.2:Wˆ =−1.759347, ˆR=−2.604152.

Para extender estos estad´ısticos no param´etricos y libres de distribuci´on a puntos en espacios m´as generales comoRnoL2([0,1]), una alternativa plausible puede ser considerar

grafos geom´etricos, y as´ı generalizar la noci´on de rank en el caso univariado. El prop´osito de este trabajo es explorar varios posibles grafos de cercan´ıas que capturan la informaci´on de cu´ando dos conjuntos est´an cercanos en distribuci´on.

(25)

2.2. Estad´ıstico de Friedman-Rafsky 21

2.2.

Estad´ıstico de Friedman-Rafsky

El test de Wald-Wolfowitz cuenta la cantidad de veces en las que se repiten las clases vistas de manera ordenada. Visto de otro modo, si Ges el grafo 1−MST de la muestra combinada Xn∪ Ym, se sigue que R es igual a la cantidad de arcos que unen v´ertices de la misma clase. Este concepto se puede extender de forma natural a puntos en Rn. Intuitivamente, si FX =FY, entonces el grafo conectar´a a v´ertices de clases distintas m´as frecuentemente que a v´ertices de la misma clase. An´alogamente siFX6=FY en un conjunto de medida positiva, entonces en este conjunto la cantidad de arcos que se forman entre v´ertices de una misma clase ser´a mayor que la cantidad de arcos entre las dos clases.

Definici´on 2.2.1. Sean Xn y Ym dos muestras en Rd provenientes de distribuciones

continuas. SeaN:=n+myk≤N. Suponga queZN =Xn∪Ymes la muestra combinada.

Definimos el estad´ıstico de Friedman-Rafsy,

TMST

N k (Xn,Ym) := 1 (N−1)k

X

(zi,zj)∈E(G)

1(Zi y Zj son de la misma clase).

Friedman y Rafsky (1979) [6] notaron que la generalizaci´on del estad´ıstico de Wald-Wolfowitz era inmediata. Ellos conjeturaron que la variable aleatoria TMST

nk (Xn,Ym) ser-vir´ıa para rechazar la hip´otesis nula en el problema de dos muestras cuando esta tomaba valores grandes. Sin embargo no ten´ıan certeza de c´omo era la distribuci´on asint´otica de

TMST

nk en el caso general, y por tanto la ´unica forma de medir que un valor era grande, era por medio de un procedimiento de permutaci´on.

De esta manera es posible utilizar una muestra fija Xn,Ym para calcular unp-valor aproximado del TMST

nk para el problema de dos muestras.

LlameZ=Xn∪ Ym. Definat0:=TnkMST(Xn,Ym).

Paraσ∈Unif(Sn+m), se permutan las muestras:

n :={zσ(1), . . . , zσ(n)}, Ymσ :={zσ(n+1), . . . , zσ(n+m)}.

CalculeTMST nk (X

σ n,Y

σ m).

Estime elp-valor como ˆp=n1!#{σ:TMST nk (X

σ n,Y

σ

m)> t0}.

El lema 1.3.2 nos garantiza que dicho procedimiento es correcto en el sentido que, para muestras grandes, elp-valor se estar´a aproximando correctamente a su valor real. Sin embargo, al utilizar solo la muestra y calcular el estad´ıstico sobre el k−MST generado por Xn yYm, nos estamos restringiendo a un grafo en particular y no al grafo aleatorio general. As´ı, el valor de convergencia depender´a de la estructura particular del grafo. Aun as´ı, Friedman y Rafsky demostraron que en efecto TMST

nk , condicionado a un grafoMST en particular, es asint´oticamente normal.

Teorema 2.2.4. Suponga quen, m∈N, N=n+m. SeanXn,YmyTnkMST como los

defini-dos en 2.2.1. Entonces paraπ∼Unif(SN)independiente de las variablesX1. . . , Xn, Y1, . . . , Ym,

se tiene que FX = FY y si Uπ es el estad´ıstico de Friedman-Rafsky condicionado en la

muestra, Uπ:=TN kMST(Xnπ,Ymπ)|Xn,Ym,

√ N

U

π−µN

σN

−→dN(0,1),

donde µN =E(Uπ),σN =V(

N Uπ)1/2.

Demostraci´on. Bajo el supuesto que las distribuciones subyacentes son las mismas, se sigue que la elecci´on de las muestras se traduce en una escogencia arbitraria la muestra

combinada, (Xπ n,Ymπ)

(d)

(26)

22 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos

mismo independiente deπ, la influencia deπenUπ es solamente la clase de cada muestra. De modo que, si definimos,

ai,j=1{(zi, zj)∈E(MST)},

bi,j =1{zi y zj, son de la misma clase}.

Llegamos a que,

1 (N−1)k

X

i,j

ai,jbπ(i),π(j)= 2TN kMST(X π n,Y

π

m)|Xn,Ym,

Por ende, (N11)kΓN = 2Uπ.

Corroboremos ahora las hip´otesis de Daniels. En virtud del teorema de Steele et al. [20] para procesos puntualesZN provenientes de distribuciones continuas enRdexiste una cota para el grado en el MST que de ´el se genere1. Esta cota solo depende de la dimensi´on

d; esto quiere decir que existe unKd∈Ntal que para todoN,deg(zi)≤Kd c.s. En este orden de ideas Σ1a=N Kd=O(N), en general,

X

i,j,k

ai,jai,k = N

X

i=1

deg(zi)2, X

i,j,k,l

ai,jai,kai,l= N

X

i=1

deg(zi)3.

As´ı que Σla≤N Kdl. Y por lo tanto se satisface la hip´otesis del teorema d´ebil de Daniels paraa. Parabtenemos queP

ijkbijbik=m3+n3=O(N3), puesbijbik es diferente de 0 cuandoi, j, k≤n´oi, j, k > n. En general tenemos que Σlb=ml+1+nl+1=O(Nl+1) por

tanto se cumple la segunda condici´on del teorema d´ebil de Daniels lo que implica queUπ es asint´oticamente normal.

Ahora que sabemos queUπ es normal en el l´ımite, nos basta con encontrar los valores de µN y σN2. El teorema nos dice que para una realizaci´on fija de los procesos Xn, Ym

TMST

N k es normal en el l´ımite, as´ı queµN yσ2N dependen de los grafos en particular que se forman deXn yYm. El siguiente teorema nos da l´ımites para µN yσ2N.

Teorema 2.2.5. Sea Xn,Ym, µN, σN2 como los definidos en el teorema 2.2.4. Sea G el

grafo kMST generado por la muestra yU el estad´ıstico de Friedman-Rafsky condiciona-do en G. Si C es la cantidad de parejas de arcos en E(G) que comparten un v´ertice y

l´ımn,m→∞n+nm=p, entonces existen µ, λ, σ2∈Rtales que,

µN −→µ, N −→ ∞. C

N −→λ, N −→ ∞,

σ2

N −→σ2, N −→ ∞.

Demostraci´on. La primera afirmaci´on se sigue de la definici´on deayb,

E(Uπ) = 1 (N−1)k

X

(zi,zj)∈E(G)

E(1(zi y zj son de la misma clase)),

=P(z1 y z2 son de la misma clase),

= n−1

N−1P(z2∈ Xn) +

m−1

N−1P(z2∈ Ym),

= n(n−1) +m(m−1)

N(N−1) −→p

2+q2=:µ.

La demostraci´on del segundo hecho es consecuencia inmediata del teorema de Steel et al. Por un lado, tenemos que sivi(N) es la cantidad de v´ertices,Z, en elkMST de grado

i, entonces vi(N)

N −→P di. De esta manera, la cantidad de arcos que comparten un v´ertice

1No existe actualmente un demostraci´on para elk

-MSTcuandok >1, pero verificamos este hecho en simulaci´on.

(27)

2.2. Estad´ıstico de Friedman-Rafsky 23

se puede relacionar con el grado ide cada v´ertice por medio de:

C= N

X

j=1

deg(zj)

2

.

Por lo tanto,

C N = 1 2N N X j=1

deg(zj)2−deg(zj),

= 1 2N

(N−1)k

X

i=1

i2vi(N)−ivi(N),

=1 2

(N−i)k

X

i=1

(i2−i)vi(N)

N , −→P Kd X i=1 i 2

di=:λ <∞.

Para calcular el segundo hecho, para e = (zi, zj) ∈ E(G), denotemos por Ue =

1{zi y zj, son de la misma clase}. Ahora consideremosV(Ue) yCov(Ue1, Ue2).

V(Ue) =E(Ue2)−E(Ue)

2

,

=E(Ue)−E(Ue)2,

=p2+q2−(p2+q2)2=µ(1−µ).

Para facilitar la notaci´on, defina (m)k= (m)(m−1)· · · · ·(m−k+ 1).

Cov(Ue1, Ue2) =E(Ue1Ue2)−E(Ue1)

2,

=E(Ue1Ue2|e1, e2comparten un nodo)P(e1, e2 comparten un nodo)

+E(Ue1Ue2|e1, e2 No comparten un nodo)P(e1, e2No comparten un nodo)

−E(Ue1)

2,

=

(m)

3+ (n)3

(m+n)3

C

|E(G)|

2

!

+

2(m)2(n)2 (m+n)4

+ (n)4 (m+n)4

+ (m)4 (m+n)4

1− C

|E(G)|

2

!

−(p2+q2)2.

Juntando ambos resultados,

V(

N Uπ) = N

(N−1)2k2

 X

e∈E(G)

V(Ue) + 2 X

e1∈E(G)

X

e2∈E(G)\e1

Cov(Ue1, Ue2)

= N

(N−1)2k2

(N−1)kV(Ue) + 2

|E(G)|

2

Cov(Ue1, Ue2)

,

−→ µ(1−µ)

k + 2

λ

k2(µ(1−µ)−pq),

= µ(1−µ)

k

1 + 2λ

k

−2λpq

k2 =:σ 2.

(28)

24 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos

muy ´utiles. Por un lado, si asumimos que es cierta la hip´otesis nula, Xn y Ym son rea-lizaciones de la misma variable aleatoria, entonces elpvalor debe distribuirse Unif(0,1). Por otro lado, la distribuci´on de permutaci´on es asint´oticamente normal. Gracias al le-ma podemos tener la tranquilidad que la distribuci´on de permutaci´on es asint´oticamente normal. En su tiempo, Friedman-Rafsky mostraron este teorema, 2.2.5, asumiendo queC

era del orden O(N) mucho antes de que se demostrara el teorema de Steele. Una de las consecuencias de este teorema es que la varianza tiende a un l´ımite que no depende de la distribuci´on de X, incluso siendo una versi´on condicional. Con esto, el teorema de Steele nos proporciona una herramienta para construir estad´ısticos basados en la distribuci´on de los grados.

El teorema original de Steele solo considera el casok= 1, para ilustrar que el teorema enk >1 considere las siguientes figuras en donde se muestra la distribuci´on de los grados del kMST para k ∈ {1,2,4} de una muestra uniforme en [0,1]d, d ∈ {2,4,16,128}. Se utilizaron en cada caso muestras de 104 puntos.

(29)

2.2. Estad´ıstico de Friedman-Rafsky 25

● ●

● ● ● ● ● ● ● ● ● ● ● ●

1 3 5 7 9 11 13 15

0.0 0.1 0.2 0.3 0.4 0.5 1−mst grado frecuencia ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● d 2 4 16 32 64 128

Figura 2.3:Simulaci´on de la distribuci´on de grados en el 1−MST en

Rd.

● ● ● ● ● ● ●

1 3 5 7 9 11 13 15

0.0 0.1 0.2 0.3 0.4 0.5 2−mst grado frecuencia ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● d 2 4 16 32 64 128

Figura 2.4:Simulaci´on de la distribuci´on de grados en el 2−MST en

(30)

26 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

1 4 7 10 14 18 22

0.0 0.1 0.2 0.3 0.4 0.5 4−mst grado frecuencia ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● d 2 4 16 32 64 128

Figura 2.5:Simulaci´on de la distribuci´on de grados en el 4−MST en

Rd.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●

1 5 9 13 18 23 28 33

0.00 0.10 0.20 0.30 8−mst grado frecuencia ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● d 2 4 16 32 64 128

Figura 2.6:Simulaci´on de la distribuci´on de grados en el 8−MST en

Rd.

Las gr´aficas verifican que la distribuci´on de los grados es acotada incluso para dimen-siones grandes. A medida que aumenta la dimensi´on, tambi´en aumenta la cota m´axima de los grados, no obstante incluso para dimensi´on infinita el grado est´a uniformemente acotado con probabilidad 1 [20]. Note que la condici´on que la distribuci´on de los puntos sea continua es fundamental. Se puede construir f´acilmente ejemplos en los que el grado esO(d), por ejemplo si el grafo consiste de los vectores 0, e1, . . . , ed, entonces el ´arbol ser´a

aquel en el que todos los arcos inciden en 0, ergodeg(0) =d−1. Estos casos ocurren con probabilidad 0 en distribuciones continuas.

A continuaci´on, mostramos una versi´on alternativa al estad´ıstico de Friedman-Rafsky construida por Schilling en la que se basa en un grafo que no necesita mayores considera-ciones como en el caso delMST .

(31)

2.3. Estad´ıstico de Schilling 27

2.3.

Estad´ıstico de Schilling

Usar el estad´ıstico de Friedman es posible como consecuencia de los teoremas de Da-niels y Steele. El teorema de DaDa-niels provee las condiciones para que la distribuci´on de permutaci´on del estad´ıstico sea normal y el teorema de Steele da cotas en el grado del grafo y la distribuci´on de los grados. Schilling [18] generaliz´o esta idea utilizando un grafo distinto al MST en el que el conteo de los grados es m´as sencillo y por lo tanto el teorema de Daniels se puede aplicar sin necesidad de recurrir a argumentos adicionales.

Definici´on 2.2.2. Sean Xn y Ym dos muestras en Rd provenientes de distribuciones

continuas. SeaN:=n+myk≤N. Suponga queZN =Xn∪Ymes la muestra combinada.

Sea Gel grafo kNN sobre la muestra combinada. Definimos el estad´ıstico de Schilling,

TNN

nk (Xn,Ym) := 1

nk

X

(Zi,Zj)∈E(G)

1(zi y zj son de la misma clase).

Teorema 2.2.6. Suponga quen, m∈N, N=n+m. SeanXn,YmyTnkMST como los

defini-dos en 2.2.2. Entonces paraπ∼Unif(SN)independiente de las variablesX1. . . , Xn, Y1, . . . , Ym,

se tiene que, si Uπ es el estad´ıstico de Schilling condicionado en la muestra, Uπ :=

TNN

N k (Xnπ,Ymπ)|Xn,Ym, entonces si FX=FY,

√ N

U

π−µN

σN

−→dN(0,1),

donde µN =E(Uπ),σN =V(

N Uπ)1/2.

Demostraci´on. Al igual que con el caso delMST, bajo el supuesto que las distribuciones subyacentes son las mismas, se sigue que (Xπ

n,Ymπ)

(d)

= (Xn,Ym). Por lo tanto, dado que el

k−NNde (Xπ

n,Ymπ) es el mismo independiete deπ, la influencia deπsobreUπes solamente la clase de cada muestra. De modo que si definimos,

ai,j=1{(zi, zj)∈E(NN )},

bi,j=1{zi y zj, son de la misma clase}.

Llegamos a que,

1

N k

X

i,j

ai,jbπ(i),π(j)=TN kNN(X π n,Y

π

m)|Xn,Ym.

Por ende,

1

N kΓN =Uπ.

Por construcci´on, sabemos que el grado de cada v´ertice enGesk, as´ı que la hip´otesis del teorema d´ebil de Daniels paraase traduce en,

Σla= N

X

i=1

deg(zi)l=N kl=O(N).

Al igual que con estad´ıstico de Friedman, para b tenemos que Σlb = ml+1+nl+1 =

O(Nl+1).

Con esto hemos logrado probar que tanto el estad´ıstico de Friedman como el de Schilling son asint´oticamente normales condicionalmente. Para el estad´ıstico de Schilling tambi´en existen l´ımites para los valores de µN y σN2. En este caso no contaremos la cantidad de parejas de arcos que comparte un v´ertice dir´ectamente sino que, dada la definici´on del grafo, utilizaremos probabibilidades de ser vecinos mutuos y tener un vecino en com´un respectivamente. Para esto considere el siguiente lema demostrado por Schilling [19].

(32)

28 Cap´ıtulo 2. Teor´ıa Asint´otica de los Estad´ısticos

Lema 2.3.1. Sean Xn,Ym,ZN como los definidos en el teorema 2.2.6. Sea G el grafo

kNN generado por la muestra y Uπ el estad´ıstico de Schilling condicionado enG. Para

r, s≤kdefinimos las probabilidades de ser vecinos mutuos y tener un vecino en com´un,

p1(r, s) :=P(N Nr(1) =Z2, N Ns(2) =Z1),

p2(r, s) :=P(N Nr(1) =N Ns(2)).

Entonces, bajoH0,

N p1(r, s)−→α(r, s), N p2(r, s)−→β(r, s),

cuandoN −→ ∞. Adem´as, α(r, s)yβ(r, s)son independientes de la distribuci´on deX.

Con la ayuda de este lema ya podemos proceder a encontrar los valores l´ımites deµN yσN2.

Teorema 2.2.7. SeanXn,Ym,ZN, µN, σN2 como los definidos en 2.2.6. Entonces existen

µ, σ2

Rtales que,

µN −→µ, N −→ ∞, V(

N Uπ)−→σ2, N −→ ∞.

Demostraci´on. La primera afirmaci´on se demuestra de la misma forma que con el k−

MST:

E(Uπ) = 1 (N−1)k

X

(zi,zj)∈E(G)

E(1(zi y zj son de la misma clase)),

=P(z1 y z2 son de la misma clase),

= n−1

N−1P(z2∈ Xn) +

m−1

N−1P(z2∈ Ym),

= n(n−1) +m(m−1)

N(N−1) −→p

2+q2=:µ.

Para la segunda primero consideremos,

α:= 1

k2

X

r,s≤k

α(r, s), β := 1

k2

X

r,s≤k

β(r, s).

Ahora, para la muestra combinada,ZN, definaIi(r) =1(ziy N Nr(zi) son de la misma clase). Se reescribe el estad´ıstico de Schilling como,

TNN

N k (Xn,Ym) := 1

N k

N

X

i=1

k

X

r=1

Ii(r).

Por ende,

V(N kUπ) =E 

N

X

i=1

k

X

r=1

Ii(r)

!2

−E "N

X

i=1

k

X

r=1

Ii(r)

#2

= N

X

i,j=1

k

X

r,s=1

P(Ii(r) =Ij(s) = 1)−N2k2(p2+q2)2. (2.3)

Para que ocurra el eventoIi(r) =Ij(s) = 1, es necesario considerar los siguientes casos y probabilidades:

Las variablespi(r, s),i= 1, . . . ,5, representan probabilidades sobre todos los posibles casos de incidencias de dos puntos mencionandas en 2.3.1:

Referencias

Documento similar

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

•cero que suplo con arreglo á lo que dice el autor en el Prólogo de su obra impresa: «Ya estaba estendida esta Noticia, año de 1750; y pareció forzo- so detener su impresión

quiero también a Liseo porque en mi alma hay lugar para amar a cuantos veo... tiene mi gusto sujeto, 320 sin que pueda la razón,.. ni mande

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

 Tejidos de origen humano o sus derivados que sean inviables o hayan sido transformados en inviables con una función accesoria..  Células de origen humano o sus derivados que

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

La siguiente y última ampliación en la Sala de Millones fue a finales de los años sesenta cuando Carlos III habilitó la sexta plaza para las ciudades con voto en Cortes de