Baricentros en el espacio de Wasserstein: aplicación a modelos estadísticos de deformación

(1)

Facultad de Ciencias

Trabajo Fin de Grado

Grado en Matemáticas

Baricentros en el espacio de Wasserstein:

aplicación a modelos estadísticos de

deformación

(2)

(3)

Índice general

Abstract. 7

Resumen. 9

Agradecimientos. 11

Introducción. 13

1. Preliminares. 17

1.1. Teoría de transporte . . . 17

1.1.1. El problema del transporte óptimo . . . 19

1.1.2. La distancia de Wasserstein . . . 20

1.2. Procesos empíricos y cuantiles . . . 24

1.2.1. El proceso empírico . . . 25

1.2.2. El proceso cuantil . . . 27

1.3. El movimiento Browniano . . . 28

1.4. La técnica de remuestreo bootstrap . . . 36

1.4.1. El principio bootstrap . . . 37

1.4.2. Aproximación Monte-Carlo de _θˆ∗_. _{. . . 37}

(4)

de deformación para distribuciones. 39

2.1. Baricentros en el espacio de Wasserstein . . . 40

2.2. Modelo de deformación para distribuciones. . . 43

2.2.1. Estimación del modelo de deformación paramétrico . . . 46

2.2.2. Ejemplos de familias paramétricas de deformación . . . . 54

2.3. Bootstrap con la distancia de Wasserstein . . . 57

2.3.1. Dependencia continua de la distancia de Wasserstein . . 58

2.3.2. Dependencia continua de la variación de Wasserstein . . 62

2.3.3. Bondad de ajuste del test para el modelo de deformación paramétrico . . . 64

3. Aspectos computacionales. 69 3.1. Implementación del modelo de localización y escala . . . 70

3.1.1. Caso I=2 muestras . . . 71

3.1.2. Caso general. . . 73

3.2. Bootstrap bajo el modelo de deformación . . . 81

3.2.1. Bootstrap de residuos. . . 82

4. Simulaciones y resultados. 85 4.1. Simulaciones para estimar la frecuencia de rechazo . . . 85

4.2. Simulaciones para comprobar la potencia del test . . . 95

4.2.1. γ =d ε(1) . . . 96

4.2.2. γ d = Laplace(0,1) . . . 97

4.2.3. γ d =t3 . . . 98

4.2.4. γ d =t4 . . . 99

(5)

Bibliografía. 103

Anexos 106

A. Códigos para implementar las simulaciones. 109

A.1. calculocriterio2 . . . 109

A.2. rechazo.BR2 . . . 109

A.3. calculocriteriog . . . 110

A.4. rechazo.BR . . . 111

(6)

(7)

Abstract.

(8)

(9)

Resumen.

(10)

(11)

Agradecimientos.

A Eustasio del Barrio, tutor de este Trabajo Fin de Grado, que se ha desa-rrollado en el marco de un proyecto de Beca de Colaboración del Ministerio de Educación, al que agradezco, tanto su dedicación en este trabajo, como su enseñanza en las diversas asignaturas que me ha impartido a lo largo del Grado.

Al Departamento de Estadística e Investigación Operativa, por cederme un lugar de trabajo y prestar sus instalaciones para llevar a cabo las simulaciones. A todos mis otros profesores, que han contribuido también a mi formación en estos cuatro años, gracias a la cual he podido desarrollar este proyecto con solvencia.

(12)

(13)

Introducción.

Los seres humanos, con nuestras acciones cotidianas, estamos creando y alma-cenando información incesantemente y cada vez a un ritmo más elevado. A cada segundo que pasa, cantidades ingentes de datos de todo tipo (mediciones, mensajes, documentos, imágenes, sonidos, etc.) son generados y almacenados en el mundo. Nuestro cuerpo, en sí mismo, constituye un enorme contenedor de datos como los que, por ejemplo, determinan nuestra expresión génica. A esta acumulación masiva de datos también contribuyen las empresas, gene-rando datos transaccionales y reuniendo información acerca de sus clientes, proveedores, operaciones, etc. De la misma manera sucede en el sector público, dada la necesidad de cada país de explotar las bases de datos del censo de población o de registros médicos; o en distintos sectores como el industrial, transporte, servicios o comercial, en los que sensores digitales son instalados en diferentes partes de un proceso que quiera ser monitorizado, con el objetivo de entender su funcionamiento y aprender de sus fallos, impulsando así su me-jora. Si a todo esto le añadimos todas aquellas actividades que la mayoría de nosotros realizamos varias veces al día, tales como transacciones nancieras, uso de redes sociales y correo electrónico, consulta de ubicaciones geográcas mediante coordenadas GPS, etc., expertos aseguran que se generan alrededor de 2.5 trillones de bytes de información diariamente en el mundo. Es más, el IBM estimó en 2014 que el90 %de los datos existentes se habían generado en

los dos últimos años.

La necesidad de desarrollar técnicas potentes y ecaces para la modelización y el análisis de grandes volúmenes de datos de diversa naturaleza es, por tanto, uno de los problemas que se han situado recientemente en la cabecera de la investigación en el campo de las matemáticas, particularmente de la estadística. La dicultad de este problema se encuentra tanto en la variedad como en el gran tamaño de los conjuntos de datos a analizar.

(14)

el dar sentido a la noción de comportamiento promedio. Esta tarea se ha vuelto particularmente interesante pues la diversidad en la tipología de la informa-ción ha suscitado el reto de tratar datos que poseen una geometría interna muy diferente a la Euclídea y, en consecuencia, la versión habitual de media en es-pacios euclídeos no es la más apropiada. De aquí surge la necesidad de denir una nueva noción de comportamiento promedio que dependerá del espacio en el que vivan los datos. Por otro lado, cuando nos enfrentamos a grandes mues-tras de datos generados por diferentes mecanismos o en distintos contextos, es habitual que estén afectados por diferentes fuentes de variabilidad que incluyen pequeñas perturbaciones como, por ejemplo, transformaciones de localización y escala o deformaciones más generales. En estos casos, se desaconseja el uso de los métodos estadísticos habituales y se requiere de nuevas técnicas que permitan un correcto análisis de los datos perturbados. Este problema surge de manera natural en un amplio rango de problemas estadísticos, tales como el análisis de datos funcionales, el cual es tratado en [16], [12], [23] o [5]; el procesamiento de imágenes en [26] o [4] y de formas en [20]; con aplicaciones en biología [7] o en reconocimiento de patrones [24], por ejemplo.

En este trabajo se considera el caso en el que los objetos de interés son dis-tribuciones de probabilidad, estimadas a partir de diferentes fuentes de datos, que inducen deformaciones en la señal observada. En cuanto a la noción de comportamiento promedio, en [1] se introduce un concepto particular de me-dia de una colección de probabilidades, que se corresponde con la solución del problema de minimización de las distancias cuadráticas de WassersteinW2, y

a la que se le ha dado el nombre de baricentro de Wasserstein. Respecto al problema de las deformaciones que acompañan a las muestras observadas, se trata de determinar si los datos, antes de ser deformados, procedían de una distribución común que es, en general, desconocida.

(15)

es continuado por [15].

Recientemente, metodologías de transporte óptimo han sido utilizadas para estudiar similitudes entre distribuciones de probabilidad observadas con de-formaciones. En este sentido, en [11] se construye un test para comparar una colección de distribuciones ν1, . . . , νI, y para ello se dene una noción de

va-riación entre distribuciones basada en la distancia de Wasserstein Wr entre

probabilidades en Rd,d > 1, con momento de orden r > 1 nito, que confor-man el espacio que denotaremos porW_r(_Rd). La variación de Wasserstein mide

la dispersión entre las distribuciones generalizando, por tanto, el concepto de varianza para puntos en Rd, y se dene como

Vr (ν1, . . . , νI) = ´ınf η∈Wr(Rd)

*

, 1

I I

X

i=1

W_rr(νi, η)+

-1

r ,

El interés de la variación de Wasserstein radica en su utilidad a la hora de va-lorar la veracidad de un modelo de deformación entre distribuciones. Esta idea se desarrolla en [2] y [21] cuando las deformaciones pertenecen a una familia paramétrica, y se extiende al caso general en [11]. En este último, se observan

i = 1, . . . ,I muestras independientes Xi,j

1₆j6n, de variables aleatorias en R d

con distribución νi, que satisfacen el modelo de deformación

Xi,j =

ϕ∗ i

−1

(εi,j),

dondeεi,j,16 j 6n,16i 6 I, son variables aleatorias independientes e

igual-mente distribuidas con distribución desconocida ν, y, para cada i = 1, . . . ,I,

la función ϕ∗

i representa la deformación mediante la cual se ha transformado

ν para obtener la muestra i-ésima, de manera que ϕ = ϕ1, . . . , ϕI pertenece

a una determinada familia de funciones G. El criterio teórico que se propone

para evaluar el ajuste de este modelo se basa en la 2-variación de Wasserstein

V₂2(ν1(ϕ1), . . . , νI(ϕI)) = ´ınf η∈W2(Rd)

*

, 1 I

I

X

i=1

W₂2(νi(ϕi), η)+

-,

donde νi(ϕi), i = 1, . . . ,I representa la distribución de las observaciones tras

deshacer la deformación.

(16)

(17)

1 Preliminares.

Este capítulo pretende recopilar algunos conceptos que resultan necesarios para el desarrollo de la teoría expuesta en este trabajo, y que aparecerán a menudo a lo largo de los capítulos posteriores. La conexión entre las distintas secciones viene de la aplicación a modelos de deformación, y se verá más clara al leer los capítulos posteriores.

Se omitirán las demostraciones de la mayoría de los resultados teóricos que se enuncian en este capítulo. No obstante, se indicarán convenientemente algunas referencias bibliográcas donde éstos se presentan de manera detallada, siendo [28] la referencia principal para la sección1.1; [10] para la sección 1.2; [6] para la sección 1.3; y [13], [17] y [25] para la última sección 1.4.

1.1 Teoría de transporte

Un problema que ha cobrado gran relevancia desde las primeras décadas del siglo XX es el del transporte óptimo. Este problema fue formalizado en 1781 por el matemático francés Gaspard Monge, y experimentó grandes avances gracias al matemático ruso Leonid Kantorovich durante la Segunda Guerra Mundial. Desde entonces, ha sido muy estudiado en la literatura. Nos limitaremos aquí a describirlo brevemente y establecer la relación con la herramienta que juega un papel fundamental en el tema que nos ocupa, y que es la distancia de Wasserstein.

Si X es un espacio métrico completo y separable, denotaremos por P(X) el

conjunto de medidas de probabilidad sobreX.

Denición 1.1. Sean X e Y dos espacios métricos completos y separables,

T : X → Y una aplicación de Borel y µ ∈ P(X). Se dene la medida imagen

de µ por T o impulso de µ a través de T (en inglés, `the push forward of µ

(18)

T#µ(E)= µ(T−1(E)),∀E ⊂ Y conjunto de Borel.

Esta medida se caracteriza por el siguiente hecho:

R

f dT#µ=

R

f ◦T dµ, para toda aplicación de Borel f :Y →_R∪ {±∞},

donde tal identidad se entiende en el siguiente sentido: una de las integrales existe (posiblemente tomando el valor ±∞) si, y sólo si, la otra integral existe;

y en este caso, los valores de ambas son el mismo.

Denotemos por Π(µ, ν) el conjunto de probabilidades en el espacio producto

X × Y con marginales µ y ν. Dada una medida π ∈ P(X × Y), los siguientes

enunciados son equivalentes a la condición π ∈Π(µ, ν):

1. Para todos conjuntos medibles A ⊂ X,B ⊂ Y, se tiene que π(A× Y) = µ(A) y π(X ×B) = ν(B).

2. Para todas funciones integrablesϕ, ψenX,Y, respectivamente, se verica:

Z

X×Y

ϕ(x)+ψ(y)

dπ(x,y) =

Z

X

ϕ(x)dµ(x)+

Z

Y

ψ(y)dν(y).

Una observación interesante es que, a partir de dos medidas µy ν, siempre se puede encontrar una distribución π tal que π ∈ Π(µ, ν). Tal distribución es la

que corresponde a considerar la ley conjunta de dos variables X ∼ µ eY ∼ ν

independientes, que resulta ser el producto tensorial µ⊗ν. En el otro extremo,

está el caso en que toda la información sobre la variableY está contenida en la

variable X. Más formalmente, existe una función medibleT : X → Y tal que

Y =T(X). Este hecho se puede enunciar de las siguientes maneras equivalentes:

1. La ley π de (X,Y) está concentrada en el grafo de una función medible T :X → Y.

2. T es un cambio de variable de µ a ν, es decir, para toda ϕ función ν

-integrable,

R

Yϕ(y)dν(y) =

R

Xϕ(T(x))dµ(x).

A esta aplicación T se le conoce con el nombre de transporte. Informalmente,

se podría decir que T transporta la masa representada por la medida µ a la

masa representada por la medida ν. Veamos un ejemplo fácil para entender mejor estos conceptos.

Ejemplo 1.1. Sean µ y ν dos medidas de probabilidad en R. Denimos sus

(19)

F(x) =

Z x

−∞

dµ, G(y) =

Z y

−∞ dν,

y sus funciones cuantiles

F−1(t) =´ınf{x ∈_R:F(x) >t}

G−1(t)=´ınf{y ∈_R:G(y) >t}.

Consideremos T = G−1◦ F. Entonces, si µ no da probabilidad a puntos, se

tiene queT#µ = ν.

1.1.1 El problema del transporte óptimo

Sean X e Y dos espacios métricos completos y separables, y consideremos

una función de Borel c : X × Y → _R∪ {+∞} que denominaremos función de

coste, pues el valor c(x,y) se interpreta como el trabajo necesario para mover

una unidad de masa desde la posición x hasta la posición y. El problema de

minimización de Kantorovich corresponde a calcular

´ınfE(c(X,Y)) (1.1)

donde el par (X,Y) recorre el conjunto de vectores aleatorios con primera

marginal µy segunda marginal ν, o, equivalentemente,

´ınf π∈Π(µ,ν)

Z

X×Y

c(x,y)dπ(x,y),

dondeπ recorre el conjunto Π(µ, ν). Tales medidas conjuntas se llaman planes

de transferencia o transporte, y aquellas en las que se alcanza el ínmo se conocen como planes de transferencia óptimos. En [28] puede verse que existe al menos una medida cumpliendo esta propiedad.

Observación 1.1. La formulación de Kantorovich es una relajación del

pro-blema original de Monge, que supone que la masa no se puede dividir, o, en otras palabras, que a cada localización x se le asocia un único destino y.

Ma-temáticamente, esto consiste en exigir queY sea una función de X en (1.1).

La solución al problema de Kantorovich depende claramente de la función de costec. En particular, cuandocse escribe en términos de distancias (yX =Y),

(20)

1.1.2 La distancia de Wasserstein

La métrica de Wasserstein surge a partir del estudio del problema de transporte óptimo, y ha resultado ser una forma adecuada para comparar las distribucio-nes de probabilidad de una variable X y de otra Y, que se ha obtenido a partir de una transformación no uniforme en X, aleatoria o determinista. Fue propues-ta por primera vez con este objetivo de medir dispropues-tancias entre distribuciones de probabilidad por Kantorovich y Rubinstein en [19].

A pesar de que la distancia de Wasserstein ha resultado ser muy potente como herramienta teórica, su cálculo explícito no es inmediato en la mayoría de los casos. Un conocido resultado debido a Vallander en [27], del cual veremos una versión más adelante, facilita este cálculo cuando consideramos distribuciones de probabilidad en la recta real. Por otro lado, en el trabajo [9] se da el valor explícito de la distancia L2 de Wasserstein entre dos distribuciones normales

n-dimensionales cualesquiera, y se muestra que, en este caso, el problema puede ser reducido a calcular raíces cuadradas de matrices semidenidas positivas.

Denición 1.2. Sea (E,d) un espacio métrico, se dene el espacio de

Was-serstein de orden r como

W_r(E) = (µ∈ P(E): R

Ed(x0,x)

r_d_µ₍_x₎ _< ₊_∞)

,

donde el punto x0 ∈ E es arbitrario.

Como consecuencia directa de la desigualdad triangular y de las propiedades de linealidad y monotonía de la integral, es fácil ver que el espacio W_r está

bien denido, es decir, que no depende de la elección del punto x0 ∈ E. En

efecto, dados x0,y0 ∈ E, tales que x0, y0,

Z

E

d(y0,x)rdµ(x)6

Z

E

d(y0,x0)rdµ(x)+

Z

E

d(x0,x)rdµ(x)

= d(y0,x0)r +

Z

E

d(x0,x)rdµ(x),

y por lo tanto, Z

E

d(y0,x)rdµ(x) < +∞ ⇐⇒

Z

E

d(x0,x)rdµ(x) <+∞.

El espacio de Wasserstein W_r(E) es, en otras palabras, el conjunto de las

(21)

Denición 1.3. Dadas µ, ν∈ W_r(E), se dene la distancia de Wasserstein

con coste Lr entre µy ν como:

Wr(µ, ν) = _π ´ınf ∈Π(µ,ν)

Z

d(x,y)rdπ(x,y)

!1_r ,

donde Π(µ, ν) el conjunto de probabilidades sobre E×E con primera marginal

µ y segunda marginal ν.

Observemos que la distancia de Wasserstein de ordenr es la raíz r-ésima del

coste mínimo de transporte con función de coste c(x,y) = d(x,y)r. Notemos

además que el hecho de denirla en el espacioW_r(E) garantiza que sea nita,

pues

d(x,y)r 62r−1 d(x0,x)r +d(x0,y)r

y, en consecuencia,

Wr(µ, ν)r 62r−1

R

d(x0,x)rdµ(x)+R d(x0,y)rdν(y).

Observación 1.2. AWr también se le conoce en la literatura como la distancia

de Monge-Kantorovich de ordenr, o con exponenter. Cuandor =2, aW2 se le

llama distancia cuadrática de Wasserstein. La distancia de Monge-Kantorovich con exponente 1, W1 = T1, recibe el nombre de distancia de

Kantorovich-Rubinstein.

Todos los resultados que aparecen a continuación son ciertos en espacios métri-cos más generales. Sin embargo, a partir de ahora, nos centraremos en el caso particular en el cualE =Rd,d >1y k · kes la distancia Euclídea habitual, pues éste será el marco en el que se desarrollará el resto del trabajo. Observemos que, entonces, la distancia de Wasserstein entre dos probabilidades µ, ν ∈ W_r(Rd) se puede escribir de la siguiente manera:

W_rr(µ, ν) = ´ınf π∈Π(µ,ν)

Z

kx− ykrdπ(x,y). (1.2)

Lema 1.1 (Existencia del plan de transferencia óptimo). Dadasµ, ν∈ W_r(Rd),

1₆r <∞, el inferior en (1.2) se alcanza para alguna medida π ∈Π(µ, ν).

(22)

Observación 1.3. Notemos que (1.2) se puede escribir de manera equivalente en términos de vectores aleatorios:

W_rr(µ, ν)= ´ınf

(X,Y):X∼µ,Y∼νE kX −Yk

r. (1.3)

De esta manera, el vector aleatorio (X,Y) en el cual se alcanza el inferior (1.3)

se llamará par óptimo para las medidas µ y ν. (en inglés, se dice que (X,Y) is an optimal coupling of µand ν).

El siguiente teorema, cuya demostración puede encontrarse en [28] con mayor generalidad, garantiza queWr dota al espacioWr(Rd)de estructura de espacio métrico.

Teorema 1.1. Parar _>1, la distancia de Wasserstein Wr(µ, ν) dene una

métrica en el espacio W_r(Rd),d >1.

Observación 1.4. Una propiedad fundamental de las distancias de

Wassers-tein es que están ordenadas. En efecto, como consecuencia inmediata de la desigualdad de Hölder, se tiene que

1₆ p6q =⇒Wp6Wq.

En particular, W1(µ, ν) 6 Wp(µ, ν), para todo p > 1. Sin embargo, no es

posible establecer una desigualdad en el otro sentido, a no ser que consideremos medidas en un subconjunto B ⊂_Rd acotado, pues en este caso se tendría que:

R

kx−ykpdπ

1

p

6 diam(B)p−p1 R _k_x₋_y_k_dπ 1

p,

lo cual implica que Wp(µ, ν) 6 CW1(µ, ν)

1

p, para _C = _diam₍_B₎ p

p−1 y donde

diam(B) = sup{d(x,y) : x,y ∈ B} es el diámetro de B. En conclusión, si B ⊂ _Rd es acotado, todas las distancias de Wasserstein Wr, r > 1, denen la

misma topología sobre P(B).

Convergencia en la distancia de Wasserstein

Veamos ahora una caracterización de la convergencia en el espacio de Wassers-tein. El siguiente resultado se puede encontrar con mayor generalidad en [28]. La notación µk −→ µ signica que µkk∈N converge débilmente hacia µ, es

decir, queR

ϕdµk −→

R

(23)

Teorema 1.2. Sea r ∈ (0,∞) y consideremos (µ_k)_k∈_N una sucesión de

medidas de probabilidad en W_r(Rd) y µ otro elemento de Wr(Rd), d > 1. Entonces, los siguientes enunciados son equivalentes:

(i) Wr(µk, µ) −−−−→

k→∞ 0.

(ii) µk −→ µen el sentido débil, y (µk)k∈_N satisface la siguiente condición de

equicontinuidad en el innito (en inglés, "tightness"): para algún (y por tanto, para todo) x0 ∈Rd,

l´ım

R→∞ l´ım sup_k_→∞

Z

kx0−xk>R

kx0−xkrdµk(x)

!

=0

(iii) µk −→ µen el sentido débil, y hay convergencia del momento de ordenr:

para algún x0 ∈_Rd (y, por tanto, para todo x0 ∈_Rd),

Z

kx0−xkrdµk(x) −−−−→

k→∞

Z

kx0−xkrdµ(x).

(iv) Para toda función ϕ continua en Rd que satisface la condición de creci-miento: |ϕ(x)| ₆C[1+kx0−xkr], para algún x0 ∈ Rd y cierta constante

C ∈R,

Z

ϕdµk −−−−→

k→∞ ϕdµ.

La distancia de Wasserstein en la recta real (E =R)

La distancia de Wasserstein entre probabilidades enR adquiere una expresión más simple, que la hace útil en muchas situaciones y le conere propiedades particulares. El siguiente teorema es fundamental en la teoría del transporte óptimo y de él se pueden encontrar numerosas demostraciones, siendo presen-tado por primera vez en [27]. Aquí enunciamos la versión de Villani [28].

Teorema 1.3 (Teorema del transporte óptimo con coste

cuadráti-co en R). Sean µ y ν dos medidas de probabilidad en R, con funciones de

distribución F yG, respectivamente. Sea π la medida de probabilidad sobre R2 con función de distribución conjunta

H(x,y)= m´ın(F(x),G(y))

Entonces, π ∈ Π(µ, ν) y π es óptima en el problema de transporte de

Kantoro-vich entre µ y ν para la función de coste cuadrático c(x,y) = |x− y|2.

(24)

T2(µ, ν) =

Z 1

0

F−1(t)−G−1(t) 2

dt,

donde F−1 y G−1 son las funciones cuantiles de F y G, respectivamente:

F−1(t) =´ınf{x ∈_R: F(x) > t}

G−1(t) =´ınf{x ∈_R:G(x) > t}

En particular, esto implica que la distancia de Wasserstein entre dos probabi-lidades µ, ν ∈ W₂(R) se puede escribir como:

W2(µ, ν)=

Z 1

0

F−1(t)−G−1(t)2dt

!12

.

Esta expresión, como veremos, juega un papel trascendental en todo este tra-bajo.

1.2 Procesos empíricos y cuantiles

En estadística, la función de distribución empírica es la función de distribución asociada a la medida empírica de la muestra, y es constante a trozos con saltos de magnitud 1

n en cada uno de los n puntos de la muestra.

Denición 1.4. Sean X1, . . . ,Xn variables aleatorias reales

independien-tes e igualmente distribuidas (v.a.i.i.d.) con función de distribución F(t). La

función de distribución empírica se dene como

Fn(t) = 1 n

n

X

i=1

I(Xi 6t), t ∈R.

Esta función estima a la función de distribución poblacional que subyace en la muestra. En efecto, para cada t ∈_R jo, el indicador I(Xi 6t) es una variable

aleatoria de Bernoulli de parámetro p = F(t) y, por lo tanto, nFn(t) es una

variable aleatoria binomial con medianF(t) y varianza n(F(t))(1−F(t)). Esto

implica que Fn(t) es un estimador insesgado de F(t).

Existen numerosos resultados que cuantican la velocidad de convergencia de la función de distribución empírica hacia la función de distribución, de los cuales mencionamos los dos más importantes. Por la Ley Fuerte de los Grandes Números, se tiene que el estimador Fn(t) converge casi seguro hacia F(t), para

(25)

Fn(t)

c.s.

−−−→ F(t), cuando n −→+∞,

lo cual implica que Fn(t) es un estimador consistente de F(t). El Teorema de

Glivenko-Cantelli prueba que esta convergencia ocurre uniformente en t:

kFn−Fk∞ =sup

t∈R

|Fn(t)−F(t)|

c.s.

−−−→0, cuando n −→+∞.

1.2.1 El proceso empírico

SeanU1, . . . ,Un v.a.i.i.d. U(0,1), con función de distribución común G(t) = t

y función de distribución empírica Gn(t).

Denición 1.5. En esta situación, denimos el proceso empírico uniforme

αn(t) :=

√

n(Gn(t)−G(t)) =

√

n(Gn−t),06t 61.

Veamos que αn(t) d

−→ N(0,t(1−t)), para cada 0₆ t ₆ 1. En primer lugar, es

claro que

αn(t)=

√

n(Gn(t)−t) =

√

n       1 n

n

X

i=1

(I(Ui 6t)−P(Ui6t))      

= √1

n      

n

X

i=1

(I(Ui 6t)−P(Ui 6t))

     

.

Consideremos, para cada i ∈ 1, . . . ,n, la variable aleatoria Zi = I(Ui 6 t)− P(Ui 6t) = I(Ui6t)−t, por serUi ∼ U(0,1). Sabemos que la variable aleatoria I(Ui 6t) tiene una distribución de Bernoulli de parámetro P(Ui 6t) = t. Por

lo tanto, Z1, . . . ,Zn resulta ser una colección de v.a.i.i.d. centradas. Además,

en virtud del Teorema Central del Límite,

1

√

n      

n

X

i=1

(I(Ui6t)−P(Ui 6t))      

d

−

→ N(0,V ar(Zi)),

(26)

En general, dados dos instantes de tiempo 0₆ s< t 61, se tiene que:

Cov(αn(s), αn(t))

=Cov* , 1 √ n n X

i=1

(I(Ui 6s)−P(Ui 6s)), 1

√

n n

X

i=1

(I(Ui 6t)−P(Ui 6t))+

-=Cov* , 1 √ n n X i=1

(I(Ui 6s)−ns), 1 √ n n X i=1

(I(Ui 6t)−nt)+

-=Cov* , 1 √ n n X i=1

I(Ui 6s)−

√

ns,√1

n n

X

i=1

I(Ui 6t)−

√

nt+

-=Cov* , 1 √ n n X i=1

I(Ui 6s), 1 √ n n X i=1

I(Ui 6t)+

-= 1

nCov* ,

n

X

i=1

I(Ui 6 s), n

X

i=1

I(Ui 6t)+

-.

Por otro lado, comoU1, . . . ,Unson independientes, se verica queCov(Ui,Uj) = 0, sii_, j. Luego,

Cov(αn(s), αn(t)) = 1 n

n

X

i=1

Cov(I(Ui 6s),I(Ui 6t)) =Cov(I(U16t),I(U1 6t)),

donde la última igualdad es consecuencia de que U1, . . . ,Un son igualmente

distribuidas. Ahora, por denición de covarianza,

Cov(I(U1 ₆t),I(U1 ₆t)) = E(I(U1 ₆t)I(U1₆ s))−E(I(U1 ₆t))E(I(U1 ₆s)) = E(I((U1 6t)∪(U16 s)))−t s= E(I(U16 s∧t))−t s= s∧t−st.

Consideremos ahora X1, . . . ,Xnvariables aleatorias independientes e

igualmen-te distribuidas con función de distribución F. Sabemos que

(X1, . . . ,Xn)=d F−1(U1), . . . ,F−1(Un),

dondeU1, . . . ,Un son v.a.i.i.d U(0,1). Análogamente al proceso empírico

uni-forme, denimos

αF

n(t) :=

√ n* , 1 n n X i=1

(I(Xi 6t)−F(t))+

-, parat ∈R.

La propiedad de la función cuantil:

F−1(u) 6t ⇔u 6F(t) para cada u∈ (0,1),

(27)

I(X1 6t) = I(U₁₆ F(t)) para cadat ∈R.

Por lo tanto, el proceso empírico asociado aX1, . . . ,Xnen un instante de tiempo t ∈R, resulta ser el proceso empírico uniforme en el instante de tiempoF(t):

αF

n(t) =

√

n*

, 1 n

n

X

i=1

(I(Xi 6t)−F(t))+

-d

=√n* , 1 n

n

X

i=1

(I(U16 F(t))−F(t))+

-= αn(F(t)),t ∈R. (1.4)

El estadístico de Kolmogorov

Un ejemplo de aplicación de lo que acabamos de ver aparece en el cálculo de la distribución asintótica del estadístico de Kolmogorov-Smirnov. El test de Kolmogorov-Smirnov (Test K-S) es un test no paramétrico de igualdad de distribuciones unidimensionales y con función de distribución continua. Este test tiene dos versiones, el test K-S de una muestra, que permite comparar una colección de observaciones con una distribución de referencia, y el test K-S de dos muestras, que se usa para comparar dos muestras entre sí.

Sean X1, . . . ,Xn v.a.i.i.d con función de distribución desconocida F y sea F0

una función continua en R. El contraste de hipótesis que se plantea en el test K-S de una muestra es el siguiente:

H₀ :F = F0,

contra la alternativa:

H_a : F _, F0.

El estadístico de K-S para una función de distribución F0 dada es

Dn =sup

x∈R

|Fn(x)−F0(x)|.

Entonces, siH0es cierta, se tiene queDn= sup

x∈R

|Fn(x)−F(x)|, y por el Teorema

de Glivenko-Cantelli,Dn→0 casi seguro. En la sección1.3comentamos un

re-namiento de este resultado, para lo cual es útil observar queDn= kαn(F0)k∞.

1.2.2 El proceso cuantil

SeanU1, . . . ,Un v.a.i.i.d.U(0,1), con función de distribución comúnG(t) =t.

Sean Gn(t) y G−n1(t) la función de distribución empírica y la función cuantil

(28)

Denición 1.6. En esta situación, se dene el proceso cuantil uniforme por ρn(t):=

√

nt−G−_n1(t), 0< t < 1

Sean X1, . . . ,Xn v.a.i.i.d. con función de distribución común F, función de

distribución empírica Fn y función cuantil empírica Fn−1. El proceso cuantil

asociado a X1, . . . ,Xn viene dado por:

ρF

n(t):=

√

nF_n−1(t)−F−1(t).

En este contexto, denotemos por ν a la medida de probabilidad subyacente a la muestra X1, . . . ,Xn y por νn a la correspondiente medida empírica. Existe

la siguiente relación entre la distancia de Wasserstein entre una medida de probabilidad y su correspondiente versión empírica asociada a una muestra dada, y el proceso cuantil relativo a dicha muestra:

W₂2(νn, ν) =

Z 1

0

F_n−1−F−12dt = 1 n

Z 1

0 f√

nF_n−1−F−1g2dt

=⇒nW₂2(µn, µ)=

Z 1

0

ρF n

2

dt.

1.3 El movimiento Browniano

En numerosos resultados asintóticos en estadística, las distribuciones límite se expresan bien en términos de procesos Gaussianos, entre los cuales destaca el Puente Browniano. Considereremos el espacio probabilístico (Ω,F,_P).

Denición 1.7. El proceso estocástico {B(t)}_t_>₀ es un Movimiento

Brow-niano (MB) o Proceso de Wiener con varianza σ2 _{en el espacio} ₍_Ω_,_F_,

P), si cumple las siguientes condiciones:

1. B(0) =0

2. Tiene incrementos independientes, es decir, para cualquier conjunto de instantes de tiempo 0 ₆ t1 < t2 < . . . < tn, se tiene que B(t1),B(t2) − B(t1), . . . ,B(tn)−B(tn−1) son variables aleatorias independientes.

3. Si s < t, entonces la variable aleatoria B(t)− B(s) tiene una distribución

N(0, σ2(t−s))

4. Las trayectorias del proceso son funciones continuas , t 7−→ B(t).

Si σ = 1 decimos que el movimiento es estándar. Notemos que si B(t) es

estándar entonces βB(t) es un MB con varianza β2. Luego, a partir de ahora,

(29)

Observación 1.5 (Algunas propiedades del MB).

1. Una propiedad útil del MB es la de reescalamiento: dado α > 0 se tiene

que:

{B(αt):t >0}= (√αB(t) :t >0).

2. El MB es un caso particular de los procesos gaussianos: las distribucio-nes nito dimensionales de un MB son normales multivariantes, es decir, cualesquiera que sean 0₆t1 < t2 < . . . <tk 61,

(B(t1), . . . ,B(tk)) ∼ Nk(µ,Σ).

En efecto, observemos que

* . . . . . , B(t1) B(t2)

...

B(tk)

+ / / / / / -= * . . . . . . . ,

1 0 0 · · · 0

1 1 0 · · · 0

1 1 1 · · · 0

... ... ... ... ...

1 1 1 · · · 1

+ / / / / / / / -* . . . . . ,

B(t1) B(t2)−B(t1)

...

B(tk)− B(tk−1) + / / / / / -,

y, por lo tanto, la ley del vector aleatorio (B(t1),· · ·,B(t k)) es normal por

ser una transformación lineal del vector

(B(t1),B(t2)−B(t1),· · · ,B(tk)− B(tk−1)),

que tiene ley normal ya que sus componentes son normales independientes.

3. La media y la autocovarianza de un MB se calculan fácilmente:

E(B(t)) =0, y

Cov(B(s),B(t))= E(B(s)B(t))−E(B(s))E(B(t)) = E(B(s)B(t)) = E(B(s)(B(t)−B(s)+B(s))) = E(B(s)(B(t)−B(s)))+EB(s)2 = E(B(s))E(B(t)−B(s))+V ar(B(s))= 0+s = min(s,t), si s ₆t.

De manera análoga, Cov(B(s),B(t)) = E(B(t)(B(s)−B(t)+B(t))) = E(B(t)(B(s)−B(t)))+EB(t)2 = E(B(t))E(B(s)−B(t))+V ar(B(t))

=t = min(s,t), si s_>t.

Por lo tanto,Cov(B(s),B(t)) =m´ın(s,t),∀0₆ s,t ₆1. En conclusión, si 0₆t1 < . . . <tk 61,

(B(t1),· · ·,B(tk)) ∼ Nk * . . . . . ,            0 0 ... 0            ,           

t1 t1 · · · t1 t1 t2 · · · t2

... ... ... ...

(30)

Denición 1.8. Se dice que el proceso estocástico {X(t)}₀₆_t₆₁ es un

Puen-te Browniano (PB) si tiene trayectorias continuas y sus distribuciones nito dimensionales son normales, centradas y con Cov(X(s),X(t)) = s∧t−st.

El PB es un proceso que se genera a partir del MB. En efecto, veamos que si {W(t)}_t_>₀ es un MB, entonces el proceso estocástico {B(t)}_t_>₀ dado por

B(t) = W(t)−tW(1),t _> 0 es un PB. Para ello, dados 0 ₆t1 < · · · < tk 6 1,

tenemos que comprobar que se satisfacen las siguientes condiciones:

1. (B(t1),· · ·,B(tk)) es normal

2. (B(t1),· · ·,B(tk)) es centrada

3. Cov(B(s),B(t))= s∧t−st.

Las condiciones 1 y 2 son consecuencia de que

* . . . . .

, B(t1) B(t2)

...

B(tk) + / / / / /

-=

* . . . . . . .

,

1 0 0 · · · 0 −t

0 1 0 · · · 0 −t

0 0 1 · · · 0 −t

... ... ... ... ...

0 0 0 · · · 1 −t

+ / / / / / / /

-* . . . . . . .

,

W(t1) W(t2)

...

W(tk) W(1)

+ / / / / / / /

-,

y del hecho de que (W(t1),· · ·,W(tk),W(1)) es normal y centrado, por ser W

un MB. Por último, dados 0₆s,t 61,

Cov(B(s),B(t)) =Cov(W(s)−sW(1),W(t)−tW(1))

=Cov(W(s),W(t))−sCov(W(1),W(t))−tCov(W(s),W(1))+stCov(W(1),W(1)) = s∧t−s(1∧t)−t(s∧1)+st = s∧t−st −st+st = s∧t−st. Observación 1.6 (Convergencia del proceso empírico, del estadístico de

Kolmo-gorov y del proceso cuantil hacia PB). Por lo que acabamos de ver, deducimos

que las distribuciones nito dimensionales del proceso empírico uniforme αn

convergen en distribución hacia las distribuciones nito dimensionales de un PB. Más generalmente, teniendo en cuenta (1.4), las distribuciones nito di-mensionales del proceso empírico {αF_n}_n_>₀ convergen en distribución hacia las

distribuciones nito dimensionales del proceso estocástico B◦F.

El proceso αn se puede interpretar como un elemento aleatorio con valores en

el espacio D[0,1] formado por las funciones de [0,1] en _R que son continuas

por la derecha con límites por la izquierda. En D[0,1] se puede considerar la

(31)

d(x,y) =´ınf   

ε >0 : ´ınf λ∈Λ

     

sup

t∈[0,1]

|λ(t)−t|₆ε

          

,

dondeΛ= λ

: [0,1]−→[0,1] tal que λ(0)= 0, λ(1) =1, λ continua y

estricta-mente creciente}.

Un resultado clásico en estadística es queαn converge en distribución al puente

Browniano B, en el sentido de que si H : D[0,1]−→ _R es continua en C[0,1],

entonces H(αn) d

→ H(B) en el sentido usual (ver Capítulo 3 en [6]). Como la

aplicación x 7→ kxk_∞ es continua, se deduce que

Dn= kαn(F0)k∞ d

−

→ kB◦F0k∞ =sup

t∈R

|B(F0(t))|.

Como además F0 es continua

Dn d

−

→ kBk∞ = sup

t∈[0,1]

|B(t)|,

que no depende de F0. Este último resultado se conoce como Teorema de

Kolmogorov.

La convergencia débil de funcionales del proceso empírico y del proceso cuantil hacia los funcionales correspondientes del puente Browniano se da también para funcionales continuos respecto a otras topologías. Algunos resultados de este tipo serán enunciados durante la memoria (véase, por ejemplo, (2.4) en la sección2.3).

Concluimos esta sección con dos proposiciones de gran utilidad a la hora de establecer los resultados asintóticos que veremos a lo largo del trabajo, con-cretamente en la sección2.2.

Proposición 1.1. Sean {B(t)}_t_∈_I un PB y una función f continua en I =[0,1].

Se tiene que

Z 1

0

B(t)f(t) _{ N 0,

Z

I×I

(s∧t−st) f(s)f(t)dsdt

! .

Demostración. Si consideramos la integral del enunciado como una integral

de Riemann, podemos escribir

Z 1

0

B(t)f(t)dt = l´ım

n→∞

      1 n

n

X

i=1

B i

n

!

f i n

!     

(32)

Ahora, observemos que por ser B un PB, el vector aleatorio

B1_n,B2_n, . . . ,Bn−_n1,B(1))

tiene distribución normal, y como ∀i = 1, . . . ,n y ∀n ∈ N, f _ni es un valor

jo, se tiene que 1

n n X i=1 B i n ! f i n !

es una variable aleatoria normal.

Concluimos que Z 1

0

B(t)f(t)dt es normal por ser límite de una sucesión de

v.a. normales. Además,

E

Z 1

0

|B(t)| |f(t)|dt

!

=

Z 1

0

E |B(t)| |f(t)|

dt =

Z 1

0

|f(t)|E|B(t)|dt

6

Z 1

0

|f(t)|

q

E(B(t)2₎_dt =

Z 1 0 r 2 π p

t(1−t)|f(t)|dt

6 r 2 π Z 1 0

t(1−t)dt

!

1 2 Z 1

0

|f(t)|2dt

!

1 2

< +∞,

donde la primera desigualdad es consecuencia de la desigualdad de Jensen, y el penúltimo paso es consecuencia de la desigualdad de Cauchy-Schwarz. Luego, por el Teorema de Fubini, está justicado el siguiente intercambio en el orden de integración en los siguientes cálculos

E

Z 1

0

B(t)f(t)dt

!

=

Z 1

0

E(B(t))f(t)dt =0,

V ar

Z 1

0

B(t)f(t)dt

! = E       Z 1 0

B(t)f(t)dt

!2      − " E Z 1 0

B(t)f(t)dt

!#2

= E

" Z 1

0

B(t)f(t)dt

! Z 1

0

B(t)f(t)dt

!# = E Z 1 0 Z 1 0

B(t)B(s)f(t)f(s)dtds

!

= Z 1

0

Z 1

0

f(t)f(s)E(B(t)B(s))dtds.

Como E(B(t)) = E(B(s)) = 0, E(B(t)B(s)) = Cov(B(t)B(s)) = s∧t− st y, en

consecuencia,

V ar

Z 1

0

B(t)f(t)dt

!

=Z 1

0

Z 1

0

(33)

Proposición 1.2. Si {B(t)}_t_∈_I un PB, existen constantes reales, positivas y no

nulas{λ_n}∞_n=₀ tales que

Z 1

0

B(t)2dt=d ∞

X

n=0

λnZn2, donde Zn ∼ N (0, λn), para cada n∈N.

Demostración. Sea {X(t)}_t∈I, donde I = [0,1] y X(·) ∈ L2(I) es un proceso

Gaussiano centrado. La función de covarianza del proceso viene dada por

k : I×I −→_R

(s,t) 7−→ k(s,t) = E(X(s)X(t)).

Si consideremos{ϕ_n}_n_>₀ un sistema ortonormal y completo en L2(I), entonces,

el proceso X se puede escribir como

X = ∞

X

n=0

hX, ϕniϕn.

Además, por la Identidad de Parseval,

kXk2=

Z

I

X2dt = ∞

X

n=0

hX, ϕni2.

Denamos ahora el operador

K : L2(I) −→ L2(I) f 7−−−−−→ (K f)(t) =

Z

I

k(s,t)f(s)ds.

Supongamos que{ψ_n}_n_>₀ es un sistema ortonormal completo formado por

au-tofunciones del operador K, es decir, Kψ_n = λ_nψ_n, para todo n _>0. Veamos

que si Xn =hX, ψni, entoncesXn∼ N(0, λn), para cadan>0. En primer lugar, Xn es centrada:

Xn= hX, ψni=

Z

I

X(t)ψn(t)dt

=⇒ E(Xn) = E

Z

I

X(t)ψn(t)dt

!

=Z

I

(34)

De aquí se sigue que:

V ar(Xn) = E(Xn2)−(E(Xn))2 = E(Xn2)= E

Z

I×I

X(s)X(t)ψn(s)ψn(t)dsdt

!

=

Z

I

Z

I

k(s,t)ψn(s)ds

!

ψn(t)dt =

Z

I

λnψn(t)ψn(t)dt= λn

Z

n

ψ2

n(t)dt

= λnkψnk2 = λn

Por último, Xn es normal por ser límite de sumas de variables aleatorias

nor-males y con esto queda probado que Xn∼ N(0, λn).

Además, observemos que si n_, m,

Cov(Xn,Xm)=

Z

I

Z

I

k(s,t)ψn(s)ds

!

ψm(t)dt= λn

Z

I

ψn(s)ψm(t)dt= 0.

En consecuencia, {Xn}∞_n₌₀ son variables aleatorias normales independientes.

Por otro lado, como Xn ∼ N(0, λn), se tiene que X_n2

λn

∼ χ2₁, y en conclusión

kXk2=

∞

X

n=0

Xn d

=

∞

X

n=0

λnZn2, donde{Zn}∞_n=0 son v.a.i.i.d. N(0,1).

Observación 1.7. Se puede decir más acerca de la distribución en (ii) si el

proceso gaussiano es un PB. Si {X(t)}_t∈I es un PB, ya hemos visto que la

función de covarianzas viene dada por k(s,t) = s∧t − st, 0 ₆ s,t 6 1. Para

cada f ∈L2(I),

(K f)(t)=

Z 1

0

(s∧t−st)f(s)ds=

Z t

0

(s∧t−st)f(s)ds+

Z 1

t

(s∧t−st)f(s)ds

=

Z t

0

(1−t)s f(s)ds+

Z 1

t

t(1−s)f(s)ds= (1−t)

Z t

0

s f(s)ds+t

Z 1

t

(1−s)f(s)ds.

Si además f es una autofunción asociada al autovalor λ, λ _, 0, del operador

K, entonces

(K f)(t) = λf(t)=⇒ λf(t) = (1−t)

Z t

0

s f(s)ds+t

Z 1

t

(1−s)f(s)ds. (1.5)

(35)

que f es derivable y

λf0(t)= (1−t)t f(t)−

Z t

0

s f(s)ds−t(1−t)f(t)+

Z 1

t

(1−s)f(s)ds

=−

Z t

0

s f(s)ds+

Z 1

t

f(s)ds−

Z 1

t

s f(s)ds=

Z 1

t

f(s)ds−

Z 1

0

s f(s)ds.

De nuevo, por el Teorema Fundamental del Cálculo Integral, f0 es derivable y

λf00(t) = f(1)− f(t).

Por otro lado, de (1.5) se deduce que los valores de f en la frontera de I son

λf(0)= 0⇒ f(0) =0,

λf(1)= 0⇒ f(1) =0.

Por lo tanto, hemos obtenido que una autofunción f ∈ L2(I) del operador K

con autovalor no nulo λ asociado, debe satisfacer la ecuación diferencial

      

f00(t)= −1

λf(t)

f(0) = f(1) =0 (1.6)

Sabemos, de las asignaturas de Ecuaciones Diferenciales impartidas en el Grado (ver [14]), que para cadan > 0, la autofunción dada por:

fn(t)= sin(nπt),

es solución de (1.6) para el autovalor λn = _n21_π2. De aquí obtenemos el

siste-ma de autofunciones ortonorsiste-mal y completo {ψ_n}_n>0, con ψn(t) =

√

2 sin(nπt)

(observemos que ksin(nπt)k_L2_(I) =

Z 1

0

sin(nπt)2dt =

Z 1

0

1−cos(2nπt)

2 dt =

1 2 ).

En denitiva,

kBk2 =

∞

X

n=0 Xn

d

=

∞

X

n=0 1 n2π2Z

2

(36)

1.4 La técnica de remuestreo bootstrap

El bootstrap es un procedimiento de inferencia estadística que consiste en cons-truir la distribución de un estadístico sin más que recurrir a los valores obser-vados. La idea básica del bootstrap es que, en ausencia de información sobre la distribución, la muestra observada contiene toda la información disponible sobre la distribución subyacente, y por tanto, remuestrear la muestra es lo más parecido a remuestrear directamente de la distribución. El término que da nombre a este procedimiento fue introducido por Efron en 1979 en alusión a la expresión anglosajona: pulling oneself up by one's bootstrap, que podría traducirse como: salir adelante por esfuerzos propios .

Supongamos que a partir de una muestra X = (X1, . . . ,Xn) se quiere estimar

un parámetro θ de la distribución, y sea _θˆ ₌ _s₍_X₎ _{el estadístico que estima}

a θ. Conocer la distribución del estadístico _θˆ _{es de gran ayuda para poder}

realizar inferencias sobre el parámetro; sin embargo, en muchas ocasiones, el problema de hallar dicha distribución o de establecer resultados asintóticos de convergencia del estadístico es de gran complejidad.

Si la verdadera distribución P de la cual ha sido extraída la muestra X fuese conocida, se podrían obtener muestras X1, . . . ,XB de P y, usando métodos

de simulación de tipo Monte-Carlo, estimar la distribución del estadístico _θˆ_.

Pero comoPes desconocida y no podemos generar muestras a partir de ella, la

alternativa que sugiere el bootstrap consiste en remuestrear la muestra original X, es decir, generar muestras a partir de la distribución empírica Pn asociada

a X. A una remuestra obtenida de esta manera se le conoce con el nombre de muestra o réplica bootstrap deX. Se puede decir, entonces, que el principio del bootstrap es:

La población es a la muestra como la muestra es a las muestras bootstrap.

Los resultados teóricos básicos de probabilidad que avalan esta armación son la Ley de los Grandes Números y el Teorema de Glivenko-Cantelli que, como vimos al principio de la sección 1.2, garantizan que Pn es un estimador

consistente de P. A primera vista, el planteamiento que propone el bootstrap

(37)

1.4.1 El principio bootstrap

Supongamos que queremos sortear una muestra de v.a.i.i.d.X∗ = X₁∗, . . . ,X_n∗

a partir de Pn. Como sabemos, Pn da probabilidad 1_n a cada observación Xi

(para valores que aparecen más de una vez en la muestra, la probabilidad es un múltiplo de 1

n). Por lo tanto, cuando observamos Pn, la i-ésima observación Xi

de la muestra original es elegida con probabilidad 1

n. Esto sugiere el siguiente

procedimiento para generar la réplica bootstrapX∗ de tamañom, con0< m₆ n:

Sortear índicesi1, . . . ,im independientes de la distribución uniforme en el

conjunto {1, . . . ,m}.

Tomar X∗_j = Xij y X

∗ ₌

X₁∗, . . . ,X_m∗.

En otras palabras, para construir la muestra bootstrap X se muestrea con reemplazamiento la muestra originalX.

Sea ahoraθ =t(P)un parámetro de la distribución yθˆ= s(X)un estimador de θ, del cual queremos conocer la distribución para poder evaluar sus propiedades estadísticas, tales como el sesgo o el error estándar, y tener así información sobre el verdadero parámetroθ, por ejemplo, intervalos de conanza. Para ello, a partir de una muestra bootstrapX∗, se forman las cantidades equivalentes:

θ∗ ₌

t(Pn), el parámetro en el mundo bootstrap; ˆ

θ∗ = _s₍_X∗₎_{, la réplica bootstrap de} _θ_ˆ_.

La distribución muestral del estimador θ∗ _{se estima mediante su equivalente}

bootstrap, es decir, Pn

ˆ

θ ∈ A = P∗θˆ∗ ∈ A, para todo A ⊂ R. En la gura

1.1 se resume esta técnica de manera esquemática.

1.4.2 Aproximación Monte-Carlo de_θˆ∗_.

En muchas ocasiones, estamos interesados en una característica concreta de la distribución muestral del estimador _θˆ_{que puede obtenerse directamente de}

las réplicas bootstrap, como son, por ejemplo, la media, el error estándar o el sesgo. En muchas otras circunstancias, requerimos de la distribución bootstrap del estimador.

A pesar de que la distribución Pn de las muestras bootstrap X∗

1

(38)

intratable en la mayoría de los casos. Por lo tanto, la alternativa habitual para estimar la distribución bootstrap del estimador θ∗ _{es aproximarla mediante}

métodos de simulación Monte-Carlo:

1. Generar B muestras bootstrap independientes X∗1, . . . ,X∗B: X∗b = X₁∗b, . . . ,X_m∗b ∼ Pn i.i.d., con b=1, . . . ,B.

2. Calcular _θˆ∗b

= s(X∗b),b=1, . . . ,B.

3. Estimar la distribución muestral de _θˆ _{mediante la distribución empírica}

de las réplicas bootstrap _θˆ∗1_{, . . . ,}_θ_ˆ∗B_: Pn(θˆ∈ A)=

1 B

B

X

b=1

I θˆ∗b ∈ A, para A⊂ _Rd,d >1.

En este procedimiento nos basaremos para poder estimar la distribución boots-trap del estadístico de interés en este trabajo.

(39)

2 Baricentros en el espacio

de Wasserstein y el

Mode-lo de deformación para

dis-tribuciones.

(40)

2.1 Baricentros en el espacio de Wasserstein

Sea (E,d,Ω) un espacio métrico medible y consideremos P(E) el conjunto

de medidas de probabilidad sobre E. Dada una colección de distribuciones de probabilidad ν1, . . . , νI en P(E), existen numerosas maneras de denir un

promedio ponderado νB ∈ P(E) de estas medidas con respecto a unos pesos

λ1, . . . , λI, tales que λi > 0, para todo 1 6 i 6 I y I

X

i=1

λi = 1. La forma más

intuitiva de hacerlo resulta al tomar la combinación lineal convexa:

νB =

I

X

i=1

λiνi.

Como consecuencia de que el espacio de medidas de probabilidad P(E) es

un subconjunto convexo del espacio lineal de medidas nitas, se tiene que νB

está bien denido y νB ∈ P(E). Sin embargo, al dotar al espacio P(E) con

una métrica cualquiera, la denición de comportamiento promedio dada por

νB podría no ser la más apropiada. En este sentido, se ha desarrollado una

alternativa a esta noción de media ponderada cuando los objetos a promediar son distribuciones de probabilidad, y que propone trabajar en el espacio de Wasserstein W₂(E).

De ahora en adelante, consideraremos el subconjunto de P(E) formado por

las probabilidades en Rd con momento de orden 2 nito, es decir, W2(Rd),y

d > 1. Como sabemos, en _Rd _{con la distancia Euclídea, el baricentro de los}

puntos x1, . . . ,xn ∈ Rd con pesos respectivos λ1, . . . , λn, es el punto xB ∈ Rd que minimiza el funcional

E(x) = n

X

i=1

λikx−xik2.

Este punto xB es único y es la media ponderada

xB = n

X

i=1

λixi.

(41)

Denición 2.1. Se dice que la medida ν ∈ W₂(Rd) es un baricentro de Wasserstein de las medidas ν1, . . . , νI con pesos λ1, . . . , λI, tales que λi > 0,

para todoi ∈ {1, ...,I}, y

I

X

i=1

λi =1, si ν minimiza el funcional:

E(ν) = I

X

i=1

λiW22(ν, νi).

Denotaremos esta medida por ν(λ)

B = bar

(νi, λi)16i6I

, salvo cuando λi = 1_I,

∀i = 1, . . . ,I, en cuyo caso la representaremos simplemente por νB. El

bari-centro así denido existe, y una condición suciente para su unicidad es, por ejemplo, que una de las medidas νi admita densidad con respecto a la medida

de Lebesgue.

Cuando sólo hay dos medidas de probabilidad(I =2), este problema se conoce

como interpolación de McCann [22] y propone como baricentro bar((ν1, λ), (ν2,1−λ)), con λ ∈ (0,1), la probabilidad

νB = ((1−λ)I d+λT)#ν1,

dondeT es la función de transporte óptimo que lleva ν1 sobre ν2.

Si en el caso unidimensional (d =1) consideramos más de dos probabilidades,

la expresión del baricentro adquiere también una forma bastante simple:νB es

la probabilidad cuya función cuantil es

F_B−1 = I

X

i=1

λiFi−1.

Otra situación sencilla en la que el baricentro se ha caracterizado de manera semiexplícita (las ecuaciones del sistema matricial (2.1) no son lineales) es la del caso Gausiano: νi = N(0,Si),i = 1, . . . ,I. Supongamos que la matriz de

covarianzasSi es denida positiva∀i. En [1] se muestra que el baricentro viene

dado por νB = N(0,S¯), donde S¯ es la única matriz denida positiva que es

solución de la ecuación matricial

I

X

i=1

λi

S12_S

iS

1 2

1₂

= S. (2.1)

(42)

contexto euclídeo, dados puntos x1, . . . ,xn ∈Rd, sabemos que una medida de su dispersión viene dada por su varianza

S2 = n

X

i=1

kxi−xBk2.

Por analogía a este caso, y con el objetivo de denir una medida global de la separación de una colección de probabilidades (νi)1₆i6I, en [11] se introduce la

siguiente denición de 2-variación de Wasserstein.

Denición 2.2. Sean ν1, . . . , νI probabilidades en W2(Rd). Se denomina

2-variación (o variación) de Wasserstein de ν1, . . . , νI a la cantidad:

V2(ν1, . . . , νI) := ´ınf η∈W2(Rd)

*

, 1 I

I

X

i=1

W₂2(νi, η)+

-1 2

.

Por lo visto anteriormente, la medida que minimiza el funcional:

η 7−→ 1

I I

X

i=1

W₂2(νi, η)

es el baricentroνB deν1, . . . , νI, con pesos λi = 1_I,∀i= 1, . . . ,I. Luego, podemos

escribir que:

V2(ν1, . . . , νI) =*

, 1 I

I

X

i=1

W₂2(νi, νB)+

-1 2

.

En el caso unidimensional (d =1), por el Teorema 1.3, tenemos la expresión

V2(ν1, . . . , νI)= *

, 1 I

I

X

i=1

Z 1

0

F_i−1(t)−F_B−1(t)2dt+

-1 2

.

La variación generaliza la noción de varianza empírica y, tal y como ocurre para ésta,

V2(ν1, . . . , νI) =0⇔ ν1= . . .= νI.

(43)

2.2 Modelo de deformación para distribuciones.

En estadística, es de gran importancia encontrar la manera de medir la relación estructural entre una colección de observaciones. Esta cuestión se vuelve par-ticularmente interesante al estimar probabilidades observadas de fuentes que han inducido deformaciones en los datos, pues estas distorsiones, tales como traslaciones, modelos de localización y escala o deformaciones más generales, previenen el uso de los métodos estadísticos habituales. Para estudiar este pro-blema, se quieren diseñar métodos de alineamiento para las distribuciones que les eliminen las perturbaciones. Sin embargo, la literatura es escasa en cuanto al análisis de esta situación. Mencionamos el método de la normalización cuantil desarrollado en [7] y, posteriormente en [15], dirigido a cuestiones computacio-nales en el ámbito de la biología. En esta sección, se desarrolla el modelo de deformación para probabilidades enW₂(R), herramienta que ha resultado útil para llevar a cabo esta tarea. Presentamos, de manera general, los aspectos básicos de este modelo y el procedimiento de alineamiento de probabilidades y, posteriormente, nos centramos en el caso paramétrico para exponer una serie de resultados asintóticos.

Sean j =1, . . . ,nobservaciones dei= 1, . . . ,I variables aleatorias

independien-tes Xi,j con distribución νi :

X1,1, X1,2, . . . , X1,n i.i.d. ∼ ν1 X2,1, X2,2, . . . , X2,n i.i.d. ∼ ν2

... ... . . . ... ...

XI,1, XI,2, . . . , XI,n i.i.d. ∼ νI

El modelo de deformación consiste en suponer que cada muestra (Xi,j)16j6n,

i = 1, . . . ,I, se ha extraído de una distribución común desconocida ν, a la

que se le han aplicado diferentes variaciones. Más concretamente, supongamos que existen funciones ϕ∗

i,i = 1, . . . ,I, a las que llamaremos deformaciones o

funciones deformadoras, tales que:

νi = ν◦(ϕ∗_i)−1,i= 1, . . . ,I.

Estas funcionesϕ∗

i pueden estar indexadas o no por un parámetro, dando lugar

a un modelo de deformación paramétrico o no paramétrico, respectivamente. En general, consideremos una familiaG =G₁× · · · × G_I de deformaciones tales

que, para cadai= 1, . . . ,I y para cada función h ∈ G_i, se verica que:

(44)

−∞₆c6 ci < di < d 6+∞.

En esta situación, el modelo de deformación para distribuciones de probabili-dad se enuncia de la manera siguiente:

existen (ϕ∗₁, ..., ϕ∗_I) ∈ G y variables aleatorias (εi,j)16i6I

16j6n i.i.d. con distribución

ν tales que:

Xi,j = (ϕ∗_i)−1(εi,j),∀16i6 I,∀16 j 6n (2.2)

Conviene jar los siguientes aspectos de la notación que seguiremos en el resto del trabajo. De ahora en adelante, G denotará la función de distribución de la

leyν, que tiene soporte el intervalo(a,b) y, para cadai = 1, . . . ,I,Gn,idenotará

la función de distribución empírica asociada a la muestra (εi,j)16j6n. Por otra

parte, para cadai =1, . . . ,I, sea

Fi: (ci,di) −→ (0,1)

la función de distribución asociada a la medidaνi, con densidad ficon respecto

a la medida de Lebesgue. Por último, sean νn,i y Fn,i la medida empírica y

la función de distribución empírica, respectivamente, asociadas a la muestra

Xi,j

16j6n.

En [2] se presenta un procedimiento para alinear una colección de leyes de probabilidad que responden a un modelo de deformación paramétrico (2.3), que se extiende al modelo de deformación general (2.2) en el trabajo posterior [21]. Como la distribución ν es desconocida, debemos invertir el operador ϕ−1 i

de deformación de cada muestra y calcular, para cada observación Xi,j, su

imagen a través de la deformación candidata ϕi:

Zi,j(ϕi) = ϕi(Xi,j), 16i6 I; 16 j 6n.

La notaciónZi,j(ϕi)quiere resaltar la dependencia deϕi. Observemos que, bajo

la hipótesis (A1), se tiene que:

Zi,j(ϕi) ∼ νi(ϕi), con función de distribución Fi◦ϕ−_i1:= Fϕi. En efecto,

Fϕi(x) = P[Zi,j(ϕi)6 x]= P[ϕi(Xi,j) 6 x]= P[Xi,j 6 ϕ

−1

i (x)]

(45)

Notemos que bajo el modelo (2.2), todas las medidas νi han sido deformadas

a partir de una medida común ν y, por lo tanto, al invertir las deformaciones se tiene que

νB(ϕ∗) = ν = νi(ϕ∗_i),16i 6I,

y, en consecuencia,

V2(ν1(ϕ∗₁), . . . , νI(ϕ∗_I)) =0.

Por lo tanto, para construir un test que permita valorar si el modelo de defor-mación es correcto, una idea que surge de manera intuitiva es tomar como crite-rio de decisión la 2-variación de Wasserstein de las distribuciones (νi(ϕi))16i6I.

Denamos entonces, para facilitar la notación,U(ϕ) :=V₂2(ν1(ϕ1), . . . , νI(ϕI))

y consideremos el siguiente escenario para contrastar una relación de deforma-ción entre las distribuciones

´ınf

ϕ∈GU(ϕ) =0 (H0)

´ınf

ϕ∈GU(ϕ) > 0 (H1)

Con estas hipótesis, si el test rechaza la hipótesis nula hay evidencia estadística de que el modelo de deformación no se verica de manera exacta. Observemos que este contraste de hipótesis lleva implícita la resolución del problema de optimización consistente en

minimizar el criterioU(ϕ), con ϕ variando en G.

Para ello, debemos buscar el elemento ϕ∗ ₌ ₍_ϕ∗ 1, . . . , ϕ

∗

I) ∈ G que minimiza el

coste de alineamiento de las distribuciones de las variables (Zi,j(ϕi))16i6I con

la distribución de su baricentroνB(ϕ). Es importante tener en cuenta que, para

cada ϕ = (ϕ1, . . . , ϕI) ∈ G, el baricentro de las distribuciones (νi(ϕi))16i6I es

la probabilidad νB(ϕ) con función cuantil:

F_B−1(ϕ)(t) = 1 I

I

X

k=1

ϕk ◦F_k−1(t), con 06t 61.

Sin embargo, las medidas teóricas νi son desconocidas, pues lo único que

co-nocemos son los valores observados

Xi,j

1₆j6n de la distribución νi y, por

tanto, de las leyes (νi(ϕi))16i6I sólo conocemos las cantidades (Zi,j(ϕi))16i6I

(46)

y con ello es con lo que debemos trabajar. Escribamos entonces νn,i(ϕi) y Fn,ϕi = Fn,i◦ϕ

−1

i para denotar la medida y la distribución empíricas asociadas

a la muestra (Zi,j(ϕi))16j6n.

La medida empírica del baricentro de (νn,i(ϕi))1₆i6I es:

νn,B(ϕ)(t) = 1 I

I

X

i=1

νn,i(ϕi)(t),

con función cuantil empírica asociada

F_n−_,_B1(ϕ)(t)= 1 I

I

X

k=1

ϕk ◦F_n−,k1(t), con 06t 61.

Entonces, debemos estimar el elemento ϕ∗ ₌ ₍_ϕ∗ 1, . . . , ϕ

∗

I) ∈ G que minimiza

el coste de alineamiento de las distribuciones νn,i ϕi 16i6I de las variables (Zi,j(ϕi))16i6I con la distribución de su baricentro νn,B(ϕ), por el elemento

ˆ

ϕn = (ϕˆn,1, . . . ,ϕˆn,I) que minimiza la versión empírica de la variación

Un(ϕ)=V22,n(νn,1(ϕ1), . . . , νn,I(ϕI)) = 1 I

I

X

i=1

W₂2(νn,1(ϕ1), . . . , νn,I(ϕI))

= 1

I I

X

i=1

"Z 1

0

F_n−_,ϕ1_i(t)−F_n−_,_B1(ϕ)(t)2dt #

= 1

I I

X

i=1

      

Z 1

0 *

,

ϕi◦F_n−,i1(t)− 1 I

I

X

k=1

ϕk ◦F_n−,k1(t)+ -2

dt       

.

En consecuencia, nos basaremos en el estadístico´ınf

ϕ∈GUn(ϕ)para hacer

inferen-cias sobre el modelo de deformación (2.2).

2.2.1 Estimación del modelo de deformación paramétrico

En muchas ocasiones, se puede suponer que las funciones que perturban los datos antes de ser observados adquieren formas más especícas. Consideremos entonces el caso en el que la distribución ν ∈ W₂(_R) sigue siendo desconocida,

pero las funciones de deformación pertenecen a una familia paramétrica. Su-pongamos que la familia de deformaciones G está indexada por un parámetro

(47)

ϕ:Λ×(c,d) −→ (a,b) (λ,x) 7−→ ϕλ(x).

La formulación del modelo de deformación (2.2) en el caso paramétrico sería:

existen parámetros θ∗ ₌

(θ∗₁, . . . , θ∗_I) ∈Θ=ΛI y variables aleatorias (εi,j)16i6I

16j6n i.i.d. con distribución

ν, tales que:

Xi,j = (ϕθ_i∗)−1(εi,j),∀16i 6 I,∀16 j 6n, (2.3)

y la versión del estadístico viene dada por

´ınf

θ∈ΘUn(θ) =´ınfθ∈Θ 1 I

I

X

i=1

W₂2(νn,i(θi), . . . , νn,I(θI))).

En [11] (ver Teorema 4.1) se prueba, bajo el modelo (2.3) y ciertas condiciones, la convergencia hacia 0del estadístico multiplicado por un factor de escala:

´ınf θ∈Θ

√

nUn(θ) d

−→0.

Para poder hacer inferencias es necesario conocer de forma más precisa el com-portamiento asintótico de´ınf

θ∈ΘUn(θ) asumiendo que el modelo (2.3) es válido.

Enunciamos a continuación condiciones bajo las cuales

ˆ

θn:=argminθ∈ΘUn(θ)

es un estimador consistente del verdadero parámetro de deformación. Poste-riormente, veremos que, bajo condiciones adicionales, n´ınf

θ∈ΘUn(θ) converge en

distribución a un límite no degenerado.

(A1) Para todo λ ∈Λ, la función

ϕλ : (c,d)→ (a,b) x 7−→ ϕ_λ₍_x)

es invertible, creciente y tal que

−∞₆a < b6+∞, −∞₆c₆ci < di 6d 6+∞.

(A2) G es de clase C2 en (a,b) y tal que G0(x) =g(x) > 0,∀x ∈ (a,b) y

sup

a<x<b

(48)

(A3) ϕ es continua con respecto a x y a λ,

∀λ ∈Λ, ϕλ es de clase C1 con respecto a x,

Λ es compacto.

(A4) dϕ es acotada en Λ×[ci,di], continuo con respecto a λ y tal que sup

λ∈Λ

dϕλ(x_nλ)−dϕλ(x)

−−−−−−−−−−−−−−−−→

sup λ∈Λ

x_nλ−x

→ 0 0.

(A5) ∀1₆ j ₆ J,E[|Xj|r] <∞ para algún exponente r > 4.

(A6) ∀1₆ j ₆ J,E "

sup λ∈Λ

|ϕ_λ(Xi)|r #

< ∞, para algúnr > 4.

(A7) (Condición de identicabilidad) El punto θ∗ _donde

U alcanza el

mí-nimo es único, y está en el interior de Θ.

Como estamos suponiendo que se satisface el modelo de deformación (2.3), la hipótesis (A6) implica que ε tiene algún momento de orden mayor que 4 nito, y la hipótesis (A7) equivale a que θ∗ _{sea el único cero de}

U.

De la siguiente proposición se deduce que_θˆ_n_{es un buen candidato para estimar}

el parámetro del modelo θ∗_.

Proposición 2.1. Si se cumplen las hipótesis (A1)-(A7), entonces

ˆ

θn →θ∗ en probabilidad.

Bajo condiciones adicionales de regularidad se pueden establecer resultados de interés acerca de la convergencia del estadístico ´ınf

θ∈ΘUn(θ). Estas condiciones

son

(A8) ∀1₆i 6 I, ϕ−_θ∗1

i es de clase

C1 con respecto a x dϕ−_θ∗1

j es acotada en

[a,b]

ϕ es de clase C2 con respecto a x y a λ.

(A9) ∀1₆i ₆ I, E "

sup λ∈Λ

∂2_ϕ λ(x)

ϕ−1 θ∗

i (ε)

2#

< ∞

(A10) Z t(1−t)

g2₍_G−1₍_t₎₎dt < ∞

El operador d indica derivación respecto de x, mientras que ∂ es el operador

de derivación respecto del parámetro λ.

(A8) y (A9) imponen condiciones sobre las funciones de deformación ϕi, i =

(49)

G de ε. Por otro lado, la condición (A10) la verican aquellas distribuciones

con soporte compacto, estrictamente positivas y con densidad absolutamente continua. Pero también existen variables aleatorias con soporte no acotado que la satisfacen, de las cuales se pueden encontrar ejemplos en [10].

Observación 2.1. Los resultados de esta sección, se basan en aproximaciones

fuertes del proceso cuantil

ρn(t)=

√

ngG−1(t) G−_n1(t)−G−1(t),0<t < 1,i= 1, . . . ,I.

El resultado clave es el siguiente (ver [8]):

Teorema 2.1. Bajo la hipótesis (A2), existe, en un espacio de probabilidad

sucientemente rico, versiones independientes de los procesos ρn,i y familias

independientes de Puentes Brownianos {Bn,i}∞_n₌₁,i =1, . . . ,I satisfaciendo

n12−ν sup 1

n6t61−

1

n

|ρ_n,i(t)−Bn,i(t)| (t(1−t))ν =

(

Op(log(n)), ν = 0

Op(1), 0< ν₆ 1₂

La notación Op signica lo siguiente: dadas una sucesión de números reales

{an}n>0 y una sucesión de variables aleatorias{Xn}n>0, se dice que Xn= Op(an)

si para cada ε > 0, existe M > 0 tal que P

Xn an

> M

!

< ε,∀n _> 1. Por otro

lado, se conoce como una aproximación fuerte a un resultado que garantiza la existencia de versiones del proceso cuantil y de procesos Gaussianos próximas con probabilidad 1, lo que permite reducir el estudio de la convergencia débil de ciertos funcionales del proceso cuantil a estudiar la convergencia puntual de funcionales de procesos Gaussianos. Los detalles se encuentran en [11].

A lo largo de esta sección consideraremos Λ ⊂ R, sin embargo, los

resulta-dos siguen siendo ciertos si Λ ⊂ _Rd, d _> 1, y las pruebas serían las mismas

con las únicas modicaciones relativas a la dimensión. Añadiendo la siguiente hipótesis, se consigue un renamiento de la Proposición 2.1.

(TCL) ∀1₆i 6I, la función Ri := ∂ϕθ∗_i ◦ϕ−_θ∗1

i es continua y acotada en [a,b].

Denimos ahora la matrizΦ= fΦ_i,j g

16i,j6I , cuyos elementos vienen dados por

Φi,j = −_I22

D

Ri,RjE_ν, sii , j;

Φ_i,i = 2(I −1)