4. An´ alisis de datos
4.3. Inferencia estad´ıstica
4.3.4. T´ ecnicas de muestreo estoc´ astico
La estimaci´on de par´ametros en ondas gravitacionales tiene un coste computacional alto debido a la gran dimensionalidad del espacio de par´ametros (15 par´ametros de los cuales depende la se˜nal sin excentricidad), tambi´en a causa de verosimilitudes multimodales que complica la estimaci´on y el gran tama˜no de los datos a estudiar.
A lo largo de los a˜nos, se han desarrollado t´ecnicas que muestrean el espacio de par´ametros pa- ra resolver el problema de PE, permitiendo la caracterizaci´on de la distribuci´on de probabilidad deseada sin necesidad de conocer toda la distribuci´on. Entre ellos destaca el m´etodo de las cadenas de Markov - Monte Carlo (MCMC, siglas en ingl´es), donde se estiman las propiedades de una dis- tribuci´on mediante muestras aleatorias proporcionales a la distribuci´on a posteriori. Las muestras son generadas a partir de un proceso secuencial espec´ıfico, cada nuevo valor depende solo del valor anterior. Este tipo de muestreo ocasiona problemas si la distribuci´on a posteriori es multimodal dificultando el c´alculo de la evidencia. No obstante, existen m´etodos m´as modernos de muestreo, como por ejemplo el de muestreo anidado (Nested Sampling en ingl´es), que sirve de alternativa para estimar la distribuci´on a posteriori y la evidencia, evitando dichos inconvenientes.
4.3.4.1 Muestreo anidado
Esta t´ecnica de muestreo fue introducida por Skilling en 2006 [22]. El muestreo anidado consiste b´asicamente en recortar la distribuci´on a posteriori en finas porciones de distribuciones m´as sen- cillas, muestreando cada una por separado y finalmente recombinar los resultados obtenidos, tal y como se muestra en la Figura 12. De esta manera, se estima la relaci´on entre la funci´on verosimilitud y un peso a priori, haciendo posible el c´alculo de la evidencia con una simple suma.
Figura 12: Comparaci´on entre el m´etodo MCMC y muestreo anidado. [19]
Con este m´etodo es posible estimar tanto la evidencia como la distribuci´on a posteriori de dis- tribuciones multimodales. Dicha estimaci´on no depende del valor de la funci´on verosimilitud sino simplemente de la forma de su contorno, de esta forma no es necesario que la distribuci´on a poste- riori haya convergido antes de poder obtener muestras v´alidas. Por otro lado, el criterio de cese se basa en la estimaci´on de la evidencia y no en la convergencia de la distribuci´on a posteriori, pero para que el muestreo sea eficiente es importante el n´umero de puntos usados.
Como ya se ha introducido anteriormente, la evidencia viene dada por una integral multidimensional sobre todo el espacio de par´ametros θ (4.16), la cual es complicada de calcular. La t´ecnica de muestreo anidado refactoriza dicha integral sobre un volumen a priori de un espacio de par´ametros cerrado, X, convirti´endola en una integral unidimensional:
Z =
Z 1
0
siendoL(X) el contorno isoverosimilitud correspondiente al entorno del volumen X. Por otro lado, dicho volumen a priori es la fracci´on de la funci´on a priori donde la verosimilitud est´a por encima del umbralλy est´a definido como:
X(λ) =
Z
Ωθ:L(θ)≥λ
π(θ)dθ. (4.23) Cabe enfatizar que el volumen X est´a normalizado de manera que cumple X(λ= 0) = 1 yX(λ=
∞) = 0.
4.3.4.2 Algoritmo
Para poder llevar a cabo la estimaci´on de la evidencia, se selecciona de manera aleatoria un conjunto de puntos denominadosvivos, pertenecientes a la distribuci´on a priori π(θ), como se muestra en la Figura 13. Para cada uno de estos puntos se eval´ua su volumen a priori (X), que est´a relacionado con el valor de la distribuci´on verosimilitud. Cuanto m´as cercano es el valor de X a la unidad, menor es el valor de la verosimilitud. De esta manera, estos puntos se ordenan de mayor a menor y el correspondiente al m´ınimo valor de verosimilitud se almacena en un nuevo conjunto denominado puntos muertos, y es substituido por otro nuevo punto vivo de manera aleatoria con la ´unica condici´on de que el valor de la funci´on verosimilitud sea mayor al substituido. El conjunto de puntos muertos ser´a usado para realizar el c´alculo de la evidencia mediante una simple suma.
Figura 13: Representaci´on gr´afica del algoritmo de muestreo anidado. [22]
En este proyecto el m´etodo de muestreo se ha llevado a cabo mediante un paquete de Python, p´ublico llamadoDynesty [19]. Esta librer´ıa est´a pensada para distribuciones con grandes modula- ciones y gran dimensionalidad. Una de sus caracter´ısticas principales es la posibilidad de elegir el tipo de contorno para las distribuciones lo cual es esencial para el uso de muestreo anidado. Por otro lado, entre otras cosas, tambi´en se puede elegir el tipo de muestreo que se quiere llevar a cabo para los nuevos puntos vivos.
4.3.4.3 Estimaci´on del error cometido
Este m´etodo no es perfecto, al ser de muestreo, se realizan una serie de aproximaciones que generan cierto error. Al llevar a cabo una estimaci´on del volumen a priori no se obtiene su valor real, provocando que el valor de la evidencia y la distribuci´on a posteriori tambi´en se estimen. Esta situaci´on no influye demasiado en los resultados de la estimaci´on de par´ametros, ya que estos solo dependen del peso relativo de las muestras. Sin embargo, el hecho de aproximar el valor medio de una funci´on de par´ametros alrededor de un determinado nivel de verosimilitud por su valor en un ´
En este apartado, no solo se introduce como se desarrolla la estimaci´on de dichas cantidades y de donde proceden los errores, sino que tambi´en se especifican los m´etodos necesarios para cuantifi- carlos.
Estimaci´on del volumen a priori
El hecho de aproximar el volumen a priori usando un conjunto de puntos muertos, provoca una degradaci´on exponencial haciendo que este vaya variando tal que:
E[∆lnXˆi] =E[lnXˆi−lnXˆi−1] =−
1
K, (4.24)
siendo E[.] el valor esperado, ˆX hace referencia a la estimaci´on del volumen a priori y K se refiere al conjunto de puntos vivos.
Al aumentar el n´umero de puntos vivos lo que se consigue es un aumento de la resoluci´on, dismi- nuyendo la degradaci´on.
Estimaci´on de la evidencia y de la distribuci´on a posteriori
Una vez se ha estimado el valor del volumen a priori, puede obtenerse la evidencia y la distribuci´on a posteriori mediante la regla del trapecio de segundo orden. De esta manera, la evidencia puede estimarse tal que:
ˆ Z = N+K X i=1 1 2[L(θi−1) +L(θi)][ ˆXi−1− ˆ Xi] = N+K X i=1 ˆ pi. (4.25)
Finalmente, la funci´on a posteriori puede definirse como: ˆ P(θ) = ˆZ−1 N+K X i=1 ˆ p(θi)δ(θi). (4.26) Criterio de cese
Por otro lado, como ya se ha mencionado anteriormente, el muestreo anidado, a diferencia de MCMC, no finaliza cuando la distribuci´on a posteriori converge, sino que finaliza debido a un criterio de cese condicionado por una tolerancia. As´ı pues, dicha tolerancia es importante para obtener estimaci´on de par´ametros.
Este criterio es usado para interrumpir el muestreo cuando el conjunto de puntos muertos es sufi- ciente para obtener una buena estimaci´on de la distribuci´on a posteriori. El criterio de cese viene condicionado por una tolerancia,y la estimaci´on de la evidencia restante a integrar, ∆ ˆZi:
∆lnZˆi =ln( ˆZi+ ∆ ˆZi)−ln( ˆZi)< . (4.27)
La cota del valor de ˆZi puede aproximarse a ˆZi ≤ LmaxXi, ya que dicho valor nunca podr´a ser
superior al ˆZi correspondiente a la m´axima verosimilitud. Finalmente, este l´ımite superior puede
aproximarse a partir del m´aximo valor de la distribuci´on verosimilitud de los puntos vivos en la iteraci´on i,Lmax
i tal que ˆZi≤ Lmaxi Xi. Cuantificaci´on del error cometido
Higson juntamente con otros autores publicaron un art´ıculo, el noviembre de 2018, en el cual exponen la metodolog´ıa a seguir para realizar una estimaci´on de los errores cometidos por un m´etodo de muestro anidado [23].
En este art´ıculo proponen desempe˜nar una estimaci´on de la incertidumbre mediante la t´ecnica bayesiana de bootstrapping. Este es un m´etodo de remuestreo usado para construir intervalos de confianza mediante el c´alculo de la variaci´on de las muestras evaluadas con diferentes pesos. En el caso de muestreo anidado, la t´ecnica de bootstrap es insuficiente debido a la introducci´on de otro tipo de errores. Para abordarlos, primero es necesario dividir las ejecuciones de muestreo en cadenas de tal forma que cada una preserve sus propiedades estad´ısticas. As´ı pues, cada una de las cadenas representa un muestreo anidado independiente con puntos vivos diferentes.
La estimaci´on bootstrap del error est´andar cometido en una determinada cantidad T(x) viene descrita por la siguiente expresi´on:
σbs(T(x)) = v u u t 1 B−1 B X b=1 T(x∗b)−T(x∗b) 2 , (4.28)
dondex∗b corresponde a los nuevos conjuntos de datos remuestreados con b = 1,...,B. Por otro lado,
T(x∗b) viene definido por:
T(x∗b) = 1 B B X b=1 T(x∗b). (4.29) Al realizar la divisi´on de las ejecuciones en un n´umero de K cadenas de un solo punto vivo, el valor B corresponde al n´umero total de puntos vivos del muestreo. De esta forma, la varianza (4.28) se ve reducida con el aumento del n´umero de puntos vivos usado.
Finalmente, no solo se lleva a cabo el c´alculo de los errores estoc´asticos sino tambi´en los debidos a la implementaci´on del modelo (σimp), causados por no fijar de la forma m´as eficiente la configuraci´on
del m´etodo de muestreo o errores sistem´aticos cometidos durante la estimaci´on de par´ametros. Este error se estima suponiendo que la variaci´on de los resultados remuestrados equivale a la suma del error bootstrap y el de implementaci´on:
σ2values=σbs2 +σimp2 , (4.30) de esta manera, calculando la variaci´on que hay en los resultados se puede obtener el valor de