Optimización del espectro tiempo-frecuencia utilizando métodos bayesianos

Texto completo

(1)Optimización del espectro tiempo-frecuencia utilizando métodos bayesianos. Sergio David Rodrı́guez Bermúdez Departamento de Fı́sica Universidad de Los Andes. A thesis submitted for the degree of Fı́sico 2011.

(2) A este dı́a..

(3) Acknowledgements. Agradezco a mis padres, porque juntos me brindaron una educación muy singular, llena de libros y de sensibilidad. Y agradezco en particular este par de elementos porque no hay nada que aprecie yo más en el mundo que mi elocuencia, y mi emoción estética. Agradezco también a mis directores, Alonso Botero y Germán Prieto, porque no hay duda alguna que sin la ayuda de ellos, este trabajo seria la mitad de corto y el doble de insensato..

(4) Abstract. El método multiventanas para estimar el espectro de procesos estacionarios, ası́ como su corrección cuadrática, la teorı́a cuadrática multiventanas (QMT), han sido de gran interés y utilidad para aplicaciones desde el análisis de datos multicanal, como los generados en neurociencia e ingenierı́a biomédica [11] hasta aplicaciones en geofı́sica y cosmologı́a [12]. En particular, estas técnicas han recibido una gran acogida debido a las buenas propiedades estadı́sticas del estimador del espectro multiventanas, en cuya construcción se utilizan ventanas de datos con propiedades óptimas para la reducción del sesgo y de la varianza, incluso en circunstancias en las que los datos experimentales son desfavorables o insuficientes. En esta ocasión pretendemos refinar los resultados de la teorı́a espectral multiventanas utilizando métodos bayesianos y algunas técnicas provenientes de la teorı́a de la información, tales como el principio de máxima entropı́a, y para lograr esto usaremos los estimadores de los primeros tres coeficientes de la expansión del espectro en polinomios de Chebyshev como fuentes de información posterior..

(5) Chapter 1 Introducción En el contexto del Análisis Espectral nos concierne principalmente el contenido de información de un conjunto de observaciones hechas secuencialmente en el tiempo. A este conjunto de observaciones lo denominamos una serie temporal, y podremos decir que el principal propósito del análisis espectral es desarrollar medios cuantitativos para caracterizar estas series, de manera que sea posible decir cuantitativamente como dos series temporales difieren y como están relacionadas [1]. Cabe aclarar que el problema de caracterizar series temporales es en realidad el propósito de una gran rama de estudio llamada análisis de series temporales y que estas técnicas de análisis son en realidad heurı́sticas por lo que a pesar de su larga historia las mejores soluciones existente no son todavı́a totalmente satisfactorias. Entre estas técnicas se pueden diferenciar dos tendencias: el enfoque temporal (time domain techniques) y el enfoque frecuencial ( frequency domain tecnhiques). El análisis espectral es la técnica principal entre las muchas que utilizan un enfoque frecuencial. La técnica multiventanas se aleja de las técnicas convencionales para conducir análisis espectral en la medida en que reduce considerablemente la varianza del estimador del espectro, manteniendo el sesgo constante. Para lograr esto se hacen particiones especiales de los datos (ventanas), se calcula un estimador directo del espectro para cada una de estas particiones y finalmente se hace un promedio, dando lugar a un nuevo estimador del espectro. La teorı́a cuadrática multiventanas QMT, introduce una corrección cuadrática que suaviza los resultados de la. 1.

(6) técnica multiventanas y aumenta su resolución. Se puede decir que estas técnicas han recibido una gran acogida en la comunidad cientı́fica y tienen aplicaciones desde el análisis de datos multicanal, como los generados en neurociencia e ingenierı́a biomédica [11] hasta aplicaciones en geofı́sica y cosmologı́a [12]. En este trabajo pretendemos optimizar los resultados de la teorı́a cuadrática multiventanas mediante la utilización de métodos bayesianos, en particular deseamos encontrar el planteamiento teórico que nos permita aumentar la resolución del espectrograma. Para lograr esto se hará uso de la información que nos brindan los estimadores de los primeros tres coeficientes {α0 , α1 , α2 } de la expansión en funciones ortogonales de Chebyshev del espectro, tal y como son calculados en [7]. Estos estimadores serán interpretados como los datos en nuestro modelo, y darán origen a lo que llamamos una distribución posterior del espectro. Paralelamente a este planteamiento, una distribución posterior será construida en donde se utilizaran muestreos de la transformada de Fourier de nuestra serie de tiempo como datos, esto se hará con intenciones ilustrativas, ya que las relaciones que conllevan a las propiedades estadı́sticas de la transformada de Fourier son significativamente más sencillas que aquellas relacionadas con los coeficientes de Chebyshev. Escogimos teorı́a bayesiana porque es una metodologı́a consistente que optimiza el análisis de datos experimentales [5]. Esto es debido a que una aproximación en este sentido tiene en consideración no solo los datos, sino también toda la información prior que conozcamos acerca del proceso especı́fico que estemos analizando. Cabe aclarar que un análisis bayesiano se diferencia de los análisis clásicos no solo en la medida en que incorpora suposiciones previas sobre los datos, sino además porque en este tipo de aproximación no existen elementos de la estadı́stica clásica como los p-valores o los intervalos de confidencia, pero más importante aun, porque en este tipo de análisis se prescinde de la idea de repeticiones hipotéticas de los datos en consideración. En esta ocasión trabajaremos de acuerdo a los usos de la teorı́a bayesiana y lo que haremos será concentrar nuestra atención en la muestra finita de realizaciones de un proceso estacionario con el fin de obtener el mejor estimador del espectro que nos sea posible.. 2.

(7) 1.1. Notación. Asumiremos que las observaciones experimentales consisten de N muestras continuas {x(0), x(1), ..., x(N − 1)} de una serie de tiempo estacionaria, real y con una media de cero. Escribiremos las transformadas de Fourier centradas en t = (N − 1)/2 por conveniencia notacional. Diremos que el tiempo entre muestras sucesivas es 1 de tal manera que la frecuencia f y la frecuencia en radianes W = 2πf estén definidas en sus dominios principales (−1/2, 1/2] y (−π, π], respectivamente. Las letras en negrilla serán utilizadas para vectores y matrices con sus componentes dados por las correspondientes itálicas, el superı́ndice ∗ indica conjugada compleja, el ∗ sobre la lı́nea denota convolución, el superı́ndice † transpuesta conjugada, y E{} denota el operador valor esperado. El espectro de un proceso se denotara S(f ).. 1.2. Planteamiento del Problema. El concepto esencial de la teorı́a bayesiana es el de actualizar las creencias a partir de nueva evidencia. Para conducir este procedimiento de actualización utilizamos el conjunto de conocimientos que ya tenı́amos sobre algún o algunos de los parámetros de interés y los expresamos como una distribución de probabilidad a la que denominamos distribución prior (Los parámetros de interés, por lo general, son los que se encuentran involucrados en la descripción matemática del proceso particular que estemos analizando). La nueva evidencia que obtengamos de las observaciones se describe mediante la función de verosimilitud o probabilidad directa, que expresa la probabilidad de los datos dados los parámetros. Finalmente, combinando estas dos distribuciones obtenemos la distribución posterior de creencias, que expresa la probabilidad de los parámetros dados los datos. Este análisis lo podemos expresar formalmente de la siguiente manera:. P (θ|data) ∝ P (data|θ)P (θ). 3. (1.1).

(8) En donde P (θ) es la distribución prior expresando las suposiciones inı́ciales acerca del parámetro de interés, P (data|θ) es la función de verosimilitud expresando el modelo estadı́stico para los datos dados los parámetros y P (θ|data) es la distribución posterior. De ser necesario la constante de proporcionalidad puede obtenerse integrando la rhs con respecto a θ, lo que nos garantiza que la distribución posterior estará definida apropiadamente, integrando a 1. Ahora, en nuestro caso S(f ) cumplirá las veces del parámetro de interés, y los coeficientes de Chebyshev {α} o los muestreos de la transformada de Fourier {y}, harán las veces de los datos, de manera que la ecuación (1.1) quede de la forma:. P (S(f )|{α}) ∝ P ({α}|S(f ))P (S(f )). (1.2). P (S(f )|{y}) ∝ P ({y}|S(f ))P (S(f )). (1.3). y paralelamente. Nótese que S(f ) no es una variable real sino una función continua de f por lo que las funciones P (S(f )|{α}) y P (S(f )|{y}) son en realidad distribuciones de probabilidad sobre un espacio de funciones, que además tienen la restricción de ser estrictamente positivas. Tengamos en cuenta también que este tipo de distribuciones es intratable numéricamente si se dejan expresadas tal como en (1.2) y (1.3), incluyendo el problema de normalización. Por esta razón el espectro tiene que ser parametrizado, esto es, debe expresarse como una expansión de funciones ortogonales ei con coeficiente βi , de forma que podamos decir:. S(f ) =. X. βi × ei. (1.4). i. Esta expansión nos permite parametrizar el espacio de funciones de tal manera. 4.

(9) que podamos efectuar inferencias sobre las funciones S(f ) al escribir las distribuciones de probabilidad ası́:. P (S(f )|{α}) = P ({β}|{α}) ∝ P ({α}|{β})P ({β}). (1.5). P (S(f )|{y}) = P ({β}|{y}) ∝ P ({y}|{β})P ({β}). (1.6). y. De esta manera las integrales y las derivadas de interés estarı́an bien definidas con respecto a los coeficientes {β} de la expansión, y el problema de normalización se convertirı́a en una integral multivariada que bien podemos analizar y resolver ası́ sea con métodos de aproximación, como el método de Laplace. En el capitulo 2 hablamos sobre los lineamientos teóricos que impone la teorı́a espectral y que serán indispensables para construir la función de verosimilitud. En el capı́tulo 3 hablamos sobre algunas definiciones de la teorı́a bayesiana, introducimos el principio de máxima entropı́a y lo utilizamos junto con los resultados del capı́tulo anterior para finalmente construir la función de verosimilitud P ({α}|S(f ))en la ecuación (1.2). También discutimos el problema de cual serı́a una adecuada elección de las funciones ortogonales que se necesitan para parametrizar el espectro y como esta elección es vital para poder construir la distribución prior P (S(f )). Finalmente en las conclusiones establecemos el camino a seguir para completar la construcción de un estimador del espectro a partir de un problema de extremalización.. 5.

(10) Chapter 2 Teorı́a Espectral En este capı́tulo hablamos sobre los principales conceptos de la teorı́a espectral que serán necesarios para la solución del problema que tenemos entre manos. Principal es la sección que versa sobre el método multiventanas, ya que de allı́ surge la información que es más relevante para los contenidos del siguiente capı́tulo.. 2.1. Concepto del Espectro. El espectro es precisamente una forma de denominar las construcciones cuantitativas que mediante una enfoque frecuencial caracterizan las series temporales. Se puede decir que el objetivo del análisis espectral es estudiar y estimar el espectro. La manera exacta en la que definimos el espectro depende de qué clase de modelo estemos asumiendo para una serie de tiempo, y aunque existan formas de determinar las clases adecuadas de modelos que se deben utilizar para el tratamiento de estas series temporales, en esta ocasión nuestra intención será meramente la de ilustrar la idea principal detrás de este concepto de espectro. Esto lo haremos mediante la construcción de un modelo matemático para una serie temporal que no es el más adecuado, pero que por su simplicidad sirve a nuestros propósitos. Este modelo consiste en una combinación lineal de senos y cosenos a diferentes frecuencias y con diferentes amplitudes [1]. Lo que haremos sera asumir que tenemos una serie temporal de tamaño N que puede ser descrita. 6.

(11) mediante el siguiente modelo:. Xt = µ +. X. A(f ) cos(2pif t) + B(f ) sin(2pif t). t = 1, 2, ....., N.. (2.1). f. Para poder decir lo que significa la suma en la ecuación (2.1) para los procesos estacionarios, necesitamos conocer el teorema de representación espectral. Afortunadamente, dado que el modelo que utilizamos es particularmente sencillo, en este caso podremos definir el espectro exactamente en términos de los elementos involucrados en la suma y ası́ dar una idea de aquello en lo que consiste el análisis espectral. Ahora, hacemos una suposición adicional sobre el modelo (2.1), y diremos que la suma tiene exactamente bN/2c elementos. En donde bN/2c hace referencia al entero más grande que sea menor o igual a N/2 :. bN/2c. Xt = µ +. X. Aj cos(2pifj t) + Bj sin(2pifj t). t = 1, 2, ....., N.. (2.2). j=1. Aqui requerimos que las frecuencias fj esten relacionadas con el tamaño de la muestra N de la siguiente manera:. fj ≡ j/N,. 1 ≤ j ≤ bN/2c.. (2.3). Tambien asumimos que las amplitudes {Aj } y {Bj } son variables aleatorias con las siguientes especificaciones, para todo j:. E{Aj } = E{Bj } = 0. and. E{Aj 2 } = E{Bj 2 } = σj 2 .. (2.4). Adicionalmente asumimos que las variables aleatorias Aj y Bj no estan correlacionadas, esto es:. 7.

(12) E{Aj Ak } = E{Bj Bk } = 0 E{Aj Bk } = 0. para. para. todos. los. j 6= k. (2.5). j, k.. (2.6). Con estas condiciones se puede demostrar que son validas las siguientes identidades:. E{Xt } = µ. (2.7). bN/2c. σ 2 = E{(Xt − µ)2 } =. X. σj 2. (2.8). j=1. En donde σ 2 es la varianza poblacional, o la varianza de los datos de la serie temporal. Para este modelo definimos el espectro de la siguiente manera:. Sj ≡ σj 2. 1 ≤ j ≤ bN/2c.. (2.9). Podemos ver que si construyéramos una grafica de Sj contra fj lo que verı́amos seria las varianzas de las variables aleatorias que determinan la amplitud de los términos sinusoidales en cada una de las frecuencias caracterı́sticas fj . También podemos ver de la ecuación (2.8) que tenemos la siguiente relación fundamental:. bN/2c. X. Sj 2 = σ 2. (2.10). j=1. Esto significa que para una serie de tiempo generada por este modelo, la varianza poblacional puede interpretarse como una suma de componentes, cada uno de los cuales está asociado con una frecuencia diferente. La contribución a la varianza debida a los términos sinusoidales con frecuencia fj está dada por Sj . Quiere decir que el conocimiento de los Sj nos indica de donde se puede esperar que provenga la variabilidad en una serie de tiempo.. 8.

(13) 2.2. Análisis Espectral Multiventanas. Uno de los problemas principales en el análisis de series de tiempo es el de elegir un buen algoritmo para estimar el espectro a partir de una muestra finita de observaciones de algún proceso. Este algoritmo debe ser tal que el estimado no se encuentre dominado por algún sesgo, sea consistente y sea estadı́sticamente significativo, y que además mantenga estas propiedades en la presencia de variaciones menores sobre las suposiciones que se hagan. El método espectral multiventanas posee algunas de estas caracterı́sticas y otras que son muy deseables en una técnica de estimación espectral, por ejemplo, es una técnica en donde no hay un número arbitrario de ventanas, es una teorı́a pequeña de muestreo, es consistente, provee una prueba para el análisis de varianza y tiene buena resolución. Especı́ficamente, el algoritmo propuesto por (Thomson 1982) tiene las siguientes interesantes caracterı́sticas: Primero, es una teorı́a de muestreo pequeña en donde el tamaño de la muestra entra explı́citamente en el método y en las restricciones de desempeño del algoritmo; Segundo, justifica la utilización de ventanas de datos; tercero, como se dijo antes el estimado es consistente; cuarto, el procedimiento se adapta a los datos y, en situaciones en las que el rango del espectro es grande nos dará estimados más estables en regiones en donde el espectro es grande sin necesidad de estar excesivamente sesgado en donde es pequeño; y Quinto, nos provee de un análisis de varianza para los componentes sinusoidales. Tal y como se le presenta en la publicación original [2] este método está basado en una expansión local de funciones propias que son utilizadas para estimar el espectro en términos de la solución a una ecuación integral. Computacionalmente este método es equivalente a un promedio pesado de una serie de estimados directos del espectro basados en ventanas de datos ortogonales (las discrete prolate spheroidal sequences) que son elegidas para tratar los problemas de sesgo. Nuestro énfasis es en el caso en el que los datos disponibles son un muestra finta de un proceso estacionario con media igual a cero.. 9.

(14) 2.2.1. Ecuación Fundamental y Propiedades Estadı́sticas los Muestreos y(f ). Para introducir este método lo primero que haremos será escribir la representación espectral de Cramér del proceso estacionario x(t), que es el que da origen a nuestra muestra finita {x(0), x(1), ..., x(N − 1)}:. Z. 1/2. x(t) =. ei2πf t dZ(f ). ∀t.. (2.11). −1/2. Los incrementos ortogonales aleatorios dZ(f ) tienen, para procesos con una media de cero:. E{dZ(f )} = 0.. (2.12). Y su segundo momento está dado por definición por la siguiente relación analı́tica:. S(f )df = E{|dZ(f )|2 }.. (2.13). Es importante tener en cuenta que dZ(f ) es un proceso de incrementos ortogonales [2], lo que quiere decir que para dos frecuencias diferentes, f y v,los incrementos dZ(f ) y dZ(v) no se encuentran correlacionados estadı́sticamente (lo que sin embargo no implica independencia). Este hecho en conjunto con las propiedades estadisticas de dZ(f ) expresadas en (2.12) y (2.13) son hasta el momento la información que utilizaremos para dar origen a las distribuciones de probabilidad que nos interesan. Para lograr esto haremos uso del principio de máxima entropı́a, que ilustraremos en el capı́tulo 3. Ahora, por simplicidad en la notación es conveniente cambiar la definición de dZ(f ) en una fase para que la transformación quede centrada en t = (N − 1)/2 de la siguiente manera:. 10.

(15) Z. 1/2. ei2πv[t−(N −1)/2)] dZ(v). x(t) =. ∀t.. (2.14). −1/2. El siguiente paso será introducir la transformada de Fourier y(f ). Esto es debido a que inicialmente asumiremos que los datos son un muestreo finito de tamaño M de la forma {y(f0 ), y(f1 ), ..., y(fM −1 )} en donde las fk son algunas frecuencias fundamentales elegidas convenientemente según algún criterio heurı́stico que por el momento no nos interesa. Como ya mencionamos en la introducción esta suposición es a la vez ilustrativa y propositiva, por un lado es conveniente usarla para ilustrar el procedimiento mediante el cual se pueden encontrar las propiedades estadı́sticas de una variable aleatoria a partir de las propiedades de otra. Esto es, siempre y cuando la expresión analı́tica que las relaciona sea conocida y lineal. Por otro lado, utilizar la transformada como los datos en nuestro modelo nos da la posibilidad de proponer en alguna medida una solución alternativa a la propuesta original en donde los datos son los primeros tres coeficientes de Chebyshev {α(f )} . Dicho esto escribimos la transformada de Fourier de nuestra muestra finita {x(0), x(1), ..., x(N − 1)}, que por razones de conveniencia notacional escribiremos centrada en t = (N − 1)/2:. y(f ) =. N −1 X. e−i2πf [t−(N −1)/2] x(t).. (2.15). t=0. En esta transformada consideramos que la frecuencia es un parámetro continuo con dominio principal (−1/2, 1/2] y que las funciones de la frecuencia estas extendidas periódicamente fuera de este dominio. Note que la transformada de Fourier y(f ) puede ser invertida para recuperar los datos:. Z. 1/2. x(t) =. ei2πf [t−(N −1)/2)] y(f )df.. (2.16). −1/2. Por lo que ninguna información se pierde al realizar la transformación, lo. 11.

(16) que quiere decir que los x(t) y los y(f ) son equivalentes y ambos pueden ser utilizados o interpretados como datos. Como dijimos antes nuestro propósito es construir la relación analı́tica entre la transformada de Fourier de un proceso discreto y la cantidad dZ(f ). Esta relación analı́tica será utilizada para encontrar las propiedades estadı́sticas de y(f ) de manera que las podamos utilizar para escribir la distribución de probabilidad directa o función de verosimilitud:. P ({y}|S(f )). (2.17). En donde {y} denota el conjunto de muestreos de y(f ) a frecuencias discretas fk del que hablamos antes. Para encontrar esta relación combinamos las ecuaciones (2.15) y (2.14) y escribimos:. Z y(f ) =. −1 1/2 N X. e−i2π(v−f )[t−(N −1)/2] dZ(v). (2.18). −1/2 t=0. De donde se sigue, al reconocer la suma como el kernel de Dirichlet. N −1 N π(f − v) X i2π(v−f )[t−(N −1)/2] = e π(f − v) t=0. (2.19). Con lo que uno llega a la que es considerada como la ecuación fundamental de la estimación espectral. Z. 1/2. y(f ) = −1/2. sin N π(f − v) dZ(v) = sin π(f − v). Z. 1/2. D(f, v) dZ(v). (2.20). −1/2. Ahora, utilizando esta ecuación y (2.12) encontramos el primer momento de las y(fk ) de la siguiente manera:. 12.

(17) Z. 1/2. D(fk , v) E{dZ(v)} = 0.. E{y(fk )} =. (2.21). −1/2. La ecuación (2.13) junto con la propiedad de ortogonalidad de los incrementos dZ(f) dan cabida a la relación:. E{dZ(v)dZ ∗ (v 0 )} = δ(v − v 0 )S(v)dv. (2.22). Con lo que obtenemos el siguiente resultado:. Z. 1/2. Z. E{y(fk )y(fk0 )} =. 1/2. D(fk , v)D(fk0 , v 0 ) E{dZ(v)dZ(v 0 )}. −1/2 −1/2 Z 1/2 Z 1/2. = −1/2. D(fk , v)D(fk0 , v0)δ(v − v 0 )S(v)dv. (2.23) (2.24). −1/2. Z. 1/2. =. D(fk , v)D(fk0 , v)S(v)dv.. (2.25). −1/2. A pesar de que la información contenida en (2.21) y en (2.25) es suficiente para construir la distribución P ({y}|S(f )) en (2.17), en nuestro caso y debido a que nuestro propósito principal es refinar los resultados de la teorı́a cuadrática multiventanas, aquello que deseamos utilizar como datos es en realidad el conjunto de los primeros tres coeficientes en la expansión de Chebyshev del espectro {α0 (f ), α1 (f ), α2 (f )}. Como ya hemos visto nos interesa la relación analı́tica entre dZ(f ) y nuestro datos, o de cualquier modo, derivar los primeros momentos de nuestros coeficientes de manera que contengan una dependencia explicita del espectro S(f ), en pos de este propósito empezaremos ilustrando la manera como surgen estos coeficientes, tal como en [7] y para esto tendremos que hacer una descripción del método espectral multiventanas.. 13.

(18) 2.2.2. Método Multiventanas. Con el objetivo de obtener soluciones aproximadas para dZ(v) cuyas propiedades estadı́sticas se aproximen de algún modo a las de dZ(f ), consideremos la ecuación (2.20) como una ecuación integral de Fredholm del primer tipo. Como esta ecuación proyecta la secuencia estacionaria infinita x(t) que es generada por la medida ortogonal aleatoria dZ(f ), sobre la secuencia finita {x(0), x(1), ..., x(N −1)}, es evidente que no posee inversa, por lo que es imposible obtener soluciones exactas. En el contexto de la técnica multiventanas se desean encontrar las propiedades estadı́sticas de aquellas soluciones aproximadas que sean plausibles numérica y estadı́sticamente [2]. Veremos que el estimador multiventanas del espectro se construye precisamente a partir de una solución aproximada por mı́nimos cuadrados de la ecuación (2.20) en la que se ha usado una expansión en funciones propias [7]. Para ilustrar este procedimiento empezaremos por escribir un estimador directo del espectro Ŝ(f ) al que se le ha incluido una ventana a(t) :. 2. Ŝ(f ) = |Y (f )| = |. N −1 X. 2 −2πif t. x(t)a(t)e. |. (2.26). t=0. Para conservar correctamente la potencia total requerimos que a(t) se encuentre bien normalizada. N −1 X. |a(t)|2 = 1.. (2.27). t=0. En el dominio de la frecuencia las propiedades de a(t) se obtienen estudiando su transformada de Fourier A(f ), a la que llamamos la ventana espectral asociada con a :. A(f ) =. N −1 X. a(t)e−2πif t .. t=0. 14. (2.28).

(19) La elección de una ventana puede tener un efecto muy significativo en el estimador resultante. Esto se evidencia si notamos que la transformada Y (f ) en (2.26) puede expresarse como una convolución entre la transformada discreta de Fourier de los datos y(f ) y la ventana espectral A(f ). Z. 1/2. A(f 0 )y(f − f 0 )df 0. Y (f ) ∝ A(f ) ∗ y(f ) =. (2.29). −1/2. Una ventana con buenas propiedades tendrá una representación espectral con bajas amplitudes en frecuencias f 0 que se encuentren lejos de la frecuencia central f . En este sentido estamos manifestando que el objetivo de una ventana a(t) es prevenir el sesgo que puede ocasionar la energı́a de la señal x(t) en frecuencias distantes a la frecuencia de interés. A este sesgo se le llama drenaje espectral. En la práctica no tiene sentido preocuparse por frecuencias f 0 tal que |f − f 0 | ≤ 1/N ya que esta es la mejor resolución que se puede alcanzar con un conjunto de N datos en donde el tiempo entre muestras sucesivas es de 1. De este modo el ancho de banda de resolución W se escoge de manera que 1/N ≤ W ≤ 1/2. Ahora, establecemos que la fracción de energı́a de A en el intervalo (−W, W ) esta dado por:. RW λ(N, W ) =. −W R 1/2 −1/2. |A(f )|2 df |A(f )|2 df. (2.30). Nótese que λ no puede ser más grande que la unidad. Nuestra tarea es escoger a(t) tal que λ sea máximo. Para esto sustituimos (2.29) en (2.30), y tomamos el gradiente con respecto al vector a = [a(0, a(1), ..., a(N − 1)] e igualamos a cero para obtener un problema matricial de valores propios:. D · a − λa = 0. En donde la matrix D tiene componentes. 15. (2.31).

(20) Dt,t0 =. sin2πW (t − t0 ) π(t − t0 ). t, t0 = 0, 1, ....., N − 1. (2.32). La solución de (2.31) tiene valores propios 1 > λ0 > λ1 > ... > λN −1 > 0 con sus correspondientes vectores propios vk (t), llamados las secuencias de Slepian [4]. El primer valor propio es extremadamente cercano a la unidad, haciendo que la ventana a(t) = v0 (t) sea la mejor elección contra el ”drenaje espectral” para un valor particular de la resolución W . De hecho los primeros 2N W − 1 valores propios también están muy próximos a la unidad, lo que conlleva a una familia de ventanas con propiedades optimas para la reducción del sesgo en el estimador del espectro. El método multiventanas aprovecha el hecho de que existan varias ventanas con buenas propiedades de drenaje y las utiliza todas. Estos vectores propios vk con sus valores propios asociados λk son reales y ortonormales. N −1 X. vk (t)vj (t) = δjk ,. (2.33). t=0. y serán utilizados en la ecuación (2.26) como ventanas de datos, cada uno de ellos con su correspondiente ventana espectral, o función de Slepian. Vk (f ) =. N −1 X. vk (t)e−2πf t .. (2.34). t=0. Para estas funciones se cumplen las siguientes relaciones de ortogonalidad:. Z Z. 1/2. Vj (f )Vk∗ df = δjk. (2.35). Vj (f )Vk∗ df = λk δjk .. (2.36). −1/2 W. −W. 16.

(21) Ahora, es conveniente definir una versión que sea ortonormal en el intervalo (−W, W ). Vk Vk = √ λk. (2.37). Evidentemente con la propiedad. Z. W. Vj (f )V∗k df = δjk .. (2.38). −W. Estas ecuaciones seran utilizadas más adelante. El siguiente paso en el método es calcular un estimador directo como en (2.26) para cada una de los primeros 2N W − 1 vectores de las secuencias de Slepian. 2. Ŝk (f ) = |Yk (f )| = |. N −1 X. 2 −2πif t. x(t)vk (t)e. |. (2.39). t=0. Y construir a partir de los Ŝk (f ) un nuevo estimador en la forma de un promedio. K 1 X S̄k (f ) = |Yk (f )|2 . K k=1. (2.40). En donde K es un numero entero tal que K < 2N W − 1 de manera que se garantice que se están usando las ventanas con buenas propiedades. Nótese que al hacer este promedio estamos involucrando ventanas diferentes a v0 (t) en el cálculo del estimador, con lo que aumentamos el fenómeno de drenaje espectral. La razón para hacer esto es que promediar disminuye la varianza del estimador del espectro, y esto es preferible a tener propiedades optimas de drenaje solamente. Ahora, en vez del estimador en (2.40) se prefiere un estimador que consiste de un promedio pesado, con pesos dependientes de la frecuencia que disminuyen. 17.

(22) la ”discrepancy”, tal como en [2], y que están descritos mediante la siguiente ecuación: √ λk S(f ) dk (f ) = , λk S(f ) + (1 − λk )σ 2. (2.41). En donde σ 2 es la varianza de le señal x(t). El espectro multiventanas se escribre entonces. 2 2 k=0 dk |Yk | PK−1 2 . k=0 dk. PK−1 Ŝ(f ) =. (2.42). Evidentemente el verdadero espectro es una función desconocida en (2.41) por lo que tenemos que asumir un estimador inicial, usarlo, calcular un nuevo espectro, e iterativamente calcular nuevos pesos. Detalles de este procedimento pueden encontrarse en [1].. 2.2.3. Calculando los Coeficientes de Chebyshev y sus Propiedades Estadı́sticas. Consideremos la siguiente matriz de covarianza: Cjk (f ) = E{dj Yj dk Yk∗ } = E{Yj Y∗k }. (2.43). En donde las Yj están dadas por la siguiente expresión:. Yk (f ) =. Z. W. Vk (f 0 )dZ(f − f 0 ).. (2.44). −W. Usaremos esta definición para escribir. E{Yj Y∗k }. Z. W. Z. W. = −W. Vj (f 0 )V∗k (v 0 ) Y E{dZ(f − f 0 )dZ(v − v 0 )}. −W. 18. (2.45).

(23) Por lo que al usar la expresión (2.22) obtenemos el siguiente resultado:. Z. W. Cjk (f ) =. Vj (f 0 )V∗k (f 0 ) S(f − f 0 )df 0 ,. (2.46). −W. Ahora, el siguiente paso será expandir el espectro S(f ) en polinomios de Chebyshev de la siguiente manera:. S(f − f 0 ) = α0 T0 (. f0 f0 f0 ) + α1 T1 ( ) + α2 T2 ( ) − W ≤ f 0 ≤ W. W W W. (2.47). Introduciendo (2.47) en (2.46) obtenemos la siguiente expresión:. (0). (1). (2). Cjk (f ) = α0 (f )Hjk + α1 (f )Hjk + α2 (f )Hjk. (2.48). En donde. (0) Hjk. Z. W. Vj (f 0 )V∗k (f 0 )T0 (f 0 )df 0 = δjk −W Z W (1) Hjk = Vj (f 0 )V∗k (f 0 )T1 (f 0 )df 0 −W Z W (2) Hjk = Vj (f 0 )V∗k (f 0 )T2 (f 0 )df 0 .. =. (2.49) (2.50) (2.51). −W. Dadas estas condiciones, los coeficientes de Chebyshev se obtienen resolviendo un problema de mı́nimos cuadrados a partir de (2.48) en donde se usan las observaciones sobre las cantidades dj dk Yj Yk∗ para aproximar la lhs. Ahora, recordemos que nuestro problema no consiste en encontrar los coeficientes sino en derivar las propiedades estadı́sticas de los mismos en relación al espectro S(f ). Pues bien, ignoremos por un momento las complejidades del formalismo multiventanas y enfoquémonos en la lı́mpida relación analı́tica dada por la ecuación (2.47). Note que esta relación es local en un intervalo de 2W alrededor de cada frecuencia central f en donde se desee expandir el espectro, como locales son las relaciones. 19.

(24) de ortogonalidad de las funciones de Chebyshev [13]:. Z. 1. dx Tn (x)Tm (x) √ = 0 n 6= m 1 − x2 −1 Z 1 dx =π T0 (x)T0 (x) √ 1 − x2 −1 Z 1 dx Tm (x)Tm (x) √ = π/2 m 6= 0 1 − x2 −1 Por conveniencia notacional hacemos el cambio de variable x → cribir. Z. W. −W. Z. W. −W. df Tn (f /W )Tm (f /W ) p = 0 n 6= m W2 − f2 Z W df T0 (f /W )T0 (f /W ) p =π W2 − f2 −W. df = π/2 m 6= 0 Tm (f /W )Tm (f /W ) p W2 − f2. (2.52) (2.53) (2.54) f W. para es-. (2.55) (2.56) (2.57). Ahora, usando estas relaciones de ortogonalidad sobre (2.47) obtenemos para cada coeficiente las siguiente relación analı́tica:. 1 α0 = π. Z. 2 α1 = π. Z. 2 α2 = π. Z. W. −W W. −W W. −W. df 0 T0 (f 0 /W )S(f − f 0 ) p W 2 − f 02 df 0 T1 (f 0 /W )S(f − f 0 ) p W 2 − f 02 df 0 T2 (f 0 /W )S(f − f 0 ) p W 2 − f 02. De donde se sigue que. 20. (2.58) (2.59) (2.60).

(25) 1 E{α0 (f )} = π. Z. 2 E{α1 (f )} = π. Z. 2 E{α2 (f )} = π. Z. W. −W W. −W W. −W. df 0 T0 (f 0 /W ) E{S(f − f 0 )} p W 2 − f 02 df 0 T1 (f 0 /W ) E{S(f − f 0 )} p W 2 − f 02 df 0 T2 (f 0 /W ) E{S(f − f 0 )} p W 2 − f 02. (2.61) (2.62) (2.63). Y he aquı́ que tenemos los primeros momentos de los coeficientes α0,1,2 . Antes de proseguir, prestemos atención por un momento al siguiente razonamiento; Las propiedades estadı́sticas que recién derivamos no son de ningún modo las propiedades estadı́sticas de los coeficientes que se obtienen solucionando un problema por mı́nimos cuadrados para la ecuación (2.48). En cambio, son las propiedades estadı́sticas que deben cumplir los coeficientes que quieran ser los que caracterizan la expansión del espectro en funciones de Chebyshev, razón por la cual consideramos que estamos llevando a cabo el procedimiento adecuado que nos llevara a una mejor distribución P (S(f )|{α}). Siguiendo con el razonamiento anterior procedemos a calcular las correlaciones: W. W. dv 0 dv √ Ti (v /W )Tj (v/W )E{S(f −v )S(f −v)} E{αi αj } ∝ √ W 2 − v02 W 2 − v2 −W −W (2.64) 2 En donde el factor de proporcionalidad puede tomar los valores {2/π , 4/π 2 , 1/π 2 } dependiendo de los ı́ndices j, k. Estas serán las propiedades estadı́sticas que serán utilizadas para derivar la función de verosimilitud P ({α}|S(f )). Para lo que utilizaremos el formalismo del principio de máxima entropı́a expuesto en el siguiente capı́tulo. Z. Z. 0. 0. 21.

(26) Chapter 3 Teoria Bayesiana En este capı́tulo mencionamos las que para nosotros son las principales definiciones y resultados de la teorı́a de probabilidad en términos de la relevancia que poseen para el desarrollo de nuestros objetivos.. 3.1. Definiciones. En esta sección damos las definiciones de la teorı́a de probabilidad que son principales para nuestro desarrollo teórico. Si el lector se encuentra familiarizado con los contenidos de esta sección bien puede saltársela.. 3.1.1. Ensamble. Un Ensamble X es una tripleta de la forma (x, AX , PX ) en donde el resultado x es el valor una variable aleatoria que toma uno de un conjunto de posibles valores AX = {a1 , a2 , .....al } con probabilidades PX = {p1 , p2 , .....pl } en donde P P (x = ai ) = pi , pi ≥ 0 y ai ∈AX P (x = ai ) = 1.. 3.1.2. Probabilidad de un Subconjunto. Si T es un subconjunto de AX entonces:. 22.

(27) X. P (T ) = P (x ∈ T ) =. P (x = ai ). (3.1). ai ∈T. 3.1.3. Joint Ensamble. XY es un ensamble en donde cada realización de la variable aleatoria es una pareja ordenada x, y con x ∈ AX y y ∈ AY . Decimos que P (x, y) es la probabilidad conjunta de x y y.. 3.1.4. Probabilidad Marginal. Podemos obtener la probabilidad marginal P (x) a partir de la probabilidad conjunta mediante una suma, ası́:. P (x = ai ) ≡. X. P (x = ai , y). (3.2). y∈AY. De manera muy similar la probabilidad marginal de y es:. P (y) ≡. X. P (x, y). (3.3). x∈AX. 3.1.5. Probabilidad Condicional. La probabilidad condicional de x dado y se escribe ası́:. P (x = ai | y = bj ) ≡. 3.1.6. P (x = ai , y = bj ) P (y = bj. siP (y = bj ) 6= 0.. (3.4). Independencia. A dos variables aleatorias X y Y se les dice que son independientes si y solo si:. 23.

(28) P (x, y) = P (x)P (y). 3.1.7. (3.5). La entropı́a de un ensamble. La entropia de un ensamble X se define de la siguiente manera :. H(X) =. X. P (x) log. x∈AX. 1 P (x). (3.6). Con la condición para P (x) = 0 de que 0 log 10 ≡ 0.. 3.2. Regla del producto. Se obtiene a partir de la definición de probabilidad condicional:. P (x, y | H) = P (x | y, H)P (y | H) = P (y | x, H)P (x | H). (3.7). En donde H denota las suposiciones en las que están basadas las probabilidades.. 3.3. Regla de la suma. Reescribimos la definición de la probabilidad marginal pero incluyendo la regla del producto y el conjunto de suposiciones H :. P (x | H) =. X. P (x, y | H) =. X. y. y. 24. P (x | y, H)P (y | H).. (3.8).

(29) 3.4. Teorema de Bayes. La obtenemos a partir de la regla del producto:. P (y | x, H) =. 3.5. P (x | y, H)P (y | H) P (x | y, H)P (y | H) =P P (x | H) y0 P (x | y0, H)P (y0 | H). (3.9). Principio de máxima entropı́a. La teorı́a de la información nos provee de un criterio para construir una distribución de probabilidad con base a conocimiento parcial o incompleto, y conlleva a un tipo de inferencia estadı́stica llamado el estimado de máxima entropı́a [3]. Los estimados que se construyen a partir de este principio son los menos sesgados que se pueden hacer basados en la información disponible. Para ilustrar esta técnica empecemos por considerar que la cantidad x es capaz de adoptar valores discretos xi (i = 1, 2..., n). No conocemos las probabilidades correspondientes pi , y la única información que conocemos es el valor esperado de una función f (x):. E{f (x)} =. n X. pi f (xi ).. (3.10). i=1. Y la condición de normalización. X. pi = 1. (3.11). Nuestro problema es el de encontrar una asignación de probabilidades que al tiempo de ser compatible con la información disponible, nos evite proveernos de estimadores sesgados. Para solucionar este problema nos respaldamos en un resultado de la teorı́a de la información, que consiste en el descubrimiento de que existe una criterio único y carente de ambigüedades para la cantidad de incertidumbre representada por una distribución de probabilidad discreta, y que al mismo tiempo es compatible con la noción intuitiva de que una distribución. 25.

(30) dispersa representa más incertidumbre que una distribución picuda o concentrada. En el apéndice () escribimos a grandes rasgos la prueba de Shannon de que la cantidad que es positiva, que crece cuando se incrementa la incertidumbre, y que es aditiva para fuentes independientes de incertidumbre es la siguiente:. H(p1 ....pn ) = −. X. pi ln pi. (3.12). i. Como esta es la misma expresión que se utiliza para la entropá en mecánica estadı́stica se le denominara la entropı́a de la distribución de probabilidad pi . Por ende, en este contexto consideraremos los términos entropı́a e incertidumbre como sinónimos. Ahora, la manera de resolver nuestro problema será encontrando la distribución de probabilidad que maximice la entropı́a sujetos a la información que se tenga. En nuestro ejemplo, tendremos que maximizar la entropı́a sujetos a (3.10) y (3.11), para hacer esto introducimos los multiplicadores de Lagrange de la manera usual para resolver el siguiente problema variacional. X X X d [− pi ln pi − λ( pi − 1) − µ( pi f (xi ) − E{f (x)})] = 0 dpk i i i. (3.13). Con lo que obtenemos el resultado. pi = e−λ−µf (xi ). (3.14). En donde las constantes λ, µ están dadas por las siguientes ecuaciones:. d ln Z(µ) dµ λ = ln Z(µ). E{f (x)} = −. (3.15) (3.16) (3.17). Con Z(µ) dada por. 26.

(31) Z(µ) =. X. e−µf (xi ). (3.18). i. A la que se le denomina, función de partición. Este resultado puede ser generalizado a un número arbitrario de funciones f(x) con sus respectivos valores esperados [3]:. E{fr (x)} =. X. pi fr (xi ),. (3.19). i. Los cuales generan la correspondiente función de partición. Z(λ1 , ..., λm ) =. X. exp{−[λ1 f1 (xi ) + .. + λm fm (xi )]}. (3.20). i. En este caso la distribución de probabilidad de máxima entropı́a es de la forma. pi = exp −[λ0 + λ1 f1 (xi ) + ... + λm fm (xi )]. (3.21). En donde las constantes están determinadas por las siguientes ecuaciones. d ln Z, dλr λ0 = ln Z. E{f (x)} = −. (3.22) (3.23). Este será el formalismo que utilizaremos para construir nuestras funciones de probabilidad. En particular para derivar la función de verosimilitud P ({α}|S(f )) en (1.2), tal como veremos a continuación.. 27.

(32) 3.5.1. Función de Verosimiltud. La generalización del principio de máxima entropı́a a distribuciones multivariadas nos indica [9] que si tenemos un conjunto de N variables aleatorias {F (0) , ..., F (N −1) } con medias E{F (i) }, caracterizadas por una matriz de covarianza M, y no conocemos ninguna otra información adicional, entonces la distribución de máxima entropı́a será. P ({F (0) , ..., F (N −1) }) ∝ exp((F − F̄)T. 1 (F − F̄)) 2M. (3.24). En donde el superı́ndice T indica transpuesta , F es un vector de componentes Fj = F (j) y F̄ es un vector de componentes F̄j = E{F (j) }. La Distribución en este caso no ha sido correctamente normalizada, pero en este caso no nos interesa debido a que una vez obtengamos la distribución P (S(f )|data), ya sea que usemos los Coeficientes de Chebyshev o cualquier otra fuente de información experimental, nuestro problema se reducirá a uno de extremalización. Ahora, prosigamos haciendo la identificación F (i) = y(fi ), en donde las y(fi ) son los muestreos de la transformada discreta de Fourier del proceso x(t). En este caso tendrı́amos que la función de verosimilitud de los datos estarı́a dada por. P ({y(f0 ), ....., y(fN −1 )}|S(f )) = P ({y}|S(f )) ∝ exp(y†. 1 y) 2K. (3.25). En donde hemos utilizado la matriz de covarianza K cuyos componentes estan dados por la ecuación (2.25) de la siguiente manera. Z. 1/2. Kjk = E{y(fj )y(fk )} =. D(fj , v)D(fk , v)S(v)dv.. (3.26). −1/2. De la misma forma, si lo que tenemos es un conjunto de N = 3 variables aleatorias α0 (f ), α1 (f ), α2 (f ) con medias hα0 (f )i, hα1 (f )i, hα2 (f )i dadas por la ecuación (2.63), y matriz de covarianza H determinada por la ecuación (2.64) de. 28.

(33) la siguiente manera: Hjk (f ) = E{αj (f )αk (f )}. (3.27). Con. W. W. dv 0 dv E{αj (f )αk (f )} = hjk √ W 2 − v02 W 2 − v2 −W −W (3.28) En donde hjk es un factor de proporcionalidad que depende de los coeficientes j, k. La función de verosimilitud será entonces: Z. Z. 0. 0. Tj (v /W )Tk (v/W )E{S(f −v )S(f −v)} √. 1 (α(f )−ᾱ(f ))] 2H (3.29) Esta distribución de probabilidad vale para una sola frecuencia, pero en nuestro caso los coeficientes de Chebyshev son calculados para un conjunto discreto de frecuencias, razón por la que debemos encontrar la distribución mas general que tenga en cuenta todos los datos {α}. Para lograr esto vamos a establecer que los coeficientes de Chebyshev en f no se encuentran correlacionados con los coeficientes en otra frecuencias f 0 , con lo que la verdadera función de verosimilitud queda:. P (α0 (f ), α1 (f ), α2 (f )|S(f )) = P ({ α(f )}|S(f )) ∝ exp[(α(f )−ᾱ(f ))T. fN −1. P ({ α(f )}|S(f )) =. Y. P ({ α(f )}|S(f )). (3.30). f =f0. En donde hemos asumido sin perdida de generalidad que las frecuencias f son las mismas que aquellas en las que se muestrean los coeficientes de Fourier {f0 , ..., fN −1 }.. 29.

(34) 3.5.2. Expansion del espectro en funciones ortogonales. La distribución de probabilidad que deseamos encontrar tiene dos componentes (ignorando la constante de normalización), la función de verosimilitud P (data|S(f )) y la distribución prior P (S(f )). Estos dos componentes depende explı́citamente de S(f ), que es una ”variable” que toma sus valores de un espacio de funciones estrictamente positivas. Esto representa un inconveniente en el caso de las funciones de verosimilitud debido a que eventualmente tendremos que involucrar estas distribuciones de probabilidad en un problema de maximización que será imposible de resolver si S(f ) no se encuentra correctamente parametrizado. Por el otro lado, en el caso de la distribución prior P (S(f )) este hecho también supone una gran contrariedad debido a que no existe forma de asignarle separadamente a cada funcion positiva un peso probabilı́stico que nos permita construir una distribución de probabilidad prior bien definida. Es necesario entonces parametrizar el espacio de funciones S(f ), expandiéndolo en digamos M funciones ortogonales como en (1.5).. 0. S (f ) =. M X. βi × ei (f ). (3.31). i=1. Si procedemos de este modo, las funciones S 0 (f ) deberán cumplir. S 0 (f ) ≥ 0. (3.32). Y las expresiones de las ecuaciones (3.25) y (3.29) serán funciones explı́citamente dependientes de los parámetros { β}, al mismo tiempo que la distribución prior podrá escribirse de la forma. P (S(f )) = P ({β1 , ..., βN }) = P ({β}). (3.33). Con lo que finalmente deberı́amos ser capaces de empezar a hacer inferencias probabilistas sobre la forma del espectro S(f ) más probable, dados unos datos.. 30.

(35) La elección adecuada de estas funciones ei y la manera de incluir las restricciones de positividad puede simplificar significativamente el tratamiento matemático, lastimosamente, encontrar estas funciones esta fuera del alcance de esta trabajo.. 31.

(36) Chapter 4 Conclusiones Al utilizar métodos bayesianos en un problema de optimización como este, en el que la estructura del problema obliga a las distribuciones de probabilidad a tener una dependencia explicita de una función continua, y en el que estas distribuciones deber involucrarse en un problema de maximización, siempre se le deberá prestar principal atención a el problema de parametrizar adecuadamente el espacio de funciones sobre el cual se desea solucionar el problema de extremalización. Carencias en este sentido son precisamente la razón por la cual el capitulo 3 el desarrollo se acaba cuando derivamos la forma general de las funciones de verosimilitud P ({data}|S(f )), estas funciones son útiles si lo que queremos es probar cuan probable es S(f ) cuando la identificamos con alguna función bien comportada, pero son inútiles si lo que deseamos es ver cual función maximiza la distribución de probabilidad, porque para esto necesitamos poder derivar la distribución. Ahora, en la ultima sección de este capı́tulo nos dimos cuenta que la situación es aun peor para la distribución prior, porque no existe forma de construirla a grandes rasgos como hicimos con la función de verosimilitud, esta distribución solo puede nacer si ya tenemos una parametrización del espacio de funciones con sus respectivas restricciones de positividad. El panorama para el futuro, si queremos comprobar que nuestro planteamiento es correcto, será el de encontrar el conjunto de funciones que parametrizen adecuadamente el espacio de funciones S(f ), y encontrar la manera de incluir las restricciones de positividad, elemento que le añade una singular dificultad a esta. 32.

(37) empresa. Con esto entre manos será posible construir las distribuciones priores, de acuerdo a criterios que también necesitan ser diseñados, y será posible ver si el formalismo entero tiene algún nivel de veracidad. En todo caso, también será recomendable volver al contenido del capı́tulo 2 y re derivar, de ser necesario, nuevas y más refinadas expresiones analı́ticas, para las propiedades estadı́sticas de lo que queramos usar como datos en nuestro modelo. Por último quiero resaltar que en el desarrollo de este trabajo se pudo evidenciar como el principio de máxima entropı́a constituye una herramienta fundamental cuando se quieren analizar modelos que tratan con procesos estocásticos (como el análisis espectral multiventanas) mediante el uso de distribuciones de probabilidad que implementen explı́citamente un formalismo bayesiano.. 33.

(38) Bibliography [1] Donald B. Percival, Andrew T. Walden. Spectral Analysis for Physical Applications : Multitaper and Conventional Univariate Techniques(1993), Cambridge University Press. [2] David J. Thomson. Spectrum Estimation and Harmonic sis,Proceedings of the IEEE, Vol.70, No.9, September(1982). Analy-. [3] E.T. Jaynes. Information Theory and Statistical Mechanics, Brandeis Summer Institute in Theoretical Physics, K. Ford, Editor, Benjamin, 1963. [4] Slepian, D. Prolate spheroidal wavefunctions, Fourier analysis, and uncertainty V: the discrete case(1978), Bell System Tech, J., 57, 1371-1429. [5] G. Larry Bretthorst. Bayesian Spectrum Analysis and Parameter Estimation(1988), Springer-Verlag. [6] David J. C. Mackay Information Theory, Inference, and Learning Algorithms(2003), Cambridge University Press. [7] Prieto, G. A., R. L. Parker, D. J. Thomson, F. L. Vernon, and R. L. Graham. Reducing the bias of multitaper spectrum estimates, Geophys. J. Int., 171, 1269-1281. [8] Prieto, G. A., D. J. Thomson, F. L. Veron.The time-derivatives of the spectrum using the Non-stationary Quadratic Inverse Theory,Geophysics Journal International, 142, 000-000.. 34.

(39) BIBLIOGRAPHY. [9] Guiasu, S. and Shenitzer, A.,The principle of maximum entropy,1985, The Mathematical Intelligencer, 7(1), 42-48. [10] Thomson D.J.An overview of Multiple-Window and Quadratic-Inverse Spectrum Estimation Methods,ICASSP-94 VI. 185-194. [11] P. Mitra ,H. Bokil. Observed Brain Dynamics (2007) Cold Spring Harbor Laboratory, NY, pp. 408 [12] Dahlen, F. A., and F. J. Simons. Spectral estimation on a sphere in geophysics and cosmology (2008) Geophysical Journal International [13] Hazewinkel,M. Encyclopaedia of Mathematics (Volume 1) (Ed.), Vol. 1, Kluwer (1987) ISBN 1-55608-000-X. 1, 6, 18 9, 10, 14, 18 25, 27. 35.

(40) BIBLIOGRAPHY. 16 2 2, 13, 14 28 iii, 2 iii, 2. 36.

(41)