5.3. Informaci´ on y cota de Cram´ er–Rao

Las familias habituales de funciones de masa/densidad son todas inestables, con la notable excepción de la uniforme: unif[0, a] con espacio de parámetros a ∈Θ = (0,+∞) y con sop= [ 0, tot]. En las secciones que siguen, introduciremos los conceptos de variable de información y cantidad de información de una variable X para luego presentar y estudiar uno de los resultados centrales del curso: el límite de Cram'er-Rao. Información y cantidad de información de una variable Para promediar la cantidad anterior, ∂θlnf(x;θ), sobre muestras x, primero consideramos la variable aleatoria Y dada por.

Veamos cómo se obtiene la variable información y cómo se calcula la cantidad de información en los modelos más habituales. Antes de estudiar cómo interviene la cantidad de información IX(θ) en el límite de Cram´er-Rao, tema del siguiente apartado 5.3.2, nos detenemos un momento en un análisis de los resultados de tres de los anteriores . ejemplos, para percibir mejor el significado de la cantidad de información. Zn se conoce como la variable de información (total) de la muestra. La varianza Vθ(Zn) de la información (total) Zn se conoce como la cantidad de información (total) en la muestra.

La cota de Cram´ er–Rao

La cota es válida para todos los estimadores insesgados: siempre hay una cierta distribución (varianza), al menos la dada por la cota de Cram´er-Rao. A un estimador insesgado T del parámetro θ cuya varianza es exactamente el límite de Cram'er-Rao, es decir, tal que.

Ejemplos de cotas de Cram´ er–Rao y estimadores eficientes

La relevancia de este resultado es que este límite inferior para la varianza de T como estimador depende de la distribución de X directamente y de θ, y no del estimador. Como ya vimos en el Ejemplo 5.1.10, para la cuasivarianza muestral S2, que es un estimador insesgado de θ, tenemos El estimador de máxima verosimilitud T de θ (y también uno de los estimadores de momento), véase el ejemplo 5.2.9, viene dado por T = (1/2)X2.

Complementos sobre la cota de Cram´ er–Rao

El siguiente resultado muestra una especie de límite de Cram'er-Rao para estimadores sesgados o no sesgados. En la expresión anterior, escribimos en el lado izquierdo todo lo que depende del estimador T. Ahora el límite para la varianza de T es un poco menos interesante que en el caso insesgado, ya que no depende solo de la función de densidad f ( x ;θ).

El siguiente resultado nos da una expresión para el estimador eficiente, si existe. Nótese, lector, que implícita en el enunciado está la hipótesis de que existe tal estimador eficiente. Xn) que depende únicamente de la muestra y en la que, por supuesto, el parámetro no puede aparecer.

En la expresión del teorema 5.9, el parámetro θ aparece en Zn, en IX(θ), y también en la sumatoria θ. Entonces esta expresión para T solo será útil si, como por arte de magia, todas estas ocurrencias de θ se anulan y T no depende de θ. En el Ejemplo 5.3.11 sobre el límite de Cram´er-Rao y los estimadores eficientes para N(μ0, σ2), con μ0 conocido, vimos que el estimador natural S2 no era un estimador eficiente de σ2.

Por lo tanto, por la Proposición 5.9, el estimador eficiente, si existe, debe escribirse como. Condiciones para el lema de Diotivede y el teorema de Cram´er-Rao En el argumento que nos llevó al lema de Diotivede 5.4 en el caso de que.

Condiciones para el lema de Diotivede y el teorema de Cram´ er–Rao En el argumento que nos condujo al lema 5.4 de Diotivede en el caso en que la

Como f(x;θ+δ) y f(x;θ) son funciones de densidad, . Dado que el lado izquierdo no depende de δ y, por la hipótesis 2), la integral. Para el caso en que X es una variable aleatoria discreta pétrea (infinita), el resultado es el mismo, sustituyendo la condición [dio] por el enunciado. Estas condiciones [dio] o [dio] se cumplen para todas las baterías de modelos para X que se utilizan en la práctica.

En la demostración del teorema 5.6 de Cram´er-Rao, en el caso de soporte finito, además de derivar la función de densidad como en el lema de Diotivede, también se deriva la identidad. La condición [dio] nos da que Eθ(Y) = 0 y Eθ(Zn) = 0, mientras que la condición [cr] nos permite derivar bajo el signo integral análoga a la demostración del lema 5.10 de Diotivede. Para variables discretas (de soporte infinito) la condición [cr] se traduce en que para cualquier intervalo cerrado I ⊂Θ se debe.

Soporte dependiente del par´ ametro

Comportamiento asint´ otico de estimadores

Xn) de tamaño genérico de una variable X con función masa/densidad f(x;θ), con la que construimos estimadores del parámetro θ. Ahora queremos analizar precisamente el papel de n, el tamaño de la muestra, en la confianza que puede haber en estas estimaciones. Porque esperamos que cuanto mayor sea el tamaño de la muestra, más información tendremos sobre la fuente aleatoria X, y en particular que si los estimadores están "bien diseñados", todavía podrán estimar el parámetro para refinar más y más. más de importancia.

Por tanto, es interesante analizar el comportamiento de una sucesión de variables aleatorias (Tn) como estimadores (secuenciales) de θ, con el objetivo de determinar si el estimador mejora realmente a medida que aumenta el tiempo. Decimos que la secuencia (Tn) de estimadores del parámetro θ (donde cada Tn es una función de (X1,. Esto significa que para n grande, la probabilidad de que Tn pierda incluso ε del valor verdadero de θ es casi cero).

Para tal secuencia de estimadores, estaremos muy seguros (mucho dinero) de que la estimación de θ conTn será buena. Para establecer la consistencia de una secuencia de estimadores, y de paso determinar su tasa de convergencia, existen varias alternativas. En otros (pocos) casos tendremos fórmulas claras para determinar la probabilidad Pθ(|Tn−θ| ≥ε), como veremos en el apartado B.

Pero, sin duda, el procedimiento más poderoso y común consistirá en confiar en resultados asintóticos generales, como el teorema del límite central, para derivar buenas estimaciones de la probabilidad previa. Explicaremos brevemente este procedimiento en el apartado C, y luego dedicaremos los apartados 5.4.1 y 5.4.2 a ilustrar su uso en el análisis de estimadores obtenidos por momentos y por máxima verosimilitud.

Varianzas, errores cuadr´ aticos y Chebyshev/Markov

La media muestral y la cuasivarianza, como estimadores consistentes de la media y la varianza de X. Para indicar la dependencia del tamaño de la muestra, escribimos X(n) y S(2n) para la media muestral y la cuasivarianza, respectivamente. Por el Lema 5.13 tendríamos que (Tn) es una sucesión consistente de estimadores de a; aunque la tasa de convergencia sería ahora del orden de 1/n2.

Ahora bien, Tn no sería un estimador insesgado, pero tanto el sesgo como la varianza tienden a 0 cuando n→.

A partir de la distribuci´ on exacta del estimador

Asumiendo los argumentos que detallaremos en la sección C, observamos que χ2n−1 es la suma de n−1 variables independientes, todas con la misma distribución (en realidad normal estándar al cuadrado), y su expectativa es n−1 y su varianza 2 ( n−1). Por el teorema del límite central, tenemos que si u es grande, en el sentido de que las funciones de distribución son cercanas), lo que nos da,. El estimador Mn está sesgado, pero es asintóticamente insesgado ya que su media, como ya sabemos, es Ea(Mn) = nn+1a. Xn) conocemos la distribución exacta (Ejemplo 5.1.7), lo que nos permite escribir

Entonces no solo Mn es consistente, sino que la probabilidad de error de estimación converge exponencialmente a 0. Es decir, con esta normalización tenemos una distribución exacta en el límite, que especifica el error que se puede cometer al estimar con Mn. En los ejemplos anteriores, la tasa de consistencia se expresa en términos de laN(0,1), laχ2n y laexp(1).

Mediante aproximaciones asint´ oticas generales

Comportamiento asint´ otico de los estimadores de m´ axima verosimilitud

El primer resultado que veremos, la convergencia reportada en (5.29), justifica en gran medida el concepto de máxima verosimilitud. Estamos en el contexto habitual de muestras de tamaño de una variable X con función densidad/masa f(x;θ), con θ∈Θ. Tenemos una muestra (x1, . . . , xn) producida con la distribución correspondiente al parámetro θ0.

Ley fuerte de los grandes números, aplicada a la continuidad de variables independientes e idénticas. De este resultado se extrae la siguiente conclusión, en la que se comparan las probabilidades para un conjunto finito de valores de parámetros posibles. Su complemento es la unión (finita) de los complementos de cada una de estas condiciones, y estos conjuntos complementarios tienen probabilidades que tienden, por el Teorema 5.17, a 0 kurn→.

Tenga en cuenta que esta consecuencia nos dice que si el espacio de parámetros Θ es finito, entonces vero(θ;X) para n grande tiene, con una probabilidad muy alta, un máximo estricto (único) en el valor verdadero θ0 del parámetro. Ahora necesitamos usar el Resultado 5.18 para establecer un resultado de consistencia para (la secuencia de) los estimadores de máxima verosimilitud del parámetro θ, lo que requerirá algunas hipótesis adicionales que esencialmente se reducen a que la función de verosimilitud sea, para cada muestra, suficientemente regular y tiene un máximo único, por lo que el término estimador de máxima verosimilitud tiene sentido. Ya hemos visto algunos ejemplos en los que la función de verosimilitud puede tener más de un máximo (dejando ambigua la propia definición de estimación de máxima verosimilitud), no se puede derivar, etc. Estas situaciones quedan descartadas por las condiciones 1), 2) y 5), como en el otro lado se cumple en muchos de los ejemplos habituales.

De hecho, los estimadores de máxima verosimilitud tienen asintóticamente otras buenas propiedades más allá de la consistencia recogida en el Teorema 5.19. Denotamos nuevamente por emv(θn). Xn) al estadístico que nos da la estimación de máxima verosimilitud del parámetro θ de la variable X para una muestra aleatoria (X1,.