Intervalos de Confianza
7.1.
Introducci´
on
Con las herramientas que construimos en los cap´ıtulos pasados, sabemos que si nuestra poblaci´on de inter´es sigue una distribuci´on N (µ, 1) y extraemos una m.a. X1, X2, X3, X4, entonces el mejor
estimador para µ que podemos construir con la informaci´on proveniente de la m.a. es ¯X; sin embargo, la probabilidad de que estimemos a µ correctamente con ¯X es P ( ¯X = µ) = 0. Si en lugar de estimar puntualmente a µ, la estimamos con un intervalo, por ejemplo; [ ¯X −1, ¯X +1]. Entonces, la probabilidad de que cubramos a µ con el intervalo [ ¯X − 1, ¯X + 1] ser´ıa 1:
P (µ ∈ [ ¯X − 1, ¯X + 1]) = P ( ¯X − 1 ≤ µ ≤ ¯X + 1) = P (−1 ≤ ¯X − µ ≤ 1) = P ( −1 1/√4 ≤ ¯ X − µ 1/√4 ≤ 1 1/√4) = P (−2 ≤ Z ≤ 2) = P (Z ≤ 2) − P (Z ≤ −2) = P (Z ≤ 2) − [1 − P (Z ≤ 2)] = 2P (Z ≤ 2) − 1 = 0.9544997
Esto implica, que con una probabilidad de .95, el intervalo [ ¯X − 1, ¯X + 1] cubrir´a a µ, as´ı, sac-rificando precisi´on en la estimaci´on al utilizar un intervalo en vez de una estimaci´on puntual, hemos ganado una garant´ıa en t´erminos de probabilidades.
En la pr´actica no podemos usar ¯X como estimaci´on de µ, as´ı como tampoco podremos utilizar el intervalo [ ¯X − 1, ¯X + 1], ya que los dos dependen de la v.a. ¯X y por lo tanto uno es una v.a. y el otro es un intervalo aleatorio. Lo que se hace es utilizar el estimado ¯X = ¯x, de donde obtenemos el intervalo [¯x − 1, ¯x + 1]; sin embargo, claramente ´este no ser´ıa un intervalo aleatorio, sino un intervalo fijo que depender´ıa del valor observado en la m.a. y por lo tanto, no se puede afirmar que con una probabilidad de .95, el intervalo [¯x −1, ¯x+1] cubrir´a a µ (podemos calcular este tipo de probabilidades 1Tenemos que ser cuidadosos en este punto pues µ es una cantidad fija, desconocida, pero fija, y la variable aleatoria
es ¯X. Entonces no podemos decir, la probabilidad de que µ caiga dentro del intervalo el intervalo [ ¯X − 1, ¯X+ 1], tenemos que decir la probabilidad de que el intervalo [ ¯X − 1, ¯X+ 1] cubra a µ. El intervalo es aleatorio y µ es un par´ametro fijo.
para variables aleatorias, m´as no para cantidades fijas, lo m´as que se podr´ıa decir es que la probabili-dad anterior es cero o uno). Sin embargo, se puede ver que si obtenemos muchas muestras, digamos, m, cada una de tama˜no n (en este caso n = 4), entonces, en t´erminos de frecuencias, alrededor del (.95)(m) de los intervalos contendr´an al valor verdadero µ, si lo vi´eramos en t´erminos de porcentajes, entonces, llegar´ıamos a que alrededor del 95 % de los intervalos contendr´ıan a µ. Lo anterior se puede verificar f´acilmente realizando una simulaci´on.
Supongamos que nuestra poblaci´on se comporta como una N (µ, 1) con µ = 6.3. Entonces, para realizar la simulaci´on generamos m = 10, 000 m.a. de tama˜no n = 4, cada una proveniente de la poblaci´on N (6.3, 1) as´ı, para cada muestra construimos el intervalo [¯x − 1, ¯x + 1] y contamos cu´antas veces cae µ = 6.3, en el intervalo respectivo. Con esto podemos calcular el porcentaje de intervalos que efectivamente contienen a µ. Al realizar el experimento en R, se obtuvo que el porcentaje de intervalos que contuvieron a µ fue de 95.2 % que si por un momento lo vi´eramos como una probabilidad, se aproximar´ıa mucho a lo que se obtuvo previamente. El histograma para las medias, junto con la distribuci´on de muestreo (la normal N (6.3, 1/4)) se muestra en la figura 7.1.
Medias Frecuencias Relativas 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Figura 7.1: Histograma para las medias de las 10, 000 m.a. junto con la distribuci´on de muestreo. A continuaci´on se define formalmente lo que entenderemos como intervalo de confianza.
Definici´on (Intervalo de Confianza)
Sea X1, X2, . . . , Xn una m.a. de fX(x|θ). Sean L(X) =
L(X1, X2, . . . , Xn) y U (X) = U (X1, X2, . . . , Xn) dos estad´ısticas
tales que L(X) ≤ U(X) ∀ X = (X1, X2, . . . , Xn) para las cuales
P (L(X) ≤ τ(θ) ≤ U(X)) = γ
en donde γ no depende de θ; entonces al intervalo aleatorio [L(X), U (X)] se le llama intervalo del γ100 % de confianza para τ (θ)
Observaci´on 1 A γ se le llama coeficiente de confianza y al intervalo [L(x), U (x)] en donde x = (x1, x2, . . . , xn) son los valores observados en la muestra, tambi´en se le llama intervalo de confianza
del γ100 % para τ (θ).
Observaci´on 2 Si podemos encontrar un intervalo de confianza para θ y τ es una funci´on mon´otona (creciente o decreciente) entonces podemos encontrar f´acilmente el intervalo de confianza para τ (θ). Observaci´on 3 De aqu´ı en adelante denotaremos a (X1, X2, . . . , Xn) y (x1, x2, . . . , xn) como X y x
respectivamente.
En lo que resta de este cap´ıtulo describiremos varios m´etodos para construir intervalos de confianza para τ (θ) (cualquier funci´on de θ que pudiera interesarnos), en donde, como siempre, supondremos que conocemos fX(x|θ), la distribuci´on que modela el comportamiento de nuestra poblaci´on y para
alcanzar nuestros fines utilizaremos como herramienta principal la informaci´on de X1, X2, . . . , Xnuna
m.a. proveniente de fX(x|θ). Como ya es costumbre en inferencia estad´ıstica, desarrollaremos estos
m´etodos a detalle en el caso de una distribuci´on normal en donde los par´ametros de inter´es ser´an µ y σ2.
Observaci´on 4 Para entender c´omo se construyen los intervalos para µ y σ2 en el caso de una poblaci´on normal, es muy importante el material de la secci´on 5.3 (distribuciones derivadas de la normal), esta secci´on contiene la definici´on de los cuantiles de la normal, la Ji-cuadrada, la T de Student y la F de Fisher, tal y como se manejar´an en estas notas, adem´as de transformaciones que ser´an muy importantes para construir intervalos de confianza para varias cantidades de inter´es en el caso de una poblaci´on normal.
7.2.
M´
etodo Pivotal
Uno de los m´etodos m´as usados para encontrar intervalos de confianza es el m´etodo pivotal. Para describir este m´etodo necesitaremos la siguiente
Definici´on (Cantidad Pivotal)
Sea X1, X2, . . . , Xn una m.a. de fX(x|θ). Sea Q = q(X|θ) (una funci´on
de la m.a. y de θ) si la distribuci´on de Q no depende de θ y no es funci´on de ning´un par´ametro desconocido. Entonces Q es una cantidad pivotal para θ.
Observaci´on 5 Para saber si Q = q(X|θ) es una cantidad pivotal para θ es esencial saber c´omo se distribuye Q.
Ejemplo 1 Sea X1, X2, . . . , Xn una m.a. de una N (µ, σ20) (σ20 conocida) Q1 = ¯ X − µ σ0 √n ∼ N(0, 1)
Como Q1 es funci´on de la m.a. y su distribuci´on no depende de µ ni de ning´un par´ametro desconocido,
entonces Q1 es una cantidad pivotal para µ. ||
A continuaci´on se describe de forma general la implementaci´on del m´etodo pivotal para encontrar un intervalo de confianza para θ.
Sea X1, X2, . . . , Xn una m.a. de fX(x|θ)
1. Se encuentra una cantidad pivotal Q = q(X|θ) para θ. 2. Sea 0 < γ < 1 fijo, encontramos q1 y q2 tales que q1≤ q2 y
P (q1 ≤ Q ≤ q2) = γ
3. Se pivotea Q de forma que obtengamos
P (L(X) ≤ θ ≤ U(X)) = γ Entonces, [L(X), U (X)] es un intervalo del γ100 % de confianza para θ.
Vamos a utilizar el m´etodo pivotal para encontrar intervalos de confianza para µ y σ2 en el caso de la distribuci´on normal.
7.2.1. Muestreando de la Distribuci´on Normal
La fdp normal ocupa un papel central en la inferencia estad´ıstica, por lo que conviene desarrollar detalladamente los m´etodos para encontrar intervalos de confianza para µ y σ2. En toda esta parte utilizaremos una m.a. X1, X2, . . . , Xn de una N (µ, σ2).
Intervalo de Confianza para µ Caso en el que σ2 es conocida.
Sabemos que X−µ¯σ
√n ∼ N(0, 1), entonces ya tenemos nuestra cantidad pivotal (estamos en el caso en el que σ2 es conocido). Ahora s´olo hay que encontrar a y b tales que
1 − α = P (a < X − µ¯ σ √n < b) para 0 < α < 1 (7.1) = P ( ¯X − b√σ n < µ < ¯X − a σ √n) (7.2)
El intervalo que utilizaremos para realizar inferencias acerca de µ vendr´ıa dado por (7.2), sin embargo, necesitamos encontrar el a y b que cumplan con (7.1). En R hay muchos valores para a y b que cumplen con (7.1). Para fijar ideas y mostrar que esto es as´ı; tomemos 1 − α = 0.90, con este valor en particular, en la tabla siguiente presentamos algunos valores para a y b tales que P (a ≤ Z ≤ b) = P (Z ≤ b) − P (Z ≤ a) = 0.90 con Z ∼ N(0, 1)
a b P (Z ≤ a) P (Z ≤ b) P (Z ≤ b) − P (Z ≤ a) b − a
-1.43 1.98 0.0763 0.9763 .9 3.41
-1.9 1.46 0.0287 0.9287 .9 3.36
-1.65 1.65 0.05 0.95 .9 3.30
entonces lo que tenemos que hacer es encontrar el a y b que cumplan con (7.1) y que hagan m´ınima la longitud del intervalo en (7.2), pues mientras m´as chico sea el intervalo vamos a tener m´as informaci´on acerca de µ. La longitud del intervalo es l = (b −a)√nσ , sin embargo, la cantidad
σ
√n esta fija y lo ´unico que var´ıa es b − a, entonces vamos a minimizar l = b − a sujeto a (7.1).
Pero l claramente es una funci´on de a, pues si a se mueve, b autom´aticamente tiene que ajustarse para cumplir con la condici´on de que la probabilidad de que la cantidad pivotal est´e entre a y b sea 1 − α. En la figura 7.2 a continuaci´on, se muestran dos gr´aficas de la N(0, 1) de forma que entre a1 y b1 hay un ´area de 1 − α debajo de la curva y si movemos a1 a a2 para conservar el
´
area de 1 − α, b1 se tiene que mover a b2.
z fZ ( z ) 1− α a1 b1 z fZ ( z ) 1− α a2 b2
Figura 7.2: Gr´aficas de la distribuci´on N (0, 1) al mover a1 a a2manteniendo un ´area de 1−α constante
Entonces, para encontrar el intervalo de longitud m´as peque˜na, que ser´a el que nos llevar´a a la elecci´on ´optima de a y b tenemos que resolver el siguiente problema:
min l(a) = min b(a) − a
s.a.
Z b(a)
a
fZ(z)dz = 1 − α
Para facilitar un poco las cosas podemos hacer lo siguiente:
Z b(a)
a
fZ(z)dz = 1 − α (7.3)
⇔ FZ(b(a)) − FZ(a) = 1 − α (7.4)
⇔ ∂a∂ [FZ(b(a)) − FZ(a)] = 0 (7.5)
⇔ fZ(b(a))
∂b(a)
∂a − fZ(a) = 0 (7.6)
⇔ ∂b(a)∂a = fZ(a) fZ(b(a))
(7.7) En donde la ecuaci´on (7.4) es simplemente ver (7.3) utilizando funciones de distribuci´on. La ecuaci´on (7.6) es resultado de derivar y aplicar el Teorema Fundamental del C´alculo a (7.4). Para obtener (7.7) simplemente despejamos ∂b(a)∂a de (7.6) (pues tenemos una ecuaci´on igualada a cero). Entonces podemos reescribir el problema original como:
min l(a) = min b(a) − a (7.8)
s.a. (7.9) ∂b(a) ∂a = fZ(a) fZ(b(a)) (7.10)
Para resolver el problema anterior, derivamos l(a) con respecto a a e igualamos a cero.
∂l(a) ∂a = ∂b(a) ∂a − 1 = 0 ⇔ ∂b(a) ∂a = 1
Sustituyendo en la restricci´on (7.10) tenemos que
⇒ ffZ(a)
Z(b(a))
= ∂b(a)
∂a = 1
⇔ fZ(a) = fZ(b(a))
Como Z ∼ N(0, 1), esto puede pasar si y s´olo si a = b ´o a = −b (ya que la N(0, 1) es sim´etrica), pero 1 − α > 0 pues 0 < α < 1, entonces a = −b.
As´ı, para encontrar a y b en (7.1) hacemos a = −b y desarrollamos: 1 − α = P (−b < X − µ¯ σ √n < b) = P (−b < Z < b) = P (Z ≤ b) − P (Z ≤ −b) = P (Z ≤ b) − (1 − P (Z ≤ b)) = 2P (Z ≤ b) − 1 ⇔ P (Z ≤ b) = 1 − α2
Por lo que fijando α, b queda determinado autom´aticamente, pues sabemos que b = zα/2, el cuantil α/2 de una N (0, 1). En la figura 7.3 mostramos c´omo se ve este cuantil.
z fZ ( z ) α2 1− α2 zα2
Figura 7.3: Gr´afica del cuantil zα/2 de la distribuci´on N (0, 1)
Entonces, sustituyendo el valor de b = zα/2 y a (tomando en cuenta que a = −b) en la ecuaci´on (7.2), llegamos a que el intervalo de confianza ´optimo del (1 − α)100 % para µ con σ2 conocida es ( ¯X − zα/2√σ n, ¯X + zα/2 σ √n) Caso en el que se desconoce σ2 (esta construcci´on se utiliza mucho en regresi´on).
Sabemos que X−µ¯σ
√n ∼ N(0, 1) y que
(n−1)S2
σ2 ∼ χ2n−1 (ver secci´on 5.3 corolario 1) como tenemos una m.a. de una N (µ, σ2), ambas cantidades son independientes y por lo tanto:
¯ X − µ σ/√n q (n−1)S2 σ2 /(n − 1) = q N (0, 1) χ2n−1/n − 1 = X − µ¯S √n ∼ Tn−1 (7.11)
en donde S2 =
Pn
1(Xi−X)¯ 2
n−1 . Claramente en la segunda parte de (7.11) estamos cometiendo un
abuso de notaci´on, sin embargo, esta transformaci´on es tan importante que es preferible cometer algunos abusos para que el desarrollo quede claro a omitir pasos y que queden dudas acerca de la construcci´on.
Ya tenemos nuestra cantidad pivotal, entonces hay que encontrar a y b de forma que la longitud del intervalo dado por
P (a < X − µ¯ S
√n < b) = 1 − α para 0 < α < 1
sea m´ınima, sin embargo ya que la Tn−1 tiene una fdp sim´etrica y se comporta de forma similar a la N (0, 1) llegar´ıamos (de forma totalmente an´aloga al caso en el que σ2 era conocida) a que
la mejor opci´on para a y b es tomar a = −b y por lo tanto el intervalo de confianza ´optimo del (1 − α)100 % para µ ser´ıa: ( ¯X − tα/2,n−1√S n, ¯X + tα/2,n−1 S √ n)
En donde ahora, en lugar de los cuantiles de una una normal est´andar, tenemos los cuantiles de
una T de Student con n − 1 grados de libertad.
Intervalo de Confianza para σ2 1. Caso en el que µ es conocida.
La cantidad pivotal es
Pn
1(Xi−µ)2
σ2 ∼ χ2n. Formalmente, para elegir el a y b ´optimos, se deber´ıa proseguir como con los intervalos de confianza para µ, sin embargo, este camino no tiene una soluci´on anal´ıtica sencilla, por lo que en la pr´actica no se encuentra el intervalo con amplitud m´ınima, sino el que deja colas iguales a α2, as´ı el intervalo de confianza del (1 − α)100 % para σ2
con µ conocida se obtiene al trabajar con
1 − α = P (χ21−α/2,n < Pn 1(Xi− µ)2 σ2 < χ 2 α/2,n) = P Pn 1(Xi− µ)2 χ2α/2,n < σ 2 < Pn 1(Xi− µ)2 χ21−α/2,n ! ⇔ σ2 ∈ Pn 1(Xi− µ)2 χ2 α/2,n , Pn 1(Xi− µ)2 χ2 1−α/2,n !
2. Caso en el que µ es desconocida.
Cambia la cantidad pivotal a (n−1)Sσ2 2 ∼ χ2n−1 y por la misma justificaci´on dada en el caso anterior, el intervalo de confianza del (1 − α)100 % para σ2 con µ desconocida es:
(n − 1)S2 χ2 α/2,n−1 , (n − 1)S 2 χ2 1−α/2,n−1 ! Intervalo de Confianza para la Diferencia de Medias
de dos Poblaciones Normales
Sean X1, X2, . . . , Xn una m.a. de una N (µ1, σ2) y Y1, Y2, . . . , Ym una m.a. de una N (µ2, σ2) en
donde σ2 es desconocida y las dos muestras son independientes entre s´ı y lo que se quiere es un inter-valo de confianza del (1 − α)100 % para µ2− µ1.
La idea es encontrar una cantidad pivotal para µ2− µ1, entonces es claro que se tiene que trabajar
con ¯Y − ¯X. Lo primero que se tiene que tomar en cuenta es que ¯X ∼ N(µ1, σ2/n) y ¯Y ∼ N(µ2, σ2/m),
ahora hay que obtener la distribuci´on de ¯Y − ¯X.
Proposici´on 1 Sea W ∼ N(µ1, σ12) y V ∼ N(µ2, σ22) con W y V independientes entre s´ı ⇒ V − W ∼
N (µ2− µ1, σ21+ σ21).
Se tiene que MW(t) = E[eW t] = eµ1t+
σ2 1t2 2 y MV(t) = E[eV t] = eµ2t+ σ2 2t2 2 , entonces MV −W(t) = E[e(V −W )t] = E[eV te−W t] (7.12) = E[eV t]E[e−W t] = eµ2t+ σ2 2t2 2 e−µ1t+ σ2 1t2 2 (7.13) = e(µ2−µ1)t+ (σ21 +σ2 2 )t2 2 (7.14) ⇒ V − W ∼ N(µ2− µ1, σ21+ σ12) (7.15)
En donde la igualdad (7.13) es debida a la independencia entre V y W .
Aplicando la proposici´on anterior a ¯Y − ¯X, se tiene que ¯Y − ¯X ∼ N(µ2− µ1, σ2(1n+m1)), entonces
estandarizando; Y − ¯¯ X−(µ2−µ1)
σq(1n+ 1
m)
∼ N(0, 1), sin embargo, aunque la distribuci´on de esta cantidad no de-pende de µ, no puede ser una cantidad pivotal ya que dede-pende de la cantidad desconocida σ2.
Por otro lado, sabemos que
Pn
1(Xi−X)¯ 2
σ2 ∼ χ2n−1 y que
Pm
1(Yi−Y )¯ 2
σ2 ∼ χ2m−1 adem´as, como las muestras son independientes, estas estad´ısticas tambi´en son independientes entre s´ı, por lo que
Pn 1(Xi− ¯X)2+ Pm 1 (Yi− ¯Y )2 σ2 ∼ χ 2 n+m−2
⇒ ¯ Y − ¯X−(µ2−µ1) σ q (n1+ 1 m) qPn 1(Xi−X)¯ 2+P m 1 (Yi−Y )¯ 2 (m+n−2)σ2 (7.16) = Y − ¯¯ X − (µ2− µ1) Sp q (n1 +m1) ∼ tm+n−2 (7.17) En donde S2p = Pn 1(Xi−X)¯ 2+P m 1 (Yi−Y )¯ 2
n+m−2 . Claramente (7.17) es una cantidad pivotal ya que su
distribuci´on no depende de µ2− µ1 y no es funci´on de ning´un par´ametro desconocido. As´ı, llegamos a:
P (−tα/2,m+n−2≤ ¯ Y − ¯X − (µ2− µ1) Sp q (n1 +m1) ≤ tα/2,m+n−2) = 1 − α
Pivoteando de la ecuaci´on anterior, tenemos que el intervalo de confianza del (1 − α)100 % para µ2− µ1, est´a dado por
( ¯Y − ¯X) ∓ tα/2,m+n−2Sp s 1 n + 1 m
7.3.
Intervalos Asint´
oticos
El m´etodo asint´otico para encontrar intervalos de confianza se basa en el m´etodo pivotal y en el siguiente:
Teorema 1 Si fX(x|θ) satisface ciertas condiciones de regularidad (las del teorema de la cota inferior
de Cr´amer-Rao) y si ˆθn(X) = ˆθ(X1, X2, . . . , Xn) es el estimador m´aximo veros´ımil de θ para una m.a.
de tama˜no n, entonces ˆ θn(X)∼ N(θ, σa 2n(θ)) En donde σn2(θ) = 1 −nEhdθd22 ln fX(X|θ) i
Lo que este teorema nos dice es que a medida que n crece, de forma asint´otica (∼) ˆa θn(X) se va
a distribuir aproximadamente como una normal. Utilizando este resultado, para tama˜nos de muestra suficientemente grandes, podemos emplear
ˆ
θn(X) − θ
σn(θ) ∼ N(0, 1)
como una cantidad pivotal y as´ı construir un intervalo de confianza asint´otico para θ.
Observaci´on 6 Para hacer expl´ıcito que el estimador m´aximo veros´ımil, ˆθ, depende de la m.a. y de n, el tama˜no de la m.a., en el teorema anterior lo denotamos como ˆθn(X), sin embargo, en lo sucesivo
Ejemplo 2 Sea X1, X2, . . . , Xn una m.a. de
fX(x|θ) = θe−θx
para 0 < x < ∞ y θ > 0.
Para calcular el intervalo asint´otico para θ, tomamos en cuenta que ˆθ = X1¯ y que
σn2(θ) = 1
−nEhdθd22ln fX(X|θ)
i = θ2
n
Por lo que, por el Teorema 1,
1 ¯ X − θ θ √n a
∼ N(0, 1) entonces para n suficientemente grande
P (−zα/2< 1 ¯ X − θ θ √ n < zα/2) = 1 − α
pivoteando sobre θ y haciendo algunos manejos algebraicos se llega a que el intervalo asint´otico del (1 − α)100 % de confianza para θ es
√ n (√n + zα/2) ¯X , √ n (√n − zα/2) ¯X ! || Ejemplo 3 Sea X1, X2, . . . , Xn una m.a. de
f (x|p) = px(1 − p)1−x
El estimador m´aximo veros´ımil de p es ˆp = ¯X y σn2(p) = p(1−p)n . Entonces, un intervalo de confianza asint´otico para p del (1 − α)100 % vendr´ıa dado por:
P (−zα/2< ¯ X − p q p(1−p) n < zα/2) = 1 − α (7.18)
Sin embargo, pivotear p de (7.18) es un poco complicado, adem´as, al final para n suficientemente grande muchos t´erminos se pueden despreciar por lo que en lugar de trabajar con σ2n(p) se usa σ2n(ˆp), entonces 1 − α = P −zα/2< ¯ X − p q ¯ X(1− ¯X) n < zα/2 (7.19) ⇒ X − z¯ α/2 r ¯X(1 − ¯X) n , ¯X + zα/2 r ¯X(1 − ¯X) n ! (7.20)
7.4.
Pivoteando la Funci´
on de Distribuci´
on
Para construir un intervalo de confianza, puede resultar muy dif´ıcil encontrar una cantidad piv-otal, adem´as, no siempre se cuenta con muestras lo suficientemente grandes como para poder usar un intervalo asint´otico. Para resolver este tipo de problemas, se trabaja con otro tipo de pivote, uno m´as general.
Supongamos que queremos construir un intervalo de confianza para θ. Primero se debe elegir una estad´ıstica T = T (X), en donde se recomienda que T sea una estad´ıstica suficiente o el estimador m´aximo veros´ımil para θ. La elecci´on de T depende de dos aspectos fundamentales:
Se pueda conocer la distribuci´on de T . Las operaciones sean lo m´as f´aciles posibles.
El primer aspecto es fundamental, si no conocemos la distribuci´on de T , no se podr´a utilizar el m´etodo que veremos a continuaci´on. El segundo aspecto es simplemente para que, en la medida de lo posible, las cosas se faciliten, pero no es esencial.
Este m´etodo se basa en los dos teoremas que se enuncian a continuaci´on. Teorema 2 (Pivoteando de una funci´on de distribuci´on continua)
Sea T una estad´ıstica continua con funci´on de distribuci´on FT(t|θ) y sea α1+ α2 = α con 0 < α < 1
fijo. Para cada t ∈ ̟ en donde ̟ es el espacio de todos los valores posibles de T . Se define θL(t0)
y θU(t0) como sigue (t0 = T (x1, x2, . . . , xn) es el valor que toma la estad´ıstica al evaluar la m.a.
observada)
1. Si FT(t|θ) es decreciente como funci´on de θ para cada t, encontramos θL(t0) y θU(t0) de forma
que aproximadamente se cumpla que
FT(t0|θU(t0)) = α1 y FT(t0|θL(t0)) = 1 − α2
2. Si FT(t|θ) es creciente como funci´on de θ para cada t, encontramos θL(t0) y θU(t0) de forma
que aproximadamente se cumpla que
FT(t0|θU(t0)) = 1 − α2 y FT(t0|θL(t0)) = α1
Ejemplo 4 Sea X1, X2, . . . , Xn una m.a. de
f (x|θ) = 1θ
1
(0,θ)(x)Empleando el Teorema 2 vamos a construir un intervalo de confianza para θ. Usaremos T = X(n)= m´ax{X1, X2, . . . , Xn} ya que
L(θ|x) = n Y 1 f (xi|θ) = 1 θ n
1
(0,x(n))(x(1))1
(0,θ)(x(n))entonces por el Teorema de Factorizaci´on X(n)= m´ax{X1, X2, . . . , Xn} es una estad´ıstica suficiente
para θ fX(n)(x) = fT(t) = n 1 θ n tn−1
1
(0,θ)(t) ⇒ FT(t|θ) = t θ nClaramente para t fijo FT(t|θ) es una funci´on decreciente de θ, entonces utilizamos la primera parte
del Teorema 2. Primero encontramos θU(t0) α1 = FT(t0|θU(t0)) = t0 θU(t0) n ⇔ θU(t0) = t0 (α1)1/n
Ahora vamos a encontrar θL(t0)
1 − α2 = FT(t0|θL(t0)) = t0 θU(t0) n ⇔ θL(t0) = t0 (1 − α2)1/n
Entonces el intervalo del (1 − α)100 % de confianza para θ es t0 (1 − α2)1/n , t0 (α1)1/n (7.21) Aqu´ı es posible encontrar el intervalo de confianza ´optimo para θ, si minimizamos
t0 1 (α1)1/n − 1 (1 − α2)1/n (7.22) sujeto a que α1+ α2 = α y 0 < α1+ α2 < 1. En donde (7.22) es la longitud del intervalo (7.21).
Se puede ver que (7.22) es m´ınimo y las restricciones se cumplen si α2 = 0 ⇒ α1 = α. Por lo que el
t0, t0 (α)1/n || El Teorema 2 es para el caso en el que la distribuci´on de T sea la de una v.a. continua, cuando T es una v.a. discreta podemos utilizar el siguiente
Teorema 3 (Pivoteando de una funci´on de distribuci´on discreta)
Sea T una estad´ıstica discreta con funci´on de distribuci´on P (T ≤ t|θ) y sea α1+α2 = α con 0 < α < 1
fijo. Para cada t ∈ ̟ en donde ̟ es el espacio de todos los valores posibles de T . Se define θL(t0)
y θU(t0) como sigue (t0 = T (x1, x2, . . . , xn) es el valor que toma la estad´ıstica al evaluar la m.a.
observada)
1. Si P (T ≤ t|θ) es decreciente como funci´on de θ para cada t, encontramos θL(t0) y θU(t0) de
forma que aproximadamente se cumpla que
P (T ≤ t0|θU(t0)) = α1 y P (T ≥ t0|θL(t0)) = α2
2. Si P (T ≤ t|θ) es creciente como funci´on de θ para cada t, encontramos θL(t0) y θU(t0) de forma
que aproximadamente se cumpla que
P (T ≥ t0|θU(t0)) = α1 y P (T ≤ t0|θL(t0)) = α2
Entonces [θL(t0), θU(t0)] es un intervalo del (1 − α)100 % de confianza para θ.
Una elecci´on com´un es tomar α1= α2 = α/2, pero esto no garantiza que encontremos el intervalo
de confianza ´optimo, en el sentido de que tenga longitud m´ınima.
Ejemplo 5 Sea X1, X2, . . . , X10 una m.a. de una Bernoulli(p), vamos a construir un intervalo del
95 % confianza para p.
Supongamos que en la muestra se observa xi = 0 ∀i 6= 3 y x3= 1, entonces ¯x = 101.
Si utilizamos el intervalo asint´otico (7.20), llegamos a que el intervalo del 95 % de confianza para p ser´ıa (−.0859, .2859). Claramente hay un problema con este intervalo, pues 0 ≤ p ≤ 1. Una s´oluci´on ser´ıa cortarlo y reportarlo como (0, .2859); sin embargo, este intervalo ya no es del 95 % de confianza, adem´as si la cota inferior manifestaba problemas obvios, la cota superior tambi´en debe tener problemas aunque no sean evidentes. El problema aqu´ı en realidad es que la m.a. con la que estamos trabajando es de tama˜no 10 y estamos construyendo un intervalo asint´otico, entonces, aunque el intervalo no tuviera problemas visibles, estar´ıamos cometiendo un gran error al basar nuestras inferencias en ´el.
Para evitar este tipo de problemas vamos a utilizar el Teorema 3 para construir un intervalo de confianza para p.
Estamos trabajando con una m.a. de una Bernoulli(p), entonces nos conviene usar como estad´ısti-ca a T = P10
X que es suficiente para p, adem´as, sabemos que T =P10
t0=P101 xi = 1. Vamos a suponer α1 = α2 = α/2 = .05/2 = .025.
S´olo nos falta saber si usamos la parte 1 ´o 2 del Teorema 3 (tenemos que saber si P (T ≤ t|p) es creciente o decreciente como funci´on de p ∀ t). Para saber esto, simplemente se realiza una peque˜na prueba. Supongamos t = 2 (fija)
P (T ≤ 2|.2) = .67 P (T ≤ 2|.3) = .382
De donde se obtiene que para t fija P (T ≤ t|p) es decreciente como funci´on de p, por lo que usaremos la primera parte del Teorema 3.
Sin embargo, si no se est´a conforme con este procedimiento, se puede hacer una gr´afica de P (T ≤ 2|p) o probarlo formalmente mediante la derivada. En la figura 7.4 se muestra la gr´afica de P (T ≤ 2|p), que claramente es decreciente.
p
P(T<=2
|p
)
Figura 7.4: Gr´afica de P (T ≤ 2|p)
Entonces, utilizando la primera parte del Teorema 3, tenemos que encontrar pL(t0) y pU(t0)
(recordemos que t0 = 1), de forma que aproximadamente tengamos
0.025 = P (T ≤ t0|pU(t0)) = P (T ≤ 1|pU(1))
Para encontrar el valor de pU(1) podemos buscar en tablas, o si quisi´eramos ser m´as precisos
podemos utilizar R y hacer una tabla como la siguiente
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
p 0.4430 0.4440 0.445 0.4460 0.4470 0.4480 0.4490 0.4500
P(t<=1|p) 0.0257 0.0254 0.025 0.0246 0.0243 0.0239 0.0236 0.0233
De donde podemos ver que P (T ≤ 1|0.445) = 0.025 ⇒ pU(1) = 0.445. Y para la cota inferior de
0.025 = P (T ≥ t0|pL(t0)) = P (T ≥ 1|pL(1)) = 1 − P (T < 1|pL(1))
= 1 − P (T = 0|pL(1)) ⇒ P (T = 0|pL(1)) = 0.975
Haciendo de nuevo una tabla de valores en R
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
p 0.0023 0.0024 0.0025 0.0026 0.0027 0.0028 0.0029 0.0030
P(t=0|p) 0.9772 0.9763 0.9753 0.9743 0.9733 0.9724 0.9714 0.9704
De donde se tiene que P (T = 0|0.0025) = 0.9753 ⇒ pL(1) = 0.0025. Entonces el intervalo del
95 % de confianza para p es [0.0025, 0.445], que por supuesto es muy amplio, esto se debe a que se
cuenta con s´olo una m.a. de tama˜no 10. ||
Ya vimos c´omo funcionan los teoremas 2 y 3, para construir intervalos de confianza, sin embargo, nos falta entender porqu´e podemos derivar un intervalo de confianza de esta forma. Nos remitiremos s´olo a explicar el Teorema 2, el caso en el que T es una v.a. continua con funci´on de distribuci´on FT(t|θ).
Primero hay que recordar c´omo definimos un intervalo de confianza para θ. Necesitamos encontrar dos estad´ısticas L(X) y U (X) tales que L(X) ≤ U(X) ∀ X = (X1, X2, . . . , Xn) para las cuales
P (L(X) ≤ θ ≤ U(X)) = 1 − α (7.23)
Entonces la pregunta es ¿c´omo con el Teorema 2 estamos construyendo algo como (7.23)? La primera parte de la respuesta viene dada por el siguiente
Teorema 4 Sea T una v.a. continua con funci´on de distribuci´on FT(t|θ), definamos la variable
aleato-ria
Y = FT(T |θ)
entonces Y es una v.a. con distribuci´on uniforme en (0, 1) (Y ∼ U(0, 1)).
Observaci´on 7 Hay que poner atenci´on, en c´omo se defini´o Y , Y = FT(T |θ). La funci´on de
dis-tribuci´on est´a evaluada en T la v.a. no en t el n´umero real.
No demostraremos este teorema, sin embargo, para convencernos de manera informal de que debe ser cierto, podemos generar una m.a. de tama˜no 10, 000 de normales, gammas, exponenciales, T de Student, etc, cualquier m.a. de variables aleatorias continuas, luego evaluamos cada elemento de la muestra en su funci´on de distribuci´on y por ´ultimo realizamos el histograma de las observaciones resul-tantes. El histograma obtenido debe parecerse a la funci´on de densidad de probabilidad de una U (0, 1). Con el Teorema 4, la notaci´on del Teorema 2, si α1< 1 − α2 y T es una v.a. continua, entonces
1 − α = 1 − α2− α1 (7.24)
= P (α1 ≤ U ≤ 1 − α2) (7.25)
En donde (7.25) es la probabilidad de que una v.a. U (uniforme (0,1)) est´e entre α1y 1 −α2, (7.26)
es simplemente aplicar el Teorema 4 y en (7.27) estamos “pivoteando” FT(T |θ). Si podemos llegar
a (7.27), entonces la definici´on (7.23) se cumple y por lo tanto habremos construido un intervalo de confianza. El ´unico paso que no resulta totalmente claro es (7.27), que explicaremos a continuaci´on.
No podemos manejar el intervalo aleatorio [θL(T ), θU(T )], entonces utilizamos el valor observado
de T , t0, por lo que tendr´ıamos el intervalo [θL(t0), θU(t0)]. Entonces nuestro problema se reduce a
“pivotear” FT(t0|θ) y obtener [θL(t0), θU(t0)]. En el caso en el que FT(t0|θ) es una funci´on decreciente
de θ, lo que tendr´ıamos que hacer se muestra en la figura 7.5.
θ FT (t0 | θ ) θL(t0) θU(t0) α1 1− α2
Figura 7.5: Pivoteando una funci´on de distribuci´on continua
De la gr´afica anterior, podemos ver que si encontramos θL(t0) y θU(t0) de forma que FT(t0|θU(t0)) =
α1 y FT(t0|θL(t0)) = 1 − α2, entonces habremos obtenido un intervalo de confianza del (1 − α)100 %.
Esto es exactamente lo que nos dice el Teorema 2, en el caso en que FT(t|θ) es una funci´on decreciente
de θ. En el caso en el que FT(t|θ) es una funci´on creciente de θ las cosas cambiar´ıan, es conveniente
realizar el gr´afico correspondiente y comparar el resultado con el Teorema 2.
Observaci´on 8 Si FT(t|θ) no es una funci´on creciente ni decreciente de θ, entonces tambi´en podremos
utilizar los teoremas 2 y 3, sin embargo, no obtendremos un intervalo, obtendr´ıamos un conjunto de confianza, que seguramente, en t´erminos pr´acticos, ser´a dif´ıcil de interpretar y manejar.
Observaci´on 9 Los teoremas 2 y 3 no nos garantizan obtener el intervalo de confianza del (1 − α)100 % para θ ´optimo, en el sentido de que sea el que tenga la longitud m´ınima. S´olo nos garantizan un intervalo de confianza.
Con esta explicaci´on concluimos este cap´ıtulo, m´as adelante veremos c´omo construir pruebas de hip´otesis y estableceremos el fuerte v´ınculo entre pruebas de hip´otesis e intervalos de confianza. Por ahora s´olo diremos que a partir de cualquier intervalo de confianza podremos construir una prueba de hip´otesis, adem´as, el rec´ıproco tambi´en es cierto, esto lo veremos en el cap´ıtulo siguiente.