Tema 4. Intervalos de confianza
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 1
Definici´ on
SeaX una v.a. con distribuci´on de probabilidad dada por un modelo param´etrico cuya expresi´on matem´atica es totalmente conocida a excepci´on de alg´un par´ametro desconocidoθ.
SeaX1, . . . ,Xn una muestra aleatoria de la poblaci´onX. Fijamos 0< α <1. Sea (T1,T2) un intervalo tal que Ti =Ti(X1, . . . ,Xn) parai = 1,2 y
1−α = Pθ{T1(X1, . . . ,Xn)< θ <T2(X1, . . . ,Xn)}
= Pθ{θ∈(T1,T2)}.
Entonces, para cada observaci´on (x1, . . . ,xn) de la muestra, el intervalo (T1(x1, . . . ,xn),T2(x1, . . . ,xn)) es unintervalo de confianzapara θal nivel de confianza 1−α.
Para construir un intervalo de confianza se utiliza elm´etodo de la cantidad pivotal. Se puede ver una descripci´on de este m´etodo en el libroEstad´ıstica Aplicada de Juli´an de la Horra (ver gu´ıa docente de la asignatura).
Nosotros utilizamos directamente las expresiones de los intervalos de confianza que aparecen en el formulario que se puede bajar de la web de la asignatura.
Por ejemplo, seax1, . . . ,xn una muestra observada de
X ∼N(µ, σ). Si σ es conocido un intervalo de confianza para µal nivel de confianza 1−α es
IC1−α(µ) =
¯
x−zα/2 σ
√n,x¯+zα/2 σ
√n
=
¯
x∓zα/2 σ
√n
.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 3
Interpretaci´on intuitiva de un intervalo de confianza:
Si se observan 100 muestras de tama˜non deX ∼Fθ y se
construyen los correspondientes 100 intervalos de confianza paraθ, IC1−α(θ), aproximadamente en (1−α)100 de ellos est´a el
par´ametro desconocidoθ:
x1(1), . . . ,xn(1) → IC(1)1−α(θ) x1(2), . . . ,xn(2) → IC(2)1−α(θ) ...
x1(100), . . . ,xn(100) → IC(100)1−α(θ)
Ver fichero Excel100Ics.xlxs.
Por qu´e construir un intervalo de confianza
Ejemplo 2.17 (cont.):Una genetista pes´o 28 corderos hembra al nacer. Los pesos fueron:
4.3 5.2 6.2 6.7 5.3 4.9 4.7 5.5 5.3 4.0 4.9 5.2 4.9 5.3 5.4 5.5 3.6 5.8 5.6 5.0 5.2 5.8 6.1 4.9 4.5 4.8 5.4 4.7
Si suponemos queX = peso de un cordero al nacer sigue una distribuci´on N(µ,σ), los e.m.v.
de los par´ametros son ˆµ= ¯x= 5.168 y ˆσ2 = 0.413.
Pesos de corderos al nacer
3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0
0.00.20.40.6 Frecuencia
relativa Distribución normal
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 5
Ejemplo 2.17 (cont.):Estas estimaciones puntuales est´an sujetas aerror de muestreo. No es un meroerror de medida debido a, por ejemplo, la precisi´on de la b´ascula. La muestra es “imperfecta”,
“incompleta” porque se han pesado s´olo 28 corderos, en lugar de pesar toda la poblaci´on de corderos Rambouillet de las mismas caracter´ısticas.
ˆ
µ= ¯x = 5.168 es una estimaci´on puntual razonable de µ= “Peso esperado de un cordero hembra Rambouillet nacido en abril y con las caracter´ısticas fijadas en el estudio”, porque sabemos que E( ¯X) =µ.
Para evaluar la fiabilidad o precisi´on de esta estimaci´on puntual ˆ
µ= ¯x podemos considerar la desviaci´on t´ıpica del estimador, pV( ¯X) =σ/√
n, o una estimaci´on de la misma,s/√
n (error t´ıpico de la media muestral). Pero tambi´en podemos calcular el intervalo de confianza para el par´ametro desconocidoµ, que parece m´as f´acil de interpretar.
Distribuciones asociadas a la normal
Son distribuciones de probabilidad de ciertos estad´ısticos construidos a partir de muestras de distribuciones normales.
La distribuci´on χ2 de Pearson
SeanX1, . . . ,Xn v.a. independientes id´enticamente distribuidas (i.i.d.) con distribuci´onN(0,1). La variable aleatoriaPn
i=1Xi2 sigue una distribuci´on χ2 de Pearson conn grados de libertad:
n
X
i=1
Xi2 ∼χ2n
0 2 4 6 8
0 0.2 0.4 0.6 0.8 1
Densidad de la χ2n
χ21 χ22 χ23 χ24 χ25
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 7
La distribuci´on t de Student
SeanY,X1, . . . ,Xn v.a.i.i.d. con distribuci´onN(0,1). La variable aleatoria Y
q1 n
Pn i=1Xi2
sigue una distribuci´ont de Student con n grados de libertad,tn.
−5 0 5
0 0.1 0.2 0.3 0.4
Densidad de la t
N(0,1) t5 t2
La distribuci´on F de Fisher
SeanX1, . . . ,Xm,Y1, . . . ,Ynv.a.i.i.d. con distribuci´onN(0,1). La
v.a. 1
m
Pm i=1Xi2
1 n
Pn j=1Yj2
sigue una distribuci´on F de Fisher con m yn grados de libertad, Fm,n.
0 1 2 3 4 5 6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Densidad de la F
F5,3
F4,6
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 9
Intervalos de confianza en poblaciones normales
Propiedad:Sea X1, . . . ,Xn una muestra aleatoria deX ∼N(µ, σ).
Entonces ¯X yS2 son v.a. independientes, X¯ ∼N
µ, σ
√n
, n−1
σ2 S2 ∼χ2n−1 y X¯−µ
√S n
∼tn−1
•Sea x1, . . . ,xn una muestra de X ∼N(µ, σ). Si σ es conocido un intervalo de confianza paraµal nivel de confianza 1−α es
IC1−α(µ) =
¯
x−zα/2 σ
√n,x¯+zα/2 σ
√n
=
¯
x∓zα/2 σ
√n
.
•Si σ es desconocido, IC1−α(µ) =
¯
x∓tn−1;α/2 s
√n
y
IC1−α(σ2) = (n−1)s2
χ2n−1;α/2 , (n−1)s2 χ2n−1;1−α/2,
! .
Ejemplo 4.1: Se sabe que una soluci´on est´andar de glucosa es 5.05 mM. Se analiza repetidamente mediante el m´etodo de la glucosa oxidasa obteniendo
5.15 5.06 5.21 5.18 5.26 .
Suponiendo normalidad, calcular un intervalo de confianza paraµ, la concentraci´on media de glucosa, y decidir si hay alguna
evidencia de error sistem´atico.
Elerror sistem´aticoes el que provoca que todas las observaciones de un experimento sean err´oneas en el mismo sentido, demasiado grandes o demasiado peque˜nas. Entonces las medidas tienensesgo.
5.00 5.05 5.10 5.15 5.20 5.25 5.30 Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 11
•Seanx1, . . . ,xm e y1, . . . ,yn muestras independientes de X ∼N(µ1, σ) eY ∼N(µ2, σ) respectivamente (σ desconocido).
Entonces
IC1−α(µ1−µ2) = x¯−y¯∓tm+n−2;α/2sp r1
m +1 n
! ,
donde
sp2 = (m−1)s12+ (n−1)s22 m+n−2
es una media ponderada de las cuasivarianzas muestrales s12= 1
m−1
m
X
i=1
(xi −x)¯ 2 y s22 = 1 n−1
n
X
i=1
(yi−y)¯ 2.
Ejemplo 4.2: La mostaza silvestre (Brassica campestris) tiene un ciclo de crecimiento r´apido que la hace adecuada para estudiar factores que afectan al crecimiento de las plantas. En un estudio se trat´o 7 plantas con Ancymidol y se compar´o con 8 plantas de control a las que se les suministr´o agua potable. Se midieron las alturas de las plantas tras 15 d´ıas de crecimiento, obteni´endose:
Control (X) 15.0 13.2 19.8 14.6 20.3 13.9 21.2 19.3 Ancymidol (Y) 13.2 14.5 11.0 5.8 12.8 7.1 7.7
Suponiendo que estas variables siguen distribuciones normales homoced´asticas, calcular un intervalo de confianza para la
diferencia media de crecimiento entre ambos tipos de tratamiento.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 13
•Seanx1, . . . ,xm e y1, . . . ,yn muestras aleatorias independientes deX ∼N(µ1, σ1) eY ∼N(µ2, σ2) respectivamente (σ1 yσ2
desconocidas). Entonces IC1−α
σ12 σ22
=
s12/s22 Fm−1;n−1;α/2
, s12/s22 Fm−1;n−1;1−α/2
.
Observaci´on: Fm;n;1−α = 1 Fn;m;α
Ejemplo 4.2 (cont.):Calcular un intervalo de confianza al 90 % para el cociente de las varianzas.
•Datos emparejados:Sea (X1,Y1), . . . ,(Xn,Yn) una muestra aleatoria de (X,Y) dondeX e Y no son independientes, pero los pares (Xi,Yi) son independientes entre s´ı.
DenotemosE(X) =µ1 yE(Y) =µ2 y supongamos que D=X −Y ∼N(µ=µ1−µ2, σ). Entonces
D1 =X1−Y1, . . . ,Dn =Xn−Yn es una muestra aleatoria de D.
Podemos construir intervalos de confianza paraµ=µ1−µ2 y para σ como se indic´o en la p´agina 10.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 15
Ejemplo 4.3: (Ensayo cl´ınico cruzado) Se quiere comparar el efectoX de un nuevo medicamento con el efecto Y de otro ya comercializado. Se administran ambos a 14 personas con
insuficiencia respiratoria, asignando aleatoriamente a cada paciente un tratamiento, y manteni´endolo durante un mes. Luego se le da el tratamiento alternativo durante otro mes. En la cuarta semana de cada tratamiento se observa FEV1 (forced expiratory volume), el volumen de aire que un paciente expulsa en un segundo, tras una inhalaci´on profunda.
Paciente X Y D Paciente X Y D
1 2.9 3.9 -1.0 8 3.9 2.4 1.5
2 4.0 3.9 0.1 9 2.5 3.6 -1.1
3 3.4 3.3 0.1 10 6.5 2.1 4.4
4 3.2 4.3 -1.1 11 5.5 4.0 1.5
5 3.8 3.2 0.6 12 4.0 3.9 0.1
6 5.2 3.5 1.7 13 5.3 4.0 1.3
7 3.9 2.7 1.2 14 4.3 2.3 2.0
Calcular un intervalo de confianza al 90 % para la diferencia media de FEV1 con ambos medicamentos.
Intervalos de confianza para otras distribuciones
Intervalo para una proporci´on p
SeaX1, . . . ,Xn una muestra de X∼Bernoulli(p). Por el TCL, X¯ aprox∼ N E(X),
rVX n
!
=N p,
rp(1−p) n
!
'N p,
rp(1ˆ −p)ˆ n
! ,
siendo ˆp= ¯X. Por tanto, IC1−α(p) = x¯∓zα/2
rx(1¯ −x)¯ n
!
(aproximadamente, paran grande) Ejemplo 4.4: Un laboratorio de cosm´etica se plantea comercializar una crema para tratar una afecci´on cut´anea
espec´ıfica. Para conocer la eficacia de la crema se prueba en una muestra de 50 personas con dicha enfermedad cut´anea. Al cabo de un mes de su uso continuado se observa una clara remisi´on de la enfermedad en 38 de los voluntarios. Construir un intervalo de confianza para la probabilidad de que el producto sea efectivo.
Estad´ıstica Aplicada (Bioqu´ımica). Profesora: Amparo Ba´ıllo Tema 4: Intervalos de confianza 17
M´ınimo tama˜ no muestral
El error cometido al estimar un par´ametro θmediante un intervalo de confianza IC1−α(θ) es la semi-amplitud del intervalo.
Observaci´on: Esta definici´on tiene sentido principalmente en intervalos del tipo IC1−α(θ) = (ˆθ∓semilongitud).
Objetivo:Determinar el m´ınimo tama˜no muestral n necesario para que el error cometido al estimarθmediante un intervalo de
confianza sea menor que una cierta cantidad.
Motivaci´on: Queremos que la estimaci´on por intervalo de confianza tenga una determinada precisi´on.
El valor den obtenido debe tomarse como orientativo,
especialmente cuando la semilongitud del intervalo dependa de la muestra observada.