Intervalos de confianza

(1)

Intervalos de confianza

6.1. Notaci´on de percentiles . . . . 2

6.2. Introducci´on . . . . 4

6.3. Intervalos para una poblaci´on . . . . 7

6.3.1. Intervalos para μ y para σ2 de una variable normal . . . . 7

6.3.2. Intervalos para una proporci´on p . . . . 10

6.3.3. Intervalo aproximado para la media de una poblaci´on ge-neral . . . 12

6.3.4. Intervalos aproximados basados en normalidad asint´otica de estimadores . . . 14

6.3.5. Datos (normales) apareados: diferencia de medias . . . 16

6.4. Intervalos para dos poblaciones independientes . . . . 17

6.4.1. Caso de dos variables normales . . . 17

6.4.2. Caso de dos proporciones . . . 21

6.5. Resumen: intervalos de confianza m´as habituales . . . . . 23

6.5.1. Intervalos I de confianza 1− α para UNA distribución . . 23 6.5.2. Intervalos I de confianza 1− α para DOS distribuciones 23

Seguimos, en este cap´ıtulo, embarcados en la tarea de estimar el par´ametro θ de una variable X con funci´on de densidad/masa f (x; θ) a partir de muestras de la variable de cierto tama˜no.

En el cap´ıtulo 5 anterior vimos c´omo obtener estimaciones ˆθ del parámetro θ a partir de una juiciosa elección de estimadores adecuados al modelo en cuestión.

En este cap´ıtulo veremos c´omo construir intervalos I = (a, b) de manera que el verdadero (y desconocido) valor de θ con el que se produjo la muestra pertenezca a I con alta confianza.

La construcción expl´ıcita de estos intervalos suele ser complicada, y de hecho sólo analizaremos (en detalle, y con ´exito) el caso en el que X es una variable nor-mal, apoyándonos en el teorema 4.7 de Fisher-Cochran. Para el resto de los casos,

(2)

tendremos que conformarnos con construir intervalos aproximados, apoyándonos en resultados asintóticos. Las secciones 6.3 y 6.4 contienen todos los detalles para los casos de una única población, y de dos poblaciones, respectivamente.

A modo de resumen, la sección 6.5 contiene las fórmulas de los intervalos de confianza más habituales, en términos de percentiles de diversos modelos estándar, que presentamos en la sección 6.1 siguiente.

6.1. Notaci´

on de percentiles

En lo que sigue aparecerán repetidamente percentiles de cuatro modelos básicos: la normal (est´andar), la chi cuadrado, la t de Student y la F de Fisher–Snedecor (véanse sus definiciones y propiedades en la sección 3.3.1). Resumimos a continuación la notación para referirnos a sus percentiles.

A. Percentiles de la normal est´andar

Sea Z una variableN (0, 1) (una normal est´andar). Para α∈ (0, 1/2] llamamos zα al n´umero real tal que

P(Z > zα) = 1− Φ(zα) = α .

El n´umero zα deja, a su derecha, área α (bajo la gr´ afi-ca de la función de densidad de la N (0, 1)). Véase la figura. El par´ametro α denota una probabilidad, gene-ralmente pequeña, que se suele escribir en porcentaje.

Los valores m´as habituales son α = 5 %, α = 1 % y α = 0.1 %. De su deﬁnici´on se deduce que que zα viene dado por

Φ(zα) = 1− α, esto es, zα = Φ−1(1− α)

En Excel, zα se calcula con la f´ormula =distr.norm.estand.inv(1-α), o bien con =inv.norm.estand(1-α).

Aparecer´an muy habitualmente, en lo que sigue, percentiles z_α/2. La raz´on es que, si Z∼ N (0, 1), por simetr´ıa,

P(|Z| > z_α/2) = 2 P(Z > z_α/2) = α =⇒ P(|Z| ≤ z_α/2) = 1− α. Obs´ervese que zα > 0 para α ∈ (0, 1/2], que

z_1/2 = 0, y que zα → +∞ cuando α → 0+. La tabla adjunta recoge algunos valores (aproxi-mados) de zα (y de z_α/2) para los valores m´as habituales de α.

α z_α z_α/2

5 % 1.645 1.960 1 % 2.326 2.576 0.1 % 3.090 3.291

(3)

B. Percentiles de la t de Student con n grados de libertad Sea Z una stu(n) (t de Student con n grados de

libertad, n ≥ 1). Para α ∈ (0, 1/2], denotamos por

t_{n;α} al valor tal que

P(Z > t_{{n ; α}}) = α .

En Excel, estos percentiles t_{n;α} se calculan1 como =inv.t(1-α;n).

Por simetr´ıa, se cumple que

P(Z <−t_{{n ; α}}) = α y que P(|Z| < t_{{n ; α/2}}) = 1− α .

Como en el caso de la normal est´andar anterior, se tiene que t_{n;α} > 0 para α ∈ (0, 1/2], que t_{n;1/2} = 0, y que t_{n;α}→ +∞ cuando α → 0+.

En la siguiente tabla se exhiben algunos valores de estos percentiles para unos cuantos valores de α y n:

α t_{2,α} t_{3,α} t_{4,α} t_{50,α} t_{500,α}

5 % 2.920 2.353 2.132 1.676 1.648 1 % 6.965 4.541 3.747 2.403 2.334 0.1 % 22.327 10.215 7.173 3.261 3.107

Comp´arense con los correspondientes percentiles en la normal est´andar: si el n´ ume-ro n de grados de libertad muy grande, son pr´acticamente iguales (ejercicio 6.9).

C. Percentiles de la χ2

n

Sea Z una χ2_n (chi cuadrado con n grados de libertad). Para α ∈ (0, 1), denotamos χ2_{n,α} al valor tal que

P(Z > χ2_{n;α}) = α .

En Excel, el percentil χ2_{n,α} se calcula2 como =inv.chicuad(1-α;n).

N´otese que la distribuci´on de una χ2_n no es sim´etrica, como en los dos casos anteriores. M´as adelante usaremos que, para cualquier α∈ (0, 1),

P(χ2_{n;1−α/2}< Z < χ2_{n;α/2}) = 1− α .

1_{En versiones antiguas de Excel, con la instrucci´}_{on =distr.t.inv(2α;n).} 2

(4)

D. Percentiles de la F de Fisher–Snedecor con n y m grados de li-bertad

Sea Z una Fn,m (una F con n y m grados de libertad). Para α ∈ (0, 1), denotamos por

F_{n,m;α} al valor tal que

P(Z > F_{{n,m ; α}}) = α .

En Excel, los percentiles F_{n,m;α} se calculan3 como =inv.f(1-α;n;m).

Obs´ervese que

P(F_{{n,m ; 1−α/2}} < Z < F_{{n,m ; α/2}}) = 1− α , y también que, por la definición de la distribuci´on F (secci´on 3.3.2),

F_{{n,m ; 1−α}} = _F 1 {m,n ; α}.

Ê

Nota 6.1.1. Recu´erdese que si X ∼ Fn,m, entonces 1/X ∼ Fm,n. Esto sale de la propia definici´on

de laF de Fisher (apartado 3.3.2). De manera que P(Z > F{n,m ; α}) =α =⇒ P ₁ Z < 1 F{n,m ; α} =α, y por tanto 1/F_{{n,m ; α}}es el percentilα de una Fm,n.

6.2. Introducci´

on

Como ilustraci´on del concepto de intervalo de conﬁanza, empezaremos con el caso “te´orico” del intervalo para la media μ de una variable X ∼ N (μ, σ2) suponiendo que σ2 es conocida4.

An´alisis probabilista (en activa). Para la muestra aleatoria (X1, . . . , Xn) de X

sabemos que X = 1 n n i=1

Xi se distribuye como una N (μ, σ2/n) . Por consiguiente, para cualquier z > 0 se tiene, tipiﬁcando, que

P |X − μ| ≥ z√σ_n= PX − μ σ/√n ≥ z = P(|Z| ≥ z) , donde Z ∼ N (0, 1).

3_{En versiones antiguas de Excel, =distr.f.inv(α;n;m).}

(5)

As´ı que, si para un α ∈ (0, 1/2] tomamos z = z_α/2 y denotamos de nuevo por Z a una normal est´andar, tenemos que

P |X − μ| ≥ z_α/2√σ_n= P(|Z| ≥ z_α/2) = α , es decir, () P μ − zα/2√σ_n < X < μ + zα/2√σ_n = 1− α .

Esto es, con probabilidad elevada, de 1− α, muy pr´oxima a 1, se ha de cumplir que la media muestral X se sit´ua en el intervalo

μ − z_α/2√σ_n, μ + z_α/2√σ_n.

Preparando el terreno, reescribimos () como sigue:

() P

X − z_α/2√σ_n < μ < X + z_α/2√σ_n= 1− α, situando a μ en el papel central que tendr´a en el siguiente an´alisis.

Inferencia estad´ıstica (en pasiva). Nuestro interés ahora es la siguiente cuestión de inferencia estad´ıstica. Sabemos que X ∼ N (μ, σ2). La varianza σ2 es conocida, pero la media μ es desconocida. Disponemos de una realización (x1, . . . , xn) concreta

de (X1, . . . , Xn).

Si α es peque˜no, pongamos, α = 1 %, la discusi´on anterior nos dice que en el 99 % de las realizaciones x de valores de X se ha de dar que

(†) x − z_α/2√σ

n < μ < x + zα/2 σ √_n.

En otros términos, tenemos confianza alta (no seguridad plena) de que se cum-pla (†); evaluamos esa confianza como del 99 %.

En general, decimos que tenemos confianza 1− α de que el valor desconocido de μ cumpla

μ ∈x − z_α/2√σ_n, x + z_α/2√σ_n A priori: probabilidad de realizaciones; a posteriori, confianza en intervalo de estimaci´on.

Al intervalo

x − zα/2√σ_n, x + zα/2√σ_n

se le dice intervalo de confianza al (1−α) para la media μ (de una normal, con σ2 conocida); tenemos conﬁanza (1−α) de que contenga al verdadero, pero desconocido, valor de μ. Obs´ervese que el intervalo de conﬁanza depende de la muestra emp´ırica, y que de hecho est´a centrado en la media muestral x.

(6)

A veces se escribe, abreviadamente,

μ = x ± zα/2√σ_n, con conﬁanza (1− α) A la cantidad

2 z_α/2√σ

n

nos referiremos como el tama˜no del intervalo de confianza; o quiz´as a esa misma cantidad, sin el factor 2 y tomando como referencia la media muestral: una cantidad

z_α/2σ/√n hacia la derecha, y otro tanto hacia la izquierda.

Por supuesto, cuanto menor sea ese intervalo más relevante será: más precisión sobre la estimaci´on de μ. Ceteris paribus,

cuando menor sea α, es decir, cuanta m´as confianza 1− α queramos tener, mayor será el intervalo de confianza;

cuanto mayor sea σ, mayor ser´a el intervalo de confianza (esto es natural, porque σ grande significa que los valores de X – y por tanto los de X, aunque menos – están muy dispersos);

cuanto mayor sea n, menor ser´a el intervalo de conﬁanza.

Tama˜no de la muestra

Seguimos con este ejemplo b´asico en el que queremos estimar μ de una variable aleatoria X ∼ N (μ, σ2), donde σ2 es conocido.

Vamos a calcular qué tama˜no n debe tener una muestra de X para obtener un intervalo que contenga a μ con confianza de (1−α) y con un error máximo de δ. Este ´

ultimo requisito signiﬁca que queremos que el tama˜no del intervalo no exceda 2δ, es decir,

() z_α/2√σ

n ≤δ .

Buscamos n para que se cumpla (). Aqu´ı σ es un par´ametro conocido y α ha sido preﬁjado. El tama˜no n ha de cumplir

n ≥z_α/2σ δ

₂ A menor α, o mayor σ, o menor δ, mayor ser´a n.

Ejemplo 6.2.1. Ilustraci´on num´erica de intervalo de confianza para μ deN (μ, σ2)

con σ2 conocida.

Digamos que σ = 2 y que la muestra de tama˜no n = 100 tiene una media muestral de 1.2. La tabla:

α 5 % 1 % 0.1 %

(7)

nos da los siguientes intervalos de conﬁanza:

conﬁanza intervalo error relativo

95 % μ ∈ (0.808, 1.592), 1.2± 0.392 ±32.67 % 99 % μ ∈ (0.685, 1.715), 1.2± 0.515 ±42.93 % 99.9 % μ ∈ (0.542, 1.858), 1.2± 0.658 ±54.84 %

Supongamos que ahora queremos calcular el tamaño (m´ınimo) de la muestra que garantiza que el error en la estimaci´on de μ (esto es, el tama˜no del intervalo) no supere un cierto nivel δ prefijado con cierto nivel de confianza. La siguiente tabla recoge algunos de esos tama˜nos muestrales m´ınimos para un par de valores de δ y algunos niveles de confianza:

conﬁanza δ = 0.1 δ = 0.01 95 % n ≥ 1 537 n ≥ 153 658 99 % n ≥ 2 654 n ≥ 265 396 99.9 % n ≥ 4 331 n ≥ 433 103

Nótese cómo, para que el intervalo de confianza baje un factor 10, necesitamos

muestras de tama˜no 100 veces mayor. ♣

6.3. Intervalos para una poblaci´

on

El ejemplo anterior nos va a servir de gu´ıa en el an´alisis de unos cuantos casos m´as: en la secci´on 6.3.1 estudiaremos el caso en el que X es una variable normal

N (μ, σ2_{), con el objetivo de obtener intervalos de conﬁanza para los par´}_{ametros μ}

y σ2, y utilizando los an´alisis de las variables media y cuasivarianza muestrales de cap´ıtulos anteriores, en particular la secci´on 4.5.1.

Para otro tipo de variables, supondremos que el tamaño de la muestra es su-ficientemente grande, y apelaremos a resultados de normalidad asintótica, como el teorema central del l´ımite, para establecer intervalos de confianza aproximados para los parámetros de interés (secciones 6.3.2–6.3.4).

6.3.1. Intervalos para μ y para σ2 de una variable normal

Suponemos aqu´ı que μ y σ2 son ambas, como es natural, desconocidas. En lo que sigue, la muestra de X tendr´a tama˜no n y designaremos simplemente con X y S2 las variables media muestral y cuasivarianza muestral (en lugar de los m´as aparatosos X_(n) y S_(n)2 ).

A. Intervalo para μ

a) An´alisis probabilista. Usamos (proposici´on 4.8) que

X − μ

(8)

As´ı que P |X − μ| ≥ t_{n−1,α/2}√S_n= α, es decir, P X − t{n−1,α/2}√S_{n ≤}μ ≤ X + t{n−1,α/2}√S_n = 1− α.

b) Inferencia estad´ıstica. Dada una realizaci´on muestral (x1, . . . , xn) con media

muestral x y cuasidesviaci´on t´ıpica muestral s, tenemos conﬁanza 1− α de que

μ ∈x − t_{n−1,α/2}√s_n, x + t_{n−1,α/2}√s_n

En esta expresi´on, n es el tama˜no de la muestra (dada por el dise˜no del experimento),

x y s por la muestra en s´ı, y α (y por tanto z_α/2) lo ﬁja el usuario.

c) Ilustraci´on num´erica. Realizamos el siguiente experimento: sorteamos muestras

de tama˜no n = 30 de una normal con par´ametros μ = 2 y σ2= 9. Fijado α = 5 %, el percentil de la t correspondiente resulta ser t_{29;2._{5 %}} = 2.045. As´ı que el intervalo de conﬁanza al 95 % es de la forma

(x− 0.373 s, x + 0.373 s),

donde x y s designan la media y la cuasidesviaci´on t´ıpica de cada muestra.

Como s ha de ser del orden de 3 (pues σ = 3), la anchura t´ıpica del intervalo de confianza está en torno a 1.1. Esos intervalos de confianza están centrados en torno a la media muestral, que se asemejará en general a 2.

Ahora, aproximadamente en el 95 % de las veces que repitamos el experi-mento, el verdadero valor de μ (que es 2 en este caso) deberá estar incluido en el intervalo de confianza. En la figura de la derecha hemos representado los resultados de 20 experimentos: la l´ınea horizontal es el nivel 2; cada intervalo

de conﬁanza se dibuja en vertical, con un punto rojo para indicar la media mues-tral. Entre ellos, esperamos encontrar aproximadamente un intervalo5 que no incluya el μ = 2.

B. Intervalo para σ2

a) An´alisis probabilista. Usamos (teorema 4.7) que

(n− 1)S2

σ2 ∼ χ 2

n−1.

5_{¡Vaya!, en el dibujo aparece justamente uno, el sexto desde la izquierda. ¿De verdad que no han}

(9)

As´ı que P χ2 {n−1;1−α/2}≤ (n− 1)S2 σ2 ≤ χ 2 {n−1;α/2} = 1− α. O, en otros t´erminos, P _(n_{− 1)S}2 χ2 {n−1;α/2} ≤ σ 2 _≤ (n− 1)S2 χ2 {n−1;1−α/2} = 1− α.

b) Inferencia estad´ıstica. Dada una muestra emp´ırica (x1, . . . , xn) con

cuasiva-rianza muestral s2, el intervalo (n− 1) χ2 {n−1; α/2} s2_, (n− 1) χ2 {n−1;1−α/2} s2

contiene a σ2 con conﬁanza de 1− α.

Ê

Nota 6.3.1. Ser´ıa m´as natural obtener un intervalo de la forma (s2₍₁_{− ε), s}2_{(1 +}_{ε)). Pongamos que} α < 50 %. Por el teorema del l´ımite central,

χ2 n− n √ 2n ≈ N (0, 1) . De manera que χ2 n≈ n + √ 2n N (0, 1) y, por tanto, χ2_{n;α}≈ n +√2n zα, de donde χ2 {n;α} n ≈ 1 + 2 nzα y χ2n {n;α} ≈ 1 − 2 nzα. Adem´as χ2 {n;1−α} n ≈ 1 − 2 nzα y n χ2 {n;1−α} ≈ 1 + 2 nzα.

Paran grande, el siguiente intervalo:

s2

1−2/n zα/2, s21 +2/n zα/2

contiene aσ2 con confianza de 1− α.

El caso de la normal, tratado en esta sección, es muy especial, porque gracias al teorema 4.7 de Fisher–Cochran, y a la proposición 4.8, que es consecuencia del primero, tenemos información precisa sobre la distribuci´on de los estimadores X y S2, sea cual sea el tama˜no de la muestra. Es decir, los intervalos de confianza para μ y σ2 _{escritos antes son exactos, en el sentido de que no se apoyan en resultados de}

tipo asint´otico, y son v´alidos para todo n.

En muy pocas ocasiones más seremos capaces de establecer con la misma precisión la distribución del estimador de interés (vea el lector al respecto los ejercicios 6.11– 6.13 para el caso de m´ınimos o máximos), y será necesario recurrir a estimaciones asintóticas generales, que vamos a ir desgranando en las siguientes secciones.

(10)

6.3.2. Intervalos para una proporci´on p

En este caso, nX es bin(n, p). Podr´ıamos intentar usar este hecho para obtener un intervalo de conﬁanza para p. V´ease la nota 6.3.2.

Pero procedemos de la siguiente manera, anticipando argumentos que generali-zaremos en las secciones 6.3.3 y 6.3.4.

a) An´alisis probabilista. Suponemos que n es grande y aproximamos (teorema

del l´ımite central):

X ≈ Nd p, p(1 − p)/n , o bien X − p p(1 − p)/n d ≈ N0, 1 . As´ı que P − zα/2 p(1−p) n ≤ X − p ≤ zα/2 p(1−p) n ≈ 1 − α , y por tanto P X − zα/2 p(1−p) n ≤ p ≤ X + zα/2 p(1−p) n ≈ 1 − α .

b) Inferencia estad´ıstica. La expresi´on anterior nos dir´ıa que tenemos conﬁanza aproximadamente 1− α de que el intervalo

x − z_α/2p(1−p)_n , x + z_α/2p(1−p)_n

contenga al par´ametro p. Pero claro, tal cual est´a, este intervalo no dice nada y no es ´util, porque el propio intervalo depende del valor desconocido p.

Para soslayar esta dificultad, lo más habitual es reemplazar, en el término de error z_α/2p(1 − p)/n, el parámetro desconocido p por su estimación x, lo que nos deja un intervalo de confianza 1− α para p como el que sigue:

p = x ± zα/2

x(1 − x) n

Como alternativa (conservadora) podemos observar que p(1− p) ≤ 1/4, sea cual sea el valor desconocido de p, y usar el intervalo

x − zα/2 1 4n, x + zα/2 1 4n ,

(11)

Tama˜no de muestra

Si queremos que el error cometido con el intervalo sea menor que un margen de error dado, digamos δ, debemos tomar n tal que

z_α/2

x(1 − x) n ≤ δ

Esta decisi´on sobre n es previa a tomar la muestra, de manera que x est´a por determinar, y la f´ormula anterior no es ´util. Tenemos dos alternativas:

1) Si disponemos de una estimaci´on previa (provisional) de p, digamos p₀, usamos ese valor en lugar de x en esta expresi´on del error y requerimos

z_α/2 p₀(1− p0) n ≤ δ , es decir, n ≥ z2 α/2 δ2 p0(1− p0) .

2) En caso contrario, nos ponemos en el peor caso usando que x(1− x) ≤ 1/4 (puesto que aqu´ı x est´a entre 0 y 1), y requerimos (conservadoramente)

z_α/2 1 4n ≤ δ , es decir, n ≥ z2 α/2 4 δ2 .

Ejemplo 6.3.1. Un ejemplo num´erico de intervalos de confianza para p.

Supongamos que la muestra tiene tama˜no n = 100, y que registramos 43 unos y 57 ceros. La media muestral es 43 %. Los intervalos de conﬁanza para α = 5 % son

43 % ± 8.14 % si usamos la alternativa con las medias muestrales; 43 % ± 8.22 % si usamos la alternativa “conservadora”.

Si la muestra fuera de tama˜no n = 10 000, siguiendo con media muestral de 43 %, los intervalos de conﬁanza para α = 5 % ser´ıan

43 % ± 0.814 % si usamos la alternativa con las medias muestrales; 43 % ± 0.822 % si usamos la alternativa “conservadora”.

Nótese que con una muestra 100 veces mayor “ganamos” un decimal de precisión.♣ Ejemplo 6.3.2. Un ejemplo numérico de tamaños de muestra.

Queremos determinar el tama˜no (m´ınimo) de la muestra que garantiza que el error al estimar p sea menor que un cierto δ con conﬁanza del 95 %. Tendr´ıamos

n ≥ 97 para δ = 10 %;

(12)

usando el método 2) de arriba. Mientras que, si dispusiéramos de una muestra pre-liminar, quizás pequeña, de la que hubiéramos deducido una estimaci´on p₀ = 6 %, entonces tendr´ıamos n≥ 22 para δ = 10 %, y n ≥ 2 167 para δ = 1 %. Nótese cómo

se reduce el tama˜no de muestra requerido. ♣

Ê

Nota 6.3.2. Podr´ıamos intentar usar que nX es una bin(n, p).

En ese caso, determinar´ıamos bn;p;α, entero y ´optimo, tal queP(bin(n, p) > bn;p;α) ≤ α/2 y

cn;p;α, entero y ´optimo tal queP(bin(n, p) < cn;p;α)≤ α/2.

El intervalo de confianza 1− α que obtendr´ıamos, siendo x la proporci´on de unos en la muestra, ser´ıa

cn;p;α

n ≤ x − p ≤ bn;p;α

n ,

pero ahora bn;p;α y cn;p;α dependen intrincadamente de n y α y, sobre todo, del par´ametro p a estimar.

Ê

Nota 6.3.3. Podr´ıamos (con afán de precisión algebraica) despejar p en la inecuación de segundo grado

p ≤ x + zα/2

p(1−p) n ,

para obtener una cota superior dep que dependerá de x, z_α/2 yn. Y, análogamente, despejar p en la inecuación

p ≥ x − zα/2

p(1−p) n ,

para obtener una cota inferior dep. Pero se consigue una ganancia p´ırrica, pues recordemos que no hemos cuantificado la bondad de la aproximaci´on de partida deX a una normal.

6.3.3. Intervalo aproximado para la media de una población general Supongamos que X tiene función de densidad/masa f (x; θ), con un único par´ ame-tro θ. Queremos dar un intervalo de confianza para el par´ametro μ = Eθ(X), la media de X. Explicitamos la dependencia de θ escribiendo μ(θ).

La varianza Vθ(X) es asimismo una cierta f´ormula de θ, pongamos v(θ) = Vθ(X), por abreviar y para explicitar su dependencia de θ.

a) An´alisis probabilista. Suponemos n grande. El teorema del l´ımite central nos

dice que

X ≈ Nd μ(θ), v(θ)/n , esto es, X − μ(θ)

v(θ)/n d

≈ N (0, 1),

lo que nos dar´ıa que

P X − zα/2 v(θ) n ≤μ(θ) ≤ X + zα/2 v(θ) n ≈ 1 − α .

b) Inferencia estad´ıstica. El intervalo obtenido para la media, usando la expresi´on anterior, depender´ıa de θ, que es desconocido. Si x es una realizaci´on de la media muestral, entendemos que

(13)

Esto debe permitir despejar una cierta aproximaci´on de θ, digamos ˆθ (como se hac´ıa en el método de estimación por momentos), lo que a su vez nos da una estimación

v(ˆθ).

El intervalo con conﬁanza (aproximadamente) 1− α para μ ser´ıa x − zα/2 v(ˆθ)/n, x + z_α/2 v(ˆθ)/n

Esto es, obs´ervese, justamente lo que hac´ıamos en el caso de X∼ ber(p), para el que μ(p) = p y v(p) = p(1−p). Aqu´ı estimamos ˆp = x, lo que nos da v(ˆp) = x(1−x), que permite construir el intervalo de conﬁanza para la media p.

Veamos unos cuantos ejemplos.

Ejemplo 6.3.3. Intervalo de confianza para λ si X ∼ Poiss(λ).

Con la notaci´on anterior, μ(λ) = v(λ) = λ. La estimaci´on ˆλ = x nos lleva al intervalo de conﬁanza (aproximado)

x − z_α/2√1_n√x, x + z_α/2√1_n√x

para la media λ (que en este caso coincide con el par´ametro). ♣ Ejemplo 6.3.4. Intervalo de confianza para la esperanza de X∼ exp(λ).

Recordemos que μ(λ) = 1/λ y v(λ) = 1/λ2_{. Si tenemos una realizaci´}_{on de la}

media muestral x, planteamos

1

λ = μ(λ) = x ,

para obtener la estimación ˆλ = 1/x, y de ah´ı la estimación (en términos de x) para la varianza

v(ˆλ) = x2_.

As´ı que el intervalo (aproximado) para E(X) con conﬁanza 1− α ser´ıa

x − z_α/2√1_n x , x + z_α/2 √1_n x.

♣

Ejemplo 6.3.5. Intervalo de confianza para la esperanza de X∼ Ray(θ).

Recordemos que μ(θ) = πθ/2 y que v(θ) = (2 − π/2) θ. De una realizaci´on de la media muestral x, usando que μ(θ)≈ x, estimamos

ˆ

θ = 2 π x2,

(14)

y de ah´ı, a su vez, v(ˆθ) =2−π 2 ˆ θ =4 π −1 x2_.

As´ı que el intervalo (aproximado) para E(X) con conﬁanza 1− α ser´ıa

x ± z_α/2√x_n4/π− 1 .

♣

6.3.4. Intervalos aproximados basados en normalidad asint´otica de estimadores

En la secci´on anterior hemos obtenido intervalos de conﬁanza aproximados para la media de la distribuci´on usando el teorema del l´ımite central para el estimador X cuando n, el tama˜no de la muestra, es grande.

La misma estrategia se puede utilizar si disponemos de resultados de normalidad asintótica para el estimador del parámetro de interés de la distribución que se haya escogido. Usaremos aqu´ı, en especial, los resultados de las secciones 5.4.1 y 5.4.2.

Supongamos que tenemos una variable aleatoria X con funci´on de densidad

f (x; θ). Llamemos, como en la secci´on anterior, Eθ(X) = μ(θ) y Vθ(X) = v(θ). Digamos que Tn := Tn(X1, . . . , Xn) es un estimador de θ para el que se veriﬁca

un resultado de normalidad asint´otica del tipo

√_{n (T}

n− θ)−−−→d

n→∞ N (0, w(θ)), donde w(θ) es una cierta funci´on de θ.

El estimador Tn podr´ıa ser

la misma media muestral X_(n), si es que μ(θ) = θ; en este caso w(θ) ser´ıa simplemente la varianza v(θ);

o del tipo Tn = g(X(n)), para una cierta funci´on g, como los que se obtienen

por el m´etodo de momentos; en este caso, la funci´on w(θ) vendr´ıa dada por

w(θ) = |g_(μ(θ)_|2_{v(θ), como nos dice el m´etodo delta, siempre que la funci´on g}

cumpla las condiciones del teorema 5.14 (o del corolario 5.15);

o un estimador de m´axima verosimilitud, en cuyo caso tendr´ıamos que w(θ) = 1/IX(θ) (secci´on 5.4.2).

En cualquier caso, tendr´ıamos que

Tn− θ

w(θ)/n d

≈ N (0, 1) ,

lo que nos llevar´ıa, con los argumentos habituales, a que

P Tn− z_α/2 w(θ)/n ≤ θ ≤ Tn+ z_α/2 w(θ)/n≈ 1 − α .

(15)

Obs´ervese que si, por ejemplo, el par´ametro θ fuera positivo y se tuviera que w(θ) =

Kθ2_{, donde K es cierta constante, entonces en la expresi´}_{on anterior podr´ıamos}

si-tuar θ en un intervalo que solo depende del estimador:

1− α ≈ P Tn− zα/2 Kθ2_{/n ≤ θ ≤ T}_n_{+ z} α/2 Kθ2_/n = P ₁ 1 + z_α/2K/n· Tn≤ θ ≤ 1 1− z_α/2K/n · Tn .

Si no fuera el caso, proceder´ıamos como ya hemos hecho en secciones anteriores. Dada la muestra emp´ırica (x₁, . . . , xn), calcular´ıamos la estimaci´on ˆθ = T (x1, . . . , xn),

que usar´ıamos para escribir el intervalo de conﬁanza (aproximadamente) 1−α para θ como ˆ θ − zα/2 w(ˆθ)/n ≤ θ ≤ ˆθ + zα/2 w(ˆθ)/n.

Veamos un par de ejemplos.

Ejemplo 6.3.6. Intervalo de confianza para el par´ametro θ de X ∼ Ray(θ). El estimador m´aximo veros´ımil de θ es

emvn(X1, . . . , Xn) =

1 2X2(n).

El n´umero de informaci´on es, en este caso, Iθ(X) = 4/θ2. Esto nos dice que w(θ) =

θ2_{/4, y por tanto} () P emvn− z_α/2 θ 2n ≤ θ ≤ emvn+ zα/2 θ 2n ≈ 1 − α , es decir, despejando, () P 1 1 + zα/2 2√n · emvn≤ θ ≤ 1 1−zα/2 2√n · emvn ≈ 1 − α.

Sea ahora (x₁, . . . , xn) una muestra emp´ırica de X, que nos da la estimaci´on ˆ

θ = (x2_/2)1/2 _{del par´}_{ametro θ. Utilizando (), el intervalo de (aproximadamente)}

conﬁanza 1− α ser´ıa 1 1 +zα/2 2√n ˆ θ , 1 1−zα/2 2√n ˆ θ ,

mientras que usando () directamente, tendr´ıamos 1− zα/2 2√n ˆ θ , 1 + zα/2 2√n ˆ θ.

Obs´ervese que 1 1 + zα/2 2√n = 1− zα/2 z_α/2+ 2√n y 1 1− zα/2 2√n = 1 + zα/2 2√n − z_α/2.

As´ı que los dos intervalos no son exactamente iguales, pero s´ı son muy parecidos

(16)

Ejemplo 6.3.7. Intervalo de confianza para λ en X ∼ exp(λ).

Consideramos el estimador Tn = 1/X(n). Como vimos en el ejemplo 5.4.8, √

n (Tn− λ) converge en distribuci´on a N0, λ2 . Esto nos da que, para n grande,

P

Tn− z_α/2√λ_{n ≤}λ ≤ Tn+ z_α/2√λ_n

≈ 1 − α.

Sea ahora (x₁, . . . , xn) una muestra emp´ırica de X, que nos da la estimaci´on ˆ

λ = 1/x del par´ametro λ. Se tendr´ıa entonces, estimando λ como 1/x, que el intervalo

₁ x −zα/2 1 x √n, 1 x + zα/2 1 x √n ,

contiene a λ con (aproximadamente) conﬁanza 1− α. ♣

6.3.5. Datos (normales) apareados: diferencia de medias

Finalizamos esta sección, antes de entrar en el análisis del caso de intervalos de confianza para dos poblaciones (sección 6.4), y de hecho para diferenciarla de aquél, tratando la siguiente situación.

Pongamos que, en una cierta población, y para cada individuo, registramos la tensi´on arterial antes (X) y después (Y ) de administrar una cierta droga. Interesa establecer un intervalo de confianza para la diferencia de las medias μX − μY.

Modelamos el par (X, Y ) con una normal bidimensional. La variable W = X−Y es una variable normal, y de ella nos interesa estimar su media, pues μW = μX− μY.

La varianza de W involucra la de X, la de Y y adem´as el coeficiente de correlación entre X e Y . En general, X e Y son dependientes y ese coeficiente de correlaci´on será distinto de 0. Pero, afortunadamente, no se requiere informaci´on alguna sobre V(W ). Si tenemos la muestra emp´ırica (x₁, y₁), . . . , (xn, yn) , formamos una muestra (w1, . . . , wn) de W tomando las diferencias:

wj = xj− yj, j = 1, . . . , n.

Tras calcular w y sw para esta muestra, y usando los resultados de la secci´on 6.3.1, concluimos que el intervalo

w − t_{{n−1 ; α/2}} √sw_n, w + t_{{n−1 ; α/2}}√sw_n

contiene a μX− μY con conﬁanza de 1− α.

Obs´ervese que este intervalo se calcula usando (´unicamente) la media muestral w de los wj y la cuasivarianza muestral sw de los wj.

(17)

6.4. Intervalos para dos poblaciones independientes

Nos interesamos ahora por la siguiente situaci´on: tenemos dos poblaciones, en las que medimos una cierta caracter´ıstica, por ejemplo la altura, el cociente intelectual, la renta per c´apita, etc. Digamos que la variable X representa esa caracter´ıstica en la primera poblaci´on, y que Y lo hace en la segunda. Suponemos, como resulta natural, que X e Y son independientes.

Para establecer intervalos de confianza para, por ejemplo, la diferencia entre la media de X y la de Y , tomamos muestras de tamaño n₁ en la población 1, y de tama˜no n₂ en la segunda. Vamos a tratar en detalle el caso en el que X e Y son normales (sección 6.4.1), e ilustraremos cómo se analizar´ıan otras situaciones con el caso en el que X e Y con variables Bernoulli (secci´on 6.4.2), apelando a resultados de normalidad asintótica.

6.4.1. Caso de dos variables normales

Tenemos dos poblaciones en las que hacemos mediciones independientes de can-tidades que siguen distribuciones normales.

En la primera poblaci´on tenemos que X ∼ N (μ1, σ₁2). El tama˜no muestral en esta poblaci´on es n₁, esto es, tenemos n₁ clones (X₁, X₂, . . . , Xn1).

En la segunda poblaci´on tenemos Y ∼ N (μ2, σ2₂). El tama˜no muestral en esta poblaci´on es n₂, esto es, tenemos n₂ clones (Y₁, Y₂, . . . , Yn2).

Adem´as, las extracciones de muestras en las dos poblaciones son independientes unas de otras, es decir, las Xj y las Yk son independientes.

Tenemos las medias muestrales X y Y , las cuasivarianzas muestrales S₁2 y S₂2. Obs´ervese que estas cuatro variables aleatorias son independientes.

En el an´alisis que sigue aparecer´an dos estad´ısticos adicionales: a) una suerte de estad´ıstico cuasivarianza promedio:

(6.1) S_p2= (n1− 1)S

2

1 + (n2− 1)S22 n₁− 1 + n2− 1 ,

que para el caso n1= n2 resulta ser la media aritm´etica de S12 y S22;

b) y la siguiente combinaci´on de S₁2 y S₂2: (6.2) S 2= S 2 1 n1 +S 2 2 n2 .

A. Intervalo para diferencia de medias

Queremos estimar μ₁− μ2. La variable X− Y es una normal con par´ametros

X − Y d = N μ₁− μ2,σ21 n₁ + σ2 2 n₂

(18)

es decir X − Y − (μ1− μ2) σ2 1/n1+ σ22/n2 d = N (0, 1) . Caso 1. σ₁ y σ₂ conocidas

Si conocemos los valores de σ1 y σ2, bien porque es razonable suponerlos a partir

de c´alculos anteriores, bien por contraste te´orico, entonces el intervalo para μ₁− μ2 con conﬁanza 1− α ser´ıa

μ1− μ2= (x− y) ± zα/2 σ2 1 n1 +σ 2 2 n2

Nos ponemos ahora en la situaci´on, m´as realista, en la que no conocemos los

valores de σ1 y σ2.

Por Fisher–Cochran, teorema 4.7, tenemos que

(n1− 1)S12 d

= σ₁2χ2_n₁₋₁ y (n2− 1)S22 d

= σ₂2χ2_n₂₋₁. Las dos χ2 que aqu´ı aparecen son independientes.

Si sumamos las dos expresiones anteriores, obtenemos

(n1− 1)S21+ (n2− 1)S22 d

= σ₁2χ2_n₁₋₁+ σ₂2χ2_n₂₋₁, as´ı que, usando la deﬁnici´on de S_p2 de (6.1),

() [(n1− 1) + (n2− 1)] Sp2 = σd 21χ2n1−1+ σ

2

2χ2n2−1.

Caso 2. σ₁ y σ₂ desconocidas, pero iguales

Digamos que σ₁= σ₂ = σ. Es decir, que aunque las varianzas son desconocidas, podemos suponer que son iguales. Entonces () queda

[(n₁− 1) + (n2− 1)] S_p2 = σd 2(χn1−1+ χn2−1)

d

= σ2χ2_n₁_−1+n₂₋₁, puesto que las dos variables χ2 son independientes. Esto nos da que

Sp = σd

χ2

n1−1+n2−1

n₁− 1 + n2− 1.

Adem´as, en este caso,

X − Y d = N μ₁− μ2, σ2 1 n₁ + 1 n₂ .

(19)

Finalmente, como X−Y es independiente de la χ2que especiﬁca a Sp(por Fisher– Cochran y la independencia de los clones de X con los clones de Y ) se tiene que

(X− Y ) − (μ1− μ2)

Sp1/n1+ 1/n2

∼ stu(n1− 1 + n2− 1) .

Ê

Nota 6.4.1. Basta observar que, llamando Z a una N (0, 1) y W a una χ2

n1+n2−2, (X − Y ) − (μ1− μ2) Sp1/n1+ 1/n2 = (X−Y )−(μ1−μ2) σ√1/n1+1/n2−2 W/(n1+n2− 2) d = Z W/(n1+n2− 2) .

Esto nos dice que, para α ﬁjo,

1− α = P (X− Y ) − t_{n₁_+n₂_{−2 ; α/2}} Sp 1 n1 + 1 n2 ≤ μ1− μ2 ≤ (X − Y ) + t{n1+n2−2 ; α/2}Sp 1 n1 + 1 n2 .

De donde, dadas unas muestras emp´ıricas (x₁, . . . , xn1) e (y1, . . . , yn2), cuyas

medias muestrales son x e y, respectivamente, y cuyas cuasivarianzas muestrales son

s2

1 y s22, obtenemos el siguiente intervalo para μ1− μ2 con conﬁanza de 1− α: μ₁− μ2 = (x− y) ± t_{n₁_−1+n₂_{−1 ; α/2}}sp 1 n₁ + 1 n₂ con s2 p = (n1− 1)s 2 1+ (n2− 1)s22 n₁− 1 + n2− 1 . Caso 3. σ₁ y σ₂ desconocidas

Nos ponemos, ﬁnalmente, en la situaci´on general en la que σ₁ y σ₂ son descono-cidas, pero adem´as no podemos suponer a priori que σ1= σ2.

Ahora, desafortunadamente, no podemos sacar un factor com´un en (). Veamos c´omo podemos argumentar. El estad´ıstico

S2 ₌ S12 n1 +S 2 2 n2

es un estimador insesgado de σ2₁/n1 + σ22/n2, y es independiente de X− Y , lo que

invita considerar el estad´ıstico

(X− Y ) − (μ1− μ2) S2 1/n1+ S22/n2 = (X− Y − (μ1− μ2)) S .

(20)

Además, S2 es una combinación lineal con coeficientes positivos de las variables

X2

1, X22, . . . , Xn21, Y

2

1, Y22, . . . , Yn22. Conv´enzase el lector repasando la demostraci´on del

teorema 4.7 de Fisher-Cochran.

Aproximamos entonces S2 _{por un m´}_{ultiplo de una χ}2

g con un cierto n´umero de grados de libertad g: pongamos

(†) S 2 = S 2 1 n₁ + S2 2 n₂ d ≈ Λχ_g2g .

(donde hemos dividido la χ2_gpor sus grados anticipando su papel en una t de Student por venir).

¿Qu´e valores deber´ıamos asignar a Λ y a g? Si igualamos esperanzas en (†), tendr´ıamos que

σ2 1 n1 +σ 2 2 n2 ≈ Λ ,

puesto que E(χ2_g) = g. Y si igualamos varianzas en (†), tendr´ıamos que

σ4 1 n2 1(n1− 1) + σ 4 2 n2 2(n2− 1) ≈ Λ2 g ,

pues S₁2 y S₂2 son independientes y V(χ2_g) = 2g. La conclusi´on es que Λ≈ σ 2 1 n₁ + σ2 2 n₂ y g ≈ σ2 1 n1 + σ2 2 n2 2 σ4 1 n2 1(n1−1) + σ4 2 n2 2(n2−1)

Esto nos dar´ıa que

S2 d_≈ σ21 n₁ + σ2 2 n₂ χ2 g g

y (casi ﬁnalmente) que

(X− Y ) − (μ1− μ2) S2 1/n1+ S22/n2 d ≈ (X− Y ) − (μ1− μ2) σ₁2/n₁+ σ2₂/n₂ χ2_g/g ,

que es una t de Student con g grados de libertad, pues el par (S₁2, S₂2) es independiente del par (X, Y ).

Parece que con esto ya tendr´ıamos suficiente, pero obsérvese que el valor dado para g no es un entero (esto no es grave), y, sobre todo, que depende de las des-conocidas σ₁2 y σ2₂. Obtenemos un valor sensato de g aproximando σ₁2 y σ2₂ por sus estimaciones s2₁ y s2₂, y buscando el entero más próximo:

g = entero m´as pr´oximo a

s2 1 n1 + s2 2 n2 2 (s2 1/n1)2 (n1−1) + (s2 2/n2)2 (n2−1)

(21)

El intervalo para μ1− μ2 con conﬁanza (1− α) resulta entonces μ₁− μ2 = x− y ± t_{g;α/2} s2 1 n₁ + s2 2 n₂

B. Intervalo para cociente de varianzas El argumento aqu´ı es bien directo. Como

(n₁− 1)S₁2 = σd ₁2χ2_n₁₋₁ y (n₂− 1)S₂2 = σd ₂2χ2_n₂₋₁, y adem´as S2₁ y S₂2 son independientes, tenemos que

S2 1/σ12 S2 2/σ22 d = χ 2 n1−1/(n1− 1) χ2 n2−1/(n2− 1) ∼ Fn1−1,n2−1.

As´ı que, con probabilidad (1− α), se tiene que

F_{n₁_−1,n₂_{−1;1−α/2}}≤ S12/σ21 S2

2/σ22

≤ F{n1−1,n2−1;α/2},

lo que nos da el siguiente intervalo con conﬁanza 1− α para el cociente σ2₁/σ2₂:

₁ F_{n₁_−1,n₂_−1;α/2} s2 1 s2 2 , 1 F_{n₁_−1,n₂_{−1;1−α/2}} s2 1 s2 2

6.4.2. Caso de dos proporciones

Tenemos dos poblaciones independientes de las que nos interesa comparar las proporciones con las que se da una determinada caracter´ıstica.

En la primera, tenemos X ∼ Ber(p1) y una muestra de tama˜no n₁. Los clones son X1, . . . , Xn1.

En la segunda, tenemos Y ∼ Ber(p2) y una muestra de tama˜no n2. Los clones

son Y₁, . . . , Yn2.

Las variables X₁, . . . , Xn1, Y1, . . . , Yn2 son independientes.

Nos interesa estimar p1− p2.

Atendemos s´olo al caso en que n₁ y n₂ son grandes para apelar al teorema del l´ımite central (o a la aproximaci´on de la binomial por la normal).

Tenemos que

X ≈ p1d +p1(1− p1)/n1NX y que Y d

(22)

dondeNX yNY son normales est´andar independientes. Por tanto, X − Y ≈ p1d − p2+ p₁(1− p1) n1 +p2(1− p2) n2 N

dondeN es una normal est´andar.

Con esto obtendr´ıamos un intervalo para p1 − p2, centrado en x− y, pero en

cuyo error aparecer´ıan de nuevo p₁ y p₂. Con el mismo truco/aproximación del caso de estimación de la proporción de una sola población, es decir, reemplazando (en el error s´olo) p1 por x y p2 por y, obtenemos el intervalo de confianza 1− α siguiente:

p₁− p2 = x− y ± z_α/2 x(1 − x) n1 +y(1 − y) n2

(23)

6.5. Resumen: intervalos de confianza m´

as habituales

6.5.1. Intervalos I de confianza 1 − α para UNA distribuci´on

Denotamos por x a la media y s2 a la cuasivarianza de la muestra (x₁, . . . , xn) de tama˜no n de la variable X. Los intervalos que siguen son con conﬁanza 1− α.

Normal N (μ, σ2₎

A. Intervalos para la media μ

Caso 1. Suponiendo que σ2 es conocida:

X − μ σ/√n d =N (0, 1) −→ Intervalo: I = x ± zα/2√σ_n . Caso 2. Si σ2 es desconocida: X − μ S/√n d = t_n−1 −→ Intervalo: I = x ± t_{{n−1 ; α/2}} √s_n

B. Intervalo para la varianza σ2 Estimador: (n−1) S 2 σ2 d = χ2_n−1 −→ Intervalo: I = _(n_{−1) s}2 χ2 {n−1; α/2} , (n−1) s2 χ2 {n−1; 1−α/2}

Proporci´on p Para n grande,

X − p p(1−p)/n d ≈ N (0, 1) −→ Intervalo: I =x ± zα/2 x (1−x) n

Poisson (λ) Para n grande,

X − λ λ/n d ≈ N (0, 1) −→ Intervalo: I =x ± z_α/2 x n

6.5.2. Intervalos I de confianza 1 − α para DOS distribuciones Dos normales, X₁ _{= N (μ1}, σ₁2_{), X2} _{= N (μ2}, σ₂2₎

Datos:

muestra de tama˜no n₁de la variable X₁, con media muestral x₁y cuasivarianza muestral s2₁.

(24)

muestra de tama˜no n2de la variable X2, con media muestral x2y cuasivarianza

muestral s2₂.

Para la diferencia de medias μ₁− μ₂:

si σ₁, σ₂ conocidas: I =x₁− x2 ± zα/2 σ2 1 n1 + σ2 2 n2 si σ₁, σ₂ desconocidas, pero σ₁ = σ₂: I =x₁− x2 ± t_{n1+n2−2; α/2}· sp 1 n1 + 1 n2 donde s2 p = (n1− 1)s 2 1+ (n2− 1)s22 (n1− 1) + (n2− 1) . si σ₁, σ₂ desconocidas, pero σ₁ = σ2: I =x₁− x2 ± t_{{f; α/2}} s21 n1 + s2 2 n2

donde f es el entero m´as pr´oximo a s2 1/n1+ s22/n2 ₂ (s2 1/n1)2 n1−1 + (s2 2/n2)2 n2−1 .

Para el cociente de varianzas σ2₁/σ₂2:

I = _s₂ 1/s22 F_{n₁_{−1 , n}₂_{−1 ; α/2}} , s2 1/s22 F_{n₁_{−1 , n}₂_{−1 ; 1−α/2}} Comparaci´on de proporciones p₁, p₂ Datos:

muestra de tama˜no n₁ de la variable X₁ ∼ ber(p1), media muestral x₁. muestra de tama˜no n₂ de la variable X₂ ∼ ber(p2), media muestral x₂. Tanto n₁ como n₂ son grandes.

Para p₁ − p₂: I =x1− x2 ± zα/2 x1(1−x1) n1 + x2(1−x2) n2