5. Inf Est.: Estimaci´ on (I)
5.2. Intervalos de confianza (IC)
5.2.1. IC para una media poblacional
La deducci´on de un intervalo de confianza para la media poblacional depende de varios aspectos que combinados de cierta manera conforman una situaci´on particular que determina la forma del intervalo. Los aspectos a considerar en la construcci´on de un intervalo de confianza son:
el tipo de distribuci´on de la variable estudiada, el conocimiento de la varianza poblacional, y el tama˜no de la muestra.
A continuaci´on estudiaremos las distintas situaciones o casos que se pueden presentar en el desarrollo de un intervalo de confianza.
5.2.1.1. Caso 1: Muestreo en una poblaci´on distribuida normalmente y con varianza conocida .
Sup´ongase que se desea estimar el valor de la media poblacional de una variable que se distribuye normalmente con varianza conocida (σx2), para lo cual se extrae una muestra de tama˜nony se calcula la media de la muestra (x). El valor dexes uno del total que con- forman la poblaci´on de valores de la variable aleatoriaX que como se sabe se distribuye normalmente alrededor de una mediaµxcon varianzaσx2/n. En esta poblaci´on se pueden encontrar dos valores x1 y x2 separados
sim´etricamente de µx que definen un inter- valo dentro del cual queda incluida una pro- porci´on (1−α) del total de valores deX. Los valoresx1 yx2se encuentran transformando la variable X en la variableZ, es decir
−z1 =−z(1−α/2) = x1−µx σx/ √ n +z2 = +z(1−α/2) = x2−µx σx/ √ n
donde, por ejemplo, +z(1−α/2) es el valor de
Z a la izquierda del cual se encuentra una fracci´on del ´area igual a 1−α/2. Estos va- lores de Z se encuentran en la tabla de la distribuci´on acumulada deZ, por lo que des- pejando, los valores que necesitamos son
x1=µx−z(1−α/2)σx/ √
n y x2=µx+z(1−α/2)σx/ √
n
Los valoresx1 yx2 representan el l´ımite inferior y superior del intervalo que contiene el (1−α)100 % de los valores deX.
La proporci´on de medias muestrales que se espera que- den dentro del intervalo depende del valor de z(1−α/2). As´ı, se espera que para los valores 1.65, 1.96 y 2.58 est´en contenidos el 90 %, 95 % y 99 % de los valores deX, res- pectivamente. La construcci´on de un intervalo como los anteriores no resuelve el problema de estimar µx, por- que precisamente desconocemos su valor y no hay for- ma de encontrar los l´ımites que definan un intervalo. Pero sup´ongase que se construye a partir de una me- dia muestral cualquiera, un intervalo similar al siguien- te: [x±z(1−α/2)σx/
√
n] . Este intervalo contendr´a a µx siempre y cuando el valor de la x se encuentre entre los l´ımites del intervalo [µx±z(1−α/2)σx/
√
n] (ver figura de la izquierda). Solamente aquellos intervalos generados a partir de aquellas pocas medias muestrales que se encuentran muy alejados de la media poblacional no incluyen a esta ´ultima.
De modo que un intervalo de la forma [x±z(1−α/2)σx/ √
n] recibe el nombre de in- tervalo de confianza del (1−α)100 %. Los valores extremos se denominan l´ımites de confianza, existiendo un l´ımite superior (LS=x+z(1−α/2)σx/
√
n) y un l´ımite inferior (LI=x−z(1−α/2)σx/
√
n). El t´erminoz(1−α/2) recibe el nombre de coeficiente de confia- bilidad. La fracci´on 1−α se denomina nivel de confianza y representa la probabilidad de que el intervalo contenga el par´ametro poblacional. Consecuentemente, α representa la probabilidad de que el intervalo no contenga el par´ametro poblacional.
Observar que, a mayor amplitud del intervalo, aumenta la probabilidad de que el par´ame- tro est´e incluido dentro del intervalo dado, pero tambi´en es mayor la incertidumbre so- bre el valor del par´ametro. Lo ideal ser´ıa construir intervalos estrechos con un alto nivel de confianza. Cuando en una situaci´on real se construye un intervalo de confianza, la media poblacional puede o no estar incluida dentro del intervalo. Sin embargo existe una probabilidad igual a 1−α de que el par´ametro quede incluido. Otra forma de decirlo, si se construyen infinidad de intervalos similares, el (1−α)100 % de los mismos contendr´an a la media poblacional. Es importante advertir que es un error generali- zado el se˜nalar que la media poblacional se encuentra entre los valores de los l´ımites del IC, porque la media poblacional como cualquier otro par´ametro es un valor fijo, y la afirmaci´on anterior sugiere que el par´ametro puede asumir cualquier valor entre los dos l´ımites con cierta probabilidad. Si se analiza con un poco m´as de detalle la relaci´on entre los intervalos construidos a partir de las medias muestrales y la media poblacional, se observa que ambas cantidades se encuentran alejadas cierta distancia . La distanciase denomina error de estima-
ci´on. Para que un intervalo contenga a la me- dia poblacional con una probabilidad igual a 1−α, ese error debe ser menor a la distan- ciaz(1−α/2)σx/
√
n, con lo cual el m´odulo de dicha distancia queda definido como el error m´aximo (m). Una consecuencia directa de conocer m es que permite determinar cu´al
debe ser el tama˜no muestral adecuado para cometer ese error m´aximo un (1−α)100 % de las veces, es decir
n= z
(1−α/2)σx
m 2
Ejemplo: Al examinar 9 porciones de agua se encontr´o una concentraci´on promedio de i´on nitrato igual a 0,5 µg/ml. Se desea estimar mediante un intervalo de confianza del 95 % la concentraci´on promedio del nitrato en el agua, si se sabe que la desviaci´on del m´etodo para ´este an´alisis es de 0,15µg/ml.
El intervalo que se quiere es de la forma [x±z(1−α/2)σx/ √
n] teniendo como l´ımites los valores siguientes: LI =x−z(0,975)σx/ √ n= 0,5−1,96(0,15/√9) = 0,4020 µg/ml LS =x+z(0,975)σx/ √ n= 0,5 + 1,96(0,15/√9) = 0,5980µg/ml
Entonces el intervalo buscado es [0,4020; 0,5980]. Se concluye que se tiene un 95 % de confianza de que la concentraci´on promedio del i´on nitrato en el agua se encuentre incluida dentro de este intervalo.
Tambi´en se puede decir que el error m´aximo de estimaci´on con un 95 % de confianza es:
m= z(1−α/2)σx/ √ n = 1,96(0,15/ √ 9) = 0,098µg/ml
Ahora bien, si se desea aumentar el nivel de confianza, por ejemplo a un 99 %, sin aumentar el error de estimaci´on, el tama˜no de la muestra debe ser igual a:
n= z (0,995)σx m 2 = 2,58(0,15) 0,098 2 = 16
Por otra parte, si se quiere reducir el error de estimaci´on a unos 0,05µg/ml, manteniendo el nivel de confianza del 95 %, entonces el tama˜no muestral debe ser
n= z (0,975)σx m 2 = 1,96(0,15) 0,05 2 = 35
5.2.1.2. Caso 2: Muestreo a partir de una poblaci´on distribuida normalmente, con varianza desconocida y tama˜no de muestra grande (n≥30) .
La situaci´on m´as com´un cuando se trata de estimar el valor de una media poblacional mediante un intervalo de confianza es que no slo se desconoce el valor deµsino tambi´en el de la varianza poblacional σx2. Cuando se presenta una situaci´on como la descripta, se puede utilizar la varianza de la muestra (Sx2) como una estimaci´on puntual de la varianza poblacional (σ2
x). Si el tama˜no de la muestra es grande (n≥30), el estad´ıstico (x−µx)/(Sx/
√
n) se distribuye normalmente, quedando el intervalo de confianza de la forma [x±z(1−α/2)Sx/
√
n].
5.2.1.3. Caso 3: Muestreo a partir de una poblaci´on distribuida normalmente, con varianza desconocida y tama˜no de muestra peque˜no (n <30) .
Una nueva situaci´on se presenta si de una poblaci´on que se distribuye normalmente con varianza desconocida se toma una muestra peque˜na (n <30). En ´este caso,Sxya no es un buen estimador de σx y el estad´ıstico (x−µx)/(Sx/
√
n) no se distribuye normalmente. Afortunadamente, existe otro modelo que describe su distribuci´on de probabilidades, conocido como distribuci´on de T o de Student. En este caso, se dice que la variable (x−µx)/(Sx/
√
n) se distribuye como T con n−1 grados de libertad. El intervalo de confianza vendr´a dado por la expresi´on
[x±t(1−α/2;n−1)Sx/ √
n]
dondet(1−α/2;n−1) es el valor deT a la izquierda del cual se encuentra el (1−α/2)100 % de los valores deT.
5.2.1.4. Distribuci´on de T .
La distribuci´on de Student fue descripta en 1908 por William Sealy Gosset. Recordemos que si tenemosX1, ..., Xn variables aleatorias independientes distribuidas normalmente, con mediaµy varianzaσ2, entonces la distribuci´on de las medias muestrales tambi´en se distribuye normalmente con mediaµ y varianzaσ2/n. Entonces
Z = X−µ
σ/√n
sigue una distribuci´on normal de media 0 y varianza 1. Sin embargo, dado que la des- viaci´on est´andar no siempre es conocida de antemano, Gosset estudi´o un cociente rela- cionado, T = X−µ Sx/ √ n donde S 2 x= 1 n−1 n X i=1 (xi−x)2 es la varianza muestral, y demostr´o que la funci´on distribuci´on deT es
f(t) = Γ((√ ν+ 1)/2)
νπ Γ(ν/2)(1 +t
2/ν)−(ν+1)/2
dondeνes igual an−1. La distribuci´on deT se llama ahora la distribuci´on-t de Student. Gosset trabajaba en una f´abrica de cerveza Guinness que prohib´ıa a sus empleados la pu- blicaci´on de art´ıculos cient´ıficos debido a una difusi´on previa de secretos industriales. De ah´ı que Gosset publicase sus resultados bajo el seud´onimo de Student. El par´ametroνre- presenta el n´umero de grados de libertad. La distribuci´on depende deν, pero no deµoσ,
lo cual es muy importante en la pr´actica.
En la figura de la derecha pueden verse va- rias distribucionesT con distintos grados de libertad (k en el caso de la figura). La dis- tribuci´onT se caracteriza por: tomar valores entre (−∞,+∞); los valores deT se distri- buyen sim´etricamente alrededor de la media
µ = 0; y su forma es parecida a la distri- buci´on normal pero m´as prominente y con colas m´as elevadas. Es importante tener en mente que cuando el n´umero de grados de libertad es grande, la distribuci´on T tien- de a una distribuci´on normal (como era de esperarse). Para cada valor de ν existe una
distribuci´on T. Las tablas de la distribuci´on acumulativa de T tienen como entradas los grados de libertad y la probabilidad de tener un valor menor at. Cualquier valor detse identifica de la siguiente manera:t(1−α;n−1). Por ejemplot(0,975;6)= 2,447 (ver tabla) es el valor de t a la izquierda del cual se encuentra una proporci´on del ´area igual a 0.975 con 6 grados de libertad, o dicho de otra manera: existe una probabilidad igual a 0.975 de encontrar un valor igual o menor a t=2.447 para 6 grados de libertad.
5.2.1.5. Caso 4: Muestreo a partir de una poblaci´on con distribuci´on desconocida, con varianza conocida y tama˜no de muestra grande (n≥30) .
Cuando se desconoce la forma de la distribuci´on de valores de una variable no se puede predecir como ser´a la distribuci´on de la media muestral, a menos que el tama˜no de la muestra sea grande. Si este es el caso, es decir, n ≥ 30, entonces es aplicable el Teorema del L´ımite Central y la variable X tender´a a distribuirse normalmente con mediaµx =µx y varianzaσ2x =σx2/n, de modo que el intervalo de confianza ser´a de la forma [x±z(1−α/2)σx/
√
n].
5.2.1.6. Caso 5: Muestreo a partir de una poblaci´on con distribuci´on y varianza desconocida y tama˜no de muestra grande (n≥30) .
Como en el caso anterior al sern≥30, es aplicable el Teorema del L´ımite Central por lo que la media muestral se distribuye normalmente. La varianza de la muestra Sx2 se usa como estimador deσx2 y el intervalo de confianza ser´a de la forma [x±z(1−α/2)Sx/
√
n].
5.2.1.7. Caso 6: Muestreo a partir de una poblaci´on con distribuci´on desconocida y tama˜no de muestra peque˜no (n <30) .
Cuando no se conoce la distribuci´on de la variable y el tama˜no de la muestra es peque˜no (n < 30), no es posible predecir la distribuci´on que asume la media muestral. Por lo tanto, no se puede construir un intervalo de confianza, a menos que los datos sean trans- formados y se logren aproximar a una distribuci´on normal.
A continuaci´on se presenta un esquema con la combinaci´on de los diferentes aspectos que determinan la construcci´on de un IC.