IC para una media poblacional - Intervalos de confianza (IC)

5. Inf Est.: Estimaci´ on (I)

5.2. Intervalos de confianza (IC)

5.2.1. IC para una media poblacional

La deducción de un intervalo de confianza para la media poblacional depende de varios aspectos que combinados de cierta manera conforman una situación particular que determina la forma del intervalo. Los aspectos a considerar en la construcción de un intervalo de confianza son:

el tipo de distribuci´on de la variable estudiada, el conocimiento de la varianza poblacional, y el tama˜no de la muestra.

A continuaci´on estudiaremos las distintas situaciones o casos que se pueden presentar en el desarrollo de un intervalo de confianza.

5.2.1.1. Caso 1: Muestreo en una poblaci´on distribuida normalmente y con varianza conocida .

Supóngase que se desea estimar el valor de la media poblacional de una variable que se distribuye normalmente con varianza conocida (σ_x2), para lo cual se extrae una muestra de tamañony se calcula la media de la muestra (x). El valor dexes uno del total que conforman la población de valores de la variable aleatoriaX que como se sabe se distribuye normalmente alrededor de una mediaµxcon varianzaσx2/n. En esta población se pueden encontrar dos valores x1 y x2 separados

sim´etricamente de µx que definen un intervalo dentro del cual queda incluida una proporci´on (1−α) del total de valores deX. Los valoresx1 yx2se encuentran transformando la variable X en la variableZ, es decir

−z1 =−z(1−α/2) = x1−µx σx/ √ n +z2 = +z(1−α/2) = x2−µx σx/ √ n

donde, por ejemplo, +z₍₁−α/2) es el valor de

Z a la izquierda del cual se encuentra una fracción del área igual a 1−α/2. Estos valores de Z se encuentran en la tabla de la distribución acumulada deZ, por lo que des- pejando, los valores que necesitamos son

x1=µx−z(1−α/2)σx/ √

n y x2=µx+z(1−α/2)σx/ √

Los valoresx1 yx2 representan el l´ımite inferior y superior del intervalo que contiene el (1−α)100 % de los valores deX.

La proporción de medias muestrales que se espera que- den dentro del intervalo depende del valor de z(1−α/2). As´ı, se espera que para los valores 1.65, 1.96 y 2.58 estén contenidos el 90 %, 95 % y 99 % de los valores deX, res- pectivamente. La construcción de un intervalo como los anteriores no resuelve el problema de estimar µx, porque precisamente desconocemos su valor y no hay forma de encontrar los l´ımites que definan un intervalo. Pero supóngase que se construye a partir de una media muestral cualquiera, un intervalo similar al siguiente: [x±z(1−α/2)σx/

√

n] . Este intervalo contendr´a a µx siempre y cuando el valor de la x se encuentre entre los l´ımites del intervalo [µx±z(1−α/2)σx/

√

n] (ver figura de la izquierda). Solamente aquellos intervalos generados a partir de aquellas pocas medias muestrales que se encuentran muy alejados de la media poblacional no incluyen a esta ´ultima.

De modo que un intervalo de la forma [x±z₍₁−α/2)σx/ √

n] recibe el nombre de intervalo de confianza del (1−α)100 %. Los valores extremos se denominan l´ımites de confianza, existiendo un l´ımite superior (LS=x+z(1−α/2)σx/

√

n) y un l´ımite inferior (LI=x−z₍₁−α/2)σx/

√

n). El términoz₍₁−α/2) recibe el nombre de coeficiente de confia- bilidad. La fracción 1−α se denomina nivel de confianza y representa la probabilidad de que el intervalo contenga el parámetro poblacional. Consecuentemente, α representa la probabilidad de que el intervalo no contenga el parámetro poblacional.

Observar que, a mayor amplitud del intervalo, aumenta la probabilidad de que el paráme- tro esté incluido dentro del intervalo dado, pero también es mayor la incertidumbre so- bre el valor del parámetro. Lo ideal ser´ıa construir intervalos estrechos con un alto nivel de confianza. Cuando en una situación real se construye un intervalo de confianza, la media poblacional puede o no estar incluida dentro del intervalo. Sin embargo existe una probabilidad igual a 1−α de que el parámetro quede incluido. Otra forma de decirlo, si se construyen infinidad de intervalos similares, el (1−α)100 % de los mismos contendrán a la media poblacional. Es importante advertir que es un error generali- zado el señalar que la media poblacional se encuentra entre los valores de los l´ımites del IC, porque la media poblacional como cualquier otro parámetro es un valor fijo, y la afirmación anterior sugiere que el parámetro puede asumir cualquier valor entre los dos l´ımites con cierta probabilidad. Si se analiza con un poco más de detalle la relación entre los intervalos construidos a partir de las medias muestrales y la media poblacional, se observa que ambas cantidades se encuentran alejadas cierta distancia . La distanciase denomina error de estima-

ci´on. Para que un intervalo contenga a la media poblacional con una probabilidad igual a 1−α, ese error debe ser menor a la distan- ciaz₍₁−α/2)σx/

√

n, con lo cual el módulo de dicha distancia queda definido como el error máximo (m). Una consecuencia directa de conocer m es que permite determinar cuál

debe ser el tama˜no muestral adecuado para cometer ese error m´aximo un (1−α)100 % de las veces, es decir

n= _z

(1−α/2)σx

m 2

Ejemplo: Al examinar 9 porciones de agua se encontró una concentración promedio de ión nitrato igual a 0,5 µg/ml. Se desea estimar mediante un intervalo de confianza del 95 % la concentración promedio del nitrato en el agua, si se sabe que la desviación del método para éste análisis es de 0,15µg/ml.

El intervalo que se quiere es de la forma [x±z(1−α/2)σx/ √

n] teniendo como l´ımites los valores siguientes: LI =x−z(0,975)σx/ √ n= 0,5−1,96(0,15/√9) = 0,4020 µg/ml LS =x+z(0,975)σx/ √ n= 0,5 + 1,96(0,15/√9) = 0,5980µg/ml

Entonces el intervalo buscado es [0,4020; 0,5980]. Se concluye que se tiene un 95 % de confianza de que la concentraci´on promedio del i´on nitrato en el agua se encuentre incluida dentro de este intervalo.

También se puede decir que el error máximo de estimación con un 95 % de confianza es:

m= z(1−α/2)σx/ √ n = 1,96(0,15/ √ 9) = 0,098µg/ml

Ahora bien, si se desea aumentar el nivel de confianza, por ejemplo a un 99 %, sin aumentar el error de estimaci´on, el tama˜no de la muestra debe ser igual a:

n= _z (0,995)σx m 2 = 2,58(0,15) 0,098 2 = 16

Por otra parte, si se quiere reducir el error de estimaci´on a unos 0,05µg/ml, manteniendo el nivel de confianza del 95 %, entonces el tama˜no muestral debe ser

n= _z (0,975)σx m 2 = 1,96(0,15) 0,05 2 = 35

5.2.1.2. Caso 2: Muestreo a partir de una poblaci´on distribuida normalmente, con varianza desconocida y tama˜no de muestra grande (n≥30) .

La situación más común cuando se trata de estimar el valor de una media poblacional mediante un intervalo de confianza es que no slo se desconoce el valor deµsino también el de la varianza poblacional σ_x2. Cuando se presenta una situación como la descripta, se puede utilizar la varianza de la muestra (S_x2) como una estimación puntual de la varianza poblacional (σ2

x). Si el tama˜no de la muestra es grande (n≥30), el estad´ıstico (x−µx)/(Sx/

√

n) se distribuye normalmente, quedando el intervalo de confianza de la forma [x±z(1−α/2)Sx/

√

n].

5.2.1.3. Caso 3: Muestreo a partir de una población distribuida normalmente, con varianza desconocida y tamaño de muestra pequeño (n <30) .

Una nueva situación se presenta si de una población que se distribuye normalmente con varianza desconocida se toma una muestra pequeña (n <30). En éste caso,Sxya no es un buen estimador de σx y el estad´ıstico (x−µx)/(Sx/

√

n) no se distribuye normalmente. Afortunadamente, existe otro modelo que describe su distribuci´on de probabilidades, conocido como distribuci´on de T o de Student. En este caso, se dice que la variable (x−µx)/(Sx/

√

n) se distribuye como T con n−1 grados de libertad. El intervalo de confianza vendr´a dado por la expresi´on

[x±t(1−α/2;n−1)Sx/ √

dondet₍₁−α/2;n−1) es el valor deT a la izquierda del cual se encuentra el (1−α/2)100 % de los valores deT.

5.2.1.4. Distribuci´on de T .

La distribución de Student fue descripta en 1908 por William Sealy Gosset. Recordemos que si tenemosX1, ..., Xn variables aleatorias independientes distribuidas normalmente, con mediaµy varianzaσ2, entonces la distribución de las medias muestrales también se distribuye normalmente con mediaµ y varianzaσ2/n. Entonces

Z = X−µ

σ/√n

sigue una distribución normal de media 0 y varianza 1. Sin embargo, dado que la des- viación estándar no siempre es conocida de antemano, Gosset estudió un cociente rela- cionado, T = X−µ Sx/ √ n donde S 2 x= 1 n−1 n X i=1 (xi−x)2 es la varianza muestral, y demostró que la función distribución deT es

f(t) = Γ((√ ν+ 1)/2)

νπ Γ(ν/2)(1 +t

2_/ν₎−(ν+1)/2

dondeνes igual an−1. La distribución deT se llama ahora la distribución-t de Student. Gosset trabajaba en una fábrica de cerveza Guinness que prohib´ıa a sus empleados la pu- blicación de art´ıculos cient´ıficos debido a una difusión previa de secretos industriales. De ah´ı que Gosset publicase sus resultados bajo el seudónimo de Student. El parámetroνre- presenta el número de grados de libertad. La distribución depende deν, pero no deµoσ,

lo cual es muy importante en la pr´actica.

En la figura de la derecha pueden verse va- rias distribucionesT con distintos grados de libertad (k en el caso de la figura). La distribuci´onT se caracteriza por: tomar valores entre (−∞,+∞); los valores deT se distri- buyen sim´etricamente alrededor de la media

µ = 0; y su forma es parecida a la distri- bución normal pero más prominente y con colas más elevadas. Es importante tener en mente que cuando el número de grados de libertad es grande, la distribución T tien- de a una distribución normal (como era de esperarse). Para cada valor de ν existe una

distribución T. Las tablas de la distribución acumulativa de T tienen como entradas los grados de libertad y la probabilidad de tener un valor menor at. Cualquier valor detse identifica de la siguiente manera:t₍₁−α;n−1). Por ejemplot(0,975;6)= 2,447 (ver tabla) es el valor de t a la izquierda del cual se encuentra una proporción del área igual a 0.975 con 6 grados de libertad, o dicho de otra manera: existe una probabilidad igual a 0.975 de encontrar un valor igual o menor a t=2.447 para 6 grados de libertad.

5.2.1.5. Caso 4: Muestreo a partir de una población con distribución desconocida, con varianza conocida y tamaño de muestra grande (n≥30) .

Cuando se desconoce la forma de la distribución de valores de una variable no se puede predecir como será la distribución de la media muestral, a menos que el tamaño de la muestra sea grande. Si este es el caso, es decir, n ≥ 30, entonces es aplicable el Teorema del L´ımite Central y la variable X tenderá a distribuirse normalmente con mediaµx =µx y varianzaσ2x =σx2/n, de modo que el intervalo de confianza será de la forma [x±z₍₁−α/2)σx/

√

n].

5.2.1.6. Caso 5: Muestreo a partir de una población con distribución y varianza desconocida y tamaño de muestra grande (n≥30) .

Como en el caso anterior al sern≥30, es aplicable el Teorema del L´ımite Central por lo que la media muestral se distribuye normalmente. La varianza de la muestra S_x2 se usa como estimador deσ_x2 y el intervalo de confianza ser´a de la forma [x±z(1−α/2)Sx/

√

n].

5.2.1.7. Caso 6: Muestreo a partir de una población con distribución desconocida y tamaño de muestra pequeño (n <30) .

Cuando no se conoce la distribución de la variable y el tamaño de la muestra es pequeño (n < 30), no es posible predecir la distribución que asume la media muestral. Por lo tanto, no se puede construir un intervalo de confianza, a menos que los datos sean trans- formados y se logren aproximar a una distribución normal.

A continuación se presenta un esquema con la combinación de los diferentes aspectos que determinan la construcción de un IC.

In document Estadistica Basica.pdf (página 64-70)