Intervalo de Confianza Para Una Proporción

(1)

INTERVALO DE CONFIANZA PARA PROPORCIONES

1. PARA UNA PROPORCION A) FUNDAMENTO TEORICO

Sea X1, X2, …, Xn una muestra aleatoria de tamaño n escogida de una población de Bernoulli B(1,p), donde el parámetro p es la proporción de éxitos en la población. En la muestra cada X1=1, si ocurre éxito con probabilidad p, y cada X1=0, si no ocurre éxito en la probabilidad 1-p.

El estimador puntual del parámetro p es la estadística

´

p

proporción de éxitos en la muestra definida por:

´P=

∑

i=1 n

X

_i

n

o

´P= X

n

Donde, la variable aleatoria:

X =

_∑

i=1 n

X

_i

_,

es el número de éxitos en la muestra y cuya distribución es binomial B(n,p).

El valor

´P= X

_n

que se obtiene de ´P para una muestra específica, es la estimación puntual del parámetro p.

La estadística ´P tiene las siguientes propiedades:

Su media

μ

´P

=

E

(

´P

)

=

p

(2)

Además, si la muestra es grande (n≥30), entonces, por el teorema del límite central, la distribución de probabilidad de

´P

es aproximadamente la normal, con media p y con varianza p(1-p)/n.

Luego, la variable aleatoria estandarizada:

Z = ´P− p

√

p(1− p)/n

~

N(0,1)

Además, si hacemos p=

´P

(por estimación puntual para muestras grandes), entonces, el error típico de ´P es ET=

√

´p x

(

1−´p

)

/n

Por tanto, la estadística Z definida por Z=

( ´

p− p)/ ET

es la estadística de pivote para deducir el intervalo de confianza del parámetro p.

Dada la probabilidad 1-α, en la distribución de Z se halla el valor

Z

0

=

Z

1− α 2 ; tal

como en la figura 1, tal que:

P

_[

−

Z

₀

≤ Z ≤ Z

₀

_]

=1−α

Sustituyendo la expresión de

Z =( ´P− p)/ ET

y realizando operaciones convenientes se obtiene:

P

_[

´P−Z

0

xET ≤ p ≤ ´P+Z

0

xET

]

=1−α

Luego:

Si

´P

es la proporción de éxitos en una muestra aleatoria de tamaño n grande, entonces, el intervalo de confianza del

(1−α)×100

para p es:

´

(3)

Donde, ET=

√

´p x

(

1−´p

)

/n es el error típico de ´P

La ilustración de la figura 1 es:

Intervalo de estimación del (1−α)×100 para p

Donde:

a= ´p−Z

0

xET

_y

b= ´p +Z

0

xET

Son los límites de confianza de p, inferior y superior respectivamente. B) Ejemplos:

B.1) Ejemplo 1

Una encuestadora utilizó una muestra aleatoria de 600 electores que acaban de votar y encontró que 240 votaron a favor del candidato A.

a) Estimar el porcentaje de electores a favor de A en toda la población, utilizando un intervalo de confianza del 95%.

b) Si la proporción a favor del candidato A se estima en 40%, ¿cuánto es el error máximo de la estimación, si se quiere tener una confianza del 98%'?.

c) Si con la misma muestra la proporción a favor de B se estima en 38% con una confianza del 98% que el error no es mayor a 4.62%, ¿Se pueJe proclamar a A como ganador de las elecciones?.

(4)

d) ¿Qué tan grande se requiere que sea la muestra si se desea tener una confianza del 94% de que el error de estimación de p no sea superior a 2%?.

SOLUCION

a) La estimación puntual de la proporción p a favor de A en la población, es la proporción a su favor en la muestra de n = 6 00 electores; esto es.

´

p

_{= 240/600 = 0.40.}

La estimación del error estándar es

Para 1 - α = 0.95 se tiene z1−α 2

=z_0.975=1.96

Los límites de confianza de p, inferior y superior, son respectivamente:

´ p± z 1− α 2 ^ σ_p_´=0.40 ± 0.0392

Luego, el intervalo de confianza del 95% para p es de 0.3608 a 0.4392. Es decir, p є [36.08%, 43.92%] con confianza del 95%.

b) Si p se estima por p se tiene una confianza del (1 - α) x 100% que el error de la

estimación no será mayor que

z

1−α 2

√

´

p (1− ´p)/n

Para una confianza del 98%, z1−α 2 =z_0.99=2. 33

,

y

z

1−α 2

√

´

p (1− ´p)/n=2.33

√

(0.40)(0.60)/600=0.0466

Luego, si con n = 600, p se estima en 0.40, se tiene una confianza del 98% de que el error de la estimación a favor de A no será mayor a 4.66%.

(5)

c) El intervalo de confianza del 98% a favor de A es [35.34%, 44.66%].

El intervalo de confianza del 98% a favor de B es [33.38%, 42.62%].

Dado que la intersección de los intervalos no es vacía, no se puede proclamar a A como ganador. En este caso se dice que hay un empate técnico

d) Dado el error máximo e de la estimación de p con confianza de (1 — α) x 100% el tamaño n de la muestra, se puede determinar en dos formas:

d1) Si se tiene el valor de ´p (de una muestra preliminar o piloto), el error máximo de estimación de p es:

e=z

1− α 2

√

p (1− ´p)/n

´

De donde resulta;

n=

(

z

1−α 2

)

2

_´

p(1− ´p)

e

2

En nuestro ejemplo ´p =0.60. Para el nivel de confianza 1 - α =0.94.

Se obtiene:

z

1−α 2

=

z

_{0.9 7}

=1.88

.

Luego, se tiene una confianza del 94 % que el error al estimar p no será mayor que 0.02 si el tamaño de la muestra es:

n=(1.88)

2

(0.6)(0.4)/(0.02)

2

=2120.64 ≅ 21.21

d2) Si no se tiene el valor p , entonces, se puede usar el valor máximo

´

p

=

q

´

= 1 / 2 . En efecto,

´

p× ´q= ´p (1− ´p)=−

(

´

p−

1 ₂

)

2

+

1/4 ≤ 1/4

Luego de

e=z

1− α 2

√

p (1− ´p)/n

´

(6)

Resulta:

n ≅

(

z

1−α 2

)

2

4 e

2 Para 1 —α = 0 94, z1−α 2 =z_0.97=1.88

.

Luego, se tiene una confianza del 94% que el error al estimar p no será mayor de 0.02 si el tamaño de la muestra es,

n=(1.88)

2

/(4 ×(0.02)

2

)=2209

NOTA. Si el muestreo es sin reemplazo en una población (Bernoullí de valores 0 y 1) finita de tamaño N, entonces el error estándar de

´

p

es:

^

σ

_p

=

√

´

p(1− ´p)

n

√

N−n

N−1

y el valor de n se calcula por

n=

z

(

1− α 2

)

2

_{pq N}

_´

z

(

1−α 2

)

2

_pq+e

_´

2

₍

_{N −1)}

Si se desconoce ,

´

p

, se puede utilizar el valor

´

p

=0.5. B.2) Ejemplo 2

Una empresa va a hacer un estudio de mercado antes de lanzar un nuevo producto hacia una población de 30,000 consumidores.

a) ¿Qué tamaño de muestra deberá escoger si quiere tener una confianza del 95% de que error de la estimación de la proporción a favor del producto no sea superior al 4%?.

b) Si con el tamaño de la muestra calculado en a) se utiliza ´p = 0.7 como estimación de la proporción de todos los consumidores que prefieren su producto.

(7)

¿Qué grado de confianza utilizó si estimó de 19,783 a 22,217 el total de consumidores de la población que prefieren su producto?

SOLUCION

a) Para 1 - α = 0.95 se tiene

z

1−α 2

=

z

_0.975

=1.96

Utilizando el valor

´

p (1− ´p )=1/4

y N = 30,000 se tiene

n=

z

(

1− α 2

)

2

_´

pq N

z

(

1−α 2

)

2

_´

pq+e

2

(

N −1)

=

(

1.96)

2

(30,000)

(1.96)

2

+

4 (0.04 )

2

(

30,000−1)

=588.49≅ 589

b) El intervalo 19.783≤Np≤22.217, resulta de N

(

´p± z1− α 2 σ_p_´

),

donde

´

p=

¿

√

(

´

p (1− ´p)

n

)

(

N −n

N −1

)

σ

¿ Para n = 589, N = 30,000 y

´

p

= 0.70, se obtiene

σ

´p _{= 0.0187,} De 22.217=N

(

´p+z1−α 2 σ_´_p

)

resulta z1−α 2 =2.17

,

1 – α/2 =0.985, donde α=0.03 y 1 – α = .097

2. Intervalos de confianza para 2 proporciones

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2

(8)

Si las muestras son suﬁcientemente grandes ocurre que una aproximación para un intervalo de conﬁanza al nivel 1 − α para la diferencia de proporciones de dos poblaciones es:

Ejemplo:

Se cree que la osteoporosis está relacionada con el sexo. Para ello sea elige una muestra de 100 hombres de más de 50 años y una muestra de 200 mujeres en las mismas condiciones. Se obtiene que 10 hombres y 40 mujeres con algún grado de osteoporosis. ¿Qué podemos concluir con una conﬁanza del 95 %?

Solución:

Llamamos p1 a la incidencia de la osteoporosis en las mujeres de más de 50 años y p2 a la de los hombres. Calculemos un intervalo de confianza para la diferencia (p1 −p2). Si 0 no forma parte de dicho intervalo con una confianza del 95% podemos decir que p1 es diferente a p2 (con tal grado de confianza, por supuesto).

La estimación puntual insesgada que podemos hacer de ambos parámetros a partir de los datos muestrales son:

(9)

Es decir, tenemos una confianza del 95% en la afirmación de que la diferencia entre la incidencia de osteoporosis en mujeres y hombres esta entre 0,02 (2 %) y 0,18 (18 %). Obsérvese que como 0% no es un valor de dicho intervalo puede concluirse con una confianza del 95% que hay diferente incidencia de osteoporosis en hombres que en mujeres para las personas de más de 50 años. Esta conclusión es algo más pobre de lo que hemos obtenido con el intervalo de confianza, pero visto de esta manera, este ejemplo puede considerarse como una introducción a los contrastes de hipótesis.

(10)

PRUEBA DE HIPÓTESIS ACERCA DE PROPORCIONES

1. PRUEBA DE HIPOTESIS PARA UNA PROPORCION A) FUNDAMENTO TEÓRICO

Cuando el objetivo del muestreo es evaluar la validez de una afirmación con respecto a la proporción de una población, es adecuado utilizar una prueba de una muestra. La metodología de prueba depende de si el número de observaciones de la muestra es grande o pequeño.Como se habrá observado anteriormente, las pruebas de grandes muestras de medias y proporciones son bastante semejantes. De este modo, los valores estadísticos de prueba miden la desviación de un valor estadístico de muestra a partir de un valor propuesto. Y ambas pruebas se basan en la distribución normal estándar para valores críticos. Quizá la única diferencia real entre las ambas radica en la forma corno se obtiene la desviación estándar de la distribución de muestreo.

(11)

Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal a un nivel de significación seleccionado.

Como ocurrió con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas.

La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera, una prueba de dos colas.

EJEMPLO

En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe esta aseveración, a un nivel de significación de 0,025, respecto a la alternativa de que la

(12)

proporción real de los estudiantes universitarios trabajan es mayor de lo que se afirma, si una muestra aleatoria de 600 estudiantes universitarios revela que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes.

Los datos son:

Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor que el 5%. Se remplaza valores en la siguiente fórmula:

(13)

El gráfico elaborado se muestra a continuación:

2. PRUEBA DE PROPORCIONES DE DOS MUESTRAS

El objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cuales presentan la misma proporción de elementos con determinada característica. La prueba se concentra en la diferencia relativa (diferencia dividida entre la desviación estándar de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotan únicamente la variación casual producto del muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0). El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0 es aceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras.

(14)

EJEMPLO

Se ponen a prueba la enseñanza de la Estadística empleando Excel y Winstats. Para determinar si los estudiantes difieren en términos de estar a favor de la nueva

enseñanza se toma una muestra de 20 estudiantes de dos paralelos. De paralelo A 18 están a favor, en tanto que del paralelo B están a favor 14. ¿Es posible concluir con un nivel de significación de 0,05 que los estudiantes que están a favor de la nueva

enseñanza de la Estadística es la misma en los dos paralelos?. Los datos son:

(15)

Calculando la proporción muestral se obtiene:

(16)

Decisión:

(17)

Prueba de proporciones de k muestras

En una muestra se puede dar un conjunto de sucesos, los cuales ocurren con

frecuencias observadas "o"(las que se observa directamente) y frecuencias esperadas o teóricas "e" (las que se calculan de acuerdo a las leyes de probabilidad).

Por lo tanto el valor estadístico de prueba para este caso es la prueba ji cuadrado o conocida también como chi cuadrado

Como sucede con las distribuciones t y F, la distribución ji cuadrado tiene una forma que depende del número de grados de libertad asociados a un determinado problema. Para obtener un valor crítico (valor que deja un determinado porcentaje de área en la cola) a partir de una tabla de ji cuadrado, se debe seleccionar un nivel de significación y determinar los grados de libertad para el problema que se esté resolviendo.

(18)

EJEMPLO:

Determine el número de grados de libertad y obtenga el valores crítico en el niveles 0,05 se significación.

Solución:

(19)

(20)

2) La siguiente tabla muestra las frecuencias observadas y las frecuencias esperadas al lanzar un dado 60 veces. Contrastar la hipótesis de que el dado es bueno, con un nivel de significación de 0,01.

Solución:

(21)