04- Distribuciones Muestrales

Texto completo

(1)Facultad de Ciencias Naturales, UNSa Área de Estadística Material de apoyo didáctico elaborado por Silvia Sühring. DISTRIBUCIONES MUESTRALES. A partir de los datos obtenidos de un muestreo probabilístico podemos calcular estadísticos (medidas de resumen muestrales), que nos servirán para inferir (aproximar) los valores de los parámetros de la población bajo estudio lo más fielmente. MUESTRA estadísticos o estimadores x o Me x S p. POBLACIÓN Parámetros µ λ σ π. Los estadísticos o estimadores toman distintos valores para cada muestra extraída de una misma población, por lo tanto son variables aleatorias y poseen distribuciones de probabilidad, llamadas distribuciones muestrales. Distribución muestral: es la distribución de probabilidad de un estadístico calculada a partir de todas las muestras posibles de tamaño n elegidas al azar de una población determinada.. De cada distribución muestral nos interesa conocer. forma funcional media varianza. Es decir, nos interesa saber que distribución teórica tienen y cuanto valen los parámetros o características más importantes de la misma. Con esta información podremos calcular el error de estimación. DISTRIBUCIÓN DE LA MEDIA MUESTRAL Población µ σ n xi. . . .. Distribuciones muestrales- 2015. n x1. n x2. 1.

(2) Para cada muestra aleatoria posible de tamaño n tomadas de esta población podemos calcular la media muestral x i , la cual variará de muestra a muestra. Entonces podríamos construir una distribución de medias muestrales que estaría caracterizada por su valor esperado (la media de la media muestral = y su varianza (la varianza de la media muestral = σ x ). Por supuesto, podríamos calcular la desviación estándar de la media muestral, también. µ x ),. 2. denominada error estándar de la media = σ x . Ejemplo: supongamos que existe una población compuesta por cuatro personas con las siguientes alturas en cm: 158 - 159 - 160 - 161. El promedio de altura de esta población es µ = 159.5 cm, la varianza = 1.25cm2. Todas las muestras posibles, con reposición, de tamaño 2 que podríamos tomar de esta población serían: Muestra 1 2 3 4 5 6 7 8. Personas incluidas 1-1 1 –2 1–3 1–4 2–1 2–2 2–3 2–4. Valores de altura 158, 158 158, 159 158, 160 158, 161 159, 158 159, 159 159, 160 159, 161. Media muestral 158 158.5 159 159.5 158.5 159 159.5 160. Muestra 9 10 11 12 13 14 15 16. Personas incluidas 3–1 3–2 3–3 3–4 4–1 4-2 4–3 4–4. Valores de altura 160, 158 160, 159 160, 160 160, 161 161, 158 161, 159 161, 160 161, 161. Media muestral 159 159.5 160 160.5 159.5 160 160.5 161. Con estos valores podemos construir la distribución de probabilidad para la media muestral: 158 158,5 159 159,5 160 160,5 161. f(xi) 0.0625 0.1250 0.1875 0.2500 0.1875 0.1250 0.0625. 0,26. 0,20. frecuencia relativa. xi. 0,13. 0,07. 0,00 158 158 159 159 160 160 160 161 161. Columna1. El valor esperado (media) de la media muestral es igual a la media poblacional:. ( ). E X = µx = µ En el ejemplo: E( x ) = ∑ xi .f(xi) = (158x0,0625 + 158,5x0,125 + …+ 161x0,0625) = 159.5 cm. Distribuciones muestrales- 2015. 2.

(3) La varianza de la media muestral se puede calcular usando la fórmula conocida para varianza poblacional (de todas las muestras posibles): V( x ) = ∑ (Xi - µ)2 . f (xi) =[(158 - 159.5)2x0,0625 + (158,5 -159.5)2x0,125 + …+ (161 – 159.5)2x0,0625)] = 0.625cm2 Se puede deducir que, en general, la varianza de la media será igual a la varianza poblacional dividido el tamaño de la muestra:. V(X) =. σ2 n. ⇒σx =. En el ejmplo : V( x ) = 0.125/2 = 0.625 cm. σ n. 2. A partir de esta fórmula se puede deducir que el error típico de la media es siempre menor que el de la población. Además resulta obvio que la varianza de las medias muestrales es inversamente proporcional al tamaño de la muestra; si la muestra es grande la variabilidad de la media resultante de esa muestra es menor. 1). σx ≤ σ. 2). σ x → 0 cuando n → ∞. En la distribución de medias muestrales, la forma funcional, así como su esperanza y su varianza, dependerán de las características de la población de la cual se extraen las muestras, del tamaño de la muestra y del procedimiento del muestreo. Si la población de la cual provienen las muestras tiene distribución normal con varianza conocida, entonces la media muestral tendrá distribución normal, cualquiera sea el tamaño de la nuestra n. Si la población de la cual provienen las muestras tiene otra distribución, es posible calcular la distribución límite cuando n → ∞ de la variable aleatoria media muestral, suponiendo únicamente que la varianza de esta población es finita. TEOREMA CENTRAL DEL LÍMITE: Dada una población con cualquier distribución con media µ y varianza finita. σ2, la distribución muestral de la media, calculada a partir de muestras aleatorias repetidas de tamaño n de esta población, estará distribuida en forma 2 aproximadamente normal, con media µ y varianza igual a σ /n, cuando el tamaño de la muestra sea suficientemente grande. Como regla práctica se considera que n es suficientemente grande si es ≥ 30. Los únicos supuestos que deben cumplirse para aplicar el TCL son: que las muestras sean tomadas en forma aleatoria y que la varianza sea finita. Además, se considera que el muestreo repetido se realiza con reposición, o que el muestro se realiza sin reposición pero la población es infinita.. Distribuciones muestrales- 2015. 3.

(4) Si la población no es infinita y el muestreo se realiza sin reposición, la distribución muestral de la media tendrá las mismas características que en el caso anterior, pero con una varianza mayor dada por:. σ. 2. x. =. σ 2 ( N − n) n. ⋅. ( N − 1). FCPF (factor de corrección por población finita) = (N - n) / (N -1) Sabiendo que la media muestral tiene distribución normal, podemos calcular probabilidades asociadas a valores de esta variable. Para ello deberemos estandarizar los valores de la media muestral, restando su media y dividiendo por su desviación estándar:. Z=. x−µ. σx. Ejemplo cálculo de probabilidades asociadas a valores de la media muestral: Se sabe que en cierta población humana, la longitud craneal está distribuida en forma aproximadamente normal, con µ = 185,6 mm y σ = 12,7 mm. a) ¿Cuál es la probabilidad de que una muestra de 35 individuos tomados al azar, tenga una media mayor a 188 mm? b) Y entre 180 y 185 mm? Solución: a) P ( x > 188) = ? x ≈ n ( µx ;σ x ) 0,20. σ xr =. σ n. =. 12,7 35. = 2,147. Normal(185,6,4,61): p(evento)=0,1318. Densidad. 0,15. Z=. 0,10. 188 − 185 .6 = 1.12 2.147. 0,05 0,00 175,6. 180,6. 185,6. 190,6. 195,6. Variable. P ( x > 188) = P (Z > 1.12) = 0.1314 b) P (180 < x < 185) = ? 0,20. Normal(185,6,4,61): p(evento)=0,3854. Z=. Densidad. 0,15. 180 − 185 .6 = −2.61 2.147. 0,10. Z=. 0,05 0,00 175,6. 180,6. 185,6. 190,6. 185 − 185.6 = −0.28 2.147. 195,6. Variable. Distribuciones muestrales- 2015. 4.

(5) P (180 < x < 185) = P (-2.61 < Z < -0.28) = P(Z > 0.28) - P (Z > 2.61) = 0.3897 – 0.0045 = 0.3852 Si la población de la cual provienen las muestras tiene distribución normal con varianza σ2 desconocida y las muestras extraídas son de tamaño pequeño (n < 30), los valores de S2 varían considerablemente de muestra a muestra y la distribución de la media muestral no corresponderá con la distribución normal. En ese caso, podemos aproximar la distribución de las medias muestrales a la distribución t de Student, con δ = (n – 1) grados de libertad. Para calcular probabilidades asociadas a valores de la media podemos utilizar la transformación:. t=. x−µ. σx. σx = S. donde. n. t ∼ tδ. y. δ = (n – 1). DISTRIBUCIÓN DE LA PROPORCIÓN MUESTRAL (p) Si X es una variable con distribución binomial con parámetro π , donde π es la probabilidad de éxito de la población, podemos tomar muestras repetidas de tamaño n y para cada una calcular la proporción poblacional p, como p = x/n; es decir el cociente entre el nº de casos favorables en la muestra y el nº de casos posibles (tamaño de la muestra). Los valores de p variarían entre una y otra muestra, por lo que p es una variable aleatoria. Si n fuera suficientemente grande, según el teorema central del límite, esta variable p tendría distribución aproximadamente normal con: E(p) = π. y. V ( p ) = σ p2 =. π .(1 − π ) n. Los valores de n requeridos para que se cumpla el teorema dependen del valor de π. A medida que π se aleja de 0,5, n deberá ser más grande. Para calcular las probabilidades asociadas a valores particulares de p, aplicaremos la transformación Z, utilizando luego la tabla de distribución normal estandarizada.. Z=. p −π. σp. , donde. σp =. π (1 − π ) n. Si la población es finita y el muestreo se hace sin reposición, debe aplicarse el FCPF al cálculo de la varianza de p, quedando:. Distribuciones muestrales- 2015. 5.

(6) σp =. π .(1 − π ) n. ⋅. ( N − n) ( N − 1). Para mejorar la aproximación, especialmente si el n es chico (entre 10 y 30), deberemos aplicar el factor de corrección por continuidad (FCC), ajuste que se hace por estar tomando a una variable con distribución discreta como si fuera continua. Para ello se debe restar ½ n al valor absoluto de po - π al calcular el valor Z:. Z=. p − π − 1 / 2n. σp. La corrección por continuidad no produce gran diferencia cuando n es grande. Ejemplo cálculo de probabilidades asociadas a valores de proporción muestral: En un depósito de frutos el 40% de los mismos están atacados por un hongo. Si se extrae una muestra al azar de 200 frutos, cuál es la probabilidad de que: a) menos del 45 % estén afectados por el hongo. b) entre 0,47 y 0,50 de los frutos estén afectados por el hongo. Datos:. p ≈ n (µ p = π = 0,40 ; σ p = 0.0346). π = 0.40. n = 200. σp =. π .(1 − π ) n. =. 0.40.(0.60) = 0.0346 200 12,00. Solución: a) P (p < 0.45). Z=. σp. =. 9,00. 0.45 − 0.40 = 1.45 0.0346. Densidad. p −π. 0,00 0,3. 12,00. Z=. σp. Z=. 0,4. 0,5. 0,6. 6,00 3,00. 0.47 − 0.40 = = 2.02 0.0346. p −π. σp. 0,3. Variable Normal(0,4,0,0012): p(evento)=0,0197. 9,00. Densidad. b) P (0.47 < p < 0.50) =. 6,00 3,00. P( Z < 1.45) = 1 – P(Z > 1.45) = = 1 – 0.0735 = 0.9265. p −π. Normal(0,4,0,0012): p(evento)=0,9255. =. 0,00 0,3. 0,3. 0,4. 0,5. 0,6. Variable. 0.50 − 0.40 = 2.89 0.0346. P (2.02 < Z < 2.89) = P (Z > 2.02) – P (Z > 2.89) = = 0.0217 – 0.0019 = 0.0198. Distribuciones muestrales- 2015. 6.

(7) DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS PROPORCIONES MUESTRALES (∆p) Si se extraen muestras aleatorias independientes de tamaños n1 y n2 , de dos poblaciones de variables con distribución binomial, donde la proporción de éxito en las dos poblaciones son π1 y π2 respectivamente, la distribución de las diferencias entre las proporciones de las muestras, (p1 - p2) , es aproximadamente normal, si n1 y n2 son suficientemente grandes. La media y la varianza serán:. µ. (p1 - p2) =. µ ∆p = π1 - π2 = ∆ π. V ( p1 − p2 ) = σ ∆2p = σ p21 + σ p22 =. π 1 (1 − π 1 ) π 2 (1 − π 2 ) +. n1. n2. La estandarización será entonces:. Z=. ( p1 − p2 ) − (π 1 −π 2). σ ∆p. Donde : σ ∆p =. π 1 (1 − π 1 ) n1. = +. ∆p − ∆π. σ ∆p π 2 (1 − π 2 ) n2. Ejemplo cálculo de probabilidades asociadas a valores de diferencia de proporciones muestrales: Para dos variedades de maíz, se sabe que la proporción de plantas atacadas por un hongo es la misma y vale 0,10. Cuál es la probabilidad de que una muestra aleatoria de 200 plantas de la primer variedad y 250 plantas de la segunda den un valor de (p1 - p2) que sea mayor que 0,06? Datos: π1 = 0.10 π2 = 0.10 n1 = 200 n2 = 250 ∆p ≈ n ( µ ∆p ; σ ∆p ). σ ∆p =. π 1 (1 − π 1 ) n1. +. π 2 (1 − π 2 ) n2. =. 0.10(0.90) 0.10(0.90) + = 0.028 200 250 0.40. P(∆ ∆p > 0.06) = ? Solución:. σ ∆p. 0.30. 0.06 − 0 = = 2.14 0.028. P(∆ ∆p > 0.06) = P (Z > 2.14) = 0.0162. Distribuciones muestrales- 2015. Densidad. Z=. ∆ p − ∆π. Normal(0,1): p(evento)=0.0162. 0.20. 0.10. 0.00 -3.00. -1.50. 0.00. 1.50. 3.00. Variable. 7.

(8) DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS MUESTRALES ( ∆X ) Si se extraen muestras aleatorias independientes de tamaños n1 y n2 , de dos poblaciones con cualquier distribución, donde las medias de las dos poblaciones son µ1 y µ2 respectivamente, y las varianzas poblacionales son σ21 y σ22, la distribución de las diferencias entre las medias de las muestras, es decir ( x1 - x 2 ), será normal si tanto n1 como n2 son suficientemente grandes. La media µ ∆X y la varianza σ2 ∆X de la diferencia de medias serán:. µ ( x − x ) = µ ∆x = µ1 − µ 2 = ∆µ 1. 2. V (∆x ) = σ. 2 ∆x. =. σ 12 n1. +. σ 22 n2. Podemos utilizar el procedimiento de estandarización probabilidades asociadas a diferentes valores de ∆x, donde:. Z=. para. calcular. ( x1 − x 2 ) − µ ∆x. σ ∆x. Esta aproximación es aplicable también en los casos en que las muestras sean pequeñas siempre y cuando las poblaciones de las cuales se extraen las muestras tengan distribución normal y las varianzas poblacionales sean conocidas. Si las varianzas poblacionales de las dos poblaciones (σ21 y σ22) son desconocidas, pero sabemos que ambas poblaciones tienen distribución normal, podemos aproximar la distribución de la diferencia de medias muestrales a la t de Student. Entonces la media de la distribución ( µ ∆X ) se calculará como en el caso anterior, y la varianza ( S 2 ∆X o S2d) de esta distribución se calculará combinando las varianzas muestrales (S21 y S22) de acuerdo a las fórmulas propuestas para cada caso. Podremos calcular las probabilidades asociadas a diferentes valores de ∆X utilizando la transformación:. t=. ( x1 − x2 ) − µ ∆x ≈ tδ S ∆x. Los valores de t tendrán una distribución t de Student con δ grados de libertad. El valor de δ y el será calculado utilizando diferentes fórmulas dependiendo del caso. El cálculo de los valores de Sd y δ varían según: -si las varianzas poblacionales ( σ 1 y σ 2 ) son o no son iguales -si los tamaños de las muestras (n1 y n2 ) son o no son iguales 2. Distribuciones muestrales- 2015. 2. 8.

(9) Para comprobar si las varianzas poblacionales son o no iguales se realiza la prueba de homogeneidad de varianzas. En función de las distintas situaciones, los cálculos de Sd y δ serán: a) Si σ21 = σ22 ; n1 = n2 Sd =. S 12 + S 22 n. y δ = 2n - 2. b) Si σ21 = σ22 ; n1 ≠ n2. (n1 − 1) S12 + (n 2 − 1) S 22 Sd = n1 + n 2 − 2. 1 1  ⋅  +   n1 n 2 . y. δ = n1 + n2 – 2. c) Si σ21 ≠ σ22 ; n1 = n2 2. Sd =. S 12 + S 22 n.  S 12 S 22    + n1 n 2   − 2 2 2 y δ = 2 2  S1   S2       n1  +  n 2  n1 − 1 n2 − 1. d) Si σ21 ≠ σ22 ; n1 ≠ n2 Sd =. S 12 S2 + 2 n1 n2. Distribuciones muestrales- 2015. y. δ se calcula como en c). 9.

(10)