1 La media muestral como variable
Intervalo de confianza para la media
Dr. Jesús Alberto Mellado
Suponiendo que se tiene un población 100 de vacas de la cuales se desea conocer el peso promedio. Se obtiene una muestra de 6 animales seleccionados al azar, de los cuales se calcula la media y su varianza. Si se realiza otra muestra también con 6 animales seleccionados al azar, y de la segunda muestra se calcula la media y la varianza, seguramente la media de la primera muestra será diferente a la media de la segunda muestra.
Dado que la media de la muestra puede variar según los datos que sean seleccionados en la muestra, entonces la media muestral se considera una variable aleatoria, ya que cada vez que se obtenga una muestra diferente, la media también lo será.
población Muestra 1 _x1 s2 1 Muestra 2 _ x2 s2 2
2 Teorema del límite central
El teorema del límite central establece que la media muestral es una variable que se distribuye normal con una desviación de Τ𝑠 𝑛 , donde “s” es la desviación estándar de la muestra. Esta condición se cumple cuando tiene una muestra grande (mas de 30 observaciones).
población Muestra
Tiene una media µ y una desviación estándar 𝜎 desconocidas
s
La desviación estándar de la muestra indica la distancia promedio que están los datos respecto a la media y es un estimador de la desviación poblacional
ҧ𝑥
La media muestral tiene una desviación de Τ𝑠 𝑛 , es decir, la media puede subir o bajar esa cantidad
Ejemplo
Se tiene una población de 100 vacas. La media de producción de leche es de 14.3 litros al día, con una desviación de 1.2 litros. 3 . 14 2 . 1 Población
Se extrae una muestra de 32 vacas. La media de producción de leche de esa muestra es de 14.1 litros al día, con una desviación de 1.3 1 . 14 x 3 . 1 s Muestra
La desviación de la media muestral es: 0.229 32 3 . 1 n s Sx
Quiere decir que la media muestral es 14.1; pero puede subir o bajar 0.229, es decir, la mayoría de las muestras van a tener una media de producción de leche entre 13.87 y 14.329 litros (sumando y restando la desviación de la media).
En resumen, la población tiene su media (μ) y su varianza (σ2), pero si no se puede
evaluar toda una población se obtiene una muestra. La muestra tiene su media ( ҧ𝑥) y su varianza (s2), y la media de la muestra tiene una varianza (s2/n). Nótese que al
incrementar el tamaño de la muestra la varianza de la media va a disminuir su valor.
s
La desviación muestral indica lo que suben o bajan los datos respecto a la media.La desviación de la media indica lo que la media puede subir o bajar de una muestra a otra
3 Intervalo de confianza para la media usando la
normal (n≥30).
Se obtiene una muestra de mas de 30 elementos, que tiene una media y una desviación estándar
Un intervalo de confianza para la media se expresa de la siguiente manera
a<μ < 𝑏
ഥ
𝑥, 𝑠
El valor mínimo en lo que puede bajar la media
El valor máximo en lo que puede bajar la media Indica que se refiere
a la media
Sería muy fácil decir con toda seguridad que la media está entre -10,000 y 10,000, pero científicamente no es razonable, entonces se ha tomado la determinación que se afirme con 95% de seguridad los valores en los que se encuentra la media.
Entonces, al centro de la distribución debe estar el 95% del área, y por consiguiente a los extremos de la distribución queda 0.025 de cada lado (nota: 0.95 + 0.025 + 0.025 = 1).
1.96 -1.96
Área a la derecha 0.025
En una normal estándar, a la derecha de 1.96 queda 0.025 del área, entonces se queda como constante
Área al centro 0.95 Área a la izquierda 0.025
En una normal estándar, a la izquierda de -1.96 queda 0.025 del área, entonces se queda como constante
n
s
x
n
s
x
1
.
96
1
.
96
A la izquierda la constante (-0.96) se le multiplica por la desviación de la media y luego se le resta a la media de la muestra. A la derecha se hace lo mismo. La ecuación queda de la siguiente manera
IMPORTANTE: Primero se resuelve la multiplicación de la constante por la desviación
de la media, luego se resta o se suma a la media
Ejemplo
Se desea saber el peso promedio de una población de 600 vaquillas. Para el cálculo se tomó una muestra de 30 vacas, de donde se obtuvo una media de 485 kg. y una varianza de 420 kg. (Calcular la desviación) Especificar el intervalo de confianza al 95% de seguridad para la media.
n
s
x
n
s
x
1
.
96
1
.
96
30
49
.
20
96
.
1
485
30
49
.
20
96
.
1
485
33
.
7
485
33
.
7
485
33
.
492
66
.
477
La media se encuentra entre 477.66 y 492.33 con 95% de seguridad. Indica la media Es la media de la muestra Es la constante de la izquierda Es la desviación de la muestra entre la raíz del número de datos
Es la media de la muestra
Es la constante de la derecha
Es la desviación de la muestra entre la raíz del número de datos
4 Distribución t de student
En 1908 se descubrió que en las muestras pequeñas (menos de 30 datos), la distribución normal de la media sufre un pequeño cambio, se acorta la altura y se amplia en los extremos. A esta distribución se le llamó t (de student) porque la persona que firmó el artículo con la demostración se puso el pseudónimo de “el estudiante” por el temor de ser criticado si la ecuación estaba mal. Entonces, cuando la muestra es pequeña (30 o menos), se debe usar la distribución t de student.
Una característica de la distribución t es que se va modificando según el número de datos que se hayan obtenido (va disminuyendo la altura y aumentando los extremos), de tal forma que para muestras mayores o iguales a 30 la t será igual a la normal.
Si el número de datos es n, entonces n-1 serán los grados de libertad que dan la forma a la distribución t, así que para encontrar un valor en tablas es necesario conocer los grados de libertad. Si n ≥30 la distribución es normal. Si n=26 la distribución es “t” con 25 gl (grados de libertad Si n=22 la distribución es “t” con 21 gl (grados de libertad Si n=18 la distribución es “t” con 17 gl (grados de libertad Si n=14 la distribución es “t” con 13 gl (grados de libertad Si n=10 la distribución es “t” con 9 gl (grados de libertad
t de student t = 2.22 con 10 gl. Área 0.025 Tabla t Área 0.025 10 gl 2.22
Las tablas “t de student” se encuentran en libros de estadística, en internet y en la página del curso.
El manejo de las tabla de la distribución t es diferente a la de la normal, ya que en la normal se calcula el valor de z (en el eje horizontal) y luego se localiza el valor del área. En la tabla t se selecciona el área que se quiere a la derecha del valor t, los grados de libertad y en la tabla se expresa el valor t (la distancia en el eje horizontal que tiene la probabilidad buscada).
5 Tablas t de student
z=1.96 Normal t de student Área 0.025 Las tablas proporcionan el área. ejemplo: 0.4750Se calcula el valor de z (eje horizontal) ejemplo: z=1.96
Las tablas proporcionan el valor de t (eje horizontal). Ejemplo: t= 2.22
Se establecen los grados de libertad, y se establece el área a la derecha del valor “t”. Ejemplo: área de 0.025 con 10 gl.
En el renglón se ubican los grados de libertad En la columna se ubica el área buscada a la derecha En la tabla se ubica la distancia del centro a la derecha
IMPORTANTE: Si no tienes tablas “t”, se puede usar Excel con la función
=distr.t.inv(0.05,26). Se anota una probabilidad de 0.05 porque Excel suma ambos extremos, y luego se anotan los grados de libertad, en este caso, 26
6 Intervalo de confianza para la media usando
la t de student (n<30)
n
s
t
x
n
s
t
x
n 1,0.025
n 1,0.025El intervalo de confianza para la media usando la distribución t es la siguiente
El valor t n-1,0.025 se localizará en la tabla t en el renglón n-1 y en la columna 0.025, la forma es la siguiente:
x
Indica la media Es la media de la muestra Aquí se pone el valor “t” de la tabla Es la desviación de la muestra entre la raíz del número de datosEs la media de la muestra
Aquí se pone el valor “t” de la tabla
Es la desviación de la muestra entre la raíz del número de datos
n
s
x
n
s
Valor “t” de la tablaEjemplo
Después de aplicar un desparasitante a 22 vacas se midieron el número de huevesillos en el estiércol. La media encontrada es de 32 con una varianza de 92 (encontrar desviación). Encontrar el intervalo de confianza al 95% de
seguridad para la media.
n
s
n
s
x
2
.
08
2
.
08
22 59 . 9 08 . 2 32 22 59 . 9 08 . 2 32
25
.
4
32
25
.
4
32
25
.
36
75
.
27
La media se encuentra entre 27.75 y 36.25 con 95% de seguridad. El valor de la tabla “t” es 2.08 Tabla t Área 0.025 21 gl 2.08