INGENIERÍA INFORMÁTICA Universidad Carlos III de Madrid
Programa de la asignatura
P P AR A RT TE E I I: : E ES ST TA A DÍ D ÍS ST TI IC CA A D DE ES SC CR RI IP PT TI IV VA A
TEMA 1 : Estadística descriptiva
1.1 Introducción 1.2 Tipos de datos
1.3 Descripción de datos mediante tablas:
• Tablas de frecuencias univariantes
• Tablas de frecuencias bivariantes
• Distribución marginal y condicionada 1.4 Descripción de datos mediante gráficos:
• Diagrama de tallo y hojas
• Diagrama de barras
• Histograma y polígono de frecuencias
• Pictograma
• Gráficos de dispersión
1.5 Medidas características de un conjunto de datos:
• Medidas de centralización
• Medidas de dispersión
• Otras medidas de forma
• Medidas de dependencia lineal: covarianza y correlación
1.6 Transformaciones lineales y su efecto en las medidas características 1.7 Transformaciones no lineales que mejoran la simetría
P
P AR A RT TE E I II I: : PR P RO OB BA AB BI IL LI ID DA AD D
TEMA 2: Probabilidad
2.1 Introducción
2.2 Definición de probabilidad y propiedades 2.3 Probabilidad condicionada y probabilidad total 2.4 Independencia de sucesos
2.5 Teorema de Bayes
TEMA 3: Introducción a las variables aleatorias
3.1 Introducción: la variable aleatoria como modelo de variabilidad 3.2 Variables aleatorias discretas
• Función de probabilidad
• Función de distribución 3.3 Variables aleatorias continuas
• Función de densidad
• Función de distribución
3.4 Medidas características de las variables aleatorias
• Medidas de centralización
• Medidas de dispersión
• Acotación de Tchebychev
• Efecto de las transformaciones lineales en las medidas características 3.5 Variables aleatorias multivariantes
• Distribución conjunta de un vector aleatorio
• Distribución marginal
• Distribución condicionada e independencia
• Covarianza y correlación
TEMA 4: Modelos de probabilidad univariantes
4.1 Introducción
4.2 El proceso de Bernoulli
4.3 Variables aleatorias asociadas al proceso de Bernoulli
• Distribución de Bernoulli
• Distribución binomial
• Distribución geométrica 4.4 El proceso de Poisson
4.5 Variables aleatorias asociadas al proceso de Poisson
• Distribución de Poisson
• Distribución exponencial 4.6 Fiabilidad
• Tasa de fallos
• Distribución Weibull
• Distribución Gamma 4.7 La distribución normal
• Propiedades
• El Teorema Central del Límite
4.8 Relación entre la normal, la binomial y la Poisson
PA P AR RT TE E I II II I: : I IN NF FE ER RE EN N CI C IA A
TEMA 5: Introducción a la inferencia estadística
5.1 La inferencia estadística. Población y muestra 5.2 Distribución muestral de un estadístico 5.3 La distribución de la media muestral 5.4 Estimación y estimadores
5.5 Diagnosis y crítica del modelo
• Contrastes de bondad de ajuste
• Métodos gráficos
• Transformaciones para conseguir normalidad 5.6 El método de máxima verosimilitud
• La distribución conjunta de la muestra
• La función de verosimilitud
• El método de máxima verosimilitud
• Propiedades de los estimadores de máxima verosimilitud
TEMA 6: Inferencia con muestras grandes
6.1 Introducción
6.2 Intervalos de confianza para µ para muestras grandes 6.3 Determinación del tamaño muestral
6.4 Introducción al contraste de hipótesis
6.5 Contraste de hipótesis de la media µ para muestras grandes 6.6 Interpretación de un contraste usando el p-valor
6.7 Relación entre contrastes de hipótesis e intervalos de confianza 6.8 Inferencia sobre una proporción con muestras grandes
• Estimación
• Intervalos y tamaño muestral
• Contrastes
6.9 Inferencia con estimadores de máxima verosimilitud
• Intervalos
• Contrastes
TEMA 7: Inferencia en una población normal
7.1 Inferencia en muestras pequeñas 7.2 La distribución t de Student 7.3 Inferencia sobre µ
• Intervalos de confianza
• Contrastes 7.4 Inferencia sobre σ2
• La distribución χ2
• Intervalos
• Contrastes
TEMA 8: Comparación de poblaciones
8.1 Introducción
8.2 Comparación de dos medias usando muestras independientes
• Intervalos de la diferencia de medias
• Contrastes para la diferencia de medias
8.3 Comparación de dos medias usando datos emparejados 8.4 Comparación de dos varianzas en poblaciones normales
• Intervalo del ratio de varianzas
• Contrastes
8.5 Comparación de dos proporciones
• Intervalo de la diferencia de proporciones
• Contrastes
PA P AR RT TE E I IV V: : C CO ON NT TR RO OL L E ES ST TA AD DÍ ÍS S TI T I CO C O D DE E P PR RO OC CE ES SO OS S
TEMA 9: Introducción al Control Estadístico de Procesos
9.1 Fundamentos de los gráficos de control 9.2 Gráfico de control para la media 9.3 Gráficos de control para la dispersión
9.4 Capacidad de un proceso. Índice de capacidad 9.5 Gráficos P y NP
Capítulo 7
Inferencia en una población normal
1. Inferencia en muestras pequeñas
2. Inferencia con la distribución t de Student 3. Inferencia sobre µ
4. Inferencia sobre σ2
0Apuntes realizados por Ismael Sánchez. Universidad Carlos III de Madrid.
2 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL
7.1. Inferencia en muestras pequeñas
En este tema estamos interesados en hacer inferencia sobre los parámetros de una variable aleatoria normal X ∼ N(µ, σ2). Es decir, sobre su media µ y sobre su varianza σ2. En el tema anteri- or se introdujeron los elementos para realizar inferencia para la media µ de una población cualquiera en muestras grandes. El principio fundamental era que para una muestra X1, X2, ..., Xn de una variable aleatoria X, la media muestral
X =¯ X1+ X2+ · · · + Xn n
tiene una distribución muestral que se aproxima asintóticamente a la normal (es decir, a mayor tamaño muestral n, mayor parecido a la normal). La justificación de este resultado se encuentra en la aplicación del teorema central del límite. En la práctica, tamaños muestrales en torno a 50 obervaciones pueden ser suficientes para que podamos realizar intervalos de confianza y contrastes sobre µ basados en la media muestral y su aproximación a la normal. Cuando el tamaño muestral es pequeño, el teorema central del límite ya no se cumple, y la distribución de la variable aleatoria X en el muestreo depende de la distribución de la variable X que estamos analizando. En estos¯ casos, los intervalos de confianza que construyamos siguiendo la formulación del tema anterior ya no tendrán el nivel de confianza que deseamos, ni los contrastes tendrán el nivel de significación o el p-valor que nos salga en los cálculos; al estar basados en propiedades estadísticas que ya no se cumplen.
En este tema nos ocuparemos de la inferencia cuando la variable de interés X es normal, y que será de especial interés en muestras pequeñas. Como ya se ha mencionado en temas anteriores, las variables aleatorias normales verifican que su combinación lineal produce variables aleatorias normales, para cualquier número de variables que combinemos. De esta forma tenemos que, para cualquier tamaño muestral grande o pequeño, si X ∼ N(µ, σ2),
X ∼ N¯ µ
µ,σ2 n
¶ , y por tanto
Z = X − µ¯
σ/√n ∼ N (0, 1) , (7.1)
para cualquier n. Cuando σ2es desconocida, ha de utilizarse un estimador. En este tema seguiremos utilizando como estimador de σ2 el estimador insesgado
Sˆ2= Pn
i=1
¡Xi− ¯X¢2
n − 1 . (7.2)
Si sustituimos σ2 por ˆS2 en (7.1) obtenemos el estadístico T siguiente:
T =X − µ¯ S/ˆ √
n. (7.3)
En el tema anterior, también acudíamos a este estadístico T para hacer inferencia. Hay una difer- encia importante entre los estadísticos Z y T que hace que en muestras pequeñas sus propiedades estadísticas sean diferentes. En Z sólo interviene una variable aleatoria, que es la media muestral X. Al ser ¯¯ X normal y estandarizarse con sus verdaderos parámetros, obtenemos que Z es la normal
7.2. INFERENCIA CON LA DISTRIBUCIÓN T DE STUDENT 3
estándar. En T hay, sin embargo, dos variables aleatorias, ¯X en el numerador y ˆS en el denomi- nador. Se puede demostrar que con muestras grandes, el componente aleatorio que aporta ˆS en las propiedades estadísticas de T puede despreciarse. Por esta razón, en el tema anterior utilizamos que, para muestras grandes
T ∼ N(0, 1). (7.4)
Para muestras pequeñas, la distribución muestral de T viene influenciada tanto por ¯X como por ˆS, por lo que la aproximación a la normal que se usa en (7.4) será muy imprecisa. La distribución muestral de T cuando X es normal es conocida y se denomina distribución t de Student. En la siguiente sección se describe brevemente esta distribución.
7.2. Inferencia con la distribución t de Student
La distribución t de Student es una variable aleatoria continua, simétrica, de media cero, y de perfil muy parecido a la normal estándar. Depende de un parámetro g que se denomina grados de libertad. Su notación habitual es tg. La figura siguiente muestra dos ejemplos de distribución tg
con g = 3 y g = 10 junto con la distribución N (0, 1).
En este gráfico puede verse que cuanto mayor es el número de grados de libertad, más parecido hay entre la distribución tgy N (0, 1). Puede demostrarse que efectivamente la función de densidad de tg tiende hacia la normal a medida que aumentan los grados de libertad. Para g = ∞ la distribución tg es idéntica a la N (0, 1), pero a efectos prácticos, para g > 30 ambas distribuciones proporcionan probabilidades similares. La principal diferencia entre ambas distribuciones es que con pocos grados de libertad, la distribución tgtiene la zona de las colas más ancha que la N (0, 1). Esta diferencia es muy importante, pues en estas zonas de las colas donde nos interesará calcular probabilidades; tanto para la construcción de intervalos de confianza como en contrastes. Esta distribución está tabulada y puede encontrarse en la mayoría de los manuales de estadística.
4 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL
Puede demostrarse que si X ∼ N(µ, σ2), T = X − µ¯
S/ˆ √
n ∼ tn−1, (7.5)
donde n es el tamaño de la muestra. Para tamaños muestrales pequeños, tendremos g reducidos, y por tanto mayores diferencias entre tn−1 y N (0, 1). Será entonces más preciso utilizar la distribución tn−1 en aquellos lugares en los que al hacer inferencia para una población normal (intervalos y contrastes) usemos el estadístico T.
7.3. Inferencia sobre µ
7.3.1. Intervalos de confianza
En el tema anterior se dedujo el intervalo de confianza para µ para muestras grandes, válido para cualquier distribución de X. Este intervalo, de nivel de confianza (1 − α) es
µ ∈
½
x ± z¯ α/2
ˆ
√sn
¾
. (7.6)
En el caso X ∼ N(µ, σ2), un intervalo más preciso, sobre todo con muestras pequeñas, se ob- tiene reemplazando los valores de la normal estándar zα/2 por los de la distribución tn−1. El razonamiento es el mismo que el que se siguió en el tema anterior. De (7.5) se tiene que
P¡
−tn−1;α/2< T < tn−1;α/2¢
= 1 − α
donde tn−1;α/2es el valor de la distribución tn−1que deja el área α/2 a la derecha, como se muestra en la siguiente figura
Por tanto, se tiene que
P Ã
−tn−1;α/2<X − µ¯ S/ˆ √
n < tn−1;α/2
!
= 1 − α
7.3. INFERENCIA SOBREµ 5
y operando en el interior del paréntesis P
Ã
X − t¯ n−1;α/2
Sˆ
√n < µ < ¯X + tn−1;α/2 Sˆ
√n
!
= 1 − α.
Por lo tanto, un intervalo de nivel de confianza (1 − α) para la media µ de una población normal a partir de la información que suministra una muestra de tamaño n es
IC(1 − α) : µ ∈
½
x ± t¯ n−1;α/2
ˆ
√s n
¾
. (7.7)
En la práctica, si los datos proceden de una normal, deberemos utilizar siempre la distribución tn−1 en los intervalos. De esta forma aseguraremos que el nivel de confianza real es (1 − α). Los intervalos de confianza en (7.6) son intervalos asintóticos, y en la práctica sólo podremos estar seguros de que el nivel de confianza real es (1 − α) si el tamaño muestral es muy grande. Sin embargo, el intervalo (7.7) está hecho a la medidad de una población normal y el tamaño muestral n, y por eso siempre tienen el nivel de confianza (1 − α). Por esta razón se dice que los intervalos (7.7) son exactos. Para poder aplicar (7.7) debemos asegurarnos que nuestros datos se ajustan suficientemente a la normal. Para saber si los datos de la muestra proceden de una normal podemos hacer un histograma de los mismos o incluso algún test de bondad de ajuste como el test de la chi-cuadrado que se vio en temas anteriores.
Ejemplo 1 En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su contenido porcentual de Cadmio. Después de analizar 25 rocas se obtiene que
¯
x = 9,77 y ˆs = 3,164..Suponiendo que el contenido porcentual de Cadmio sigue una distribución normal. Se quiere construir un intervalo de confianza al 95 % para el contenido porcentual medio de Cadmio en la mina. El tamaño de la muestra n = 25 es muy pequeño para que los intervalos asintóticos (7.6) sean válidos. Al ser la variable de interés una normal, podemos emplear el intervalo exacto (7.7). El intervalo de nivel de confianza 0,95 será
0,95 = P (
−tn−1,α/2<X − µ¯ 0
S/ˆ √
n < tn−1,α/2 )
= P (
X − t¯ n−1,α/2
Sˆ
√n < µ < ¯X + tn−1,α/2 Sˆ
√n )
Luego el intervalo es de la forma
IC(1 − α) : µ ∈
½
x ± t¯ n−1,α/2
ˆ
√s n
¾ .
Usando α = 0,05 tenemos que, según las tablas de la t24, t24,0,025 = 2,06. El intervalo para el contenido medio de cadmio de las rocas que se extraigan de la mina es
IC(0,95) : µ ∈
½
9,77 ± 2,063,164
√25
¾
= (8,47, 11,07) .
A la vista de este resultado, los técniccos de la mina pueden tomar una decisión acerca de la conveniencia de seguir haciendo prospección en dicha mina o por el contrario deben descartar su explotación.
6 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL
7.3.2. Contrastes de hipótesis
Se quiere contrastar alguna de las siguientes hipótesis:
1. H0: µ = µ0; frente a H1: µ 6= µ0, 2. H0: µ ≥ µ0; frente a H1: µ < µ0, 3. H0: µ ≤ µ0; frente a H1: µ > µ0.
La forma de realizar los contrastes para poblaciones normales es la misma que la que se mencionó en el tema anterior, con la única diferencia de la distribución de referencia del estadístico T, que será la distribución tn−1 en lugar de la aproximación a la normal estándar. La siguiente tabla resume los detalles de estos contrastes.
Contrastes Estadísticos de contraste
Distribución de referencia
Región de rechazo
(1)-H0: µ = µ0; H1: µ 6= µ0
(2)-H0: µ ≥ µ0; H1: µ < µ0 (3)-H0: µ ≤ µ0; H1: µ > µ0
(a) Z0=X − µ¯ 0
σ/√ n (b) T0= X − µ¯ 0
S/ˆ √ n
(a) Z0∼ N(0, 1) (b) T0∼ tn−1
(1-a) |z0| > zα/2
(2-a) z0< −zα (3-a) z0> zα (1-b) |t0| > tn−1;α/2
(2-b) t0< −tn−1;α
(3-b) t0> tn−1;α
Ejemplo 2 Con los datos de la muestra de transistores BC547B mencionados en el tema anterior deseamos contrastar si se mantiene el valor nominal µ = 290 como media de la distribucion poblacional de valores β, es decir,
H0 : µ = 290 H1 : µ 6= 290
Para hacer el contraste se toma una muestra de n = 100 observaciones y se obtiene la media muestral ¯x y la cuasivarianza ˆs2. El histograma de este conjunto de datos junto con la normal N (¯x, ˆs2) sobreimpresa es el siguiente
Esta figura sugiere que loss datos podrían proceder de una distribución normal. El p-valor del contraste chi-cuadrado es mayor que 5 %, lo que refuerza la bondad del ajuste de la normal a
7.4. INFERENCIA SOBREσ2 7
nuestros datos. Consideramos entonces, con un p-valor<0.05, que es aceptable la normalidad de la población de valores β. Por tanto realizaremos el contraste usando como distribución de referencia para el estadístico de contraste la distribución tn−1. Los datos muestran que
¯
x = 282,3; ˆs = 27,57;
t0 = x − µ¯ 0
ˆ
s/√n =282,3 − 290
27,69/10 = −2,78.
Como es un contraste bilateral necesitamos dos valores críticos. Como la distribución de referencia tn−1 es simétrica de media cero, ambos valores críticos serán iguales pero de signo contrario.
Uusando un nivel de significación α = 0,05, y la distribución de referencia t de Student con n − 1 = 99 grados de libertad se tiene que t99;0,025= 1,984. Por tanto, como |t0| = 2,78 > 1,984 rechazamos H0. Rechazamos, con un nivel de significación del 5 %, que la ganancia media de los transistores se siga manteniendo en elvalor 290.
7.4. Inferencia sobre σ
27.4.1. Estimación
En esta sección simplemente recordaremos que hemos visto dos estimadores para σ2: la varianza muestral
S2= Pn
i=1
¡Xi− ¯X¢2
n ,
que es un estimadorde σ2 sesgado, y la cuasivarianza
Sˆ2= Pn
i=1
¡Xi− ¯X¢2
n − 1 ,
que es insesgado. Para poblaciones normales, la distribución muestral de ambos estimadores está relacionada con la distribución llamada chi-cuadrado. A continuación vamos a describir brevemente esta distribución.
7.4.2. La distribución χ
2gAntes de presentar resultados sobre la inferencia relacionada con σ2 en poblaciones normales, presentaremos una variable aleatoria denominada chi-cuadrado, y que se denota por χ2g. La dis- tribución chi-cuadrado es una distribución que depende del parámetro g que se denomina grados de libertad (g = 1, 2, ...). La distribución χ2g va de 0 a ∞ y es asimétrica positiva. Su asimetría disminuye al aumentar los grados de libertad. la figura siguiente muestra la función de densidad
8 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL
de la χ23 y la χ26.
Las medidas características de la χ2gson
E(χ2g) = g, Var(χ2g) = 2g.
Esta distribución está también tabulada y puede encontrarse en la mayoría de los textos de es- tadística.
La distribución muestral de los estimadores de σ2, la varianza y la cuasivarianza muestral, en poblaciones normales están relacionadas con esta distribución. Puede demostrarse que
(n − 1) ˆS2
σ2 ∼ χ2n−1; (7.8)
nS2
σ2 ∼ χ2n−1. donde n es el tamaño de la muestra.
7.4.3. Intervalos de confianza para σ
2Para construir los intervalos de confianza para σ2 en una población normal vamos a seguir el mismo razonamiento que el utilizado para deducir los intervalos de µ. De (7.8) puede deducirse que
P Ã
χ2n−1;1−α/2< (n − 1) ˆS2
σ2 < χ2n−1;α/2
!
= 1 − α. (7.9)
7.4. INFERENCIA SOBREσ2 9
donde χ2n−1;α/2 es el valor de la distribución χ2n−1 que deja el área α/2 a la derecha. La figura siguiente ilustra estos valores χ2n−1;α/2 y χ2n−1;1−α/2.
Operando en el interior del paréntesis de (7.9) se obtiene que P
Ã(n − 1)ˆs2
χ2n−1;α/2 < σ2< (n − 1)ˆs2 χ2n−1;1−α/2
! , o bien, para el caso del estimador S2,
P
à nS2
χ2n−1;α/2 < σ2< nS2 χ2n−1;1−α/2
! .
Por tanto, un intervalo de confianza de nivel de confianza (1 − α) para el parámetro σ2será IC(1 − α) : σ2∈
Ã(n − 1)ˆs2
χ2n−1;α/2, (n − 1)ˆs2 χ2n−1;1−α/2
!
(7.10) o bien, si utilizamos el estimador S2,
IC(1 − α) : σ2∈
à ns2
χ2n−1;α/2, ns2 χ2n−1;1−α/2
!
. (7.11)
A diferencia de los intervalos de confianza para µ, los intervalos para σ2 no son simétricos alrededor de ˆs2o s2.
Ejemplo 3 Continuando con el ejemplo 1 anterior sobre el contenido de cadmio en rocas, quere- mos construir un intervalo de confianza al 99 % para σ2. Como el estimador utilizado para σ2 es la cuasivarianza muestral ˆS2, se tiene que
0,99 = P (
χ2n−1,α/2<(n − 1) ˆS2
σ2 < χ2n−1,1−α/2 )
= P
( (n − 1) ˆS2
χ2n−1,1−α/2 < σ2<(n − 1) ˆS2 χ2n−1,α/2
)
Como α = 0,01, tenemos que según las tablas de la chi cuadrado: χ224,0,995= 9,89, χ224,0,005= 45,6.
El intervalo es:
IC (0,99) : σ2∈ (5,27, 24,29)
10 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL
7.4.4. Contraste de hipótesis
Se quiere contrastar las siguientes hipótesis.
1. H0: σ2= σ20; H1: σ26= σ20
2. H0: σ2≥ σ20; H1: σ2< σ20
3. H0: σ2≤ σ20; H1: σ2> σ20
donde σ20 es un valor numérico concreto. Los contrastes para σ2 en poblaciones normales siguen las mismas reglas que en los contrastes vistos para µ. El contraste se basa en las sigu- ientes propiedades de la varianza muestral en poblaciones normales X ∼ N(µ, σ2) que ya se han mencionado anteriormente:
(n − 1) ˆS2
σ2 ∼ χ2n−1, (7.12a)
nS2
σ2 ∼ χ2n−1. (7.12b)
El estadístico de contraste que resuma la información necesaria para realizar un contraste se basará en (7.12), pero sustituyendo σ2 por σ20. El estadístico de contraste es por tanto:
X02 = (n − 1) ˆS2
σ20 ; (7.13)
X02 = nS2
σ20 . (7.14)
Ejemplo 4 Volviendo a los datos sobre los transistores BC547B mencionados anteriormente, teníamos el objetivo de comprobar si la media no había cambiado, así como comprobar si la varian- za no había aumentado. Podemos ahora contrastar este segundo punto. Los datos históricos decían que σ20= 760. Por tanto el contraste es
H0: σ2≤ 760; H1: σ2> 760.
Asumiendo a la vista del test de la chi-cuadrado que los datos son normales podemos realizar el contraste presentado más arriba. De los datos se obtiene
x20= (n − 1)ˆs2
σ20 =99 × 766,85
760 = 99,89.
Al realizar un contraste de hipótesis, aceptaremos la hipótesis nula salvo que los datos arrojen mucha evidencia en contra. Por tanto, rechazaremos la hipótesis nula cuando el valor del estimador de σ2 que usemos haga lo que especifique la hipótesis alternativa de forma muy acusada.
7.4. INFERENCIA SOBREσ2 11
En el caso del contraste con alternativa bilateral H0: σ2= σ20; H1: σ26= σ20, rechazaremos H0 cuando ˆs2 (o s2) tenga un valor ˆs2>> σ20 o ˆs2<< σ20, como se ilustra en la siguiente figura
Puede verse en (7.13) que cuando ˆs2 >> σ20, el estadístico de contraste X02 tendrá también un valor alto, y tenderá a estar en la cola de la derecha de la distribución de referencia, mientras que cuando ˆs2 << σ20, el estadístico X02 estará en la zona de la izquierda de la distribución de referencia. La región de rechazo, de área igual al nivel de significación α, estará a ambos extremos de la distribución χ2n−1, como se ilustra en la siguiente figura.
Análogamente, en el caso de un contraste con alternativa unilateral, la región de rechazo estará sólo a un lado de la distribución. En el caso del contraste H0: σ2≥ σ20; H1: σ2< σ20, rechazaremos cuando ˆs2 << σ20, o análogamente, cuando X02 tenga un valor muy bajo. Finalmente, en el caso del contraste H0: σ2≤ σ20; H1: σ2> σ20, rechazaremos cuando ˆs2>> σ20, lo que dará un valor del estadístico de contraste en la cola de la derecha de la distribución χ2n−1. Puede verse por tanto, que la región de rechazo está allá donde señala H1. Las siguientes figuras muestran las recgiones
12 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL
de rechazo en estos dos contrastes.
La siguiente tabla resume las características de estos contrastes
Contrastes Estadísticos
de contraste
Distribución de referencia
Región de rechazo (1)-H0: σ2= σ20; H1: σ26= σ20
(2)-H0: σ2≥ σ20; H1: σ2< σ20 (3)-H0: σ2≤ σ20; H1: σ2> σ20
X02= (n − 1) ˆS2 σ20 X02= nS2
σ20
X02∼ χ2n−1
(1) x20> χ2n−1;α/2 ó x20< χ2n
−1;1−α/2
(2) x20< χ2n−1;1−α (3) x20> χ2n−1;α
Ejemplo 5 Volviendo a los datos sobre los transistores BC547B, rechazaremos H0si x20> χ299;0,05. Como χ299;0,05 = 123,2 y x20 = 99,89, no podemos rechazar la hipótesis nula, con un nivel de sig- nificación de α = 0,05, de que el proceso no ha aumentado su variabilidad. Por tanto, aunque ˆ
s2= 766,85 > σ20, la diferencia no es significativa, y es es perfectamente explicable por la variabil- idad debida a la muestra. El p-valor de este contraste será la probabilidad P (χ299> 99,89) = 0,456 que es muy elevada, por lo que x20 está bastante dentro de la región de aceptación. Aceptamos la hipótesis nula con bastante seguridad.
Ejemplo 6 Un fabricante de aparatos de precisión garantiza que la desviación típica de las medidas que pueden efectuarse con el tipo de balanza que comercializa es σ ≤ 5 unidades. Para compro- bar dicha afirmación se pesa un objeto en 100 básculas de dicho tipo y se obtiene una varianza muestral de s2 =26.243. Si sabemos que la distribucion de los pesos siguen una normal, realizar un contraste que permita tomar una decisión respecto a aceptar o no la información suministrada por el fabricante (α = 0,05).
Lo que queremos contrastar es
H0: σ2≤ σ20(= 25); H1: σ2> 25.
Se rechaza H0 si s2>> σ20; más concretamente, si ns2
σ20 > χ2n−1;α De los datos se tiene que n = 100, s2= 26,243. Por tanto
x20 = ns2
σ20 = 100 × 26,243
25 = 104,972, χ299,0,05 = 123,2 (Statgraphics).
7.4. INFERENCIA SOBREσ2 13
Como X0 < χ299,0,05 no tenemos evidencia suficiente (con un nivel del 5 %) para sospechar del fabricante. Es decir, si la población tiene σ2 ≤ 25 no es raro encontrar que en una muestra de tamaño n = 100 tengamos s2= 26,243. Entra dentro de la variabilidad muestral que se encuentra por azar al tener muestras de tamaño 100.
Tema 7: Inferencia en una población normal
HOJA DE EJERCICIOS
1. La duración de un cierto componente sigue una distribución normal de media µ desconocida y desviación típica σ = 100 horas. Se desea enviar una muestra de dichos componentes al laboratrorio para que hagan pruebas y estimen la duración media. Se quiere que la duración media muestral no difiera de µ en más de 50 horas, con una probabilidad de 0.95. Hallar el tamaño de la muestra que hará falta
SOLUCIÓN:
n ≈ 16 componentes
2. Una muestra aleatoria extraída de una población normal presenta una media muestral ¯x = 160 y cuasi- varianza ˆs2= 100. Para n = 14, se pide:
(a) Calcular un intervalo de confianza del 95% para la media poblacional.
(b) Calcular un intervalo de confianza del 90% para la media poblacional. (junio 99) SOLUCIÓN:
(a) 95%, IC(0.95); µ ∈ (154.2; 165.8) (b) 90%, IC(0.90); µ ∈ (155.3; 164.7)
3. En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su con- tenido porcentual de Cadmio. Después de analizar 25 rocas se obtiene que ¯x = 9.77 y ˆs = 3.164..Suponiendo que el contenido porcentual de Cadmio sigue una distribución normal, sepide:
(a) Construir un intervalo de confianza al 95% para el contenido porcentual medio de Cadmio en la mina.
(b) Construir un intervalo de confianza al 99% para σ2. SOLUCIÓN:
(a) IC(1 − α) : µ ∈ (8.47, 11.07) (b) El intervalo es: (5.27, 24.29)
4. Un proceso de rellenado de envases produce, cuando funciona correctamente, un peso promedio de 200 g.
por envase. Una muestra aleatoria de 9 envases presentó los siguientes contenidos (en gramos):
214 197 197 206 208 201 197 203 209
Asumiendo que la distribución de la población es normal, contrastar a un nivel de significación del 5%
la hipótesis de que el proceso está funcionando correctamente, frente a la alternativa bilateral.(Nota:
¯
x = 203.55, ˆs = 6.12)(junio 97) SOLUCIÓN:
No hay evidencia suficiente, con un nivel de significación del 5%, para rechazar la hipótesis nula.
5. Un fabricante de aparatos de precisión garantiza que la desviación típica de las medidas que pueden efectuarse con el tipo de balanza que comercializa es σ ≤ 5 unidades. Para comprobar dicha afirmación se pesa un objeto en 100 básculas de dicho tipo y se obtiene una varianza muestral de s2 =26.243. Si
1
sabemos que la distribucion de los pesos siguen una normal, realizar un contraste que permita tomar una decisión respecto a aceptar o no la información suministrada por el fabricante (α = 0.05). (junio 98) SOLUCIÓN:
No hay evidencia suficiente, con α = 0.05, para rechazar la información proporcionada por el fabricante.
6. Basándonos en una muestra de tamaño n = 18 de una población normal, se concluye que un intervalo de confianza del 95% para la media es
IC(0.95) : µ ∈ (17; 19) (a) Realiza un intervalo de confianza para la varianza del 90%
(b) ¿Cuál será el resultado del contraste H0: µ = 16;H1: µ 6= 16 con un nivel de significación del 5%?
SOLUCIÓN:
(a) IC(0.90) : σ2∈ (2.49; 7.92)
(b) Se rechaza, con α = 0.05 que µ = 16.
7. Se tiene una muestra aleatoria simple de tamaño n de una variable aleatoria X. Se realiza el contraste H0: σ2≥ 10;H1: σ2< 10 con α = 0.05 y se rechaza H0. Decir para cada una de las siguientes cuestiones, si son verdaderas, falsas, o inciertas
(a) El contraste no es válido, pues no sabemos si el tamaño muestral es grande o pequeño (b) Si X es normal, el contraste será siempre válido aunque n sea pequeño
(c) Si el tamaño muestral es grande, la distribución de referencia será la normal estándar, pero si es pequeño será la tn−1
(d) Sólo usaremos la distribución de referencia tn−1 si X es normal
(e) La distribución de referencia es χ2n si utilizamos como estimador de σ2 a S2 y χ2n−1 si utilizamos el estimador insesgado
(f) El intervalo de confianza de nivel de confianza 0.95 no contendrá el valor 10.
8. Se tiene una muestra aleatoria simple de tamaño n = 15 de una variable aleatoria X de distribución desconocida. A partir de las estimaciones ¯x y ˆs2 Se realiza el contraste H0 : µ ≥ 10;H1 : µ < 10 con α = 0.05 y se rechaza H0. Decir para cada una de las siguientes cuestiones, si son verdaderas, falsas, o inciertas
(a) Al tener un tamaño muestral pequeño, el contraste sólo será válido si usamos la distribución tn−1 de distribución de referencia
(b) Si X no es normal, no podremos hacer el contraste con las herramientas estadísticas que hemos estudiado
(c) Si X es normal podemos utilizar tanto la tn−1 como la Z de distribución de referencia para hacer dicho contraste
(d) Como hemos rechazado H0 será imposible que la población tenga una media muestral mayor que 10 (e) Como hemos rechazado H0 con α = 0.05, la probabilidad de equivocarnos y que la población tenga
µ ≥ 10 es 0.05
2