TEMA 1: Estadística descriptiva

(1)

INGENIERÍA INFORMÁTICA Universidad Carlos III de Madrid

Programa de la asignatura

P P AR A RT TE E I I: : E ES ST TA A DÍ D ÍS ST TI IC CA A D DE ES SC CR RI IP PT TI IV VA A

TEMA 1 : Estadística descriptiva

1.1 Introducción 1.2 Tipos de datos

1.3 Descripción de datos mediante tablas:

• Tablas de frecuencias univariantes

• Tablas de frecuencias bivariantes

• Distribución marginal y condicionada 1.4 Descripción de datos mediante gráficos:

• Diagrama de tallo y hojas

• Diagrama de barras

• Histograma y polígono de frecuencias

• Pictograma

• Gráficos de dispersión

1.5 Medidas características de un conjunto de datos:

• Medidas de centralización

• Medidas de dispersión

• Otras medidas de forma

• Medidas de dependencia lineal: covarianza y correlación

1.6 Transformaciones lineales y su efecto en las medidas características 1.7 Transformaciones no lineales que mejoran la simetría

P

P AR A RT TE E I II I: : PR P RO OB BA AB BI IL LI ID DA AD D

TEMA 2: Probabilidad

2.1 Introducción

2.2 Definición de probabilidad y propiedades 2.3 Probabilidad condicionada y probabilidad total 2.4 Independencia de sucesos

2.5 Teorema de Bayes

(2)

TEMA 3: Introducción a las variables aleatorias

3.1 Introducción: la variable aleatoria como modelo de variabilidad 3.2 Variables aleatorias discretas

• Función de probabilidad

• Función de distribución 3.3 Variables aleatorias continuas

• Función de densidad

• Función de distribución

3.4 Medidas características de las variables aleatorias

• Medidas de centralización

• Medidas de dispersión

• Acotación de Tchebychev

• Efecto de las transformaciones lineales en las medidas características 3.5 Variables aleatorias multivariantes

• Distribución conjunta de un vector aleatorio

• Distribución marginal

• Distribución condicionada e independencia

• Covarianza y correlación

TEMA 4: Modelos de probabilidad univariantes

4.2 El proceso de Bernoulli

4.3 Variables aleatorias asociadas al proceso de Bernoulli

• Distribución de Bernoulli

• Distribución binomial

• Distribución geométrica 4.4 El proceso de Poisson

4.5 Variables aleatorias asociadas al proceso de Poisson

• Distribución de Poisson

• Distribución exponencial 4.6 Fiabilidad

• Tasa de fallos

• Distribución Weibull

• Distribución Gamma 4.7 La distribución normal

• Propiedades

• El Teorema Central del Límite

4.8 Relación entre la normal, la binomial y la Poisson

(3)

PA P AR RT TE E I II II I: : I IN NF FE ER RE EN N CI C IA A

TEMA 5: Introducción a la inferencia estadística

5.1 La inferencia estadística. Población y muestra 5.2 Distribución muestral de un estadístico 5.3 La distribución de la media muestral 5.4 Estimación y estimadores

5.5 Diagnosis y crítica del modelo

• Contrastes de bondad de ajuste

• Métodos gráficos

• Transformaciones para conseguir normalidad 5.6 El método de máxima verosimilitud

• La distribución conjunta de la muestra

• La función de verosimilitud

• El método de máxima verosimilitud

• Propiedades de los estimadores de máxima verosimilitud

TEMA 6: Inferencia con muestras grandes

6.2 Intervalos de confianza para µ para muestras grandes 6.3 Determinación del tamaño muestral

6.4 Introducción al contraste de hipótesis

6.5 Contraste de hipótesis de la media µ para muestras grandes 6.6 Interpretación de un contraste usando el p-valor

6.7 Relación entre contrastes de hipótesis e intervalos de confianza 6.8 Inferencia sobre una proporción con muestras grandes

• Estimación

• Intervalos y tamaño muestral

• ^Contrastes

6.9 Inferencia con estimadores de máxima verosimilitud

• Intervalos

• ^Contrastes

TEMA 7: Inferencia en una población normal

7.1 Inferencia en muestras pequeñas 7.2 La distribución t de Student 7.3 Inferencia sobre µ

• Intervalos de confianza

• ^Contrastes 7.4 Inferencia sobre σ²

• La distribución χ2

• Intervalos

• ^Contrastes

(4)

TEMA 8: Comparación de poblaciones

8.2 Comparación de dos medias usando muestras independientes

• Intervalos de la diferencia de medias

• Contrastes para la diferencia de medias

8.3 Comparación de dos medias usando datos emparejados 8.4 Comparación de dos varianzas en poblaciones normales

• Intervalo del ratio de varianzas

• ^Contrastes

8.5 Comparación de dos proporciones

• Intervalo de la diferencia de proporciones

• ^Contrastes

PA P AR RT TE E I IV V: : C CO ON NT TR RO OL L E ES ST TA AD DÍ ÍS S TI T I CO C O D DE E P PR RO OC CE ES SO OS S

TEMA 9: Introducción al Control Estadístico de Procesos

9.1 Fundamentos de los gráficos de control 9.2 Gráfico de control para la media 9.3 Gráficos de control para la dispersión

9.4 Capacidad de un proceso. Índice de capacidad 9.5 Gráficos P y NP

(5)

Capítulo 7

Inferencia en una población normal

1. Inferencia en muestras pequeñas

2. Inferencia con la distribución t de Student 3. Inferencia sobre µ

4. Inferencia sobre σ²

0Apuntes realizados por Ismael Sánchez. Universidad Carlos III de Madrid.

(6)

2 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL

7.1. Inferencia en muestras pequeñas

En este tema estamos interesados en hacer inferencia sobre los parámetros de una variable aleatoria normal X ∼ N(µ, σ²). Es decir, sobre su media µ y sobre su varianza σ². En el tema anteri- or se introdujeron los elementos para realizar inferencia para la media µ de una población cualquiera en muestras grandes. El principio fundamental era que para una muestra X1, X2, ..., Xn de una variable aleatoria X, la media muestral

X =¯ X1+ X2+ · · · + Xⁿ n

tiene una distribución muestral que se aproxima asintóticamente a la normal (es decir, a mayor tamaño muestral n, mayor parecido a la normal). La justificación de este resultado se encuentra en la aplicación del teorema central del límite. En la práctica, tamaños muestrales en torno a 50 obervaciones pueden ser suficientes para que podamos realizar intervalos de confianza y contrastes sobre µ basados en la media muestral y su aproximación a la normal. Cuando el tamaño muestral es pequeño, el teorema central del límite ya no se cumple, y la distribución de la variable aleatoria X en el muestreo depende de la distribución de la variable X que estamos analizando. En estos¯ casos, los intervalos de confianza que construyamos siguiendo la formulación del tema anterior ya no tendrán el nivel de confianza que deseamos, ni los contrastes tendrán el nivel de significación o el p-valor que nos salga en los cálculos; al estar basados en propiedades estadísticas que ya no se cumplen.

En este tema nos ocuparemos de la inferencia cuando la variable de interés X es normal, y que será de especial interés en muestras pequeñas. Como ya se ha mencionado en temas anteriores, las variables aleatorias normales verifican que su combinación lineal produce variables aleatorias normales, para cualquier número de variables que combinemos. De esta forma tenemos que, para cualquier tamaño muestral grande o pequeño, si X ∼ N(µ, σ²),

X ∼ N¯ µ

µ,σ² n

¶ , y por tanto

Z = X − µ¯

σ/√n ∼ N (0, 1) , (7.1)

para cualquier n. Cuando σ²es desconocida, ha de utilizarse un estimador. En este tema seguiremos utilizando como estimador de σ² el estimador insesgado

Sˆ²= Pn

i=1

¡Xi− ¯X¢2

n − 1 . (7.2)

Si sustituimos σ² por ˆS² en (7.1) obtenemos el estadístico T siguiente:

T =X − µ¯ S/ˆ √

n. (7.3)

En el tema anterior, también acudíamos a este estadístico T para hacer inferencia. Hay una diferencia importante entre los estadísticos Z y T que hace que en muestras pequeñas sus propiedades estadísticas sean diferentes. En Z sólo interviene una variable aleatoria, que es la media muestral X. Al ser ¯¯ X normal y estandarizarse con sus verdaderos parámetros, obtenemos que Z es la normal

(7)

7.2. INFERENCIA CON LA DISTRIBUCIÓN T DE STUDENT 3

estándar. En T hay, sin embargo, dos variables aleatorias, ¯X en el numerador y ˆS en el denomi- nador. Se puede demostrar que con muestras grandes, el componente aleatorio que aporta ˆS en las propiedades estadísticas de T puede despreciarse. Por esta razón, en el tema anterior utilizamos que, para muestras grandes

T ∼ N(0, 1). (7.4)

Para muestras pequeñas, la distribución muestral de T viene influenciada tanto por ¯X como por ˆS, por lo que la aproximación a la normal que se usa en (7.4) será muy imprecisa. La distribución muestral de T cuando X es normal es conocida y se denomina distribución t de Student. En la siguiente sección se describe brevemente esta distribución.

7.2. Inferencia con la distribución t de Student

La distribución t de Student es una variable aleatoria continua, simétrica, de media cero, y de perfil muy parecido a la normal estándar. Depende de un parámetro g que se denomina grados de libertad. Su notación habitual es tg. La figura siguiente muestra dos ejemplos de distribución tg

con g = 3 y g = 10 junto con la distribución N (0, 1).

En este gráfico puede verse que cuanto mayor es el número de grados de libertad, más parecido hay entre la distribución t_gy N (0, 1). Puede demostrarse que efectivamente la función de densidad de tg tiende hacia la normal a medida que aumentan los grados de libertad. Para g = ∞ la distribución t_g es idéntica a la N (0, 1), pero a efectos prácticos, para g > 30 ambas distribuciones proporcionan probabilidades similares. La principal diferencia entre ambas distribuciones es que con pocos grados de libertad, la distribución t_gtiene la zona de las colas más ancha que la N (0, 1). Esta diferencia es muy importante, pues en estas zonas de las colas donde nos interesará calcular probabilidades; tanto para la construcción de intervalos de confianza como en contrastes. Esta distribución está tabulada y puede encontrarse en la mayoría de los manuales de estadística.

(8)

Puede demostrarse que si X ∼ N(µ, σ²), T = X − µ¯

S/ˆ √

n ∼ tⁿ−1, (7.5)

donde n es el tamaño de la muestra. Para tamaños muestrales pequeños, tendremos g reducidos, y por tanto mayores diferencias entre t_n₋₁ y N (0, 1). Será entonces más preciso utilizar la distribución tn−1 en aquellos lugares en los que al hacer inferencia para una población normal (intervalos y contrastes) usemos el estadístico T.

7.3. Inferencia sobre µ

7.3.1. Intervalos de confianza

En el tema anterior se dedujo el intervalo de confianza para µ para muestras grandes, válido para cualquier distribución de X. Este intervalo, de nivel de confianza (1 − α) es

µ ∈

½

x ± z¯ α/2

ˆ

√sn

¾

. (7.6)

En el caso X ∼ N(µ, σ²), un intervalo más preciso, sobre todo con muestras pequeñas, se obtiene reemplazando los valores de la normal estándar zα/2 por los de la distribución tn−1. El razonamiento es el mismo que el que se siguió en el tema anterior. De (7.5) se tiene que

P¡

−tn−1;α/2< T < t_n_−1;α/2¢

= 1 − α

donde t_n_−1;α/2es el valor de la distribución t_n₋₁que deja el área α/2 a la derecha, como se muestra en la siguiente figura

Por tanto, se tiene que

P Ã

−tn−1;α/2<X − µ¯ S/ˆ √

n < t_n_−1;α/2

!

= 1 − α

(9)

7.3. INFERENCIA SOBREµ 5

y operando en el interior del paréntesis P

Ã

X − t¯ n−1;α/2

Sˆ

√n < µ < ¯X + t_n_−1;α/2 Sˆ

√n

!

= 1 − α.

Por lo tanto, un intervalo de nivel de confianza (1 − α) para la media µ de una población normal a partir de la información que suministra una muestra de tamaño n es

IC(1 − α) : µ ∈

½

x ± t¯ n−1;α/2

ˆ

√s n

¾

. (7.7)

En la práctica, si los datos proceden de una normal, deberemos utilizar siempre la distribución t_n₋₁ en los intervalos. De esta forma aseguraremos que el nivel de confianza real es (1 − α). Los intervalos de confianza en (7.6) son intervalos asintóticos, y en la práctica sólo podremos estar seguros de que el nivel de confianza real es (1 − α) si el tamaño muestral es muy grande. Sin embargo, el intervalo (7.7) está hecho a la medidad de una población normal y el tamaño muestral n, y por eso siempre tienen el nivel de confianza (1 − α). Por esta razón se dice que los intervalos (7.7) son exactos. Para poder aplicar (7.7) debemos asegurarnos que nuestros datos se ajustan suficientemente a la normal. Para saber si los datos de la muestra proceden de una normal podemos hacer un histograma de los mismos o incluso algún test de bondad de ajuste como el test de la chi-cuadrado que se vio en temas anteriores.

Ejemplo 1 En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su contenido porcentual de Cadmio. Después de analizar 25 rocas se obtiene que

¯

x = 9,77 y ˆs = 3,164..Suponiendo que el contenido porcentual de Cadmio sigue una distribución normal. Se quiere construir un intervalo de confianza al 95 % para el contenido porcentual medio de Cadmio en la mina. El tamaño de la muestra n = 25 es muy pequeño para que los intervalos asintóticos (7.6) sean válidos. Al ser la variable de interés una normal, podemos emplear el intervalo exacto (7.7). El intervalo de nivel de confianza 0,95 será

0,95 = P (

−tn−1,α/2<X − µ¯ 0

S/ˆ √

n < t_n_−1,α/2 )

= P (

X − t¯ n−1,α/2

Sˆ

√n < µ < ¯X + t_n_−1,α/2 Sˆ

√n )

Luego el intervalo es de la forma

IC(1 − α) : µ ∈

½

x ± t¯ n−1,α/2

ˆ

√s n

¾ .

Usando α = 0,05 tenemos que, según las tablas de la t24, t24,0,025 = 2,06. El intervalo para el contenido medio de cadmio de las rocas que se extraigan de la mina es

IC(0,95) : µ ∈

½

9,77 ± 2,063,164

√25

¾

= (8,47, 11,07) .

A la vista de este resultado, los técniccos de la mina pueden tomar una decisión acerca de la conveniencia de seguir haciendo prospección en dicha mina o por el contrario deben descartar su explotación.

(10)

7.3.2. Contrastes de hipótesis

Se quiere contrastar alguna de las siguientes hipótesis:

1. H0: µ = µ₀; frente a H1: µ 6= µ0, 2. H0: µ ≥ µ0; frente a H1: µ < µ₀, 3. H₀: µ ≤ µ0; frente a H₁: µ > µ₀.

La forma de realizar los contrastes para poblaciones normales es la misma que la que se mencionó en el tema anterior, con la única diferencia de la distribución de referencia del estadístico T, que será la distribución tn−1 en lugar de la aproximación a la normal estándar. La siguiente tabla resume los detalles de estos contrastes.

Contrastes Estadísticos de contraste

Distribución de referencia

Región de rechazo

(1)-H0: µ = µ₀; H1: µ 6= µ0

(2)-H₀: µ ≥ µ0; H₁: µ < µ₀ (3)-H0: µ ≤ µ0; H1: µ > µ₀

(a) Z0=X − µ¯ 0

σ/√ n (b) T₀= X − µ¯ 0

S/ˆ √ n

(a) Z₀∼ N(0, 1) (b) T0∼ tⁿ−1

(1-a) |z0| > zα/2

(2-a) z0< −z^α (3-a) z₀> z_α (1-b) |t⁰| > tn−1;α/2

(2-b) t₀< −tn−1;α

(3-b) t0> tn−1;α

Ejemplo 2 Con los datos de la muestra de transistores BC547B mencionados en el tema anterior deseamos contrastar si se mantiene el valor nominal µ = 290 como media de la distribucion poblacional de valores β, es decir,

H0 : µ = 290 H1 : µ 6= 290

Para hacer el contraste se toma una muestra de n = 100 observaciones y se obtiene la media muestral ¯x y la cuasivarianza ˆs². El histograma de este conjunto de datos junto con la normal N (¯x, ˆs²) sobreimpresa es el siguiente

Esta figura sugiere que loss datos podrían proceder de una distribución normal. El p-valor del contraste chi-cuadrado es mayor que 5 %, lo que refuerza la bondad del ajuste de la normal a

(11)

7.4. INFERENCIA SOBREσ² 7

nuestros datos. Consideramos entonces, con un p-valor<0.05, que es aceptable la normalidad de la población de valores β. Por tanto realizaremos el contraste usando como distribución de referencia para el estadístico de contraste la distribución t_n₋₁. Los datos muestran que

¯

x = 282,3; ˆs = 27,57;

t₀ = x − µ¯ 0

ˆ

s/√n =282,3 − 290

27,69/10 = −2,78.

Como es un contraste bilateral necesitamos dos valores críticos. Como la distribución de referencia t_n₋₁ es simétrica de media cero, ambos valores críticos serán iguales pero de signo contrario.

Uusando un nivel de significación α = 0,05, y la distribución de referencia t de Student con n − 1 = 99 grados de libertad se tiene que t99;0,025= 1,984. Por tanto, como |t0| = 2,78 > 1,984 rechazamos H0. Rechazamos, con un nivel de significación del 5 %, que la ganancia media de los transistores se siga manteniendo en elvalor 290.

7.4. Inferencia sobre σ

²

7.4.1. Estimación

En esta sección simplemente recordaremos que hemos visto dos estimadores para σ²: la varianza muestral

S²= Pn

i=1

¡Xi− ¯X¢2

n ,

que es un estimadorde σ² sesgado, y la cuasivarianza

Sˆ²= Pn

i=1

¡Xi− ¯X¢2

n − 1 ,

que es insesgado. Para poblaciones normales, la distribución muestral de ambos estimadores está relacionada con la distribución llamada chi-cuadrado. A continuación vamos a describir brevemente esta distribución.

7.4.2. La distribución χ

²_g

Antes de presentar resultados sobre la inferencia relacionada con σ² en poblaciones normales, presentaremos una variable aleatoria denominada chi-cuadrado, y que se denota por χ²_g. La dis- tribución chi-cuadrado es una distribución que depende del parámetro g que se denomina grados de libertad (g = 1, 2, ...). La distribución χ²_g va de 0 a ∞ y es asimétrica positiva. Su asimetría disminuye al aumentar los grados de libertad. la figura siguiente muestra la función de densidad

(12)

de la χ²₃ y la χ²₆.

Las medidas características de la χ²_gson

E(χ²_g) = g, Var(χ²_g) = 2g.

Esta distribución está también tabulada y puede encontrarse en la mayoría de los textos de es- tadística.

La distribución muestral de los estimadores de σ², la varianza y la cuasivarianza muestral, en poblaciones normales están relacionadas con esta distribución. Puede demostrarse que

(n − 1) ˆS²

σ² ∼ χ²n−1; (7.8)

nS²

σ² ∼ χ²n−1. donde n es el tamaño de la muestra.

7.4.3. Intervalos de confianza para σ

²

Para construir los intervalos de confianza para σ² en una población normal vamos a seguir el mismo razonamiento que el utilizado para deducir los intervalos de µ. De (7.8) puede deducirse que

P Ã

χ²_n_{−1;1−α/2}< (n − 1) ˆS²

σ² < χ²_n_−1;α/2

!

= 1 − α. (7.9)

(13)

donde χ²_n_−1;α/2 es el valor de la distribución χ²_n₋₁ que deja el área α/2 a la derecha. La figura siguiente ilustra estos valores χ²_n_−1;α/2 y χ²_n_{−1;1−α/2}.

Operando en el interior del paréntesis de (7.9) se obtiene que P

Ã(n − 1)ˆs²

χ²_n_−1;α/2 < σ²< (n − 1)ˆs² χ²_n_{−1;1−α/2}

! , o bien, para el caso del estimador S²,

P

Ã nS²

χ²_n_−1;α/2 < σ²< nS² χ²_n_{−1;1−α/2}

! .

Por tanto, un intervalo de confianza de nivel de confianza (1 − α) para el parámetro σ²será IC(1 − α) : σ²∈

Ã(n − 1)ˆs²

χ²_n_−1;α/2, (n − 1)ˆs² χ²_n_{−1;1−α/2}

!

(7.10) o bien, si utilizamos el estimador S²,

IC(1 − α) : σ²∈

Ã ns²

χ²_n_−1;α/2, ns² χ²_n_{−1;1−α/2}

!

. (7.11)

A diferencia de los intervalos de confianza para µ, los intervalos para σ² no son simétricos alrededor de ˆs²o s².

Ejemplo 3 Continuando con el ejemplo 1 anterior sobre el contenido de cadmio en rocas, queremos construir un intervalo de confianza al 99 % para σ². Como el estimador utilizado para σ² es la cuasivarianza muestral ˆS², se tiene que

0,99 = P (

χ²_n_−1,α/2<(n − 1) ˆS²

σ² < χ²_n_{−1,1−α/2} )

= P

( (n − 1) ˆS²

χ²_n_{−1,1−α/2} < σ²<(n − 1) ˆS² χ²_n_−1,α/2

)

Como α = 0,01, tenemos que según las tablas de la chi cuadrado: χ²_24,0,995= 9,89, χ²_24,0,005= 45,6.

El intervalo es:

IC (0,99) : σ²∈ (5,27, 24,29)

(14)

7.4.4. Contraste de hipótesis

Se quiere contrastar las siguientes hipótesis.

1. H₀: σ²= σ²₀; H₁: σ²6= σ²0

2. H₀: σ²≥ σ²0; H₁: σ²< σ²₀

3. H₀: σ²≤ σ²0; H₁: σ²> σ²₀

donde σ²₀ es un valor numérico concreto. Los contrastes para σ² en poblaciones normales siguen las mismas reglas que en los contrastes vistos para µ. El contraste se basa en las siguientes propiedades de la varianza muestral en poblaciones normales X ∼ N(µ, σ²) que ya se han mencionado anteriormente:

(n − 1) ˆS²

σ² ∼ χ²n−1, (7.12a)

nS²

σ² ∼ χ²n−1. (7.12b)

El estadístico de contraste que resuma la información necesaria para realizar un contraste se basará en (7.12), pero sustituyendo σ² por σ²₀. El estadístico de contraste es por tanto:

X₀² = (n − 1) ˆS²

σ²₀ ; (7.13)

X₀² = nS²

σ²₀ . (7.14)

Ejemplo 4 Volviendo a los datos sobre los transistores BC547B mencionados anteriormente, teníamos el objetivo de comprobar si la media no había cambiado, así como comprobar si la varianza no había aumentado. Podemos ahora contrastar este segundo punto. Los datos históricos decían que σ²₀= 760. Por tanto el contraste es

H₀: σ²≤ 760; H1: σ²> 760.

Asumiendo a la vista del test de la chi-cuadrado que los datos son normales podemos realizar el contraste presentado más arriba. De los datos se obtiene

x²₀= (n − 1)ˆs²

σ²₀ =99 × 766,85

760 = 99,89.

Al realizar un contraste de hipótesis, aceptaremos la hipótesis nula salvo que los datos arrojen mucha evidencia en contra. Por tanto, rechazaremos la hipótesis nula cuando el valor del estimador de σ² que usemos haga lo que especifique la hipótesis alternativa de forma muy acusada.

(15)

En el caso del contraste con alternativa bilateral H₀: σ²= σ²₀; H₁: σ²6= σ²0, rechazaremos H₀ cuando ˆs² (o s²) tenga un valor ˆs²>> σ²₀ o ˆs²<< σ²₀, como se ilustra en la siguiente figura

Puede verse en (7.13) que cuando ˆs² >> σ²₀, el estadístico de contraste X₀² tendrá también un valor alto, y tenderá a estar en la cola de la derecha de la distribución de referencia, mientras que cuando ˆs² << σ²₀, el estadístico X₀² estará en la zona de la izquierda de la distribución de referencia. La región de rechazo, de área igual al nivel de significación α, estará a ambos extremos de la distribución χ²_n₋₁, como se ilustra en la siguiente figura.

Análogamente, en el caso de un contraste con alternativa unilateral, la región de rechazo estará sólo a un lado de la distribución. En el caso del contraste H₀: σ²≥ σ²0; H₁: σ²< σ²₀, rechazaremos cuando ˆs² << σ²₀, o análogamente, cuando X₀² tenga un valor muy bajo. Finalmente, en el caso del contraste H₀: σ²≤ σ²0; H₁: σ²> σ²₀, rechazaremos cuando ˆs²>> σ²₀, lo que dará un valor del estadístico de contraste en la cola de la derecha de la distribución χ²_n₋₁. Puede verse por tanto, que la región de rechazo está allá donde señala H1. Las siguientes figuras muestran las recgiones

(16)

de rechazo en estos dos contrastes.

La siguiente tabla resume las características de estos contrastes

Contrastes Estadísticos

de contraste

Distribución de referencia

Región de rechazo (1)-H0: σ²= σ²₀; H1: σ²6= σ²0

(2)-H₀: σ²≥ σ²0; H₁: σ²< σ²₀ (3)-H0: σ²≤ σ²0; H1: σ²> σ²₀

X₀²= (n − 1) ˆS² σ²₀ X₀²= nS²

σ²₀

X₀²∼ χ²n−1

(1) x²₀> χ²_n_−1;α/2 ó x²₀< χ²_n

−1;1−α/2

(2) x²₀< χ²_n_−1;1−α (3) x²₀> χ²_n_−1;α

Ejemplo 5 Volviendo a los datos sobre los transistores BC547B, rechazaremos H₀si x²₀> χ²_99;0,05. Como χ²_99;0,05 = 123,2 y x²₀ = 99,89, no podemos rechazar la hipótesis nula, con un nivel de sig- nificación de α = 0,05, de que el proceso no ha aumentado su variabilidad. Por tanto, aunque ˆ

s²= 766,85 > σ²₀, la diferencia no es significativa, y es es perfectamente explicable por la variabilidad debida a la muestra. El p-valor de este contraste será la probabilidad P (χ²₉₉> 99,89) = 0,456 que es muy elevada, por lo que x²₀ está bastante dentro de la región de aceptación. Aceptamos la hipótesis nula con bastante seguridad.

Ejemplo 6 Un fabricante de aparatos de precisión garantiza que la desviación típica de las medidas que pueden efectuarse con el tipo de balanza que comercializa es σ ≤ 5 unidades. Para comprobar dicha afirmación se pesa un objeto en 100 básculas de dicho tipo y se obtiene una varianza muestral de s² =26.243. Si sabemos que la distribucion de los pesos siguen una normal, realizar un contraste que permita tomar una decisión respecto a aceptar o no la información suministrada por el fabricante (α = 0,05).

Lo que queremos contrastar es

H₀: σ²≤ σ²0(= 25); H₁: σ²> 25.

Se rechaza H0 si s²>> σ²₀; más concretamente, si ns²

σ²₀ > χ²_n_−1;α De los datos se tiene que n = 100, s²= 26,243. Por tanto

x²₀ = ns²

σ²₀ = 100 × 26,243

25 = 104,972, χ²_99,0,05 = 123,2 (Statgraphics).

(17)

Como X₀ < χ²_99,0,05 no tenemos evidencia suficiente (con un nivel del 5 %) para sospechar del fabricante. Es decir, si la población tiene σ² ≤ 25 no es raro encontrar que en una muestra de tamaño n = 100 tengamos s²= 26,243. Entra dentro de la variabilidad muestral que se encuentra por azar al tener muestras de tamaño 100.

(18)

Tema 7: Inferencia en una población normal

HOJA DE EJERCICIOS

1. La duración de un cierto componente sigue una distribución normal de media µ desconocida y desviación típica σ = 100 horas. Se desea enviar una muestra de dichos componentes al laboratrorio para que hagan pruebas y estimen la duración media. Se quiere que la duración media muestral no difiera de µ en más de 50 horas, con una probabilidad de 0.95. Hallar el tamaño de la muestra que hará falta

SOLUCIÓN:

n ≈ 16 componentes

2. Una muestra aleatoria extraída de una población normal presenta una media muestral ¯x = 160 y cuasivarianza ˆs²= 100. Para n = 14, se pide:

(a) Calcular un intervalo de confianza del 95% para la media poblacional.

(b) Calcular un intervalo de confianza del 90% para la media poblacional. (junio 99) SOLUCIÓN:

(a) 95%, IC(0.95); µ ∈ (154.2; 165.8) (b) 90%, IC(0.90); µ ∈ (155.3; 164.7)

3. En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su contenido porcentual de Cadmio. Después de analizar 25 rocas se obtiene que ¯x = 9.77 y ˆs = 3.164..Suponiendo que el contenido porcentual de Cadmio sigue una distribución normal, sepide:

(a) Construir un intervalo de confianza al 95% para el contenido porcentual medio de Cadmio en la mina.

(b) Construir un intervalo de confianza al 99% para σ². SOLUCIÓN:

(a) IC(1 − α) : µ ∈ (8.47, 11.07) (b) El intervalo es: (5.27, 24.29)

4. Un proceso de rellenado de envases produce, cuando funciona correctamente, un peso promedio de 200 g.

por envase. Una muestra aleatoria de 9 envases presentó los siguientes contenidos (en gramos):

214 197 197 206 208 201 197 203 209

Asumiendo que la distribución de la población es normal, contrastar a un nivel de significación del 5%

la hipótesis de que el proceso está funcionando correctamente, frente a la alternativa bilateral.(Nota:

¯

x = 203.55, ˆs = 6.12)(junio 97) SOLUCIÓN:

No hay evidencia suficiente, con un nivel de significación del 5%, para rechazar la hipótesis nula.

5. Un fabricante de aparatos de precisión garantiza que la desviación típica de las medidas que pueden efectuarse con el tipo de balanza que comercializa es σ ≤ 5 unidades. Para comprobar dicha afirmación se pesa un objeto en 100 básculas de dicho tipo y se obtiene una varianza muestral de s² =26.243. Si

1

(19)

sabemos que la distribucion de los pesos siguen una normal, realizar un contraste que permita tomar una decisión respecto a aceptar o no la información suministrada por el fabricante (α = 0.05). (junio 98) SOLUCIÓN:

No hay evidencia suficiente, con α = 0.05, para rechazar la información proporcionada por el fabricante.

6. Basándonos en una muestra de tamaño n = 18 de una población normal, se concluye que un intervalo de confianza del 95% para la media es

IC(0.95) : µ ∈ (17; 19) (a) Realiza un intervalo de confianza para la varianza del 90%

(b) ¿Cuál será el resultado del contraste H₀: µ = 16;H₁: µ 6= 16 con un nivel de significación del 5%?

SOLUCIÓN:

(a) IC(0.90) : σ²∈ (2.49; 7.92)

(b) Se rechaza, con α = 0.05 que µ = 16.

7. Se tiene una muestra aleatoria simple de tamaño n de una variable aleatoria X. Se realiza el contraste H0: σ²≥ 10;H¹: σ²< 10 con α = 0.05 y se rechaza H0. Decir para cada una de las siguientes cuestiones, si son verdaderas, falsas, o inciertas

(a) El contraste no es válido, pues no sabemos si el tamaño muestral es grande o pequeño (b) Si X es normal, el contraste será siempre válido aunque n sea pequeño

(c) Si el tamaño muestral es grande, la distribución de referencia será la normal estándar, pero si es pequeño será la t_n₋₁

(d) Sólo usaremos la distribución de referencia tn−1 si X es normal

(e) La distribución de referencia es χ²_n si utilizamos como estimador de σ² a S² y χ²_n₋₁ si utilizamos el estimador insesgado

(f) El intervalo de confianza de nivel de confianza 0.95 no contendrá el valor 10.

8. Se tiene una muestra aleatoria simple de tamaño n = 15 de una variable aleatoria X de distribución desconocida. A partir de las estimaciones ¯x y ˆs² Se realiza el contraste H₀ : µ ≥ 10;H1 : µ < 10 con α = 0.05 y se rechaza H₀. Decir para cada una de las siguientes cuestiones, si son verdaderas, falsas, o inciertas

(a) Al tener un tamaño muestral pequeño, el contraste sólo será válido si usamos la distribución tn−1 de distribución de referencia

(b) Si X no es normal, no podremos hacer el contraste con las herramientas estadísticas que hemos estudiado

(c) Si X es normal podemos utilizar tanto la t_n₋₁ como la Z de distribución de referencia para hacer dicho contraste

(d) Como hemos rechazado H0 será imposible que la población tenga una media muestral mayor que 10 (e) Como hemos rechazado H₀ con α = 0.05, la probabilidad de equivocarnos y que la población tenga

µ ≥ 10 es 0.05

2