3.11 Intervalos de confianza basados en una población con distribución normal pero con muestras pequeñas

Texto completo

(1)

3.11 Intervalos de confianza basados en una población con distribución

normal pero con muestras pequeñas

Cuando N < 30 no es posible usar el teorema central del límite y hay que hacer una suposición específica acerca de la forma de la distribución (gamma, Weibull, etc) y luego derivar un intervalo de confianza para esa distribución en particular. En el presente curso nos centraremos en el caso de distribuciones normales (que son las más comunes en las mediciones experimentales).

Si N es pequeña, ya no es tan probable que s sea cercana a σ y la variable aleatoria estandarizada Z presenta aleatoriedad tanto en el numerador como en el denominador. Esto implica que la distribución de la variable estandarizada

/ X Z S N

µ

− =

estará más dispersa que la distribución normal estándar. Esta nueva distribución es la familia de distribuciones t.

Teorema: Cuando X es la media de una muestra aleatoria de tamaño N, de una distribución normal con media

µ

, la variable aleatoria:

N S X T /

µ

− = (3.38)

tiene una distribución de probabilidad llamada distribución t-Student con N-1 grados de libertad.

Una distribución t-student está regida por un solo parámetro llamado número de

grados de libertad de la distribución. Este parámetro se representa con la letra griega

ν

y puede tomar como valor los enteros positivos. Cada valor diferente de

ν

corresponde a una distribución t diferente

Si representamos con tv la curva función de densidad para

ν

(

ν

= N - 1) grados de

(2)

tα/2

0 Área sombreada = 1-

α

-tα/2

1. Cada curva tv tiene forma de campana con centro en 0.

2. Cada curva tv está más dispersa que la curva normal estándar

3. A medida que ν aumenta, la dispersión de la curva tv correspondiente disminuye.

4. A medida que ν→∞, la secuencia de la curva tv se aproxima a la curva normal

estándar.

Figura 3.10: Curva t-student para diferentes grados de libertad (ν = 5, 25). La curva z representa la curva normal estándar

El área bajo la curva de densidad t, con N-1 grados de libertad, entre –

t

α/2,N-1 y

t

α/2,N-1 es 1-α

Figura 3.11: Distribución de probabilidad t . El área sombreada representa la probabilidad P(-

t

α/2,N-1 < T <

t

α/2,Nn-1) = 1- α

Esto implica que:

N

s

t

(3)

es el intervalo de confianza asociado a la magnitud medida, con nivel de confianza de 100(1-

α

)%.

Ejemplo: Una agencia de protección ambiental hizo mediciones de CL50 (concentración letal

que mata al 50% de los animales de experimentación) para ciertos productos químicos que se pueden encontrar en ríos y lagos. Para cierta especie de peces, las mediciones de CL50 para DDT en 12 experimentos arrojaron los siguientes datos (expresados en partes por millón)

9.0

6.4

x

=

s

=

Obtener un intervalo de confianza del 90 %

90%

= −

(1

α

)%

0.9 1

= −

α

α

=

0.1

α

/ 2

=

0.05

(

)

9

3

12

4

.

6

7960

.

1

0

.

9

12

4

.

6

0

.

9

%)

90

(

0.05,11

±

±

=

±

=

t

IC

3.12 Comparación de valores determinados experimentalmente para

muestras pequeñas.

En este caso el procedimiento de prueba es equivalente al seguido en la sección 3.10, pero en lugar de usar la variable estandarizada Z, se hace uso de la variable estandarizada T . Por lo tanto si queremos realizar un procedimiento de prueba que nos permita decidir si el valor medido es igual o distinto al valor µo aceptado universalmente, se debe plantear la

hipótesis nula y la hipótesis alternativa correspondiente:

Hipótesis nula: Ho:

µ

=

µ

o Hipótesis alternativa: Ha:

µ

µ

o

Estadístico de prueba: x o

s

x

t

=

µ

(3.40)

Que surge de considerar que se ha trabajado con una muestra pequeña de una población con distribución normal.

(4)

{

/2, −1

/2, −1

}

=

t

t

N

o

t

t

N

RR

α α

para un nivel de significancia α. Así para un nivel de significancia del 5%, α = 0.05, α/2 = 0.025, y si N = 12 entonces se debe determinar

t

α/2,N-1 tal que P(

t > t

α/2,N-1) = 0.025, resultando

t

α/2,N-1 = -2.2010

{

2

.

2010

2

.

2010

}

=

t

o

t

RR

De esta manera si el estadístico de prueba calculado con los datos muestrales cae en la región de rechazo, se debe rechazar la hipótesis nula a favor de la alternativa, concluir que nuestras mediciones son inaceptables y tratar de encontrar el origen de la discrepancia.

Existen otras dos posibles hipótesis alternativas cuyas respectivas regiones de rechazo con un nivel de significancia

α

son:

Hipótesis alternativa: Ha:

µ

<

µ

o

RR

=

{

t

t

α,N1

}

Hipótesis alternativa: Ha:

µ

>

µ

o

RR

=

{

t

t

α,N1

}

Ejemplo: De una muestra de 10 lentes para anteojos se determina que el grosor promedio

muestral es de 3.05 mm y que la desviación estándar muestral es de 0.34 mm. Se desea que el grosor promedio de las lentes que se fabrican sea de 3.20 mm. ¿Sugieren los datos muestrales que el grosor promedio de las lentes es diferentes al deseado? Pruebe con α = 0.05

1º: Establecer la hipótesis nula y la hipótesis alternativa adecuada

Hipótesis nula: Ho:

µ

= 3.20 mm Hipótesis alternativa: Ha:

µ

3.20 mm

2º: Calcular el estadístico de prueba

395

.

1

10

/

34

.

0

20

.

3

05

.

3

=

=

=

x o

s

x

t

µ

(5)

3º: Establecer la región de rechazo para el nivel de significancia seleccionado.

En este caso α = 0.05 y por lo tanto

{

t

t

0.025,9

o

t

t

0.025,9

}

RR

=

{

2

.

262

2

.

262

}

=

t

o

t

RR

Como el estadístico de prueba

t

=

1

.

395

no pertenece a la región de rechazo, no se rechaza la hipótesis nula.

Veremos ahora como se procede cuando se desean comparar dos valores de una magnitud determinados a partir de muestras pequeñas de poblaciones normales

,

x

,

y x y

s

s

x

y

n

n

En este caso, hay que distinguir dos casos dependiendo si las varianzas son o no homogéneas, es decir, si se pueden o no considerar iguales.

Varianzas homogéneas

Si las varianzas son homogéneas, el procedimiento de prueba es el siguiente:

Hipótesis nula Ho:

µ

1 -

µ

2 = 0 Estadístico de prueba:

(

)

(

)

2

1

1

1

1

2 2 2

+

+

=

+

=

y x y y x x p y x p

n

n

s

n

s

n

s

con

n

n

s

y

x

t

(6)

Hipótesis alternativa: Región de rechazo para prueba de nivel

α

Ha:

µ

1 -

µ

2 <0

RR

=

{

t

t

α,v

}

Ha:

µ

1 -

µ

2 >0

RR

=

{

t

t

α,v

}

Ha:

µ

1 -

µ

2 ≠0

RR

=

{

t

t

α/2,v

o

t

t

α/2,v

}

Varianzas no homogéneas:

Si las varianzas son no homogéneas, se debe realizar el siguiente procedimiento de prueba:

Hipótesis nula Ho:

µ

1 -

µ

2 = 0

Estadístico de prueba:

Con el número de grados de libertad definido por:

Hipótesis alternativa: Región de rechazo para prueba de nivel

α

Ha:

µ

1 -

µ

2 <0

RR

=

{

t

t

α,v

}

Ha:

µ

1 -

µ

2 >0

RR

=

{

t

t

α,v

}

Ha:

µ

1 -

µ

2 ≠0

RR

=

{

t

t

α/2,v

o

t

t

α/2,v

}

La pregunta que surge entonces es cuando se puede considerar que las varianzas son homogéneas y cuando no. Para responder esta pregunta hay que comparar las varianzas.

(

) (

)

2 2 2 2 2 2 2

/

/

1

1

y x x y x x y y x y

s

s

n

n

s

n

s

n

n

n

ν

+

=

+

2 2 y x x y

x

y

t

s

s

n

n

=

+

(7)

Curva de densidad F con ν1 y ν2 grados de libertad 2 1, ,ν ν α

F

F f

3.13 Inferencias en relación con dos varianzas poblacionales

Para el caso de las poblaciones normales, los procedimientos de prueba están basados en una nueva familia de distribuciones de probabilidad: la Distribución F

Esta distribución tiene dos parámetros que la caracterizan: ν1 que es el número de

grados de libertad del numerador y ν2 que es el número de grados de libertad del

denominador. Como la función es complicada y no la usaremos explícitamente, omitimos la fórmula.

Figura 3.12: Curva de densidad F

En forma análoga a la notación

t

α,ν , usamos

2 1,

,ν ν α

F

para el punto sobre el eje de las abscisas que indica que el área bajo la curva de densidad F con grados de libertad ν1 y ν2

en la cola superior vale α.

La curva no es simétrica, por lo que podría parecer que debe calcularse tanto el valor crítico de cola superior, como el de cola inferior. Sin embargo esto no es necesario debido a la siguiente propiedad: 1 2 2 1 , , , , 1

1

ν ν α ν ν α

F

F

=

(3.41)

(8)

Teorema: Sea X1, X2…..XM una muestra aleatoria de una distribución normal con varianza

2

x

σ

, sea Y1, Y2…..YN una muestra aleatoria de una distribución normal con varianza

2

y

σ

,y sean

S

x2, y

S

2y las varianzas muestrales. Entonces, la variable aleatoria:

2 2 2 2 y y x x

S

S

F

σ

σ

=

(3.42)

tiene una distribución F con ν1 = M -1 y ν2 = N-1 grados de libertad.

Debido a que F implica un cociente, el estadístico de prueba es el cociente de las

varianzas muestrales. La hipótesis

σ

12

=

σ

22 es rechazada si el cociente difiere demasiado de 1. En este caso la prueba de hipótesis se realiza de la siguiente manera:

Hipótesis nula Ho: 2 2 1 2

σ

=

σ

Estadístico de prueba: 2 1 2 2

s

f

s

=

Hipótesis alternativa: Región de rechazo para prueba de nivel

α

Ha: 2 2 1 2

σ

>

σ

RR

=

{

f

F

α,M1,N1

}

Ha: 2 2 1 2

σ

<

σ

RR

=

{

f

F

1α,M1,N1

}

Ha: 2 2 1 2

σ

σ

RR

=

{

f

F

α/2,M1,N1

o

f

F

1α/2,M1,N1

}

De este modo si el estadístico de prueba cae en la región de rechazo, se rechaza la hipótesis nula a favor del hipótesis alternativa.

Ejemplo: En un experimento realizado para estudiar los umbrales de dolor provocados por

(9)

Mujeres(1) Hombres (2)

N 10 14

x 14.9 16.2

s2 26.4 12.7

Muestran estos datos suficiente evidencia para indicar que la variabilidad de los umbrales de dolor en hombre y mujeres difiere significativamente con un nivel de significancia de 0.1?

Suponiendo que los umbrales de dolor tanto en hombres como mujeres tienen distribuciones aproximadamente normales, queremos probar:

Ho: 2 2 1 2

σ

=

σ

Ha: 2 2 1 2

σ

σ

Donde

σ

21 y

σ

22 son las varianzas de los umbrales de dolor en mujeres y hombres respectivamente. El estadístico de prueba en este caso es:

078

.

2

7

.

12

4

.

26

2 2 2 1

=

=

=

s

s

f

En esta prueba a dos colas con

α

= 0.1 resulta

{

f

F

0.05,9,13

o

f

F

0.95,9,13

}

RR

=

{

f

F

0.05,9,13

o

f

1 F

/

0.05,13,9

}

RR

=

{

2

.

71

1

/

3

.

05

=

0

.

328

}

=

f

o

f

RR

Como f no pertenece a la región de rechazo, se puede decir que no hay evidencia suficiente para decir que las variabilidades de los umbrales en hombres y mjeres difiere considerablemente.

(10)

3.14 Covarianza

Se estableció, sin ninguna demostración, que cuando las variables son independientes y aleatorias, la mejor estimación para la incertidumbre de un valor calculado q(x1, x2, ….xn) es

la suma cuadrática: 2 2 2 2 1

....

2 1





+

+





+





=

xn n x x q

s

x

q

s

x

q

s

x

q

s

También se dijo que ya sea que las incertidumbres sean o no independientes y aleatorias, siempre se cumple que:

n x n x x q

s

x

q

s

x

q

s

x

q

s

+

+

+

....

2 1 2 1

(3.43)

Es decir siempre existe una cota superior para la incertidumbre.

En esta etapa vamos a derivar una incertidumbre para q que valga ya sea que las incertidumbres sean o no independientes y aleatorias y demostraremos que se cumple (3.43)

Supongamos por simplicidad que la cantidad a medir depende de sólo dos variables q = q(x,y) y que medimos x e y muchas veces, obteniendo N pares de datos (xi, yi). A partir de

estas medidas podemos calcular los valores medios de x e y y las desviaciones estándares muestrales:

x

,

y

,

s

x

,

s

y. También podemos calcular N valores de la cantidad de interés:

(

,

)

1,...,

i i i

q

=

q x y

i

=

N

y por lo tanto también es posible calcular

q y s

q. Suponiendo que todas las incertidumbres

son pequeñas y que todos los valores son próximos a sus valores medios, se puede escribir:

(

)

( )

(

)

(

y

y

)

y

q

x

x

x

q

y

x

q

y

x

q

q

i y x i y x i i i

+

+

=

, ,

,

,

(11)

Por otro lado se tiene que:

( )

(

)

(

)

( )

1 1 , ,

1

1

,

,

N i n N i i n x y x y

q

q

N

q

q

q x y

x

x

y

y

N

x

y

q x y

= =

=

=

+

− +

=

ya que:

(

)

1

(

)

0

1

, ,

=

y

y

y

q

N

x

x

x

q

N

x y i x y i

Por lo tanto la desviación estándar asociada a q está dada por

:

(

)

(

)

(

)

(

)

(

)

(

)(

)

2 2 1 2 1 , , 2 2 2 2 1 , , , ,

1

1

1

1

1

2

1

N q i n N i i n x y x y N i i i i n x y x y x y x y

s

q

q

N

q

q

x

x

y

y

N

x

y

q

q

q

q

x

x

y

y

x

x

y

y

N

x

y

x

y

= = =

=

=

− +

=

+

+

El tercer término de la sumatoria recibe el nombre de covarianza y está definido de la siguiente manera:

(

)(

)

1

1

1

N xy i i i

s

x

x

y

y

N

=

=

Con esta definición

:

2 2 2 2 2 , , , ,

2

q x y xy x y x y x y x y

q

q

q

q

s

s

s

s

x

y

x

y

=

+

+

(3.44)

(12)

Esta expresión es válida ya sea que las medidas de x e y sean o no independientes y estén o no normalmente distribuidas. Observe que sxy puede ser negativa y por lo tanto si no se tiene en

cuenta la correlación se estaría sobrevaluando la incertidumbre.

Se puede demostrar que la covarianza satisface la desigualdad de Schwarz

xy x y

s

s s

y por lo tanto a partir de la ecuación (3.44) se obtiene:

2 , , 2 , , 2 2 , 2 2 , 2 , , 2 2 , 2 2 , 2

2

2

+

+

+

+

+

y y x x y x q y x y x y x y y x x y x q xy y x y x y y x x y x q

s

y

q

s

x

q

s

s

s

y

q

x

q

s

y

q

s

x

q

s

s

y

q

x

q

s

y

q

s

x

q

s

Por lo tanto se cumple que:

, , q x y x y x y

q

q

s

s

s

x

y

+

Con lo que se demuestra la existencia de una cota para la incertidumbre de q sean o no independientes y aleatoria las medidas de x e y.

Si q = q(x1,x2, …..xn), la forma más general para su varianza es:

1 1 2 1 3 2 2 2 2 2 1 1 2 1 3

...

2

2

...

2

...

n i j q x x x x x x n x x i j

q

q

q

q

q

q

s

s

s

s

s

x

x

x

x

x

x

q

q

s

x

x

∂ ∂

∂ ∂

=

+

+

+

+

+

∂ ∂

∂ ∂

∂ ∂

+

+

∂ ∂

Figure

Actualización...

Referencias

Actualización...

Related subjects :