• No se han encontrado resultados

U3 Estadistica Angel Borgna Fernandez

N/A
N/A
Protected

Academic year: 2021

Share "U3 Estadistica Angel Borgna Fernandez"

Copied!
26
0
0

Texto completo

(1)

Inferencia

Inferencia estadístic

estadística

a

Ob

Ob je

 jeti

tivos

vos

• Estudiar las relaciones entre los estadísticos muestrales y los parámetrosEstudiar las relaciones entre los estadísticos muestrales y los parámetros poblacionales.

poblacionales. •

• Desarrollar procedimientos relativos a dos de los problemas fundamen-Desarrollar procedimientos relativos a dos de los problemas fundamen-tales de la inferencia estadística: estimación de parámetros y prueba de tales de la inferencia estadística: estimación de parámetros y prueba de hipótesis.

hipótesis.

3.1. Distribución de estadísticos muestrales

3.1. Distribución de estadísticos muestrales

En el estudio de una población es factible observar que los individuos que la En el estudio de una población es factible observar que los individuos que la conforman presentan diferencias entre sí y como reflejo de ello

conforman presentan diferencias entre sí y como reflejo de ello todas las mues-todas las mues-tras posibles de cierto

tras posibles de cierto tamañotamaño n n , seleccionadas al azar de esa poblac, seleccionadas al azar de esa población, tam-ión, tam-bién presentarán variaciones entre ellas en su conformación. Tales bién presentarán variaciones entre ellas en su conformación. Tales variacio-nes se transmiten al compotamiento de las medidas muestrales también nes se transmiten al compotamiento de las medidas muestrales también denominadas

denominadas estadísticos muestrales estadísticos muestrales calculados a partir de cada una de lascalculados a partir de cada una de las muestras, dando origen a nuevas poblaciones de naturaleza teórica, las

muestras, dando origen a nuevas poblaciones de naturaleza teórica, las pobla- pobla-  ciones de los estadísticos muestrales 

ciones de los estadísticos muestrales ..

La importancia del estudio de la distribución de los estadísticos La importancia del estudio de la distribución de los estadísticos muestra-les radica en el hecho de que ellos son los

les radica en el hecho de que ellos son los estimadores estimadores de los parámetrosde los parámetros poblacionales.

poblacionales.

Dada una población conocida de tamaño

Dada una población conocida de tamaño N N con media poblacionalcon media poblacional µ µ y pro-y pro-porción poblacional P(

porción poblacional P(e e ) = P) = P de algde algún valún valoror ee elegido como éxito, si de ella seelegido como éxito, si de ella se seleccionan aleatoriamente todas las muestras posibles de tamaño

seleccionan aleatoriamente todas las muestras posibles de tamaño n n y paray para cada una de ellas se calcula la media aritmética X

cada una de ellas se calcula la media aritmética Xii y la proporción de éxitoy la proporción de éxito

p

pii((e e )=)= ppii, se tendrán m , se tendránm muestras y consecuentemente la misma cantidadmuestras y consecuentemente la misma cantidad mm dede

medias aritméticas y de proporciones muestrales. medias aritméticas y de proporciones muestrales.

3

3

(2)

Las dos últimas columnas constituyen las

Las dos últimas columnas constituyen las poblaciones de las variables alea- poblaciones de las variables alea-  torias media muestral y proporción muestral 

torias media muestral y proporción muestral . Por su importancia conceptual,. Por su importancia conceptual, seguidamente trataremos las distribuciones teóricas de las poblaciones de seguidamente trataremos las distribuciones teóricas de las poblaciones de los estadísti

los estadísticos media muestracos media muestral (como mejor estl (como mejor estimadorimador de µ) y proporde µ) y proporciónción muestral (como mejor estimador de P).

muestral (como mejor estimador de P).

3.1.1. Distribución del estadístico media muestral

3.1.1. Distribución del estadístico media muestral

Los gráficos que se presentan a continuación se refieren a la distribución de Los gráficos que se presentan a continuación se refieren a la distribución de dos poblaciones, la primera corresponde a una población original conformada dos poblaciones, la primera corresponde a una población original conformada por las edades de los 497 empleados de una empresa –gráfico.3.1– por las edades de los 497 empleados de una empresa –gráfico.3.1– mien-tras que la segunda –gráfico 3.2– representa a la distribución de la

tras que la segunda –gráfico 3.2– representa a la distribución de la poblaciónpoblación teórica de las edades medias de todas las muestras de tamaño 2 que se teórica de las edades medias de todas las muestras de tamaño 2 que se extrajeron de la población original.

extrajeron de la población original. Gráfico 3.1.

Gráfico 3.1.

Los parámetros de la población original (de edades) son: Los parámetros de la población original (de edades) son:

µ

µ = = 35 35 años años yy σ σ 22 = 82,90 años= 82,90 años22

Gráfico 3.2. Gráfico 3.2. El mejor estimador de un El mejor estimador de un parámetro poblacional parámetro poblacional

es aquel que cumple con ciertas es aquel que cumple con ciertas cualidades (insesgabilidad, cualidades (insesgabilidad, con-sistencia, eficiencia y suficiencia) sistencia, eficiencia y suficiencia) que aquí no se analizarán. que aquí no se analizarán.

0,17 0,17 0,14 0,14 0,11 0,11 0,08 0,08 0,06 0,06 0,03 0,03 0,00 0,00 2 222 3355 4488 6622 XX

Distribución de la población original

Distribución de la población original

   f    f  r  r  e  e   c   c   u   u   e   e   n   n   c   c    i    i  a  a

  r   r   e   e    l    l  a  a    t    t    i    i  v  v   a   a 0,20 0,20 0,10 0,10 0,10 0,10 0,05 0,05 0,00 0,00

Distribución de la población de las

Distribución de la población de lasmmediasedias

m

muestralesuestrales(m(muestras de tauestras de tammaaññoo2)2)

   f    f  r  r  e  e   c   c   u   u   e   e   n   n   c   c    i    i  a  a

  r   r   e   e    l    l  a  a    t    t    i    i  v  v  a  a

(3)

Los parámetros de la población teórica de las medias muestrales de todas las muestras de tamaño 2 son:

Si se tomaran muestras de tamaño n=1 el gráfico resultante para la pobla-ción teórica de las medias muestrales de todas las muestras de tamaño 1 sería exactamente igual que el Gráfico.3.1. (porque cada media es el ele-mento que conforma la muestra) y sus parámetros serían los mismos que los de la población original.

Como se puede obser var, todas las medias de las poblaciones teóricas, aún variando n , coinciden con la media de la población de donde se extrajeron las muestras.

Conclusión:

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

Además, si las muestras extraídas de la población son de tamaño grande (usualmente n > 30), el gráfico de la distribución de la población de las medias muestrales resulta –Gráfico.3.3.– aproximadamente normal.

Gráfico 3.3.

Distribución de la población de las medias muestras (n>30)

x =

35 años y

 x 2 =

41,45 años

2 x =

35 años y

 x 2 =

82,90 años

2 x =  x 2 = 2

n

(4)

Propiedades de la variable aleatoria media muestral 

Si en una determinada población se define una variable aleatoria X: {x1, x2, x3 ,…, .xm,…….} con esperanza E(X) = µ y varianza V(X) = s2 y se selecciona sólo

una muestra aleatoria de tamaño n de dicha población para la cual su media muestral X es un elemento de la población teórica de X’s se verifican las siguientes propiedades:

El desvío estándar σ x también se denomina error estándar de la media

mues-tral respecto de la media poblacional.

Estas propiedades se desprenden inmediatamente de las propiedades enunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la espe-ranza y varianza de una variable aleatoria cualquiera como se puede verificar a continuación.

3.1.2. Distribución del estadístico proporción muestral

En el gráfico 3.4. se representa la distribución de la población teórica de las proporciones de empleados mayores a 45 años de todas las muestras de un cierto tamaño n superior a 100.

Gráfico 3.4.

P.1

E(

) =

X = 

P.2

V(

) =

 X 2 = 2 n  DS(

) =

 X =  n

P.1

E(X )=E  X i 1=1 n

n             =E 1 n.i X i =1 n

     = 1 n. E(X i)= 1 n . n . i=1 n

= P.2 V(X )=V   X i 1=1 n

n             =V  1 n.i X i =1 n

     = 1 n2. V(X i)= 1 n2  . n . 2 i=1 n

= 2 n Esta propiedad está

rela-cionada con la cualidad

de insesgabilidad del estimador X.

(5)

En la población original, la proporción de los empleados mayores a 45 años es: P(>45) = 0,11

y los parámetros de la distribución –gráfico 3.4.– de las proporciones mues-trales son:

�p=0,11 y σ 2p=0,0002

Conclusión:

�p=P

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

Además, si las muestras extraídas de la población fueran chicas, la distribu-ción de la pobladistribu-ción de las proporciones muestrales no necesariamente resul-taría aproximadamente normal.

Propiedades de la variable aleatoria proporción muestral 

Si en una determinada población caracterizada por una variable aleatoria X, se efectúa un experimento binomial con parámetros n y P y en consecuencia con esperanza µ = n.P y varianza σ 2 = n . P. ( 1 - P ) , se selecciona sólo una muestra aleatoria de tamaño n de dicha población para la cual su proporción muestral de éxito p verifica las siguientes propiedades:

El desvío estándar σ p también se denomina error estándar de la proporción

muestral respecto de la proporción poblacional.

Estas propiedades, al igual que las de la media muestral, se desprenden inmediatamente de las enunciadas anteriormente en el apar tado 2.2.1. de la Unidad 2 para la esperanza y varianza de una variable aleatoria cualquiera.

3.1.3. Teorema central del límite

El teorema central del límite formaliza el comportamiento asintóticamente nor-mal, bajo determinadas condiciones, de la distribución de una variable aleato-ria, en particular el de las variables aleatorias media y proporción muestrales.

  p 2 =

P.(1- P)

n

P.1

E(p) =

P

 = P

P.2

V(p) =

  p 2 =

P.(1- P)

n

DS(x)

=  P =

P.(1- P)

n

(6)

Sean X1, X2,…Xn... una sucesión de variables aleatorias independientes con

E(Xi) = µi y V(Xi) = σ 2i, i = 1, 2, …

Sea X = X1+ X2+ …+ Xn.

Luego, para n tendiendo a infinito, la X tiene distribución asintóticamente nor-mal con

Este teorema nos está diciendo que si una variable aleatoria es la suma de n variables aleatorias independientes entonces esa variable aleatoria suma ten-drá distribución normal, para n grande.

En particular si tales n variables aleatorias independientes tienen todas distribución normal entonces se verifica que su suma tiene distribución nor-mal, para cualquier valor de n.

Como corolario, se concluye que bajo determinadas condiciones, las

distribuciones de la media y proporción muestral son normales.

Ejemplos

Teniendo en cuenta la información poblacional de las edades de los 497 emple-ados de una empresa (ver apartemple-ados 3.1.1. y 3.1.2.) a saber: la edad media poblacional es de 35 años con un desvío estándar de 9,105 años y una pro-porción de empleados mayores a 45 años del 11%, si se proyectara abrir un anexo cercano a la empresa con parte del personal y para ello se van a ele-gir al azar 119 empleados, podemos formularnos las siguientes preguntas: 1)

a. ¿Cuál será la probabilidad de que la edad media de la muestra de 119 empleados que trabajarán en el nuevo anexo sea inferior a los 34 años? Como n = 119 es una muestra grande entonces

Por lo tanto = µi i=1 n

 y

2 =  i 2 i=1 n

 N 35

,

9,105

119

P(X <34 años) =P z<34-35 9,105 119

=P(z<

1,198 )=F (

1,20 )=0,1151

(7)

La probabilidad de que la media de edad de los empleados que trabajarían en el nuevo anexo sea inferior a 34 años es 0,1151.

b. ¿Cuál será la probabilidad de que la edad media de los 119 empleados supere los 37 años?

La probabilidad de que la edad media de los empleados supere los 37 años es 0,0082.

2)

¿Cuál será la probabilidad de que la proporción de los empleados mayores a 45 años del nuevo anexo sea inferior al 10%?

La probabilidad de que la proporción de los empleados mayores a 45 años del nuevo anexo sea inferior al 10% es 0,3632.

1.

a.

Una carpintería recibe periódicamente grandes partidas de postes de

madera de longitud media de 4 metros procedentes de un

aserrade-ro. Sabiendo que la precisión del proceso de cortado de los postes

está dada por un desvío estándar de 3,5 cm.

i. ¿Cuál es la probabilidad de que un poste elegido al azar mida entre

3,98 y 4,03 metros?

ii. Si se elige una muestra de 80 postes de la última partida

recibi-da, ¿cuál es la probabilidad de que la longitud media de la muestra 

esté comprendida entre 3,98 y 4,03 metros?

iii. ¿Cuál es la diferencia entre i) y ii) ? Justifique.

b.

Una inmobiliaria de Quilmes ha cambiado su política de alquileres

introduciendo una opción de alquiler a sola firma. Actualmente el

55% de los departamentos que ofrece son con esta modalidad. Del

archivo de alquileres de la inmobiliaria se tomó una muestra

aleato-ria de 180 fichas. ¿Cuál es la probabilidad de que la proporción de

inquilinos sin garante esté comprendida entre el 48% y el 60%?

P(X>37 años) =P z>37-35 9,105 119

=P(z>2,40)=1

F (2,40 )=1

  0,9918=0,0082

P(p

<

0,10)

=

P z

<

0,10 - 0,11

0,11.0,89 119

=

P(z

<

-0

,35)=

F(-0,35

)=0,3632

(8)

3.2. Problemas fundamentales de la inferencia

estadística

En la vida cotidiana, como en el campo científico o profesional, surgen situa-ciones caracterizadas por la incer tidumbre pese a lo cual deben tomarse deci-siones sustentadas usualmente en los modelos teóricos elaborados con base en observaciones previas de fenómenos similares.

Los dos problemas fundamentales que atañen a la inferencia estadística son la estimación de un parámetro desconocido y las pruebas de hipótesis cuyas soluciones se basan necesariamente en la evidencia muestral.

3.2.1. Estimación por intervalo de confianza

La estimación por intervalo de confianza de un parámetro

desconoci-do consiste en construir –a partir de la evidencia muestral– un

interva-lo o rango continuo de vainterva-lores que contendría, con una cierta

probabi-lidad asociada, el verdadero valor del parámetro poblacional.

Por ejemplo, toda persona que realiza una rutina diaria de su casa al trabajo de hecho está colectando evidencia muestral sobre el tiempo que le insume el viaje. A partir de las veces que anteriormente hizo el recorrido casa-traba- jo (lo que constituye un muestreo) estima un cierto intervalo de tiempo que emplearía un día cualquiera en llegar a su trabajo (se entiende, siguiendo la rutina cotidiana), con una cierta probabilidad.

En el relato anterior se pueden identificar casi completamente todos los ele-mentos necesarios para la construcción de un intervalo de confianza, a saber: la evidencia muestral , el nivel de confianza –la probabilidad– de la estimación y el parámetro –tiempo esperado– a estimar.

La construcción de intervalos de confianza se basa en las distribuciones que tienen los estadísticos muestrales, o estimadores de los parámetros poblacionales, ya vistas en el apartado 3.1.

Intervalos de confianza para la media poblacional 

Antes de abocarnos al cálculo de intervalos desarrollaremos los fundamen-tos de su construcción. Mantengamos por el m omento la pauta del apartado anterior de contar con una población cuyos µ y σ son conocidos y que de ella se extraerá una muestra de tamaño n .

La distribución de los X alrededor de µ bajo las condiciones generales expuestas en 3.1.3., se representa de la siguiente forma:

(9)

Gráfico 3.5.

Si en vez de interesarnos en preguntas como P(X>a) ó P(X<b) nos planteára-mos una del tipo P(a<x<b) con a y b equidistantes de µ., el área sombreada (denominada 1–α ) será la respuesta.

Gráfico 3.6.

Si 1–αes la probabilidad de que x caiga dentro del inter valo [a,b] entonces α será la probabilidad de que x caiga fuera de él. Como se puede advertir α que-dará partido en dos, porque estamos considerando un intervalo simétrico alre-dedor de µ. Y estandarizando según Z se tiene lo siguiente.

Gráfico 3.7. µ X  µ X  a b 1-α µ

 X 

Z

Z

Z

b

1-α α/2 α/2 1−α/2 α/2

(10)

Los subíndices de los Z están en relación con el criterio de acumulación de la tabla de la distribución normal estándar. Como el punto “a” acumula α /2 de probabilidad su estandarizado Z será Zα /2y como el punto “b” acumula 1–α /2

de probabilidad su estandarizado será Z1–α /2. En rigor Zα /2 y Z1-α /2 son

igua-les en valor absoluto pero tienen signo contrario. Gráfico 3.8.

Entonces estandarizando la variable X

el cálculo de la probabilidad planteada será:

Luego, despejando de

-Z

Z

Z

1-α α/2 α/2 1−α/2 α/2 0

Z

=

x

 

n

P(a<x< b)=P a -  n < x

  n < b

  n

=1

 

P(a<x< b)=P Z 2 < x

  n <Z 1 2

=1

 

P(a<x< b)=P

Z 1 2 < x

  n <Z 1 2

=1

 

P

Z 1 < x

 < Z 1

= 1

 

(11)

se tiene

Como µ es conocido, X–µ es la diferencia que podría haber entre la media de la muestra que se seleccionará y la media conocida de la población. Por su naturaleza, a esta diferencia la consideramos como error.

X–µ es el error de la media muestral respecto de la media pobl acional y 1–α es su probabilidad. El máximo valor que puede tomar ese error o error máxi-  mo , en valor absoluto es

Puede observarse que cuando se agranda el tamaño de la muestra el error máximo se achica y lo mismo ocurre cuando disminuye el nivel de confianza. Como ambos casos tienen distintas connotaciones se analizarán con más detalle al abordar la construcción de los intervalos.

En la realidad concreta de los problemas estadísticos, en general, no se conoce el valor de la media poblacional µ. De ahí la necesidad de su estima-ción y para ello se utiliza la evidencia muestral y la informaestima-ción poblacional que se posea como el tipo de distribución poblacional (normal o no) y el conoci-miento de otros parámetros (varianza o desvío estándar).

El cálculo de la estimación por intervalos de confianza paraµpresenta dis-tintos casos dependiendo de la información poblacional con que se cuente.

Población normal o aproximadamente normal y  σ 2 conocido

En este caso particular, para la construcción del intervalo de confianza para µ , se parte de la expresión del error de la media muestral respecto de la media poblacional a la que arribamos anteriormente:

y teniendo en cuenta que ahora la incógnita es µ la despejamos obteniendo:

Donde ahora 1- α es la probabilidad, la confianza que tenemos de que el intervalo P

Z 1 2 .  n <x

<Z 1 2 .  n

=1

 

máx = z 1 2  .  n P(Z 1  2 .  n <x <Z 1  2 .  n)=1   P x

z 1a 2   n << x+z 1  2   n

=1

 

(12)

contenga al verdadero valor de µ.

El mismo intervalo (con una probabilidad 1–α asociada) que anteriormen-te se ubicaba alrededor del µ, ahora se ubica alrededor del X para poder esti-mar (con una confianza 1–α) el µ desconocido.

Nótese además que, en rigor, lo único que se trajo del estudio previo es el segmento que se colocó sobre X y su probabilidad asociada. No hay una dis-tribución sobre él (la disdis-tribución de la muestra, en todo caso, no forma par te de la construcción que hicimos).

En resumen, los límites del intervalo se obtienen sumando y restando el error máximo a la media muestral ya que ésta es el centro del intervalo. Gráfico 3.9.

Por lo tanto, al intervalo también se lo puede expresar del siguiente modo:

Como el error máximo disminuye cuando aumenta el tamaño de la muestra o cuando es menor el nivel de confianza, entonces: • Si aumenta el tamaño de la muestra , para un mismo nivel de confianza –

el valor de z se mantiene constante– se obtiene un intervalo de menor  amplitud que implica mayor precisión en la estimación.

• Si disminuye el nivel de confianza (manteniendo el tamaño de la muestra) se obtiene un intervalo de menor amplitud pero eso no implica mejorar la preci-sión ya que el intervalo tendrá menor probabilidad de contener al parámetro . Ejemplo 

Con el fin de controlar el proceso de llenado de paquetes de galletitas de medio kilo, se seleccionaron al azar 16 de esos paquetes y el peso en gramos de cada uno de ellos fue el siguiente: 505; 510; 495; 508; 504; 512; 496; 512; 514; 505; 493; 496; 506; 502; 509; 497.

Como información adicional se conoce por catálogo de compra de la máqui-na que la precisión de ella al envasar está dada por un desvío estándar de

 X 

Lí mite inf erior

del interv alo

máx 

Lí mite superior

del interv alo

ε

ε

máx 

(13)

Con base en la muestra de los 16 paquetes estimaremos el peso medio de todos los paquetes de galletitas envasados por esa máquina, mediante un intervalo con un nivel de confianza de 0,95.

La información con que se cuenta es la siguiente. Sobre la población:

• La distribución de los pesos de todos los paquetes llenados por la máqui-na es normal (o aproximadamente normal) porque los procesos de medi-ción de un mismo valor nominal (medir longitudes, pesar, etc.) entregan naturalmente poblaciones normales.

• El desvío estándar σ = 5g. Sobre la muestra:

• El tamaño de la muestra seleccionada es n = 16. • El peso medio de los paquetes X = 504g.

• El desvío estándar S = 6,802g.

Se obtiene el intervalo de confianza para el peso medio m de llenado de los paquetes, utilizando la expresión:

Sabiendo que el nivel de confianza establecido es 1-α = 0,95 calculamos el valor de 1-α /2 y a continuación buscamos en la tabla el z1-α /2. Luego z0,975=

1,96.

Reemplazando se obtiene:

Concluimos que, con base en una muestra de 16 paquetes y con una con-  fianza del 95%, se estima que el peso medio de todos los paquetes fabrica-  dos se encuentra entre 501,55g y 506,45g.

Supongamos que el error máximo (2,45g) de la estimación fuera grande para cumplir con determinadas exigencias del control de calidad. En ese caso sería necesario mejorar la estimación achicando el error máximo tomando una mues-tra de mayor tamaño.

La pregunta que surge es ¿de qué tamaño deberá ser la nueva muestra para que el error máximo asociado de la futura estimación sea, por ejemplo de 1g, obviamente con el mismo nivel de confianza?

En la elección de un nivel de confianza, son están-dares los valores 0,90; 0,95 o 0,99.

I = x

 

z 1 2   n , x+z1 2   n

I  = 504

1,96

5 16 ,504+1,96

5 16

=

[

501, 55; 506, 45

]

(14)

De la fórmula del εmáx. se despeja n.

Para poder estimar la media de todos los paquetes envasados por esa máqui-na con un error máximo de 1g y con umáqui-na confianza del 95% deberán selec-cionarse como mínimo 97 paquetes.

2.

Con base en la muestra de 20 piezas plásticas de la matriz ME4

con-signada en el apartado 1.3. de la Unidad 1 y sabiendo que la precisión

de la balanza está definida por un desvío estándar de 1g.

a.

Estimar, con un nivel de confianza del 95%, el peso medio de todas

las piezas plásticas fabricadas por esa empresa.

b.

¿En qué se fundamenta la normalidad de la distribución de todos

los pesos de las piezas plásticas?

Población normal o aproximadamente normal y  σ 2 desconocido

Consideremos ahora que la especificación de la desviación estándar pobla-cional dada en el problema anterior no se conoce, porque se perdió el catá-logo o porque el fabricante de la máquina no lo proveyó, o por otras razones. ¿Podemos realizar igualmente la estimación de la media poblacional?

Si la población es normal, y estamos en ese caso, es posible calcular el error máximo reemplazando el s desconocido por su mejor estimador que es el desvío muestral S . Pero en lugar de la distribución normal estándar se debe-rá utilizar la distribución t de Student la cual fue diseñada especialmente para el muestreo en poblaciones normales.

Sean X 1, X 2, . . . , X nvariables aleatorias independientes que son todas normales con media

y desviación estándar s. Entonces la variable aleatoria tiene una distribución t con n-1 grados de libertad.

Características de la distribución t de Student  1- Al igual que en la distribución Normal:

a) El rango de valores de la t de Student varía de -∞ a +∞ b) Es simétrica respecto de su media.

V(t) siempre mayor a 1 pero si crece el tamaño de la muestra, n → ∞ el desvío tiende a 1 y  la distribución t es asintóticamente normal de parámetros (0, 1)

La distribución t de Student fue publicada en

1908 por W. S. Gosset bajo el seu-dónimo de Student.

(15)

3- Es más aplanada que la Normal por tener mayor dispersión.

4- Hay una familia de curvas de la distribución t de Student dependiendo de los grados de  libertad que para una variable es n–1 como se muestra en el gráfico G.3.10.

Gráfico 3.10.

5- Las curvas dependen de los grados de libertad, a mayor grado de libertad corresponde menor dispersión.

Entonces, en este caso el error máximo es

Y el intervalo de confianza para la media poblacional es:

Volviendo al problema:

La información con la que contamos es la siguiente. Sobre la población:

• La distribución de los pesos de todos los paquetes llenados por la máqui-na es normal (o aproximadamente normal) porque los procesos de medi-ción de un mismo valor nominal (medir longitudes, pesar, etc.) entregan naturalmente poblaciones normales.

Sobre la muestra:

• El tamaño de la muestra seleccionada n = 16.

• El peso medio de los paquetes de la muestra X=504g. • El desvío de la muestra S = 6,802g.

Utilizando el mismo nivel de confianza 1–α= 0,95 y sabiendo que los grados gl grande

gl mediano gl chico G.3.10

(16)

Finalmente, con base en una muestra de 16 paquetes y con una confianza del 95%, se estima que el peso medio de todos los paquetes fabricados se encuen-  tra entre 500,38g y 507,63g.

Notamos que el intervalo obtenido es menos preciso que el hallado en el ejemplo anterior, donde se conocía el desvío poblacional, y esto se debe a que en este segundo caso sólo se cuenta con las medidas muestrales. Como era de esperar al contar con menor información se obtuvo menor precisión en la estimación.

3.

Con base en la muestra de 20 piezas plásticas de la matriz ME4

con-signada en el apartado 1.3 de la Unidad 1;

a. Estimar, con un nivel de confianza del 95%, la longitud media de

todas las piezas plásticas fabricadas por esa empresa.

b. ¿Qué supuesto tuvo en cuenta acerca de la distribución de todas las

longitudes de las piezas de plástico para realizar la estimación?

Población no normal y  σ 2 conocido

Cuando la población no es normal o se desconoce el tipo de distribución que posee y se conoce la varianza poblacional, para poder estimar la media pobla-cional es necesario que la muestra sea grande para que –en vir tud del Teorema central del límite– dicha estimación pueda realizarse utilizando la misma expre-sión de la primera situación tratada.

Por otro lado, si la muestra es chica no se puede llevar a cabo la estimación por intervalo de confianza de la media poblacional.

Ejemplo 

Consideremos la población de los tiempos empleados para realizar todas las transacciones bancarias posibles por la totalidad de los clientes de un deter-minado banco.

En este problema la distribución de los tiempos empleados para realizar todas las transacciones bancarias no necesariamente es normal.

Repasar las características de la población definida en este ejemplo con

la tratada en la Unidad 2, apartado 2.2.4. para reconocer la distinta

natu-raleza de cada una.

(17)

Convengamos que la desviación estándar de todas las operaciones es cono-cida y es σ = 1,5 minutos.

Si se deseara estimar el tiempo medio que tardan los clientes en realizar todas las operaciones y se seleccionara una muestra aleatoria de 60 clientes que emplearon en promedio 3,7 minutos con un desvío estándar de 2,1 minu-tos, la información con la que contaríamos sería la siguiente:

Sobre la población:

• El desvío σ = 1,5 min. Sobre la muestra:

• El tamaño de la muestra seleccionada n = 60.

• El tiempo medio de las transacciones de la muestra X=3,7min. • El desvío de la muestra S = 2,1 min.

Calcularemos un intervalo para µ con una confianza del 95%.

Luego, con base en una muestra de 60 transacciones y con una confianza del 95%, se estima que el tiempo medio de todas las operaciones del banco se encuentra entre 3,31 min y 4,08 min.

Intervalo de confianza para la proporción poblacional 

Toda la lógica empleada para fundamentar la construcció n de intervalos de confianza para la media poblacional puede extenderse a la fundamenta-ción de la construcfundamenta-ción de inter valos de confianza para estimar la proporfundamenta-ción poblacional P debido a que, en virtud al Teorema central del límite, la varia-ble aleatoria proporción muestral tiene distribución normal de parámetros

y si el tamaño n de la muestra es grande.

Para construir un intervalo de confianza para la proporción poblacional, al igual que en los casos vistos para la media, el intervalo se centrará en el esta-dístico muestral y será simétrico alrededor de él.

En este caso el cálculo del error máximo debería ser:

pero al desconocer P se utiliza su mejor estimador p , quedando

I

=

3,7

 

1,96

1,5

60

,3,7

+

1,96

1,5

60

=

(

3,31 , 4,08

)

 p

= P y

p =

P.(1

P)

n

I

P =

 p

  máx

; p

+ máx

[

]

  máx =

z

1  2 

P.(1

P)

n

 p.(1

 p)

(18)

Por tal motivo, el intervalo de confianza para la proporción poblacional P resulta

Ejemplo 

Para estimar la proporción de familias que ven por TV un determinado pro-grama, se seleccionó una muestra de 2200 familias que poseen uno o más televisores en una determinada ciudad, y de la muestra se obtuvo que 871 familias ven ese programa. Estimar, utilizando un nivel de confianza de 0,95, un intervalo para la proporción de familias que ven ese programa.

La información con la que contamos es la siguiente. • El tamaño de la muestra seleccionada n = 2200.

• La proporción muestral de familias que ven el programa de TV.

Para una confianza del 95%, el valor z0,975 de la tabla es 1,96.

Reemplazando se tiene que el intervalo para P es:

Con base en una muestra de 2200 familias con el 95% de confianza la verda-  dera proporción de familias que ven ese programa de TV está comprendida entre el 38,6% y el 40,6%.

4.

Con base en la muestra de las 96 familias escogidas al azar de cierta

loca-lidad (apartado 1.1.2. de la Unidad 1) con 1 –

α

= 0,95 estimar la

pro-porción de familias en toda la población cuyo gasto medio en

alimen-tos supere los $46.

Determinación del tamaño de una muestra

Como se hizo para la media, se despeja n de la fórmula del error máximo, que en su forma original y en su forma aproximada es:

Universidad Virtual de Quilmes

I

P =

 p

z

1  2

 p.(1

 p)

n

, p

+

z

1  2

 p.(1

 p)

n





 

p

=

871

2200

=

0,396

  IP = p

z 1  2  p.(1

p) n , p+ z1  2  p.(1

p) n





IP 0,396

1,96.  0,396.0,604 2200 , 0,396+1,96.   0,396.0,604 2200





I

P

= [0,386; 0,406]

 máx =

z

1  

P.(1

P)

n

z

1 

 p.(1

 p)

n

(19)

Al no conocer P porque es lo que se quiere estimar y al no conocer p porque aún no se tomó la muestra (justamente necesitamos calcular de qué tamaño mínimo deberá ser), se presenta un problema que debemos sortear. Para hacerlo se parte de la suposición teórica de que P = 0,50 , lo que es lógico por-que es el sustento teórico de la curva de distribución de las proporciones muestrales; aunque luego –como es esperable– la realidad difiera del mode-lo teórico.

Reemplazando y despejando n se tiene:

3.2.2. Pruebas de hipótesis

Una prueba –test o contraste– de hipótesis consiste en un procedimiento

mediante el cual se somete a prueba un parámetro (u otra

característi-ca) poblacional desconocido sobre el que se tiene alguna suposición.

Como todo problema de inferencia estadística la prueba de hipótesis

debe basarse en la evidencia muestral.

Cuando el objetivo de una prueba de hipótesis es testear el valor de un pará-metro θ (desconocido) a partir de un valor hipotético θo de dicho parámetro,

surge una primera hipótesis estadística denominada hipótesis nula (Ho) que

presupone que no habría una diferencia significativa entre θ y θo y que se

expresa

Ho: θ = θo

Si la evidencia muestral contradijera la afirmación de H0y existiera sospecha

de que la diferencia pudiera ser significativa, surge por oposición una segun-da hipótesis estadística que llamamos hipótesis alternativa (HA) la cual

sos-tiene, en contraste con H0, que el valor del parámetroθ diferiría

significativa-mente del hipotético θ0.

HApuede asumir alguna de las siguientes formas:

HA: θ < θ0 ó HA: θ > θ0

En una prueba de hipótesis (PPHH) la hipótesis nula H0 es en rigor la que se

somete a prueba, y como resultante H0 puede ser aceptada o rechazada . Si

H0 resulta ser rechazada la conclusión final de la prueba se inclinaría a favor

de HA.

Debido al ambiente de incertidumbre en el que se realiza una PPHH, dado que se basa en la evidencia proporcionada por una muestra, en la decisión final se pueden cometer dos tipos de errores: rechazar H 0 si en realidad fuere ver- 

 máx =

z

1  2 

0,50.0,50

n

=

z

1  2

.

0,50

n

n

=

z

1 

.0,50

 máx

2 El valor hipotético de un parámetro es una pre-sunción o una suposición que se realiza sobre él, como por ejem-plo una especificación para el con-trol de calidad, un valor histórico, un valor de comparación o un valor que se elige arbitrariamente.

(20)

P(error de tipo I) = P(rechazar H0 / H0verdadera) = a

El segundo error (aceptar H0 si en realidad fuere falsa) se llama error de tipo 

II y su probabilidad asociada es β.

P(error de tipo II) = P(aceptar H0 / H0falsa) = β

En esta carpeta se trabajará sólo con la probabilidad a de cometer un error de tipo I.

Prueba de hipótesis para la media poblacional 

La PPHH para la media µ presenta distintos casos, dependiendo de la infor-mación poblacional con que se cuente, tal como ocurre en la estiinfor-mación por intervalos de confianza.

Población normal o aproximadamente normal y σ 2 conocido

Volviendo al ejemplo de controlar el proceso de llenado de paquetes de galle-titas de medio kilo, abordado en estimación de la media poblacional por inter-valo de confianza, cabe preguntarnos si se podría imprimir en todos los paque-tes el valor nominal de 500g. Para responder a la pregunta debemos realizar un contraste de hipótesis donde, el parámetro desconocido (que genérica-mente llamábamos θ) es el promedio µ del peso de todos los paquetes enva-sados, cuyo valor hipotéticoµ0 = 500g es el valor nominal que se quiere

impri-mir. Luego, la hipótesis nula será H0: µ =µ0, es decir:

H0: µ = 500g

A partir de la evidencia de la muestra de los 16 paquetes donde el peso medio resultó X= 504g, se puede plantear la siguiente hipótesis alternativa,

HA: µ > 500g

dado que la evidencia muestral arrojó un peso medio (estadístico muestral) superior al valor nominal (parámetro hipotético).

Entonces el juego de hipótesis para esta PPHH es: H0: µ = 500g

HA: µ> 500g

Estableceremos ahora un criterio que permita discriminar cuándo la diferen-cia entre el estadístico muestral y el parámetro hipotético no es significativa (y por extensión no sería significativa la diferencia entre µ y µ0 por lo que se

acepta la H0) y cuándo esa diferencia sí es significativa (y en consecuencia se

rechaza H0 a favor de HA).

Ese criterio está sustentado por el nivel de significación de la prueba que determina un valor denominado punto crítico, el cual establece dos regiones:

(21)

Gráfico 3.11.

En particular esta prueba se denomina unilateral derecha porque la zona de rechazo se encuentra a la derecha del punto crítico.

El desarrollo de la prueba o la contrastación de las hipótesis se realiza en el dominio de la normal estándar, por lo que habrá que estandarizar tanto µ0

y el punto crítico. Gráfico 3.12.

El X estandarizado se denomina estadístico de prueba.

Para el problema que estamos desarrollando, fijaremos un nivel de significación o probabilidad de cometer error tipo I de α= 0,05.

El punto crítico en Z y el estadístico de prueba resultan:

Gráfico 3.13.

1-α

Zona de Aceptación de HO Zona de Rechazo de H O

Pto. crítico

µ

O  X 

1-α

Zona de Aceptación de HO Zona de Rechazo de H O

0 Z

Z∗1−α

Zona de Aceptación de HO Zona de Rechazo de H O

Si el juego de hipótesis fuera H0: µ = 500g y H A :

µ < 500g, la zona de rechazo del gráfico estaría a la izquierda y la prueba se denominaría unilateral izquierda.

En la elección de un nivel de significación son estándares los valores 0,10; 0,05 o 0,01, pero puede optarse por cualquier otro valor intermedio entre ellos.

(22)

Finalmente, comparando el estadístico de prueba calculado Z=3,2 con el punto crítico Z*0,95=1,64, observamos que aquél cae en la zona de rechazo de la H0

por lo que, con base en la muestra de 16 paquetes y con un nivel de signifi-cación del 5%, rechazamos H0 a favor de HA.

Conclusión estadística , con base en la muestra de 16 paquetes y con una probabilidad de cometer error de tipo I de 0,05; habría una diferencia signifi-cativa entre la media de todos los paquetes envasados y el valor nominal de 500g. O también, el peso medio de todos los paquetes envasados podría s er significativamente superior a 500g, en consecuencia, no estaríamos en con-diciones de imprimir 500g en los paquetes.

Comentario adicional 

La conclusión estadística a la que se arribó está indicando que habría un desa- juste en el proceso de llenado de los paquetes por lo cual se debería inspec-cionar el proceso de envasado. Realizar un ajuste, si fuere necesario, y desar-mar los paquetes ya hechos para volver a llenarlos con la máquina corregida. Como esta decisión implica costos adicionales en la fabricación conviene, en primer lugar, agrandar la muestra y luego, de acuerdo con los nuevos resulta-dos del test, tomar la decisión.

5.

Un fraccionador de soda cáustica envasa paquetes utilizando una

máqui-na que tiene umáqui-na precisión de

σ 

=8 gramos. Sobre una partida lista para 

su distribución, compuesta de paquetes cuyo valor nominal es de 250g,

seleccionó una muestra de 45 bolsas la cual arrojó una media de 245

gramos con un desvío de 10 gramos. ¿La evidencia muestral estaría

indi-cando que la media de toda la partida no tendría una diferencia

signi-ficativa con el valor nominal impreso en los envases?

Población normal o aproximadamente normal y  σ 2 desconocido

Si en el proceso de llenado de paquetes de galletitas de medio kilo no se conoce la precisión de la máquina, la prueba se realiza utilizando el desvío de la muestra s= 6,802g. En este caso, se usa la t de Student y en consecuen-cia las expresiones del punto crítico y del estadístico de prueba son respec-tivamente:

Nuevamente el valor calculado del estadístico de prueba es mayor al punto crí-tico y cae en la zona de rechazo de la H0, entonces se rechaza que µ = 500g

y se llega a la siguiente conclusión estadística.

Con base en una muestra de 16 paquetes, desconociendo la precisión de tn*1,1

y

t = x

0 S n

Entonces

tn1,1 * =t15;0,95 * =1,75

y

t = x

0 S n = 504

500 6,802 16 =2,35

(23)

paquetes envasados podría ser significativamente superior a 500g, en con-secuencia, no estaríamos en condiciones de imprimir 500g en los paquetes.

Pruebas de hipótesis bilaterales o a dos colas

Estas pruebas se generan en ciertos problemas donde previamente a la realización de la mues-tra , es decir antes de contar con la evidencia muestral, es necesario tener definida la región de rechazo.

Son ejemplos de estas pruebas algunas rutinas de control de calidad, en las que entra en con-sideración que se estaría en situación crítica si X cayera tanto a la derecha como a la izquierda  deµ0. En este caso la región de rechazo está definida en dos tramos y hay dos puntos críticos.

Gráfico 3.14.

Consecuentemente, el juego de hipótesis es:

H0: µ=µ0

HA: µ≠µ0

El desarrollo de la prueba de hipótesis es similar a la anterior, teniendo en cuenta que: si el estadístico de prueba Z cayera en la zona de aceptación, se acepta H0;si Z cayera dentro de

la región crítica (zona de rechazo de H0) se rechaza H0y si estuviera muy próximo a Z* ó

-Z* es conveniente agrandar la muestra.

Gráfico 3.15. Cuadro guía en inferencia estadística para la media poblacional

1-

α α/2 α/2 Zona de Aceptación de HO Zona de Rechazo de HO Zona de Rechazo de HO –Z* 0 Z* Z  

Usa r Z pa ra estima r µ por interv a lo de conf iannza o pa ra rea liza r un test de hipótesis ¿La población tiene distribución norma l? ¿σ conocido? ¿σ conocido?

¿n>30? Usa r Zdel lí mite(en v irtud del teorema centra l) pa ra estima r µ por interv a lo

de conf ianza o pa ra rea liza r un test de hipótesis.

Usa r t pa ra estima r µ por interv a lo de conf ianza  o pa ra rea liza r un test de hipótesis.

SI SI

SI NO

NO

(24)

Prueba de hipótesis para la proporción poblacional 

En la muestra de 2200 familias del ejemplo utilizado en intervalos de con-fianza para la proporción poblacional, las que ven un determinado programa de TV representan el 39,6%.

Los productores del programa, para decidir los costos de los espacios comerciales cuentan con un raiting histórico del 40%. La evidencia muestral ¿estaría indicando una disminución significativa de la posición del programa en el raiting ?

Para responder a la pregunta se realizará una PPHH con un nivel de signifi-cación del 5%.

Entonces, el par de hipótesis para esta PPHH es: H0: P = 0,40

HA: P < 0,40

Dado que el tamaño de la muestra es grande, el estadístico proporción mues-tral tiene distribución normal. El punto crítico y el estadístico de prueba son,

respectivamente. Resultando, Gráfico.3.16.

que el estadístico de prueba cae en la zona de aceptación de la H0 (ya que

-1,64 < -0,38).

Conclusión : con base en una muestra de 2200 familias y con un nivel de sig-nificación de 0,05, la proporción de familias que ven ese programa de TV en toda la población no habría cambiado significativamente.

6.

Un método de lectura veloz es efectivo en el 70% de los casos. Un nuevo

método intenta mejorar la efectividad y para comprobarlo se toma una 

muestra de 205 estudiantes de los cuales 155 mejoraron su lectura. ¿Se puede

 

 

 

 





  

0 Z Zona de Aceptación de HO Zona de Rechazo de HO 1,64 0,05 −0,38

(25)

Procedimiento para realizar una prueba de hipótesis

Cualquiera sea el parámetro que se someta a una

PPHH

, el

procedi-miento involucra los siguientes pasos :

Formular las hipótesis a contrastar a partir de la comparación de la 

evidencia muestral –o del planteo previo a la evidencia (prueba

bila-teral)– con el valor hipotético del parámetro.

Elegir el nivel de significación.

Designar el tipo de distribución de probabilidades del estimador

alre-dedor del parámetro a probar.

Calcular el o los puntos críticos .

Estandarizar el estadístico muestral para producir el estadístico de 

 prueba 

.

Observar

la zona en la que se ubica el estadístico de prueba

respec-to del o de los punrespec-tos críticos.

Decidir

la aceptación o el rechazo de la hipótesis nula, o –si el

esta-dístico de prueba se encuentra en un entorno muy próximo al punto

crítico– la realización de una nueva prueba seleccionando una

mues-tra más grande.

Concluir en el marco del problema.

7.

 Al aumentar el nivel de significación en una

PPHH

, la probabilidad de

rechazar una hipótesis nula que en realidad fuera verdadera: ¿aumenta,

disminuye o permanece inalterada?

(26)

Referencias

Documento similar

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)

En el capítulo de desventajas o posibles inconvenientes que ofrece la forma del Organismo autónomo figura la rigidez de su régimen jurídico, absorbentemente de Derecho público por