Media poblacional

74 

Loading.... (view fulltext now)

Loading....

Loading....

Loading....

Loading....

Texto completo

(1)

Media poblacional

Media poblacional

Ejercicio 1)

Ejercicio 1)

Una muestra de 16 mujeres de una gran ciudad dio para sus estaturas una media de 1,68 Una muestra de 16 mujeres de una gran ciudad dio para sus estaturas una media de 1,68 m y una varianza de 0,12 m. Se trata de ver si esta muestra es consistente con la H

m y una varianza de 0,12 m. Se trata de ver si esta muestra es consistente con la Hooqueque

la media en la ciudad es de 1,69 m la media en la ciudad es de 1,69 m

Ejercicio 2)

Ejercicio 2)

En una fábrica de conservas de fruta se desea verificar la H

En una fábrica de conservas de fruta se desea verificar la Hoo de que las latas resultan ende que las latas resultan en

 promedio con un peso no in

 promedio con un peso no inferior a 1 kg. Se sabe que el tamaño de la fruta puedeferior a 1 kg. Se sabe que el tamaño de la fruta puede introducir una variación en los pesos de las latas de manera que estos se distribuyan introducir una variación en los pesos de las latas de manera que estos se distribuyan normalmente con una dispersión del 8%. Se efectúa una muestra de 100 latas en la que normalmente con una dispersión del 8%. Se efectúa una muestra de 100 latas en la que se

se determina determina los los pesos, pesos, resultando resultando la la =980 =980 gr. gr. Deseamos Deseamos saber saber si si la la muestramuestra comprueba o rechaza la Ho. Fijamos un coeficiente de riesgo igual al 5%. comprueba o rechaza la Ho. Fijamos un coeficiente de riesgo igual al 5%.

Ejercicio 3)

Ejercicio 3)

La ganancia en peso promedio de 25 ovejas sometidas a una ración alimenticia durante La ganancia en peso promedio de 25 ovejas sometidas a una ración alimenticia durante un cierto período fue de 10 kg. Se desea comprobar si es posible afirmar que esta ración un cierto período fue de 10 kg. Se desea comprobar si es posible afirmar que esta ración aumenta el peso al menos en 11 kg. durante dicho período con un nivel de significación aumenta el peso al menos en 11 kg. durante dicho período con un nivel de significación del 5% y suponiendo que la variancia del peso es igual a 4 kg.

del 5% y suponiendo que la variancia del peso es igual a 4 kg.

Ejercicio 4)

Ejercicio 4)

Un fabricante dedicado a la elaboración de alimento balanceado para cerdos, afirma que Un fabricante dedicado a la elaboración de alimento balanceado para cerdos, afirma que su producto aumenta el peso promedio en 150 gr. En una muestra de 18 cerdos tomados su producto aumenta el peso promedio en 150 gr. En una muestra de 18 cerdos tomados al azar se obtuvo un aumento de peso promedio de 125 gr. con una desviación de 25 gr. al azar se obtuvo un aumento de peso promedio de 125 gr. con una desviación de 25 gr. Se puede suponer que la afirmación del fabricante es correcta con un nivel de

Se puede suponer que la afirmación del fabricante es correcta con un nivel de significación del 1% ?

significación del 1% ?

Ejercicio 5)

Ejercicio 5)

Un fabricante de lámparas eléctricas sostiene que la duración media de las mismas Un fabricante de lámparas eléctricas sostiene que la duración media de las mismas (horas) es en promedio superior a 1.300 h. Se toma una muestra de 17 lámparas siendo (horas) es en promedio superior a 1.300 h. Se toma una muestra de 17 lámparas siendo el resultado de la inspección el siguiente:

el resultado de la inspección el siguiente:

980 1.350 1.020 1.140 1.520 1.390 1.205 1.180 970 1.420 1.850 1.300 1.305 1.040 980 1.350 1.020 1.140 1.520 1.390 1.205 1.180 970 1.420 1.850 1.300 1.305 1.040

1.050 1.520 1.320 1.050 1.520 1.320

Verificar la Ho del fabricante con un coeficiente de riesgo del 5% (suponiendo la Verificar la Ho del fabricante con un coeficiente de riesgo del 5% (suponiendo la distribución normal).

distribución normal).

Ejercicio 6)

Ejercicio 6)

Una muestra de 9 explotaciones agrícolas arrojó una media de 125 ha y un desvío de 25 Una muestra de 9 explotaciones agrícolas arrojó una media de 125 ha y un desvío de 25 ha. Testar si se puede suponer con bastante confiabilidad que el promedio verdadero de ha. Testar si se puede suponer con bastante confiabilidad que el promedio verdadero de la población de explotaciones puede ser 135 ha.

(2)

Ejercicio 7)

Ejercicio 7)

En un establecimiento lechero, 18 vacas de raza Frisia, produjeron en promedio 70 kg. En un establecimiento lechero, 18 vacas de raza Frisia, produjeron en promedio 70 kg. en la tercer semana luego del parto, con un desvío de 6 kg. ¿Se puede asegurar (

en la tercer semana luego del parto, con un desvío de 6 kg. ¿Se puede asegurar (αα== 0,05) que la producción aumentó con respecto a una media de 65 kg.?

0,05) que la producción aumentó con respecto a una media de 65 kg.?

Ejercicio 8)

Ejercicio 8)

La vida media de una muestra de 100 tubos fluorescentes producidos por una empresa La vida media de una muestra de 100 tubos fluorescentes producidos por una empresa es de 1.570 h, con una desviación típica de 120 h. Si

es de 1.570 h, con una desviación típica de 120 h. Si µµes la vida media de todos loses la vida media de todos los  productos de esa empresa, contrastar la hipótesis de que

 productos de esa empresa, contrastar la hipótesis de que µµ= 1.600 h= 1.600 h

Ejercicio 9)

Ejercicio 9)

Las larvas de algunas mariposas monarcas concentran glucósidos cardíacos a partir de Las larvas de algunas mariposas monarcas concentran glucósidos cardíacos a partir de  plantas de algodón, que las hacen repugnantes para los pájaros, los cuales las evitan  plantas de algodón, que las hacen repugnantes para los pájaros, los cuales las evitan

después de un primer encuentro. después de un primer encuentro.

Supóngase que las mariposas han sido recolectadas en una localidad y que se han Supóngase que las mariposas han sido recolectadas en una localidad y que se han

medido las concentraciones de glucósidos en relación a sus pesos. Los datos resultantes medido las concentraciones de glucósidos en relación a sus pesos. Los datos resultantes son; la media= 0,200 gr. y S

son; la media= 0,200 gr. y S22= 0,012 gr. para n= 75.= 0,012 gr. para n= 75. Probar la hipotesis nula de que

Probar la hipotesis nula de que µµ= 0,150 gr. frente a la alternativa que es distinta.= 0,150 gr. frente a la alternativa que es distinta.

Ejercicio 10)

Ejercicio 10)

Supóngase que un fabricante de llantas mide en miles de millas el período de vida de 10 Supóngase que un fabricante de llantas mide en miles de millas el período de vida de 10 llantas.

llantas. Determina Determina que que = = 26,68 26,68 y y SS22= 12.= 12.

Probar la H

Probar la H00 de quede queµµ = 25,0 con H= 25,0 con H11 > 25,0.> 25,0.

Ejercicio 11)

Ejercicio 11)

El peso de 12 latas de cerezas, en onzas, es: El peso de 12 latas de cerezas, en onzas, es:

11,9 12,3 12,6 11,8 12,1 11,5 11,9 12,3 12,6 11,8 12,1 11,5 12,7 11,3 11,9 12,0 11,8 12,1 12,7 11,3 11,9 12,0 11,8 12,1

La variación estándar especificada es de 1/2 onza. ¿Se cumple esta especificación? Use La variación estándar especificada es de 1/2 onza. ¿Se cumple esta especificación? Use el nivel de significación del 1% y una prueba bilateral

el nivel de significación del 1% y una prueba bilateral

Ejercicio 12)

Ejercicio 12)

El Departamento de Control de Calidad de una empresa que fabrica computadoras El Departamento de Control de Calidad de una empresa que fabrica computadoras electrónicas estima que si la longitud de una determinada pieza presenta una varianza electrónicas estima que si la longitud de una determinada pieza presenta una varianza mayor a 4 mm. irremediablemente se producirá una inutilización de una plaqueta en el mayor a 4 mm. irremediablemente se producirá una inutilización de una plaqueta en el término de 6 meses de uso. Una muestra de 15 piezas arrojó una longitud media de 5 término de 6 meses de uso. Una muestra de 15 piezas arrojó una longitud media de 5

(3)

Ejercicio 7)

Ejercicio 7)

En un establecimiento lechero, 18 vacas de raza Frisia, produjeron en promedio 70 kg. En un establecimiento lechero, 18 vacas de raza Frisia, produjeron en promedio 70 kg. en la tercer semana luego del parto, con un desvío de 6 kg. ¿Se puede asegurar (

en la tercer semana luego del parto, con un desvío de 6 kg. ¿Se puede asegurar (αα== 0,05) que la producción aumentó con respecto a una media de 65 kg.?

0,05) que la producción aumentó con respecto a una media de 65 kg.?

Ejercicio 8)

Ejercicio 8)

La vida media de una muestra de 100 tubos fluorescentes producidos por una empresa La vida media de una muestra de 100 tubos fluorescentes producidos por una empresa es de 1.570 h, con una desviación típica de 120 h. Si

es de 1.570 h, con una desviación típica de 120 h. Si µµes la vida media de todos loses la vida media de todos los  productos de esa empresa, contrastar la hipótesis de que

 productos de esa empresa, contrastar la hipótesis de que µµ= 1.600 h= 1.600 h

Ejercicio 9)

Ejercicio 9)

Las larvas de algunas mariposas monarcas concentran glucósidos cardíacos a partir de Las larvas de algunas mariposas monarcas concentran glucósidos cardíacos a partir de  plantas de algodón, que las hacen repugnantes para los pájaros, los cuales las evitan  plantas de algodón, que las hacen repugnantes para los pájaros, los cuales las evitan

después de un primer encuentro. después de un primer encuentro.

Supóngase que las mariposas han sido recolectadas en una localidad y que se han Supóngase que las mariposas han sido recolectadas en una localidad y que se han

medido las concentraciones de glucósidos en relación a sus pesos. Los datos resultantes medido las concentraciones de glucósidos en relación a sus pesos. Los datos resultantes son; la media= 0,200 gr. y S

son; la media= 0,200 gr. y S22= 0,012 gr. para n= 75.= 0,012 gr. para n= 75. Probar la hipotesis nula de que

Probar la hipotesis nula de que µµ= 0,150 gr. frente a la alternativa que es distinta.= 0,150 gr. frente a la alternativa que es distinta.

Ejercicio 10)

Ejercicio 10)

Supóngase que un fabricante de llantas mide en miles de millas el período de vida de 10 Supóngase que un fabricante de llantas mide en miles de millas el período de vida de 10 llantas.

llantas. Determina Determina que que = = 26,68 26,68 y y SS22= 12.= 12.

Probar la H

Probar la H00 de quede queµµ = 25,0 con H= 25,0 con H11 > 25,0.> 25,0.

Ejercicio 11)

Ejercicio 11)

El peso de 12 latas de cerezas, en onzas, es: El peso de 12 latas de cerezas, en onzas, es:

11,9 12,3 12,6 11,8 12,1 11,5 11,9 12,3 12,6 11,8 12,1 11,5 12,7 11,3 11,9 12,0 11,8 12,1 12,7 11,3 11,9 12,0 11,8 12,1

La variación estándar especificada es de 1/2 onza. ¿Se cumple esta especificación? Use La variación estándar especificada es de 1/2 onza. ¿Se cumple esta especificación? Use el nivel de significación del 1% y una prueba bilateral

el nivel de significación del 1% y una prueba bilateral

Ejercicio 12)

Ejercicio 12)

El Departamento de Control de Calidad de una empresa que fabrica computadoras El Departamento de Control de Calidad de una empresa que fabrica computadoras electrónicas estima que si la longitud de una determinada pieza presenta una varianza electrónicas estima que si la longitud de una determinada pieza presenta una varianza mayor a 4 mm. irremediablemente se producirá una inutilización de una plaqueta en el mayor a 4 mm. irremediablemente se producirá una inutilización de una plaqueta en el término de 6 meses de uso. Una muestra de 15 piezas arrojó una longitud media de 5 término de 6 meses de uso. Una muestra de 15 piezas arrojó una longitud media de 5

(4)

mm. con una desviación estándar de 1,2 mm.. ¿Qué conclusiones puede obtener el mm. con una desviación estándar de 1,2 mm.. ¿Qué conclusiones puede obtener el Departamento de Calidad de la empresa en cuanto a la calidad de la pieza analizada? Departamento de Calidad de la empresa en cuanto a la calidad de la pieza analizada?

[Vuelve al

[Vuelve al índiceíndice]]

Proporción poblacional

Proporción poblacional

Ejercicio 13)

Ejercicio 13)

Se arroja una moneda al aire 200 veces, obteniéndose 90 veces caras Se arroja una moneda al aire 200 veces, obteniéndose 90 veces caras Probar la Ho:

Probar la Ho:

pp

= 0,5 contra la H= 0,5 contra la H11::

pp

0,5; a un nivel de significación del 5%.0,5; a un nivel de significación del 5%.

Ejercicio 14)

Ejercicio 14)

En una muestra al azar de 400 productores, el 65% de ellos eran propietarios y el 33% En una muestra al azar de 400 productores, el 65% de ellos eran propietarios y el 33% no. Verifique la hipótesis de que la muestra proviene de una población de la que el 60% no. Verifique la hipótesis de que la muestra proviene de una población de la que el 60% son propietarios. Use una probabilidad de cometer un error de tipo I del 5%.

son propietarios. Use una probabilidad de cometer un error de tipo I del 5%.

Ejercicio 15)

Ejercicio 15)

Se conoce por investigaciones ya realizadas que el 20% de la población mayor de 15 Se conoce por investigaciones ya realizadas que el 20% de la población mayor de 15 años fuma. Después de efectuar una fuerte campaña televisiva y radial durante 6 meses, años fuma. Después de efectuar una fuerte campaña televisiva y radial durante 6 meses, se decide estudiar si la población adulta ha disminuido el hábito de fumar.

se decide estudiar si la población adulta ha disminuido el hábito de fumar.

Para ello selecciona una muestra aleatoria de 1000 personas adultas a las que somete a Para ello selecciona una muestra aleatoria de 1000 personas adultas a las que somete a una determinada encuesta, resumida la información proporcionada por el trabajo de una determinada encuesta, resumida la información proporcionada por el trabajo de campo, se observó que el 12% de las personas encuestadas fumaba habitualmente. campo, se observó que el 12% de las personas encuestadas fumaba habitualmente. Probar la hipótesis que la campaña publicitaria ha disminuido la cantidad de fumadores Probar la hipótesis que la campaña publicitaria ha disminuido la cantidad de fumadores

Curso

Curso

Inferencia Estadística Básica

Inferencia Estadística Básica

para Ingenieros Agrónomos

para Ingenieros Agrónomos

Augusto Dante Bergagna

Augusto Dante Bergagna

(Profesor en Matemática, FFDC, UNL) (Profesor en Matemática, FFDC, UNL) Profesor Adjunto,

Profesor Adjunto,

Cátedra de Estadística

Cátedra de Estadística

, FCA, UNL, FCA, UNL Obra para optar al

Obra para optar al

Master en Informática Educativa

Master en Informática Educativa

(5)

otorgado por 

Universidad Nacional de Educación a Distancia ( UNED, España)

Presentación

El Curso sobre

Inferencia Estadística Básica para Agrónomos

, está orientado a que el alumno aprenda acerca de los métodos más importantes de Inferencia Estadística, como lo son el método de Estimación de Parámetros y Test de Hipótesis, fundamentalmente de tipo paramétrico. Ello le permitirá resolver una gran cantidad de situaciones

 problemáticas que se presentan en las prácticas diarias de un Ingeniero Agrónomo. Al finalizar el curso, el participante, podrá elegir y calcular el mejor estimador puntual de un parámetro, construir e interpretar intervalos de confianza para diferentes

 parámetros poblacionales y testear valores de tales parámetros que él mismo elija o determine.

Este programa pertenece a la Facultad de Ciencias Agrarias de la Universidad Nacional del Litoral.

Contenidos

Parte 1:

Estimación de Parámetros. Estimación Puntual. Propiedades de un buen estimador. Estimación por intervalos de confianza de la media poblacional, la  proporción poblacional, la varianza poblacional y la diferencia de medias.

Parte 2

: Test de hipótesis. Generalidades. Hipótesis estadísticas: hipótesis nula y

alternativa. Errores de tipo I y II. Potencia de un test. Test de hipótesis con respecto a la media de una población normal con varianza conocida o desconocida. Estadísticos de  prueba. Regla de decisión. Test de hipótesis respecto de la varianza poblacional y del

cociente de dos varianzas poblacionales de poblaciones normales. Estadísticos de  prueba. Reglas de decisión. Test de hipótesis respecto de la diferencia de dos medias  poblacionales correspondientes a dos poblaciones normales con varianzas conocidas o

desconocidas. Estadísticos de prueba. Reglas de decisión. Test de hipótesis respecto de una proporción y de la diferencia de dos proporciones.

Destinatarios

Este programa está orientado a:

• Potenciales responsables del análisis de datos procedentes de determinados experimentos o estudios.

• Graduados universitarios con interés de formarse en análisis inferencial de datos.

• Usuarios particulares que deseen resolver los problemas comunes en Estadística Inferencial.

• Alumnos que desean adquirir una formación básica en el área de Estadística Inferencial.

(6)

Metodología y recursos

El estudiante del Curso de Inferencia Estadística Básica recibirá los

siguientes materiales para su estudio personal:

- Guías Didácticas con los contenidos básicos.

- Guías de Trabajos Prácticos para realizar en su casa.

El estudiante del Curso de Inferencia Estadística Básica tendrá disponible

los siguientes recursos:

- E-mail para consultas.

- Sitio WEB del Curso con materiales para bajar directamente a su PC.

Requisitos de inscripción y promoción

Son requisitos de Inscripción:

• Tener aprobado estudios de nivel medio, o adeudar no más de dos asignaturas o espacios curriculares.

• Tener conocimientos básicos de manejo de calculadora científica, Estadística Descriptiva, Cálculo de probabilidades, Variables Aleatorias Discretas y Continuas, Distribución de los Estadísticos en el Muestreo.

Son requisitos de Promoción:

• Realizar, presentar y aprobar dos trabajos prácticos parciales (evaluaciones) a distancia.

Cronograma

14/8/02 al 25/8/02:

Estimación de Parámetros

26/8/02 al 5/9/02:

Test de Hipótesis

6/9/02 al 12/9/02

: Envío de Evaluaciones (Trabajos Prácticos Parciales)

PARA MAYOR INFORMACIÓN:

Escribir a abergagn@fca.unl.edu.ar 

 para consultas académicas(Contenidos, Clases, Materiales, etc) y para consultas administrativas

(7)

INTRODUCCIÓN

El objetivo más importante de la Estadística es obtener una inferencia con respecto a la  población basándose en la información contenida en una muestra. Como las poblaciones

se describen mediante medidas numéricas denominadas parámetros, el objetivo de la mayoría de las invrestigaciones estadísticas es deducir una inferencia con respecto a uno o más parámetros de la población.

Se han estudiado, hasta el momento, las nociones fundamentales de distribución de  probabilidades; se está en condiciones, entonces, de tratar los métodos de inferencia

estadística, los cuales comprenden los procedimientos para estimar parámetros de  poblaciones y probar (contrastar) si una afirmación provisional sobre un parámetro  poblacional se ve apoyada o desaprobada ante la evidencia de la muestra.

Hablando en general, hay dos tipos de inferencia: la deductiva y la inductiva. Una inferencia deductiva es un juicio o generalización que se basa en un razonamiento o  proceso dialéctico a priori. Por ejemplo, se supone que dos monedas están

 perfectamente equilibradas y que entonces la probabilidad de cada una de caer "cara" es = 0,5 (premisa). La media o número esperado de "caras" en la jugada de las monedas deber ser 1 (conclusión). Si las premisas son ciertas, las conclusiones no pueden ser  falsas.

Una inferencia inductiva , por otra parte, es un juicio o generalización derivado de observaciones empíricas o experimentales; la conclusión sobre el número promedio de "caras" con base en los resultados de una muestra de prueba. Si los resultados de las  pruebas son diferentes, la conclusión también será diferente. No se requiere una

suposición a priori sobre la naturaleza de las monedas. La inferencia estadística es  primordialmente de naturaleza inductiva y llega a generalizaciones respecto de las

características de una población al valerse de observaciones empíricas de la muestra. Es muy probable que una estadística muestral sea diferente del parámetro de la

 población y sólo por coincidencia sería el uno exactamente igual al otro. La diferencia entre el valor de una estadística muestral y el correspondiente parámetro de la población se suele llamar error de estimación. Sólo se sabría cuál es el error si se conociera el  parámetro poblacional, pero éste por lo general se desconoce. La única manera de tener 

alguna certeza al respecto es hacer todas las observaciones posibles del total de la

 población en la mayoría de las aplicaciones prácticas, lo cual, desde luego, es imposible o impracticable.

Y en efecto, la razón de ser de la inferencia estadística es la falta de conocimientos acerca de las características de la población. Pero que tales características se

desconozcan no impide el que se actúe.

Las inferencias estadísticas se hacen por posibilidades o probabilidades. De la media de la muestra se hacen inferencias sobre la media de la población. No se sabe exactamente cuál es la diferencia entre estas dos medias, ya que la última es desconocida en la

mayoría de los casos. No obstante, si se sabe que es más bien poca la probabilidad de que esta diferencia sea mayor que, por ejemplo, tres a aún dos errores estándares.

(8)

Los problemas que se tratan en la inferencia estadística se dividen generalmente en dos clases: los problemas de estimación y los de prueba de hipótesis. Como al estimar un  parámetro poblacional desconocido se suele hacer una afirmación o juicio este último

ofrece solamente una estimación. Es un valor particular obtenido de observaciones de la muestra. No hay que confundir este concepto con el de estimador, que se refiere a la regla o método de estimar un parámetro poblacional. Por ejemplo, se dice que X es un estimador deµ porque la media muestral proporciona un método para estimar la media de la población. Un estimador es por naturaleza una estadística y como tal tiene una distribución. El procedimiento mediante el cual se llega a la obtención y se analizan los estimadores se llama estimación estadística, que a su vez se divide en estimación

 puntual y estimación por intervalos.

ESTIMACION: GENERALIDADES

El uso principal de la inferencia estadística en la investigación empírica, es lograr  conocimiento de una gran clase de unidades estadísticas (seres humanos, plantas,  parcelas de tierra), de un número relativamente pequeño de los mismos elementos.

Los métodos de inferencia estadística emplean el razonamiento inductivo, razonamiento de lo particular a lo general y de lo observado a lo no observado.

Cualquier colección o agregación grande de cosas que deseamos estudiar o de las cuales deseamos hacer inferencias, se llama población. El término población tiene más

significado cuando se lo junta con la definición de muestra de una población: una muestra es una parte o subconjunto de una población.

Una muestra de

n

elementos de la población de

N

elementos, debería ser seleccionada de forma tal que las características de la población puedan ser estimados con un margen de error conocido.

Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman

parámetros

. Para las muestras, estas mismas medidas descriptivas se llaman

estadísticas.

Un parámetro describe una población de la misma manera que una estadística describe a una muestra.

Es costumbre simbolizar las estadísticas con letras romanas y los parámetros con letras griegas. Estadística Parámetro Media aritmética µ Variancia S² σ2 Desvío estándar S σ Coeficiente de correlación R   ρ

(9)

Una estadística calculada a partir de una muestra es un estimador del parámetro en la  población. Una estimación es alguna función de los resultados de una muestra que  produce un valor, llamado

estimador

.

El estimador da alguna información respecto al parámetro. Por ejemplo, la media de la muestra, , es un estimador de la mediaµ en la población.

Las poblaciones pueden ser infinitas o finitas.

Para la mayoría de los propósitos de investigación, se supone que las poblaciones son infinitas, no finitas, en tamaño, las cuales son algo artificial o imaginario.

Una población finita puede ser extremadamente grande. Es posible concebir un proceso de conteo de los elementos de la población, el cual puede ser computado; luego la

 población es técnicamente finita. Afortunadamente no es necesario crear problemas en cuanto a la distinción entre poblaciones infinitas y finitas.

El método usado para seleccionar la muestra es muy importante al juzgar la validez de la inferencia que se hace de la nuestra a la población.

Para que una muestra sirva adecuadamente como base para obtener estimadores de  parámetros poblacionales, debe ser representativa de la población.

El muestreo al azar de una población producirá muestras que "a la larga" son representativas de la población.

Si una muestra se extrae aleatoriamente, es representativa de la población en todos los aspectos, esto es, la estadística diferirá del parámetro solo por azar. La habilidad para estimar el grado de error debido al azar (error de muestreo), es un rasgo importante de una muestra al azar.

ESTIMACIÓN DE PARÁMETROS

La teoría clásica de la Inferencia Estadística trata de los métodos por los cuales se

selecciona una muestra de una población y, basándose en las pruebas de las muestras, se trata de:

* Estimar el valor de un parámetro desconocido, por ejemplo θ .

* Verificar siθ es o no igual a cierto valor predeterminado, por ejemplo θ 0.

El primero de estos dos procedimientos, de inferir de una muestra a una población, se llama

estimación de un parámetro

; el segundo,

prueba de una hipótesis acerca de

un parámetro

.

Dentro del primer procedimiento, la estimación de un parámetro puede tener por  resultado un solo punto (

estimación puntual

), o un intervalo dentro del cual exista cierta probabilidad de encontrarlo (

estimación por intervalos

).

(10)

Un estimador puntual es un único punto o valor, el cual se considera va a estimar a un  parámetro. La expresión E( ) = µsugiere que el único valor de es un estimador   puntual insesgado o no viciado de µ.

Un estimador por intervalo se construye sobre el concepto de un estimador puntual, pero además, proporciona algún grado de exactitud del estimador. Como el término lo

sugiere, un estimador por intervalo es un rango o banda dentro de la cual el parámetro se supone va a caer.

PROPIEDADES DE UN BUEN ESTIMADOR 

Para poder utilizar la información que se tenga de la mejor manera posible, se necesita identificar las estadísticas que sean buenos estimadores, cuyas propiedades son:

Insesgabilidad: , estimador de es una variable aleatoria y por lo tanto tiene una distribución de probabilidad con una cierta media y variancia. Se puede definir  estimador insesgado diciendo: Si se utiliza un estadístico muestral  para estimar el  parámetro de la población , se dice que es un estimador insesgado de , si la

esperanza matemática de coincide con el parámetro que desea estimar. En símbolos: es insesgado

O sea que es de esperar que si se toman muchas muestras de igual tamaño partiendo de la misma distribución y si de cada una se obtiene un valor , la media de todos los valores de ha de estar muy cerca de .

Por ejemplo:

* La media muestral es un estimador insesgado de la media poblacional, o sea que E( ) =µ

* La variancia muestral, ¿es un estimador insesgado de la variancia poblacional? La respuesta depende de como se defina la variancia muestral.

Si , entonces S² es un estimador sesgado deσ² pues . Mas

aún, . Pero el sesgo se puede corregir alterando la definición de

variancia muestral.

En efecto, si es la variancia muestral corregida, entonces (

(11)

Eficiencia: si se utilizan dos estadísticos como estimadores del mismo parámetro, entonces aquel cuya distribución muestral tenga menor variancia, es un estimador más eficiente o más eficaz que el otro. Es decir: es eficiente mínima.

Luego, si tenemos dos estimadores y de un mismo parámetro , procedemos como sigue para hallar el más eficiente entre ellos.

Se halla la razón

Si K > 1, es más eficiente que y usaremos . Si K < 1, es más eficiente que y usaremos .

Si K = 1, y son igualmente eficientes y se puede utilizar cualquiera de los dos indistintamente.

Supongamos que una variable aleatoria

X

tiene una distribución simétrica. Por lo tanto la media aritmética y la mediana son iguales. Si se toma una muestra de esta

distribución, ¿qué estadístico muestral, o , debería utilizarse para estimar la media de la población µ ?

La respuesta depende de cuál es el estimador más eficaz. Ambos son insesgados, pero la variancia de es menor que la de , es decir que . Por lo tanto la media muestral es un estimador más eficaz que la mediana muestral.

Consistencia: Si es un estimador muestral calculado a partir de una muestra de tamaño

n

y si es el parámetro de población que se va a estimar, entonces es un estimador  consistente de si la probabilidad de que el valor absoluto de la diferencia entre y su esperanza iguale o supere a

e

(error admitido que tiende a cero, o sea que es tan  pequeño como se quiera), tienda a cero cuando el número de elementos de la muestra

tienda a infinito. En símbolos:

si n →∞

O equivalentemente: si n→∞

Es decir, para que el estimador sea consistente, es necesario que la probabilidad de que esté a menos de cierta distancia "

e

" del parámetro θ , tienda a 1 al tender 

n

a infinito.

Por ejemplo, se sabe que la media muestral y la variancia son estimadores consistentes ya que tienden a acercarse a los correspondientes valores de la población a medida que aumenta el tamaño de la muestra, pero un estadístico muestral puede ser un estimador 

(12)

sin consistencia. Por ejemplo, si el valor de la primera observación o la media entre la  primera y última observación de una muestra se utilizaran para estimar la esperanza de

la población, tal estimador no sería consistente pues no tiende a acercarse más y más al valor de la población cuando se aumenta el tamaño de la muestra.

Suficiencia: Un estimador suficiente del parámetroθ es aquel que agota toda la

información pertinente sobre θ que se puede disponer en la muestra. Por ejemplo, si se toma una muestra de n = 30 valores con el fin de estimar µ, pueden utilizarse como estimadores la primera, la décimo quinta o la última observación, o el promedio entre la  primera y la quinta observación. Pero estos estimadores no son suficientes pues no

contienen toda la información disponible de la muestra. La media aritmética

calculada con las 30 observaciones sí lo es pues tiene en cuenta todas las observaciones. En definitiva, por ejemplo la media aritmética muestral y la forma corregida de la

variancia muestral, son estadísticas que satisfacen los criterios o propiedades de "

buenos

" estimadores.

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Lo dicho hasta ahora se refiere a una estimación puntual, es decir, estimar un parámetro a través de un único valor. Esta estimación no es muy conveniente pues con ella no se  puede determinar el error de muestreo, ni la precisión de la estimación, ni la confianza

que merece tal estimación.

Existen otros métodos para estimar parámetros poblacionales que son mucho más  precisos. Por ejemplo:

* Método de los mínimos cuadrados: se verá en Teoría de la Regresión. * Método de los momentos: no se desarrollará.

* Método de la máxima verosimilitud: que se basa en el principio de que generalmente ocurre lo más probable (no se desarrollará)

* Método de estimación por intervalos de confianza: que se desarrolla a continuación. El procedimiento de determinar un intervalo

(a, b)

que comprenda un parámetro de  población θ con cierta probabilidad

1 -

, se llama

estimación por intervalos

. Se

verán los casos paramétricos, es decir aquellos en los que se tiene conocimiento del tipo de distribución de la población (Binomial, Poisson, Normal, etc.)

En general, para cualquier parámetroθ y su correspondiente estimador 1, el intervalo de confianza será:

(13)

es el límite inferior del intervalo de confianza. es el límite superior del intervalo de confianza.

k es una constante

no

negativa. Es el llamado multiplicador correspondiente a 1 - α.

αes la probabilidad de que el intervalo

no

incluya al verdadero valor del parámetro. 1 -αes el

nivel de confianza

, es una medida de la fiabilidad de la estimación. Por  ejemplo, si se toma α= 10%, entonces 1 - α= 90% y se dice que se tiene un intervalo de confianza del 90% y que la probabilidad de que el intervalo contenga al verdadero valor  del parámetro es del 90%. Es decir, que si repetidamente se muestra y se construye tal intervalo una y otra vez, 90 de cada 100 de estos intervalos, contendrá al parámetro y 10 de ellos no.

Se puede pensar que

1

significa certeza, seguridad y αsignifica riesgo. La seguridad menos el riesgo, es decir 

1 -

da, por lo tanto, el coeficiente de confianza de nuestras afirmaciones.

En el caso anterior, se tiene una confianza de que 90 de cada 100 intervalos que se extraigan como muestra, contendrán el verdadero valor del parámetro. Pero una vez determinado el intervalo, es decir, una vez calculados numéricamente los extremos, ya no debe hablarse en términos de confiabilidad ni en términos probabilísticos, pues la situación pasa a ser completamente determinística. De tal manera, asociado a un

intervalo de confianza ya calculado, se tiene una probabilidad

0 ó 1

de que contenga al  parámetro a estimar y no hay otra opción, ya que lo contiene o no lo contiene.

Resumiendo, los extremos del intervalo son variables aleatorias, mientras que el  parámetro a determinar es constante.

En general, los pasos a seguir para estimar un parámetro por el método de los intervalos de confianza, son:

* Fijar el coeficiente de confianza que se desea en la estimación. * Extraer la muestra y calcular el o los estadísticos necesarios.

(14)

INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL

CASO 1) Con

conocido:

Sea donde µes desconocido y σconocido.

Sea x1, x2, ... , xn una muestra aleatoria de la variable aleatoria

X

y sea la media

muestral.

Se sabe que independientemente del valor de

n

, por el teorema central

del límite.

Luego, tipificando:

Se plantea: entonces:

Observaciones:

- Si las muestras se toman sin reposición de una población finita de tamaño

N

, debe emplearse el factor de corrección por finitud y el intervalo será:

(15)

- Si la población es sólo aproximadamente normal, la igualdad sigue siendo válida en forma aproximada.

Ejemplo 1

: Un grupo de investigadores en Medicina desea estimar el cambio medio de  presión sanguínea por paciente en un sanatorio. Se ha seleccionado una muestra al azar 

de 30 pacientes y se halló que  puls/seg. Los investigadores saben que la

desviación estándar de los cambios de presión sanguínea para todos los pacientes es σ= 3 puls/seg según estudios anteriores. Ellos desean estimar el cambio medio de la presión sanguínea por paciente con un intervalo del 95% de confianza, suponiendo que la

variable aleatoria "cambios de presión sanguínea" tiene asociada una distribución normal de probabilidad.

Respuesta:

X = cambio en la presión sanguínea por paciente del sanatorio (en pulsaciones por  segundo)

n = 30 σ= 3

1 -

= 0.95

Por tabla: Entonces:

Límite inferior (LI) =

Límite superior (LS) =

Por lo tanto resulta el Intervalo del 95% de confianza para la media: ICM0,95= (3,9 ; 6,1)

Luego, puede decirse que el cambio medio en la presión sanguínea por paciente,  pertenece al intervalo (3,9 ; 6,1) pulsaciones, con un nivel de confianza del 95%.

Observación: Nótese que se cae en un abuso de lenguaje pues se debería decir que el intervalo (3,9 ; 6,1) pulsaciones pertenece a la sucesión que ofrece un nivel de confianza del 95% para estimar el cambio medio de presión sanguínea, pero se simplifica la

expresión para hacerla menos engorrosa o extensa.

En cuanto al

tamaño óptimo de muestra

, = e determina el error máximo

admitido de muestreo e indica la precisión de la estimación. Lógicamente se pretende que sea lo más pequeño posible. Por otra parte,

(1 - )

es el coeficiente de confianza y se pretende que sea lo más grande posible. Pero depende del valor de αy al hacer  mayor el coeficiente de confianza

(1 - )

, el valor será mayor y por lo tanto el error 

(16)

aumentará. Esto se puede regular aumentando el tamaño de la muestra con lo que el error disminuirá.

Para el ejemplo 1, con un nivel de confianza del 95%.

Si se desea elevar el nivel de confianza a 99%, pero sin aumentar el error 

e

de estimación, el tamaño de la muestra debería ser:

O sea que debe tomarse una muestra de aproximadamente 52 pacientes en lugar de 30. Por el contrario, si el investigador deseara un error de estimación menor, por ejemplo 1  puls/seg, manteniendo el nivel de confianza en 95%, el tamaño de la muestra requerido

será:

 pacientes.

CASO 2) Con

desconocido

Para estimar σse debe utilizar el desvío estándar muestral corregido.

, ya que según se ha visto, es un estimador insesgado del

correspondiente parámetro poblacional σ. Reemplazando en la variable tipificada

 por resulta:

Por lo tanto:

(17)

Ejemplo 2

: Una muestra de 15 aves tomadas al azar en un establecimiento con 5000 aves, (que elabora alimentos balanceados), permitió establecer un aumento de peso  promedio de 90 g por semana y por ave, y un desvío típico de 10 g. Se busca estimar el

incremento de peso promedio para las 5000 aves del establecimiento con un intervalo de confianza del 90%.

Respuesta:

X

= aumento de peso por ave

n = 15 = 90 g

S

= 10 g ¿ICM0,90?

Por tabla:

y el intervalo resulta:

Interpretando este resultado, se dice que el aumento de peso por ave por semana en el establecimiento está entre 85,5 y 94,6 gramos, con un 90% de confianza.

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS

CASO 1: Poblaciones normales

y

con y conocidos.

Se fija el nivel de confianza

(1 - )

, se extraen dos muestras independientes de X1y X2

de tamaño

n

. Ya se ha visto que:

y el estadístico tipificado tiene la siguiente

distribución:

(1)

Además,

(2)

(18)

Donde:

Ejemplo 3

: Al determinar la superficie en miles de hectáreas de las explotaciones agrícolo-ganaderas de cierta zona, una muestra de 40 explotaciones dio una superficie media de 900 ha, con una desviación típica de 300 ha. En otra zona, al muestrear  también 40 explotaciones, la superficie media fue de 600 ha con una desviación típica de 150 ha. Suponiendo que en ambas zonas la variable "superficie en ha por 

explotación" se distribuye normalmente, estimar por un intervalo de confianza del 90%, la diferencia entre las superficies medias de las explotaciones de ambas zonas.

Respuesta:

X

1 = superficie de cada explotación agrop. de la primera zona

X

2 = superficie de cada explotación agrop. de la segunda zona

, n = 40 ¿ICDM0,90?

Por tabla: Luego:

= = 300 ± 87,24 = (212,76 ; 387,24) = (212,8 ; 387,2)

Interpretando este resultado, se dice que la diferencia entre las superficies medias de las explotaciones agrícolo-ganaderas de ambas zonas, se encuentra entre 212,8 y 387,2 ha, con un 90% de confianza.

Observación: En la fórmula también puede utilizarse y en ese caso debe

(19)

CASO 2: Poblaciones normales

y

con y

desconocidos

Se extraen dos muestras independientes (una de cada población) de tamaños

n

1

y n

2

respectivamente, se fija

(1 - )

, se calculan y su diferencia.

a) Si σ1y σ2son desconocidos pero estadísticamente pueden considerares

iguales

(σ1

=σ2), se estiman por y se procede como en el caso 1. (Saes la

variancia amalgamada o mancomunada)

 b) Si σ1y σ2 son desconocidos pero estadísticamente

no

pueden considerarse

iguales

(σ1 ≠ σ2),

Se fija

(1 -

±

)

, se extraen dos muestras independientes, se calcula y la distribución en el muestreo del estadístico de prueba, ya tipificado, es:

∼ tδ

donde el número de grados de libertad de la distribución

t

de Student viene dado por la fórmula:

(20)

Ejemplo 4

: Las variables aleatorias X1y X2distribuidas normalmente, representan las

edades al morir de tuberculosis de los individuos en dos ciudades. Una muestra de 10 individuos que murieron por tal enfermedad en la primera ciudad dio una edad media de 48 años y una desviación típica de 5 años. En la segunda ciudad, una muestra de 12 individuos dio una edad media de 41 años y una desviación típica de 3 años. Se desea estimar por intervalos con un 95% de confianza, la diferencia entre las edades medias de los muertos por tuberculosis en ambas ciudades, sabiendo que investigaciones anteriores no permiten tomar las desviaciones típicas de ambas variables como iguales.

X1 = edad al morir de tuberculosis en la ciudad A.

X2 = edad al morir de tuberculosis en la ciudad B.

n1 = 10, , S1= 5

n2 = 12, , S2= 3, σ1 ≠ σ2¿ICDM0,95?

Respuesta:(corresponde al item b) del caso 2)

Con estos datos, reemplazamos en la fórmula para calcular los grados de libertad:

grados de libertad. Luego, por tabla, t0,05; 15 = 2,1315 y finalmente el intervalo resulta:

ICDM0,95 =

= 7 ± 3,843 = (3,157 ; 10,843) ≅ (3 ; 11)

Interpretando el resultado se puede decir que la diferencia entre las edades medias de las  personas que murieron de tuberculosis en ambas ciudades, se encuentra entre 3 y 11

(21)

INTERVALO DE CONFIANZA PARA LA VARIANCIA POBLACIONAL

Suponemos: Población normal

X

N( , )

Se fija

(1 -

±

)

y el estadístico tipificado de prueba tiene una distribución muestral:

(1)

donde Ã 2es la variancia poblacional.

Además:

(2)

Reemplazando

(1)

en

(2)

resulta:

Invirtiendo fracciones:

(22)

Invirtiendo la desigualdad:

Ejemplo 5

: Un productor de fertilizantes, para controlar el buen embolsado de sus

 productos, pesa 15 bolsas del mismo, obteniendo una desviación típica de 0,50 kg. ¿Qué varianza puede inferirse con un 98% de confianza que tendrá la producción total?

Respuesta:

X

= peso de cada bolsa de fertilizante n = 15

S

= 0,50 kg. ¿ICV0,98?

Por tabla:

Luego, el intervalo buscado es:

Se interpreta este resultado diciendo que existe un 98% de confianza de que la variancia del peso por bolsa en toda la producción de bolsas de fertilizantes de ese productor esté entre 0,12 y 0,75

Observaciones:

1) Del intervalo de confianza visto para la variancia, se deduce el correspondiente para el desvío típico:

(23)

Para el ejemplo 5:

2) Si

n > 100

, los valores ya no se encuentran en la tabla de la distribución Chi cuadrado, y por lo tanto se la aproxima a una normal,

utilizando para aproximar percentiles en esta distribución:

Y el intervalo buscado es:

INTRODUCCIÓN

Recuérdese que muchas veces el objetivo de la Estadística es hacer inferencias con respecto a parámetros poblacionales desconocidos, basadas en la información obtenida mediante datos muestrales. Estas inferencias se expresan en una de dos maneras, como estimaciones de los parámetros respectivos o como pruebas de hipòtesis referentes a sus valores. En este capítulo o parte se estudiará el tema de la prueba (o contraste, o test) de hipótesis.

Con frecuencia, los problemas a los que se enfrenta el científico o el experimentador no se refieren sólo a la estimación de un parámetro poblacional como se indicó en el

capítulo precedente, sino, y es aún más frecuente en los problemas prácticos, el que se tenga que formular un procedimiento de decisión basado en los datos que conduzcan a una conclusión acerca de algún planteamiento científico. Esta es la situación en que se encuentra, por ejemplo, un investigador que pretende demostrar que la droga A es más efectiva para el tratamiento de cierta enfermedad que la droga B; cuando un sicólogo desea comprobar si cierto formato de instrucción incrementará la eficiencia en el

aprendizajes; cuando un ingeniero agrónomo desea comprobar si una nueva distancia de siembra entre surcos, para un cultivo, produce mejores rendimientos que las distancias que se usaban comúnmente en la zona; cuando el jefe de marketing asegura que

determinado producto se aceptado por el 60% de la población consumidora, etc.

En cada uno de los anteriores casos el responsable del estudio postula o conjetura algo acerca de un sistema. Estos constituyen enunciados provisionales, puesto que al no  poder integrar el cúmulo de sus conocimientos todo lo concerniente a la situación,

(24)

aparece la incertidumbre. La función de la estadística en su aspecto inferencial es la de apoyar el razonamiento para llegar a decisiones sólidas a pesar de la incertidumbre. Al respecto, es tan importante el papel que desempeña la estadística en estas situaciones que se suele hablar de la estadística moderna como "el estudio de las decisiones ante la incertidumbre".

Se puede decir que se llaman

decisiones estadísticas

a las decisiones que deben tomarse con respecto a las poblaciones a partir de una información obtenida de una muestra de las mismas. Por ejemplo, a partir de los datos del muestreo podemos querer  llegar a decidir si un suero nuevo es realmente efectivo para la cura de una enfermedad, si un sistema educacional es mejor que otro, si una moneda está o no cargada, etc.

En los casos que se han señalado se observa que se deben tomar decisiones con base en datos experimentales. Y si hay que tomar decisiones es porque hay alternativas; cada una de estas alternativas es formalizada como una hipótesis estadística y el proceso mediante el cual se enfrentan o confrontan las hipótesis al tomar como punto de apoyo los datos muestrales constituye lo que se denomina prueba o contraste de hipótesis.

ELEMENTOS DE UN TEST DE HIPÓTESIS.

Una hipótesis es una suposición sobre la naturaleza de una población. Las hipótesis generalmente están expresadas en términos de parámetros poblacionales.

Las siguientes son algunos ejemplos de hipótesis:

µ= 5 (la media poblacional es igual a 5)

µ< 67 (la media poblacional es menor que 67)  2= 4 (la variancia poblacional es igual a 4)

 2>11 (la variancia poblacional es mayor que 11)

Un test de una hipótesis es un procedimiento estadístico usado para tomar una decisión sobre el valor de un parámetro poblacional.

La hipótesis nula (

H

0) especifica el valor de un parámetro poblacional. Se conduce un

experimento para ver si el valor especificado no es razonable.

Ejemplo :Un semillero publicita que el peso promedio de una espiga de una cierta variedad es de 180 gramos con una desvío estándar de 30 gramos. Un productor de avanzada sospecha que el peso es distinto de 180 gramos, decide por lo tanto conducir  un experimento. El propósito del mismo es ver si el peso de 180 gramos es incorrecto. Por lo tanto la hipótesis nula de interés es:

H0 : µ= 180 gramos

La hipótesis alternativa (

H

1) da una suposición opuesta a aquella presentada en la

hipótesis nula. El experimento se lleva a cabo para conocer si la hipótesis alternativa  puede ser sustentada.

(25)

En el ejemplo previo el productor sospecha que el peso medio es distinto de 180 gramos. Esta es la hipótesis a ser sustentada y así la hipótesis alternativa es: H1 µ> 180 gramos ó µ< 180 gramos ó 180 gramos

Se puede ver que las hipótesis son excluyentes. La hipótesis alternativa frecuentemente se llama

hipótesis de investigación

, porque este tipo de hipótesis expresa la teoría que el investigador o experimentador cree va a ser verdadera.

Un

test estadístico

es una cantidad calculada de la muestra y se usa cuando se va a hacer una decisión sobre la hipótesis de interés.

Después que el productor de este ejemplo prueba la variedad en 50 parcelas sembradas al azar, seleccionando un conjunto de espigas por parcela, el test estadístico debe ser  calculado. Por ejemplo la media de la muestra se podría usar como test estadístico  para tomar una decisión acerca del valor de µ , o si se obtiene una muestra

suficientemente grande se podría utilizar una estadística

z

para comparar el valor  observado de con respecto a 180 gramos especificado en la hipótesis nula. Así un  posible

test estadístico

cuando 2 se conoce, sería :

Para interpretar el valor del test estadístico es necesario introducir un elemento más al test de hipótesis: la

región de rechazo

, que especifica los valores del test estadístico  para los cuales la hipótesis nula es rechazada ( y para los cuales la hipótesis alternativa

no es rechazada).

La región de rechazo identifica los valores del test estadístico que sostienen o sustentan la alternativa y serían improbables, (raros) si la hipótesis nula fuera verdadera.

Ya que no se espera observar sucesos raros (valores improbables del test estadístico) la hipótesis nula se rechazará cuando la muestra produzca un valor tal.

Para el ejemplo si la media fuera menor que 180 gr o mayor que 180 gr esta sustentaría la hipótesis alternativa

(µ 180) y un valor de más de 2, (1,96) errores estándares por debajo o por encima de 180 sería raro o poco probable.

El propósito de cualquier test de hipótesis es decidir cual hipótesis - la nula o la

alternativa - sería rechazada. Ya que cualquier decisión estará basada sobre información  parcial de una población, contenida en una muestra, habrá siempre una posibilidad de

una decisión incorrecta. La siguiente tabla resume cuatro posibles situaciones que  pueden surgir en un test de hipótesis.

(26)

Verdadero estado de la población

Decisión posible H0es cierta H1es cierta

Se rechazo H0 Error de tipo I (α) Decisión correcta

 No se rechaza H0 Decisión correcta Error de tipo II (β )

Si la hipótesis nula es rechazada y de hecho, la hipótesis nula es verdadera, se cometió un error, que se llama

Error de tipo I

( ).

Un

Error de tipo II

( ) ocurriría si la hipótesis nula fuera aceptada y de hecho, la hipótesis alternativa es verdadera.

Ya que nunca se puede eliminar la posibilidad de cometer un error de tipo I o un error  de tipo II cuando se usan muestras para hacer inferencias, se considerarán las

 posibilidades de cometer estos errores. = P (error de tipo I)

P (rechazar H0si H0es verdadera)

= P (error de tipo II) P (aceptar H0 si H0es falsa)

Es deseable que tanto como estén próximos a cero pero en general esto no es  posible, ya que el experimentador desea concluir que H1es verdadera (rechazar H0) el

interés está en que tenga una probabilidad pequeña tal como 0,01 ó 0,05. En otras  palabras , se desea estar seguro que si H0 es verdadera, será muy raro que sea rechazada.

El experimentador es libre de elegir el valor de , esto es, determinar cuán raro un suceso observado debe ser para rechazar H0. Determinar si el valor de estará presente

 para el test de hipótesis es algo más complicado, de modo que no se intentará su cálculo. Manteniendo pequeño se evita aceptar la hipótesis de investigación (alternativa) si la hipótesis nula es verdadera. De otra forma se induciría a la crítica de que se ha sesgado la investigación para probar la alternativa. El sacrificio de mantener pequeña es que la "chance" de aceptar la hipótesis nula, si la hipótesis de investigación es verdadera ( ),  puede ser mayor de lo que se desea.

Resumiendo, en el ejemplo considerado el productor aceptando un error de 0,05 (5%), conocido también como

nivel de significación

y utilizando la estadística z, plantearía la hipótesis como sigue:

H0 : µ= 180 gramos

(27)

Suponiendo que los resultados del experimento produjeron una media muestral de 187 gramos, el test estadístico se construiría como:

donde : 187 = media de la muestra ( = 187) 180 = media hipotética (poblacional = 180)

30 = desvío estándar poblacional (conocido) ( =30) 50 = tamaño de la muestra o repeticiones (n=50)

Para decidir si la hipótesis nula (H0) se rechaza o no se compara el valor de z calculado (

1,65) con el valor de z tabulado N (0,1), para un nivel de probabilidad = 0,05. Por  tratarse de una

prueba bilateral

, indicado por la desigualdad de la hipótesis alternativa (¼ 180) el valor de se particiona en dos /2 = 0,025, lo que implica que la

 probabilidad con la que se busca el valor de z, en la tabla de la distribución normal es 0,975, el valor de z correspondiente a esta probabilidad es

1,96

.

Gráficamente las zonas de rechazo y aceptación serían:

como el valor de

z calculado= 1,65

es menor que l,96 o sea cae en la

región de

aceptación

, no hay evidencias sufucientes como para rechazar la hipótesis de que la media de la población es igual a 180.

Conclusión: la publicidad que hace el semillero de que el peso promedio de las espigas de una cierta variedad es de 180 gramos, es correcta, aunque podría existir una

 probabilidad de error tipo II, si de hecho la media de tal variedad no fuera 180 gramos

(28)

Si en el mismo ejemplo, el productor, basándose en algún conocimiento de la variedad en cuestión sospechara que el peso promedio de las espigas es menor que 180, las hipótesis se plantearían como:

H0: µ = 180 gramos o H0: µ > 180 gramos

H1: µ < 180 gramos

= 0,05

En este caso la desigualdad de la hipótesis alternativa indica cuál sería la zona de rechazo, el valor de ya no se particiona sino que se acumula todo hacia un solo lado, el izquierdo en este ejemplo y el valor tabulado de z se busca en la tabla con un valor de  probabilidad del 95% siendo

z= -1,64

(el signo negativo no figura en la tabla ya que

siendo la distribución normal simétrica, lo que se hace es anteponer el signo negativo al valor de z que corresponde al nivel de probabilidad especificado)

Si por otra parte, el productor sospechara que el peso promedio es mayor que 180 gramos, la hipótesis y la zona de rechazo se plantearían como:

H0: µ = 180 gramos ó H0: µ < 180 gramos

H1: µ > 180 gramos

= 0,05

en ambas situaciones el

test estadístico

se construye como:

(29)

Este valor difiere del anterior en que, en lugar de aparecer la desviación estándar de la  población, nos encontramos con su estimador muestral insesgado

S

, que se distribuye,

t

de Student

(t∼ t(n-1))

POTENCIA DEL CONTRASTE

Partiendo del planteo de las siguientes hipótesis: H0 : µ=µ 0

H1 : µ µ0

La probabilidad de error tipo I ( ) está dada por el nivel de significación; en cambio, la  probabilidad del error tipo II ( ) ya no es una cantidad determinada para cada nivel de

significación, sino que depende del valor de µ .

La probabilidad del error tipo II ( ) para valores deµ próximos a µ0es grande en

comparación con la probabilidad de este error para valores de µ que están alejados de µ

0.

Por ejemplo, si H0afirma que la media es igual a 20, la probabilidad de no rechazar H0

es evidentemente mayor si la verdadera media es 25 que si es 30. Esto se detalla con mayor claridad en la siguiente figura en el que el área rayada indica la probabilidad de error tipo II ( ).

Por supuesto se puede calcular la probabilidad de error tipo II para cualquier valor de µ . Cuanto menor sea esta probabilidad mejor será el contraste para distinguir entre

hipótesis ciertas y falsas, o sea, cuanto menor sea la probabilidad de no rechazar H0,

cuando esta sea falsa, más

"potente"

es el contraste. La

potencia de un contraste

se mide por la probabilidad de rechazar H0 cuando sea falsa. Al ser la probabilidad de no

rechazar H0cuando esta es falsa, la potencia del contraste es igual a:

1 - P ( error tipo

(30)

ESQUEMA PARA CONTRASTAR HIPÓTESIS

Cuando se tiene que contrastar una hipótesis estadística es conveniente seguir un esquema, el cual debe incluir las siguientes etapas:

1) Enunciado de la hipótesis nula y alternativa 2) Elección del nivel de significación ( ) 3) Selección del estadístico de prueba. 4) Determinación de la región crítica. 5) Cálculo del estadístico.

6) Exposición de las conclusiones.

CONTRASTE DE HIPÓTESIS RESPECTO A UNA MEDIA POBLACIONAL (

desconocido)

Las hipótesis se plantean de forma similar al caso en que σes conocido, pero la estadística de prueba es la "t" de Student.

Ejemplo: Para estimar el rendimiento de parcelas plantadas con papa de una cierta variedad, se cosecharon ocho de ellas, obteniéndose la siguiente información expresada en kg/parcela:

4,5 5,3 5,4 4,9 5,3 5,7 6,2 4,8

¿Se puede asegurar, con α=0,05, de que esta variedad de papas tiene un rendimiento  promedio de 5,25 kg?

H0 : µ= 5,25

H1 : µ

5,25

A partir de los datos se calcula y S², para este ejemplo = 5,5625 y S² =0,2884.

=

Como el valor de t calculado cae entre –2,365 y 2,365 (valor tabulado de t para 7 grados de libertad y α= 0,025, no se rechaza la hipótesis nula.

Conclusión: No hay duficiente evidencia, a partir de los datos de la muestra, para decir  que el rendimiento de papa por parcela no es igual a 5,25.

(31)

CONTRASTE DE HIPÓTESIS REFERENTES A UNA PROPORCIÓN

POBLACIONAL (P)

Las hipótesis formuladas son: H0: P P0

H1: P < P0

: 0,05

En el caso del parámetro poblacional "P", cuando el tamaño de la muestra es grande, la variable aleatoria proporción muestral "p" se distribuye aproximadamente normal con

esperanza igual a P y desviación estandar igual

Por eso se puede utilizar "p" como criterio de test para probar la hipótesis con respecto al parámetro proporción poblacional. El

test estadísto

z se calcula:

Gráficamente podemos establecer la correspondiente región de rechazo de H0en la cola

de la distribución normal

Ejemplo: Se supone que en un cierto partido de la provincia de Buenos Aires, el 90% de los productores cultivan maíz. De 110 productores de la zona que se encuestaron, 95 hacen maíz. ¿Está este resultado en conformidad con el valor supuesto?. (α= 0,05) H0: P = 0,90

(32)

Como el valor calculado de Z = –0,97 reside entre los valores tabulados –1,96 y 1,96 (valores críticos de la distribucion normal ) no se rechaza H0.

Conclusión, la información proporcionada por la muestra no es suficiente como para decir que la proporción de productes de tal partido que cultivan maíz es distinto de 90%.

CONTRASTE DE HIPÓTESIS REFERENTES AL PARÁMETRO VARIANZA

POBLACIONAL

Por ejemplo, un operador en la bolsa de cereales, aconseja a un cliente con respecto a una inversión de compra y destaca la poca variabilidad de dicha cotización. De acuerdo a lo estipulado por él, esta acción presentaría una varianza en las cotizaciones diarias

= 0,2.

El cliente, quien debe realizar una fuerte inversión, decide poner a prueba la hipótesis del operador, estableciendo las siguientes hipótesis estadísticas:

H0) 0,2

H1) > 0,2

Fijamos: = 0,05, como nivel de significación.

Para probar esta hipótesis selecciona una muestra de 15 días donde se registra la cotización diaria. El cálculo de la varianza en la muestra es S2 = 0,4.

El

test estadístico

es:

que se distribuye como una con (n - 1) grados de libertad. Se calcula el valor del estadístico planeado:

(33)

Como se puede observar, el estadístico utilizado como criterio para realizar el test, cae en la zona de rechazo de la hipótesis nula.

Conclusión: La evidencia muestral parece indicar que el operador estaba equivocado y que en realidad la cotización diaria es bastante más variable de lo que él cree.

PRUEBAS DE HIPÓTESIS DE LAS VARIANCIAS DE DOS POBLACIONES

NORMALES

Cuando se trata de comparar las variancias se utiliza la variable F=S²1/S²2, que como se

sabe está relacionada con la distribución F con (n1-1, n2-1) grados de libertad.

Se recomienda colocar siempre en el numerador la variancia muestral asociada a la variancia poblacional mayor estos es,

a. Si H1: σ²1 >σ²2⇒La estadística de prueba se toma como F=S²1/S²2 .

 b. Si H1: σ²2 >σ²1⇒La estadística de prueba se toma como F=S²2/S²1.

c. Si H1: σ²1 ≠ σ²2⇒La estadística de prueba se toma de tal manera que la mayor 

de las variancias muestrales aparezca en el numerador.

Las tablas de la distribución F generalmente proporcionan los puntos de la cola superior  de la distribución F así que para encontrar valor de la cola inferior, debe utilizarse

(34)

Ejemplo 1

: Se comparó la eficacia de dos tipos de aceites para evitar el desgaste en ciertas piezas sometidas a intenso trabajo. En trece piezas se utilizó el aceite 1 y en otras trece el aceite 2. Las variancias muestrales fueron S²1= 64, S²2= 16. Se desea verificar 

la hipótesis nula según la cual las variancias de las dos poblaciones son iguales. (α= 0,05)

H0: σ²1=σ²2

H1: σ²1≠ σ²2

n1 = n2 = 13, α= 0,05

Como el valor calculado de F =4 supera el valor tabulado de la cola superior de la distribución, no puede concluirse, al nivel del 5% que las variancias sean iguales. Siguiendo el criterio de colocar en el numerador siempre la variancia mayor, es suficiente considerar el valor tabulado de la zona derecha de la distribución F.

CONTRASTE DE HIPÓTESIS REFERENTE A DOS MEDIAS

POBLACIONALES: MUESTRAS INDEPENDIENTES

Los desvíos de las poblaciones son conocidos

Los supuestos que se deben cumplir son que las medias poblacionales µ 1y µ 2son

normales, los desvíos poblacionales y conocidos y las muestras, independientes, de tamaño n1y n2 respectivamente, estableciendo las siguientes hipótesis:

H0 )µ1-µ 2= 0 ó µ1= µ 2

a ) H1 )µ1 µ2

 b) H1)µ 1> µ2

c) H1)µ 1<µ 2

= 0,05

(35)

que se distribuye como una N ( 0,1). que se distribuye como una N ( 0,1). Si

Si y y son son iguales, iguales, lo lo que que equivale equivale a a decir decir que que hay hay una una sola sola variancia, variancia, la la fórmulafórmula anterior se puede reemplazar por la siguiente:

anterior se puede reemplazar por la siguiente:

En

En el el cocontntrarastste ae a) v) valalorores es grgranandedes y s y pepeququeñeños os dede(( )y )y popor lr lo o tatantnto po peqequeueñoños ds de Ze Z son suficientes para confirmar H

son suficientes para confirmar H11. Por lo tanto para un ensayo bilateral con nivel de. Por lo tanto para un ensayo bilateral con nivel de

significación

significación , , la la hipótesis hipótesis HH00se rechaza si :se rechaza si :

Z

Z < < ó ó Z Z >> En

En el el cocontntrarastste be b) s) sóólo lo vavaloloreres gs grarandndes es dde (e ( ) y ) y dde Z e Z coconnfifirmrman an la la hihippótótesesis is HH11..

En un ensayo unilateral, rechazamos H

En un ensayo unilateral, rechazamos H00cuando:cuando:

Z > Z Z > Z1 -1

-En el contraste c) valores pequeños de la diferencias de medias muestrales y por lo tanto En el contraste c) valores pequeños de la diferencias de medias muestrales y por lo tanto valores pequeños de Z confirman H

valores pequeños de Z confirman H11y rechazamos Hy rechazamos H00cuando:cuando:

Z < Z Z < Z

Ejemplo 2

Ejemplo 2

:: El porcentaje de calcio de dos muestras de soja se determinó por dosEl porcentaje de calcio de dos muestras de soja se determinó por dos

métodos de mineralización: (A) cenizas secas y (B) mineralización húmeda. Los datos métodos de mineralización: (A) cenizas secas y (B) mineralización húmeda. Los datos obtenidos fueron: obtenidos fueron: (A): 0,32 3,32 0,36 0,29 0,27 0,29 0,28 (A): 0,32 3,32 0,36 0,29 0,27 0,29 0,28 (B): 0,35 0,35 0,34 0,36 0,31 0,28 0,28 (B): 0,35 0,35 0,34 0,36 0,31 0,28 0,28 Se sabe, por experiencias anteriores que

Se sabe, por experiencias anteriores que σσ11 ==σσ11= 0,03. Se desea verificar si ambos= 0,03. Se desea verificar si ambos

métodos producen los mismos resultados. (

métodos producen los mismos resultados. (αα= 0,05).= 0,05). H

H00 ))µµAA== µµ BBóó µµ AA--µµBB = 0= 0

H

(36)

Por ser un test bilateral, los valores críticos de la distribución normal, para

Por ser un test bilateral, los valores críticos de la distribución normal, para αα= 0,05 son= 0,05 son  –1,96 y 1,96. C

 –1,96 y 1,96. Como el valor de la estadística calculada cae entre los valores críticos, noomo el valor de la estadística calculada cae entre los valores críticos, no hay evidencias como para rechazar la hipótesis nula. Por lo tanto las media de los dos hay evidencias como para rechazar la hipótesis nula. Por lo tanto las media de los dos metodos de mineralización no difieren.

metodos de mineralización no difieren.

Los desvíos de

Los desvíos de las poblaciones son desconocidos:

las poblaciones son desconocidos:

aa)

) SSe

e ssuuppoonneen

n iigguuaallees

s ((

))::

Los supuestos que se deben cumplir son: datos extraídos de dos muestras aleatorias Los supuestos que se deben cumplir son: datos extraídos de dos muestras aleatorias independientes de tamaño n

independientes de tamaño n11y ny n22respectivamente, cuyas poblaciones son normales conrespectivamente, cuyas poblaciones son normales con

medias poblacionales

medias poblacionalesµµ 11yy µµ 22. . Las Las variancias variancias poblacionales poblacionales no no se se conocen conocen y y sese

supone que son iguales. Primero se debería docimar la igualdad de dichas varianzas, en supone que son iguales. Primero se debería docimar la igualdad de dichas varianzas, en  particular si los tamaños de las muestras son distintos, a través de la prueba de F de  particular si los tamaños de las muestras son distintos, a través de la prueba de F de

Snedecor. Si son estadísticamente iguales, aplicamos el siguiente

Snedecor. Si son estadísticamente iguales, aplicamos el siguiente

test estadístico

test estadístico

::

donde donde

que se distribuye aproximadamente como una t de Student con n

que se distribuye aproximadamente como una t de Student con n11+ n+ n22-2 grados de-2 grados de

libertad. (t

libertad. (tn1 + n2 - 2n1 + n2 - 2))

Ejemplo 3

Ejemplo 3

: Dieciocho plantas de una misma variedad de naranjos fueron tratadas con: Dieciocho plantas de una misma variedad de naranjos fueron tratadas con fertilizantes. A nueve de ellas se les aplico una cierta dosis de nitrógeno (N) y al resto fertilizantes. A nueve de ellas se les aplico una cierta dosis de nitrógeno (N) y al resto una de nitrógeno y fósforo (NP). Se midió el rendimiento en Kg. por planta; los

una de nitrógeno y fósforo (NP). Se midió el rendimiento en Kg. por planta; los resultados obtenidos fueron:

resultados obtenidos fueron:  _   _   N: X = 28 kg S² = 9  N: X = 28 kg S² = 9  _   _   NP: X = 21 kg S² = 7  NP: X = 21 kg S² = 7

Interesa conocer si existen diferencias significativas entre los rendimientos de las Interesa conocer si existen diferencias significativas entre los rendimientos de las  plantas tratadas con los dos tipos de fertilizante. (

 plantas tratadas con los dos tipos de fertilizante. (αα= 0,01).= 0,01). H

H00 ))µµ N N== µµ  NP NPóó µµ NN--µµ NP NP = 0= 0

H

(37)

Suponiendo que las variancias poblacionales son iguales, de las cuales S²

Suponiendo que las variancias poblacionales son iguales, de las cuales S² N Ny S²y S² NP NP sonson

estimaciones, se calcula la variancia amalgmada. Si el supuesto no fuera válido debería estimaciones, se calcula la variancia amalgmada. Si el supuesto no fuera válido debería verificarse primeramente la homogneidad de varinacia a través del test F, en particular  verificarse primeramente la homogneidad de varinacia a través del test F, en particular  si las muestras de las poblaciones no son iguales.

si las muestras de las poblaciones no son iguales.

Donde Donde

El valor tabulado de t, para 16 grados de libertad y nivel de significación del 1% es El valor tabulado de t, para 16 grados de libertad y nivel de significación del 1% es igual a

igual a ±± 2,921. Como el valor de la estadística calculada supera al valor tabulado, se2,921. Como el valor de la estadística calculada supera al valor tabulado, se rechas H

rechas H00. Conclusión existen diferencias estadísticamente significativas entre los. Conclusión existen diferencias estadísticamente significativas entre los

tratamientos, siendo superior el promedio por planta de naranjo, de aquellas que reciben tratamientos, siendo superior el promedio por planta de naranjo, de aquellas que reciben el tratamiento NP.

el tratamiento NP.

bb)

) sse

e ssuuppoonneen

n ddiissttiinnttoos

s ((

))

Los supuestos son los mismos, pero el

Los supuestos son los mismos, pero el

test estadístico

test estadístico

es:es:

estadística que

estadística que se distribuyse distribuye aproximadame aproximadamente como ente como una una t dt de Student e Student con con grados dgrados dee libertad que se obtienen mediante la fórmula de Satterwitte:

libertad que se obtienen mediante la fórmula de Satterwitte:

Gráficamente podemos representar la zona de aceptación y rechazo en la distribución t Gráficamente podemos representar la zona de aceptación y rechazo en la distribución t

si

Figure

Actualización...

Referencias

Actualización...

Related subjects :