Prueba de Hipótesis: Una
muestra para la Media
Objetivos de la Lección
• Conocer el signficado de una
prueba de hipótesis
• Conocer y aplicar los pasos
para realizar una prueba de
Introducción
• En una prueba de hipótesis se realizan
inferencias sobre la naturaleza de la
población basándose en los resultados
observados de una muestra
(subconjunto de la población).
• Ejemplo: Un investigador desea probar
su hipótesis que asevera que la
población de estudiantes de sicología
de primer año de tienen una
puntuación media (μ) de 455 en el SAT
Introducción
• El proceso de probar esta hipótesis
involucra determinar la diferencia entre
el valor de la población hipotetizado (μ)
y el valor de la media obtenido en la
muestra del estudio.
– Si esta diferencia es muy grande, se rechaza la hipótesis nula.
– Si esta diferencia es muy pequeña, no se rechaza la hipótesis nula.
Introducción
• La prueba de hipótesis involucra
determinar la magnitud de la diferencia
entre un valor observado de la medida
estadística aplicada en el estudio, en
este caso la media , y el valor
hipotetizado del parámetro de la
población (μ), y luego tomar una
decisión respecto a si esta magnitud
justifica el que se rechace la hipótesis
nula del estudio.
Ejemplo de Proceso Prueba
de Hipótesis
x
Población:
Valor hipotetizado μ = 455
Muestra:
Valor observado = 535
¿Cuál es la magnitud de la diferencia entre la
estadística observada y el parámetro hipotetizado?
Introducción
• Los pasos para realizar este proceso
son
cuatro
.
• En la lección a continuación se
demuestra cada uno de los 4 pasos
para probar una hipótesis.
Reflexión
• Una hipótesis es una conjetura sobre un fenómeno o un conjunto de hechos.
• Cuando se efectúa un estudio, la hipótesis provee el marco de referencia para la
investigación y delínea el problema y las variables bajo estudio.
• El investigador selecciona una muestra aleatoria de la población y recopila
Definición de Hipótesis
• Probar la hipótesis no significa que se
comprueba o desaprueba la conjetura del investigador, sino que se apoya o refuta la posibilidad de que sea cierta, o sea, la
sostenibilidad de la misma.
• Para la estadística inferencial, hipótesis significa: conjetura sobre uno o más
parámetros poblacionales.
Definición de términos
• La hipótesis nula se representa con el símbolo:
• La hipótesis del investigador se llama la hipótesis alterna y se representa con el siguiente símbolo:
• La hipótesis nula es la que establece que no existe diferencia entre los tratamientos de los grupos o no existe relación entre las variables.
• Ejemplo: ó ó 0
H
A H455
:
0H
H
0:
455
0
455
:
A
Reflexión
• La hipótesis nula se pone a prueba contra la hipótesis alterna.
• Tan pronto se determina la , se establece entonces la .
• La incluye todos los demás resultados que no incluye .
• En términos generales, aunque la especifica que no existe diferencia o no existe relación, el interés del investigador es que se rechace en favor de la .
Reflexión
• Después de establecer las hipótesis nula y alterna, el próximo paso es determinar
cuán diferente debe ser del parámetro . • Esto representará el criterio de rechazo/no
rechazo de .
• Veamos tres conceptos importantes antes de demostrar el proceso que se efectúa en este paso:
– Tipos de errores en pruebas de hipótesis – Nivel de significación
– Región de rechazo.
x
0
Tipos de Errores en la
Prueba de Hipótesis
• Cuando se decide rechazar o no
rechazar , hay cuatro posibles
situaciones:
– Se rechaza una hipótesis que es cierta
– No se rechaza una hipótesis que es cierta – No se rechaza una hipótesis que es falsa – Se rechaza una hipotesis que es falsa
0
Tipos de Errores en la
Prueba de Hipótesis
• Las situaciones anteriores se presentan en la tabla a continuación.
– Si la hipótesis es cierta y no se rechaza, se tomó la decisión correcta.
– Si la hipótesis es falsa y se rechaza, se tomó la decisión correcta.
– Si la hipótesis es falsa y no se rechaza, se comete un error – Si la hipótesis es cierta y se rechaza, se comete un error
Decisión Naturaleza de Hipótesis
es cierta es falsa Rechazar Error Tipo I Decisión Correcta No rechazar Decisión Correcta Error Tipo II
0
H H0
0
H
0
¿Cuál de los errores sería más
serio cometerlo?
• Suponga que pacientes de una enfermedad
maligna se asignan aleatoriamente a uno de dos grupos de tratamiento.
• A uno de los grupos se le administra un nuevo medicamento muy costoso y al otro se le
administra el medicamento tradicional.
• La que se pone a prueba es que no existe diferencia entre los efectos de ambos
tratamientos.
0
H
¿Cuál de los errores sería más
serio cometerlo?
• Piense en las consecuencias de cometer los dos tipos de errores en el ejemplo anterior.
– Si el nuevo medicamento no es más efectivo que el tradicional, pero se rechaza la hipótesis (error tipo I), el nuevo medicamento
comenzará a usarse siendo más costoso sin ser más efectivo.
– Si el nuevo medicamento es más efectivo que el tradicional, y no se rechaza la hipótesis
(error tipo II), el nuevo medicamento no se usará, pero tampoco disfrutará de sus
¿Cuáles serían las
consecuencias?
• La consecuencia de cometer el error tipo I sería que los pacientes incurrirían en un costo adicional por el nuevo medicamento aunque este no sería más efectivo que el tradicional
• La consecuencia de cometer el error tipo II sería que los pacientes no incurrirían en
gasto adicional por el nuevo medicamento, pero tampoco recibirían los beneficios
¿Cuál de los errores sería
más serio cometerlo?
• Ambos errores son serios y están sujetos al juicio individual.
• La situación específica dada en el
estudio determinará cuál de los tipos de errores sería más serio cometerlo.
• La prueba de hipótesis se concentra en el error tipo I ya que el investigador
aspira a rechazar la hipótesis nula para argumentar a favor de la hipótesis
Nivel de Significación
• Para determinar el criterio de rechazo de el investigador debe determinar el nivel de significación.
• El nivel de significación alfa se define como la probabilidad de cometer el error tipo I al probar una hipótesis nula.
• Los niveles de significación más comunes son 0.05 y 0.01. En este caso, el
investigador sabe que la decisión de rechazar la hipótesis nula podría ser
incorrecta en un 5% ó 1%, respectivamente.
0
Relación entre alfa y beta
• Para determinar la probabilidad de cometer el error tipo II , (no rechazar siendo falsa), no es tan fácil como con alfa . • El error tipo II se conoce como (beta) y
está relacionado al nivel de significación . • Si otros factores se mantienen constantes,
al aumentar de 0.5 a 0.10, decrece la probabilidad de cometer .
• Si se reduce de 0.5 a 0.01, aumenta .
0
Reflexión
• Cuando se va a determinar el nivel de
significación, el investigador debe considerar cuidadosamente las posibilidades de
cometer ambos errores.
• Si como consecuencia del estudio se harán cambios o gastos mayores, el investigador
deseará reducir la probabilidad de cometer el error I posiblemente a 0.01 o menos (0.005 ó 0.001) - decisión más conservadora.
• En otras situaciones puede ser menos
Región de Rechazo
• Después de determinar el nivel de
significación alfa se determina la
región de rechazo.
• La región de rechazo es la proporción
del área bajo la curva de una
distribución muestral que es
Ejemplo:
• En el ejemplo anterior, se sabe que la
distribución del SAT se comporta como
una distribución normal, por tanto, la
distribución muestral que se usará es la
distribución normal estándar.
• Además, se conoce la desviación
estándar que es 100.
• Se desea probar la hipótesis con un
alfa de 0.05.
455
:
0
H
H
A:
455
Ejemplo:
• En la Tabla C.1, libro de Hinkle, (o E.2B
provista por la profesora) de la curva normal estándar, bajo la columna de Area Beyond Z, se busca el valor de z donde se concentra una proporción o área de 0.05 (para una
cola) o de 0.025 (para dos colas).
• Antes de mostrar cómo se determina la región de rechazo para este ejemplo,
debemos explicar el concepto dos colas y una cola.
455
:
0
H
H
A:
455
Reflexión
• Cuando se considera la hipótesis alterna no direccional como en este ejemplo , la región de rechazo es de dos colas, ya que no hay una dirección específica en la curva normal.
• Cuando se considera la hipótesis alterna
direccional como se presentará más
adelante, ó , la región de rechazo es de una cola ya que la dirección en la curva normal es hacia el extremo izquierdo o hacia el extremo derecho.
) 455 :
(HA
) 455 :
Ejemplo:
• Según la Tabla C.1, para dos colas, la
proporción de 0.025 se concentra en un z = ±1.96
• La región de rechazo se ilustra en color rojo.
455
:
0
H
H
A:
455
05 . 0
1.96 -1.96
Reflexión
• La región de rechazo (sombreada en color rojo)
representa el área bajo la curva donde los valores que pudieran aparecer son inusuales o poco probables si la hipotesis nula fuera cierta.
• La región que no está sombreada representa la región de no rechazo ya que representa valores que son
más probables que aparezcan si la hipótesis nula fuera cierta.
1.96 -1.96
Reflexión
• Los valores de la muestra que caen en los puntos z correspondientes a la zona que demarca la región de rechazo (en este caso los que corresponden a un z = ± 1.96) se llaman los valores críticos.
1.96 -1.96
Reflexión
• Si asumimos que es cierta, entonces la región de rechazo reflejará valores de la media muestral que son: y
α/2=0.025 α/2=0.025
0
H
455 1.96 96
. 1
0.95
96 . 1
Reflexión
• Rechazar significa que la diferencia entre la media observada y la media hipotetizada es muy
grande como para atribuirla solo a la casualidad, o sea, a fluctuaciones casuales de la media.
• Sin embargo, hay una pequeña posibilidad de que la diferncia se deba a la casualidad y, al rechazar , podemos cometer el error tipo I.
• Como la probabilidad de que ocurra alfa es de 0.05, decidimos que por 1 de cada 20 (0.05), vale la pena tomarse el riesgo y sostenerse en la decisión.
• El resultado, entonces, es que la media muestral es significativamente diferente de la media
hipotetizada a un nivel de significación de 0.05.
0
H
x
0
H
Reflexión
• Cuando la media muestral es significativamente
diferente de la media hipotetizada se dice que la
diferencia fue significativa. • Cuidado:
– Cuando se rechaza la , no es correcto concluir que la probabilidad de que sea falsa es de 0.95. – Si fallamos en rechazar la , no es correcto
concluir que la probabilidad de que sea cierta es de 0.95.
• Se alerta a no concluir estas aseveraciones
incorrectas sobre la probabilidad ya que podría
provocar que se establecieran conclusiones erróneas.
Determinar la prueba de
la medida estadística
• Después de determinar las hipótesis y
establecer el criterio para rechazar la
hipótesis nula, el próximo paso es
determinar la medida estadística que
se pone a prueba.
• En este caso, la medida estadística
que se pone a prueba es la
media
Ejemplo:
• En el ejemplo que se ha trabajado en esta lección tenemos lo sguiente:
– La media hipotetizada de la población es 455. – La media observada de la muestra es 535. – La desviación estándar de la población es 100.
(Esta es la desviación que corresponde a la prueba de SAT.)
– El tamaño de n de esta muestra es 144.
• Para calcular la prueba de la media se necesita convertir a una puntuación z
usando la fórmula a continuación:
x
x
Reflexión:
• Observe que en la fórmula anterior se determina cuán diferente la media de la muestra es de la media poblacional , esto es, el número de
unidades de desviaciones estándar que la media observada de la muestra se desvía de la media hipotetizada de la población.
• Mediante esta fórmula se determina la diferencia entre ambas medias en términos de la distribución
z.
• Para determinar el error estándar de la media se aplica la siguiente fórmula:
x
x
x z
x
x
n
Continuación de Ejemplo:
• Para determinar la prueba de la media,
determinamos primero el error estándar de la media :
• Ahora, podemos hallar z:
Reflexión:
• El valor obtenido de z = 9.60 es el paso que se conoce como el paso #3 de
calcular la prueba de la medida
estadística, que en este caso fue la media.
Decidir sobre el rechazo o
no rechazo de
• En el paso anterior se obtuvo un z = 9.60. • Ahora hay que determinar si este valor
encontrado cae en la región de rechazo o en la de no rechazo.
0
• En el paso anterior se obtuvo un z = +9.60.
• Ahora hay que determinar si este valor encontrado cae en la región de rechazo o en la de no rechazo.
• +9.60 cae en la región de rechazo ya que excede el valor crítico de z = +1.96.
α/2=0.025 α/2=0.025
455 1.96 96
. 1
0.95
0
H
Decidir sobre el rechazo o no
rechazo de
Significado de los
resultados encontrados
• Como +9.60 excede el valor crítico de
+1.96, la probabilidad de que la media
observada
haya ocurrido por
casualidad, si la hipótesis nula es
cierta
, es menor que 0.05.
• Esto se escribe en símbolos
matemáticos de la siguiente manera:
p < 0.05.
535
x
Significado de los
resultados encontrados
• Los resultados obtenidos muestran
que la media de la muestra
observada es significativamente
diferente de la media poblacional
hipotetizada
a un nivel de
significación de 0.05.
• Por tanto, se rechaza la hipótesis nula
y se concluye que la media
poblacional del SAT no es igual a 455.
535
x
Significado de los
resultados encontrados
• Al rechazar la hipótesis nula estamos
diciendo que la diferencia entre la
Otro ejemplo:
• Suponga que en el mismo ejemplo
anterior se hubiera observado una
media de 465 en vez de 535.
• Al calcular la prueba de la media
obtendríamos lo siguiente:
20 . 1 33
. 8
10 33
. 8
455 465
x
Reflexión
• En este caso un z = +1.20 cae en la zona de no
rechazo ya que la prueba de la media no excede el valor crítico.
• Esto significa que la media observada de 465 no es suficientemente diferente de la media hipotetizada.
α/2=0.025 α/2=0.025
455 1.96 96
. 1
Reflexión
• Si la media observada no es suficientemente diferente de la media hipotetizada, entonces podemos atribuir las diferencias no
significativas al error de muestreo, o sea a la casualidad, a las fluctuaciones casuales de la muestra.
• En este caso la probabilidad de que la media muestral de 465 aparezca por
casualidad es mayor que 0.05, o sea, p > 0.05.
Introducción
• En el ejemplo del SAT anterior se probó la hipótesis nula que decía:
• La hipótesis alterna de este ejemplo era no-direccional ya que no establecía una
dirección particular,o sea, ni menor ni mayor que un valor dado:
455
:
0
H
455
:
A
Introducción
• Suponga que el investigador tiene
información sobre la variable que puede anticipar una dirección específica, o
suponga que el investigador está interesado en probar una sola dirección de los
resultados.
• En este caso, la hipótesis alterna del
investigador sería direccional, por ejemplo:
455
:
A
Hipótesis Alterna Direccional
• Una hipótesis alterna direccional es aquella que establece que el parámetro es mayor que, o menor que, un valor hipotetizado.
• En este caso se pone a prueba la hipótesis nula contra la hipótesis alterna direccional:
455
:
A
H
455
:
0
Hipótesis Nula de una Alterna
Direccional
• Algunos autores establecen que la hipótesis nula para una hipótesis alterna direccional debe cubrir todas las posibilidades, es por esto que la escribirían de la siguiente
manera:
• Sin embargo, aún escribiendo la hipótesis nula de la manera anterior, la hipótesis que se prueba es siempre ya que se usa el valor 455 como la media de la
Prueba de Una Cola
• Cuando la hipótesis alterna es direccional la prueba de hipótesis se llama de una cola,
porque se busca en la zona de rechazo una sola cola de la curva de la distribución de z. • Los procedimientos para una prueba de
Ejemplo:
• Si se prueba la hipótesis direccional a un alfa (α) de 0.05, cuando se va a buscar en la Tabla C.1 (o E.2B) se busca el valor de z cuya proporción total es 0.05.
• En este caso, está entre dos valores:
• Esto significa que el z deseado está en el punto medio de ambas puntuaciones, o sea, 1.645. • Recordamos cómo se obtiene el punto medio:
Puntuación z Área
1.64 0.0505 1.65 0.0495
0.05 = 0.0500 Está entre medio de ambas 645 . 1 2 65 . 1 64 . 1 Observe que el valor crítico de z cambia a
Prueba de una cola:
• Si el ejemplo del SAT anterior fuera direccional con la hipótesis alterna hipotetizando que la media
poblacional es mayor que 455, la zona de rechazo con un alfa de 0.05 sería la parte sombreada en rojo:
455 :
A
H
455 :
0
H
05 . 0
α = 0.05
Prueba de una cola:
• Al calcular la prueba de la media para una media muestral observada de 535, tenemos:
• Como 9.60 cae en la zona de rechazo tendríamos que rechazar la hipótesis nula de este estudio.
α = 0.05
455 1.645
Reflexión
• Si rechazamos la hipótesis nula de este ejemplo, entonces se apoya la hipótesis alterna del investigador.
• Podríamos decir que:
• La probabilidad de que la media observada haya ocurrido por casualidad, si la hipótesis nula es cierta, es menor que 0.05 (p < 0.05).
Valores críticos más usados
• La tabla a continuación muestra los valores críticos más usados en las ciencias sociales y la educación:
Valores Críticos de la Prueba Estadística, Usando la Distribución Normal como Distribución Muestral
Nivel de Significación
Dos Colas
Nivel de Significación
Una Cola
Valor Crítico
de la Prueba Estadística
0.20 0.10 1.282
0.10 0.05 1.645
0.05 0.025 1.960
0.02 0.01 2.326
0.01 0.005 2.576
Prueba de Hipótesis
cuando se desconoce
la Varianza de la
Introducción
• Cuando en un estudio se conoce la varianza de la población (o la desviación estándar), se puede utilizar la Distribución Normal
(Distribución de z) como distribución muestral como se hizo en el ejemplo del SAT anterior. • Cuando se conoce la varianza, la distribución
de la media tiende a asemejarse a la
distribución normal, el valor hipotetizado de la media poblacional es μ y la desviación
estándar (error estándar de la media) es igual a .
2
Introducción
• Usualmente en un estudio no se conoce la varianza (ni la desviación estándar) de la población.
• En este caso, el investigador tiene que estimar la desviación estándar de la población usando la desviación estándar de la muestra s.
• También, se usa s para estimar el error estándar de la media (desviación estándar de la distribución muestral de la media).
• El error estándar de la media se calcula de la siguiente manera:
Distribución de t
• Cuando no se conoce la varianza de la población se usa la Distribución Student’s t en vez de la Distribución Normal.
• La Distribución de t, como popularmente se
conoce, fue creada por William Gosset en el siglo 20 quien la publicó en un libro usando el
seudónimo de Student.
• La distribución de t es tan conocida como la Normal, es simétrica con forma de campana y
usa la media como valor central de la distribución. La media es 0 y la desviación estándar es 1.
Distribución de t
• La distribución de t cambia según va cambiando el tamaño de la muestra n.
• Hay una distribución de t específica para cada tamaño de n.
• La distribución de t está fundamentada en el concepto de grados de libertad (df).
• El número de grados de libertad es un concepto matemático que expresa el número de
observaciones menos el número de restricciones que se tengan sobre las variables.
Distribución de t
• Cuando se aplica la distribución de t en un estudio se utiliza la tabla que ilustra esta distribución.
• En este caso, se utilizará la Tabla C.3 (libro de Hinkle).
• En esta distribución la media es 0 y la desviación estándar es 1.
• La Tabla C.3 ilustra los valores críticos de la distribución de t según el nivel de significación deseado para una y dos colas, y los grados de libertad indicados, según el tamaño de la
Ejemplo para aplicar prueba de t
• Suponga que a un director atlético de una universidad se le pide que investigue el reclamo general que asegura que los atletas no están ejecutando bien
académicamente en comparación con los demás estudiantes que no son atletas.
• Para esto, decide recopilar la información sobre los índices académicos (GPA) de una muestra de 20 atletas. (El índice
mínimo general de la universidad es 2.50)
Ejemplo para aplicar prueba de t
• Los resultados se muestran a continuación:
Continúa en la próxima pantalla.
GPA de muestra de 20 atletas
1.8 2.0 1.2 3.0
3.1 3.2 2.5 2.9
2.6 2.8 2.3 2.0
2.4 2.7 2.0 1.9
Ejemplo para aplicar prueba de t
• El director atlético calcula la media, y desviación estándar de esta muestra y obtiene lo siguiente:
• Ahora, el director atlético tiene la
información que necesita para probar la hipótesis generalizada sobre los atletas.
Paso #1: Establecer las hipótesis
• Como el reclamo general es que los
estudiantes atletas ejecutan menor que los demás estudiantes, la hipótesis nula y la hipótesis alterna son:
50
.
2
:
0
H
50
.
2
:
A
Paso #2: Establecer criterio de
rechazo
• Para determinar este criterio se determinan primero tres cosas:
• Nivel de significación
• Naturaleza de la hipótesis alterna
• Naturaleza de la distribución muestral a utilizar • Grados de libertad
• El nivel de significación para este ejemplo será 0.05. • Se probará la hipótesis nula contra una hipótesis
alterna direccional (una cola).
• Se utilizará la distribución de t como distribución
muestral (se desconoce la varianza de la población). • Como n es 20 los grados de libertad son:
Paso #2: Establecer criterio de
rechazo
• Ahora se busca en la Tabla C.3 y se obtiene que el valor crítico de t es 1.729.
• Como el valor hipotetizado es menor que la media, el valor crítico deseado es -1.729, o sea, en el extremo a la
izquierda de la curva
• La región de rechazo es la siguiente en color rojo:
α = 0.05
50 . 2 729
Paso #3: Calcular la prueba
estadística
• Para calcular la prueba estadística en una distribución de t se usa la siguiente fórmula:
• Para aplicar esta fórmula se necesita calcular primero . x s x t x s 12 . 0 20 54 . 0 n s s x Anteriormente se había calculado s = 0.54.
Paso #3: Calcular la prueba
estadística
• Ahora se puede calcular t:
• El valor de t hallado representa el número de errores estándar bajo el valor hipotetizado de la media poblacional (2.50) donde se
Paso #4: Decidir sobre el rechazo/no
rechazo de la hipótesis nula
• Como el valor de t encontrado de -0.42 cae en la
zona de no-rechazo, no se rechaza la hipótesis nula.
α = 0.05
50 . 2 729
. 1
Paso #4: Decidir sobre el rechazo/no
rechazo de la hipótesis nula
• La probabilidad que la media observada de 2.45 haya ocurrido por casualidad si la hipótesis nula es cierta, es mayor que 0.05 (p > 0.05).
α = 0.05
50 . 2 729
. 1
Paso #4: Decidir sobre el rechazo/no
rechazo de la hipótesis nula
• La diferencia entre la media muestral y la media poblacional hipotetizada no es suficiente como para atribuirlo a cualqueir otra cosa que no sea el error de muestreo.
α = 0.05
50 . 2 729
. 1
Significancia Estadística
• ¿Qué significa que un resultado sea
estadísticamente significativo?
• Técnicamente, significa que la diferencia
entre el parámetro poblacional hipotetizado y la correspondiente medida estadística
observada en la muestra es estadísticamente significativa si la probabilidad de la diferencia ocurrida por casualidad es menos que el
Significancia Estadística
• Pero, ¿cuán grande debe ser esta diferencia?
• Esto dependerá del alfa que se seleccione. • Hay que recordar el margen de error que se
decide tomar en alfa y beta para cometer los errores tipo I y tipo II.
• También, se debe considerar el tamaño de n
para obtener mayor precisión estadística.
Significancia Estadística
• En términos prácticos, ¿Que diferencia debe ser consideranda grande como para generar acciones correctivas?
• Por ejemplo, ¿qué se puede hacer con los
estudiantes atletas para ayudar a que aumenten su promedio?
• Esta pregunta no se puede contestar claramente con estadística.
• La estadística inferencial es una herramienta que ayuda a tomar decisiones. No es sustituto del
Significancia Estadística
• El problema se debe estudiar con
un conocimiento profundo del
contexto y un conocimiento
Referencia
• Hinkle, D., Wiersma, W., Jurs, S. (2003).
Applied statistics for the