1
SEMINARIO DE
INVESTIGACIÓN IV
ING. MARÍA TERESA CASTAÑEDA GALVIS
MAESTRIA
2
3
Deducir los valores reales que
toma una variable en una
población, a partir de los valores
que toma esa variable en una
muestra aleatoria de la misma.
4
TIPOS DE ERROR EN LA
INFERENCIA ESTADISTICA
REALIDAD
RESULTADO DEL
JUICIO INOCENTE CULPABLE
INOCENTE ACIERTO ERROR TIPO II
CULPABLE ERROR TIPO I ACIERTO
Cuando se juzga a una persona, puede declarársele inocente o culpable. Independientemente del resultado del juicio, la persona será inocente o culpable de verdad.
5
Una manera de hacer inferencia es
haciendo una afirmación acerca
del valor que el parámetro de la
población bajo estudio puede
tomar.
Esta afirmación puede estar
basada en alguna creencia o
experiencia pasada que será
contrastada
con la evidencia que
nosotros obtengamos a través de la
información contenida en la
muestra
.
Esto es a lo que llamamos
Prueba de Hipótesis
6
-Hipótesis Nula
-Hipótesis Alternativa
-Estadística de Prueba
-Región de Rechazo
PRUEBA DE HIPÓTESIS
7
PRUEBA DE HIPÓTESIS
Ho: Hipótesis nula. Denotada como Ho siempre especifica
un solo valor del parámetro de la población si la hipótesis es simple o un conjunto de valores si es compuesta (es lo que queremos desacreditar)
H1: Hipótesis Alterna. Hipótesis de investigación denotada como H1 es la
que responde nuestra pregunta, la que se establece en base a la evidencia que tenemos. Puede tener cuatro formas:
Ejemplo: ¿Se puede concluir que la media de una población es diferente de 50? Ho: μ= 50
8
Nivel de significación α: Es la probabilidad de rechazar
una hipótesis nula.
Los valores que se encuentran con mayor frecuencia son: 0,01; 0,05 y 0,1. valor-p
PRUEBA DE HIPÓTESIS
La Región de Rechazo es el conjunto de valores tales que si la prueba
estadística cae dentro de este rango, decidimos rechazar la Hipótesis Nula.
Conclusiones de una Prueba de Hipótesis: Si rechazamos la Hipótesis
Nula, concluimos que “hay suficiente evidencia estadística para inferir
que la hipótesis nula es falsa” Si no rechazamos la Hipótesis Nula,
9
A tener en cuenta en prueba de hipótesis
• Media poblacional
• Si el tamaño de muestra es
suficientemente grande (n >30), • a ) C u a n d o l a v a r i a n z a
poblacional sea conocida, use la distribución normal, usando el valor de Z tal que Z à N(0, 1)
• b ) C u a n d o l a v a r i a n z a
poblacional sea desconocida, use el estimador y con ello calcule Z tal que Z à N(0, 1)
• Si el tamaño de muestra es
pequeño; es decir, si n < 30 use la distribución t de Student, usando a l a v a r i a n z a m u e s t r a l c o m o e s t i m a d o r d e l a v a r i a n z a poblacional, cuando ésta es desconocida.
A tener en cuenta en prueba de hipótesis
• Diferencia de medias en dos
poblaciones
• a) Con varianzas poblacionales
conocidas: Use la distribución normal con el Z apropiado para la diferencia de medias, tal que Z à N(0, 1)
• b) Con varianzas poblacionales
desconocidas:
• i) Cuando la suma de los
tamaños de muestras, digamos (n = n1 + n2) sea no mayor a 30: Use la distribución t de Student estimando apropiadamente la varianza de la diferencia de m e d i a s m u e s t r a l e s . E n e l t calculado usar como grados de libertad a n1 + n2 – 2. Aquí debe distinguir los estimadores de la varianza de la diferencia de medias cuando las varianza son iguales o diferentes.
• ii) Cuando la suma de los
tamaños de las muestras es mayor o igual a 30: Use la distribución n o r m a l , c a l c u l a n d o e l Z apropiadamente tal que Z à N(0, 1).
A tener en cuenta en prueba de hipótesis
• Varianza poblacional
• Use la distribución Chi – Cuadrado
ya que suponemos que tanto la v a r i a n z a c o m o l a m e d i a p o b l a c i o n a l e s d e b e n s e r desconocidos. Para ello use sus respectivos estimadores puntuales.
• Razón de varianzas
• Use la distribución F de Fisher
e m p l e a n d o l o s e s t i m a d o r e s correspondientes a la media y varianza poblacionales con (n-1) y (m-1) grados de libertad en el n u m e r a d o r y d e n o m i n a d o r, respectivamente.
• Proporción poblacional
• U s e l a d i s t r i b u c i ó n n o r m a l
calculando el Z mediante los estimadores de la proporción poblacional tal que Z à N(0, 1)
• Diferencia de proporciones
• Como en el caso anterior, use Z
10
Además de ingresar los datos anteriores debe activar la casilla <Perform hypotesis test> y en la ventana de opciones debe seleccionar la forma de la hipótesis alternativa (less tan, not equal o greater tan).
El “p – value” es el nivel de significación calculado a partir de a , que permite:
Rechazar la Hipótesis Nula si el valor de p es muy pequeño (tiende a 0 digamos, el Mintab usa como límite); esto es, que sea menor a 0.05
No rechazar la Hipótesis Nula, si el valor de p es mayor que 0.05
11
PRUEBA DE HIPÓTESIS
(Medias Poblacionales)
Suponga que la siguiente data corresponde a los ingresos salariales de 50 trabajadores durante una semana en el cual se sabe que el ingreso promedio es de 469.200 pesos con una desviación estándar de 24.840 pesos
454.020 474.720 515.430 497.490 484.380 462.300 478.860 429.870 475.410 474.030 468.510 458.850 489.900 511.290 487.140 504.390 414.000 461.610 496.800 500.250 489.900 497.490 438.150 462.300 477.480 435.390 485.760 442.290 431.250 447.120 457.470 425.730 475.410 471.270 465.060 451.260 503.010 475.410 483.000 467.820 453.330 451.260 489.900 440.220 467.820 442.980 424.350 425.730 462.300 467.820
Si el Sindicato de Trabajadores exige un incremento de salarios afirmando que el promedio de los mismos es inferior al valor que le corresponde por el incremento en el costo de vida. Tendrá razón el Sindicato?
N >30
Media Poblacional y desviación estándar conocida
12
Hipótesis Nula la afirmación (Ho):
“El ingreso promedio es igual a
469.200 pesos”; es decir
μ
o =
469.200.
Supondremos que la Hipótesis
Alternativa (H1)
consiste en
afirmar que “El ingreso promedio
es menor que 469.200 pesos”; es
decir,
μ
1 <
μ
o .
13
EJERCICIO_1
14
Si las varianzas son desconocidas se utilizan sus estimadores; es decir, las varianzas de la muestra.
Si n1 + n2 < 30, se usará la distribución t de Student con n1+ n2 – 2 grados de libertad.
Los tipos de Prueba de Hipótesis que se pueden plantear serán
PRUEBA DE HIPÓTESIS
15
Supongamos que el Director de la Oficina de Admisión
afirma que el rendimiento promedio (Prom.Gral.) de los alumnos de Biología, provenientes de los colegios privados es mayor que el
rendimiento promedio de los alumnos de Biología , provenientes de los
colegios públicos. Abra el archivo Ingre99.Mtw para comprobar esta afirmación.
Sea H1 : “El rendimiento promedio de los alumnos de Biología, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biología , provenientes de los colegios públicos”.
Debemos probar: Ho: m priv = m pub H1: m priv > m pub
16
En la base de datos Ingre99.Mtw
tenemos 120 datos, de los
cuales 23
corresponden a la Facultad de
Biología,
provenientes de colegios privados y públicos. Vamos a extraer de esta hoja sólo los alumnos que ingresaron a Biología.
18 EJERCICIO_2
Puesto que el p – value es mayor que el nivel de significación 0.05, no
se rechaza Ho y se concluye de que no hay evidencia suficiente para
19
PRUEBA DE HIPÓTESIS (Caso de la
Medias de Datos Pareados)
20
Por ejemplo, cuando a una muestra de n pacientes se les evalúa su nivel de colesterol antes de aplicarles algún medicamento y luego se vuelve a evaluarlos después de la aplicación del medicamento.
A un grupo de trabajadores de una empresa se les somete a dos métodos de capacitación para medir la eficacia de los dos métodos. En ambos ejemplos se trata de la misma muestra
PRUEBA DE HIPÓTESIS (Caso de la
Medias de Datos Pareados)
21
EJERCICIO_3
Una empresa fabricante de zapatos desea comparar dos materiales, A y B, para utilizar en las suelas de los zapatos para niños varones. En este ejemplo, cada uno de diez niños en un estudio usó un par especial de zapatos con la suela de un zapato hecha con el material A y con la suela del otro zapato hecha con el material B. El tipo de suela fue asignado de forma aleatoria para explicar las diferencias sistemáticas en el desgaste entre el pie izquierdo y el derecho. Después de tres meses, los zapatos se miden para su uso. HOJA DE TRABAJO eja_estad.mtv
µD =µP-µSP = 0
H0 : mD = 0 (No existe diferencia significativa en el rendimiento de las dos pruebas)
H1: mD ≠ 0 (Sí existe diferencia significativa en el rendimiento de las dos pruebas)
IC y Prueba T pareada: Mat-A, Mat-B
T pareada para Mat-A - Mat-B
Error
estándar
de la
N Media Desv.Est. media
Mat-A 10 10.630 2.451 0.775 Mat-B 10 11.040 2.518 0.796 Diferencia 10 -0.410 0.387 0.122
IC de 95% para la diferencia media:: (-0.687, -0.133)
Prueba t de diferencia media = 0 (vs. no = 0): Valor T = -3.35
Valor P = 0.009
Conclusión:
22
PRUEBA DE HIPÓTESIS
(Proporción Poblacional)
Test and Confidence Interval for One Proportion
Test of p = 0.55 vs p > 0.55
Success = Públ
Exact
Variable X N Sample p 95.0 % CI P-Value Colegio 53 120 0.441667 (0.351108, 0.535173) 0.993
BASE DE DATOS (IGRE99). Analicemos la variable: “Colegio
de procedencia”.
De los datos anteriores se sabe que el 55% de los alumnos provienen de Colegios públicos.
Si el Director del Colegio afirmaba que para este año este porcentaje se incrementaría tenia
razón esta autoridad?
Como se puede ver, los alumnos ingresantes provienen de colegios Públicos y Privados.
Ho: Po = 0.55 H1: Pcp > Po
“Puesto que este valor es bastante mayor que 0.05, entonces no es cierto que el porcentaje de
ingresantes de los colegios públicos se hayan incrementado.”
23
PRUEBA DE HIPÓTESIS
Diferencia Proporciones)
En Minitab existe tres formas diferentes de realizar una prueba de hipótesis para una diferencia de proporciones muestrales:
Se usa la primera opción si los datos se encuentran en dos columnas:
En la primera se encuentran los éxitos y fracasos(recuerde que el problema de proporciones deriva de poblaciones binomiales y el muestreo realizado
constituye n ensayos de Bernoulli) y En la segunda se identifica al grupo que pertenece cada uno.
Se usa la segunda opción cuando cada una de las muestras ocupan una columna diferente, en el cual se encuentran los éxitos y fracasos.
24
Con relación a los datos de los ingresantes Ingre99.Mtw el Director del Departamento de Admisión afirma que hay diferencia entre la proporción de varones provenientes de colegios privados que aquellos que provienen de colegios públicos.
Solución. Luego de abrir la hoja Ingre99.mtw. La columna C2 contiene la variable Sexo y la columna C3 contiene la variable Colegio.
Sea P(vcpriv) la proporción de varones provenientes de colegios privados.
Sea P(vcpub) la proporción de varones provenientes de colegios públicos.
Sea p1 - p2 la diferencia proporcional de varones de los colegios privados y públicos.
Deseamos encontrar el Intervalo de confianza del 95% para p1 - p2 y realizar una prueba de hipótesis del tipo.
H0 : P(vcpriv) = P(vcpub) H1: P(vcpriv) ≠ P(vcpub)
25
Puesto que el p-value es mayor que 0.05 entonces aceptamos la hipótesis nula; es decir, no existe suficiente evidencia para afirmar de que los porcentajes de colegios de procedencia de ingresantes varones sean diferentes.
26
PRUEBA DE HIPÓTESIS
(Varianza Poblacional)
Con frecuencia nuestro interés está en el parámetro de variabilidad, en cuyo caso podemos hacer las pruebas sobre un valor específico de la varianza poblacional. Para ello nos basamos en el estimador del estimador de σ 2 que es una χ 2 con n-1 grados de libertad.
La varianza poblacional también puede ser estimada a través de su estimador que será la varianza muestral s².
27
Usted es un inspector de control de calidad en una fábrica que produce repuestos de alta precisión para motores de aeronaves, incluyendo un pasador de metal que debe medir 15 pulgadas de longitud. Las leyes de seguridad establecen que la varianza de la longitud de los pasadores no debe ser mayor que 0.001 pulgadas2.
Análisis anteriores determinaron que la longitud del pasador está normalmente distribuida. Usted recolecta una muestra de 100 pasadores y mide su longitud para realizar una prueba de hipótesis y crear un intervalo de confianza para la varianza de la población.
Abra la hoja de trabajo AVIÓNPIN.MTW.
2 Elija Estadísticas > Estadísticas básicas > 1 varianza. 3 En Datos, elija Muestras en columnas.
4 En Columnas, ingrese 'Longitud pin'.
5 Marque Realizar prueba de hipótesisy elija Varianza hipotética. 6 En Valor, ingrese 0.001.
7 Haga clic en Opciones. En Hipótesis alterna, elija menor que. 8 Haga clic en Aceptar en cada cuadro de diálogo.
28
EJERCICIO_6
Estadísticas
Variable N Desv.Est. Varianza Longitud pin 100 0.0267 0.000715
95% Intervalos de confianza unilaterales
Límite Límite
superior superior
para para
Variable Método Desv.Est. varianza Longitud pin Chi-cuadrada 0.0303 0.000919
Bonett 0.0296 0.000878
Pruebas
Estadística
Variable Método de prueba GL Valor P Longitud pin Chi-cuadrada 70.77 99 0.014
Bonett — — 0.004
29
ANOVA
30
Tomando los datos de la hoja Ingre99.Mtw, determine si la varianza del rendimiento de los alumnos provenientes de colegios privados es igual a la varianza del rendimiento de los alumnos provenientes de colegios públicos.
Este es un problema de comparación de varianzas.
Por la pregunta deducimos que el rendimiento será “idéntico” o mejor : “Homogéneo” si el cociente de la variabilidad del rendimiento en cada tipo de colegio es aproximadamente igual a 1.
PRUEBA DE HIPÓTESIS
31
EJERCICIO_7
Puesto que el p – value es mayor que 0.05 aceptamos la Hipótesis de igualdad de varianzas.