1
Estadística General
Clase 9
Estimación de parámetros
Adriana Pérez
2
Estimación
Las poblaciones son descriptas mediante sus parámetros
Si los valores de los parámetros son desconocidos, podemos estimarlos en base a muestras y
esperamos que sean una buena aproximación al valor exacto
Pero recordemos que los estimadores son variables aleatorias (cambian de muestra en muestra), por lo que se puede estudiar su distribución de probabilidades (distribución muestral)
3
Estimación de un parámetro
estimación puntual: se calcula un valor simple a
partir de una muestra a fin de estimar el parámetro.
No hay medida de cuán buena es la estimación
Si el promedio de una población es desconocido, se lo estima puntualmente mediante el promedio de una muestra
Si el desvío estándar de una población es
desconocido, se lo estima puntualmente mediante el desvío estándar de una muestra s
Si la proporción de éxitos de una población es
desconocida, se la estima puntualmente mediante la proporción de éxitos muestral p
x
4
Monitoreos Atmosféricos en ciudades
El monóxido de carbono (CO) es un contaminante atmosférico urbano típico de combustión de
combustibles fósiles. Lo emiten calderas, hornos, incineraciones y quemas en general, pero la
carga urbana habitual más importante se debe a los vehículos, principalmente a los nafteros.
Se mide
continuamente (en ppm) y se informan los promedios: cada hora, cada 8 hs,
diarios, mensuales
5
Estimación de la concentración promedio de CO
En una ciudad se registró la concentración de CO en 20 puntos elegidos al azar entre las 8 y las 10 de la mañana
Se obtuvo un promedio de 3,3 ppm
Se desea saber, aproximadamente, cuál es la concentración promedio de CO en la ciudad
Por mediciones anteriores se sabe que el desvío estándar es de 1,5 ppm
Variable aleatoria
Población
Parámetro
Muestra
Estimador
6
¿Qué tan buena es la estimación?
El error muestral
es la distancia entre el estimador puntual y el verdadero valor del parámetro. Es decir:
EM = estimador - parámetro
Posee las mismas unidades que la variable en estudio
Es el error que surge por estudiar a una parte de la población
Se sabe que disminuye cuando aumenta el tamaño de la muestra
Mide la precisión en la estimación
7
El error muestral: ¿cuánto vale?
EM = estimador - parámetro
Su magnitud es desconocida ya que el valor del parámetro es desconocido
Si la muestra es aleatoria es posible dar una
estimación del mismo con una cierta probabilidad, denominada nivel de confianza (simbolizada como 1-)
Para eso es necesario conocer la distribución de probabilidades (distribución muestral) del
estimador
8
¿Cómo calcular el error muestral en la estimación de µ?
n µ z x
< <
) 1 ( z
2Z z
1 2P
< <
) 1
(
2z
1 2n µ z x
P
< <
) 1
( z
/2n x z
1 /2n P
EM
9
Volviendo al ejemplo…
¿Y entre qué valores esperaría que se encuentra la media poblacional ?
n < EM < z n ) 1 z
(
P / 2 1 / 2
n z
EM
10
Intervalo de confianza para µ
EM EM x
n z
x
LS µ
LI P
2 : IC del Amplitud
1
) (
2
<
<
< <
) 1
( z
/2n x z
1 /2n P
1
< < +
+
) 1
( x z
2n µ x z
1 2n P
LI LS
Estimación por intervalo de confianza: se calculan dos números para crear un rango de valores que se espera contenga al parámetro con una cierta probabilidad o nivel de confianza
) 1
confianza(
de nivel sup)
Lím parámetro
inf Límite (
P < <
11
En el ejemplo:
Una vez construido el IC, ya no se habla de probabilidad sino de confianza
0 25 50 75 12 100 57
58 59 60 61 62 63
Media
Intervalos de confianza para la media
Cobertura: 95,00%
Nivel de confianza
es – a priori - la probabilidad de que el intervalo contenga al parámetro
Se lo simboliza como 1- α
Lo fija el investigador. Valores típicos de 1- α =0,90 ; 0,95;
0,99
α es la probabilidad de error (no contener al parámetro) y se la denomina también riesgo
Es el porcentaje de intervalos que se espera contengan al parámetro (para ese tamaño de muestra)
13
¿ Cómo hacer más precisa una estimación?
EM x
n z
x
1 )
LS µ
LI ( P
2 1
<
<
Para disminuir el error muestral (mayor precisión):
Tamaño de la muestra
Nivel de confianza
Desvío estándar
Nivel de
confianza z/2 0.90 1.645 0.95 1.96 0.99 2.576
14
Supuestos
Para que las estimaciones sean confiables se debe cumplir:
Muestreo aleatorio probabilístico
La variable x debe tener distribución normal; en caso contrario, el tamaño de la muestra debe ser lo
suficientemente grande
El desvío estándar poblacional debe ser conocido
15
Otro caso
Campo de cría de guanacos en semicautiverio ubicado en Ing. Jacobacci, Río Negro
Rodeo de 500 animales
Interesa conocer la calidad de la lana para enfocar procesos de selección de animales
En una muestra de 30 guanacos se midió el diámetro de la fibra
Se desea estimar el diámetro promedio de la fibra
Variable aleatoria
Población
Parámetro
Muestra
Estimador
16
Estimación de un promedio con desvío poblacional desconocido
Es la situación más habitual
Como se desconoce se utiliza su estimador s mayor incertidumbre
No es correcto utilizar la distribución normal para
Se demuestra que la media muestral en estos casos
ajusta a una distribución conocida como t de Student, que posee mayor dispersión que la normal estándar
n µ z x
n s
µ tGL x
17
Distribución t de Student
Tiene forma acampanada como la normal estándar, pero su dispersión es mayor (es más aplanada). Esto se debe a que al desconocer hay mayor incertidumbre
Es simétrica con respecto al cero, es decir que µ=0
No se trata de una única curva, sino de infinitas curvas, cada una caracterizada por un parámetro denominado grados de libertad (GL)
Los GL indican la cantidad de datos independientes, es decir el número de observaciones de la variable menos el número de restricciones que verifican
Los GL dependen del tamaño
de la muestra y en este caso valen n-1
A medida que aumentan los GL
más se asemeja a la normal estándar (porque s converge a )
18
Intervalo de confianza para µ cuando el desvío poblacional es desconocido
Con conocido
Con desconocido
EM x
n s
t x
LS µ
LI P
n
<
<
1, 2
1 )
(
< < +
+
) 1
( x z
2n µ x z
1 2n P
< < +
+ t
s n x t
s n ) 1
x (
P
n 1,1 / 2 n 1,1 /2LI LS
19
Supuestos
Para que las estimaciones sean confiables se debe cumplir:
Muestreo aleatorio probabilístico
La variable x debe tener distribución normal; en caso contrario, el tamaño de la muestra debe ser lo
suficientemente grande
20
Intervalos de confianza:
interpretación
Holopterus chilensis es un coleóptero barrenador que infesta a
Nothofagus obliqua (roble pellín). Se extrajo una muestra aleatoria de 30 ejemplares en el lago Lacar, con la que se estimó la longitud corporal promedio, obteniéndose
IC95 : 40-45 mm
1. El 95% de los ejemplares mide entre 40 y 45 mm.
2. La longitud corporal promedio de los ejemplares del lago Lacar se encuentra entre 40 y 45 mm.
3. El promedio de la especie se encuentra entre 40 y 45 mm.
4. El 95% de las muestras de 30 ejemplares tiene un promedio entre 40 y 45 mm.
5. Si se aumenta la confianza el intervalo de confianza se achica (es más preciso)
6. Si se quiere achicar el intervalo de confianza se debería aumentar el tamaño de la muestra
Estadística General
Clase 10
Pruebas de hipótesis
para una media
22
¿Qué es una prueba de hipótesis?
Es un proceso para determinar la validez de una aseveración hecha sobre la población
basándose en evidencia muestral
La afirmación sobre la población se efectúa a nivel de sus parámetros:
Media
Diferencia de medias
etc
La prueba de hipótesis es un procedimiento de toma de decisiones, relacionada principalmente con la elección de una acción entre dos
conjuntos posibles de valores del parámetro
23
Definiciones
Hipótesis de investigación: denotada por Hi expresa el objetivo del investigador.
Hipótesis estadísticas:
La hipótesis nula, denotada por Ho, es el status quo o estado actual (lo que se cree hasta el momento) o la que asegura que no hay diferencias en la población. Es la hipótesis de no efecto.
La hipótesis alternativa, denotada por H1, es lo opuesto a la hipótesis nula, el cambio en la población que el investigador espera sea verdadero.
Notas:
Las hipótesis nula y alternativa se refieren ambas a la misma población
Deben plantearse antes de obtener la muestra
24
Definiendo las Hipótesis
¿La incorporación de vitamina E a la dieta es efectiva?
Se desea determinar la efectividad de incorporar vitamina E a la dieta de cerdos a fin de mejorar el aumento de peso, que actualmente es en promedio de 100g/día.
Ho :
H1 :
Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:
Ho :
H1 :
25
Definiendo las Hipótesis
¿El lote de glifosato cumple con la especificación?
El glifosato es un herbicida post-emergente de amplio espectro, no selectivo, ampliamente utilizado en nuestro país
Se comercializa bajo la forma de sal de isopropilamina a una concentración de 48 % P/V de la sal
Los lotes se controlan a fin de determinar si cumplen con la especificación
Ho :
H1 :
Usando parámetros:
Ho :
H1 :
26
Definiendo las Hipótesis
¿El glifosato retarda el desarrollo embrionario de anuros?
Los embriones de anfibios de la especie Xenopus laevis son un modelo tradicional para el estudio del desarrollo embriológico.
Tienen una longitud media de 1,2 mm
Experimento: Se incubaron embriones por inmersión en el herbicida comercial conteniendo glifosato en diluciones 1/5000.
La dilución corresponde a dosis de glifosato entre 50 y 1540 veces inferior de las usadas en el campo. Mayores dosis matan los embriones
A las tres semanas se
estudiaron los embriones a fin de detectar retardo en el
crecimiento y malformaciones
27
Definiendo las Hipótesis
¿El glifosato retarda el desarrollo embrionario de anuros?
Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:
Ho :
H1 :
Ho :
H1 :
28
Pasos en una Prueba de hipótesis:
1. Planteo de las hipótesis
1.
Establecer la hipótesis nula en términos de igualdad
Ho: =
0
0
02.
Establecer la hipótesis alternativa, que puede hacerse de tres maneras,
dependiendo del interés del investigador H
1:
0 <
0 >
0Prueba bilateral unilateral izq unilateral der
29
Resumiendo
Se plantean dos hipótesis o aseveraciones sobre valores de parámetros poblacionales
Las dos hipótesis son incompatibles
Las dos hipótesis se refieren a la misma población
¿Cuál de las dos es válida?
Se debe decidir en base a evidencia muestral
30
¿La incorporación de vitamina E a la dieta es efectiva?
Ho: 100g/día
H1 : > 100g/día
30 cerdos fueron alimentados con la dieta tradicional más el agregado de vitamina E
La ganancia de peso fue de 110 g/día en promedio
Se conoce que el desvío estándar de la ganancia de peso de los cerdos es de 25 g/día
día /
g
25
30 n
día /
g 110 x
31
Lógica de las pruebas de hipótesis
1. Suponemos que Ho es verdadera
2. Describimos el comportamiento teórico del estimador bajo Ho (distribución de probabilidades del estimador o
distribución muestral)
día /
g
100
? x de ón distribuci
¿
PROMEDIO =100
DESVÍO STD =25 PROMEDIO =100
ERROR STD =25/√30=4,56
µ
xx
25 63 100 138 175
X=ganancia en peso de cerdos 0,00
0,00 0,01 0,01 0,02
Densidad
DISTRIBUCION DE X
25 50 75 100 125 150 175
ganancia en peso promedio de 30 cerdos 0,00
0,02 0,04 0,07 0,09
Densidad
DISTRIBUCION DE MUESTRAS
SUPONIENDO Ho VERDADERA
32
Lógica de las pruebas de hipótesis
3. Decidimos la dirección de los extremos, es decir la ubicación de los valores muestrales que nos llevarían a sospechar de Ho
4. Muestreamos y calculamos el estimador
5. Calculamos la probabilidad de obtener un estimador como el obtenido en nuestra muestra o aún más extremo. Tal
probabilidad se conoce como “p de la prueba” o “p-valor”.
75 100 125
0,00 0,02 0,04 0,07 0,09
Densidad
DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD Ho: 100g/día
H1: > 100g/día día
/ g 110 x
75 100 125
0,00 0,02 0,04 0,07 0,09
Densidad
DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD
110 ) x
( P
n
µ z x
/
33
Entonces…
Si el aumento de peso de cerdos suplementados con vitamina E fuese el mismo peso promedio que sin vit E (Ho verdadera, = 100 g/día) ... el resultado muestral
observado o uno aún más extremo sería improbable (p- valor = 0,0145)
Sin embargo ocurrió.
75 100 125
ganancia en peso promedio de 30 cerdos 0,00
0,02 0,04 0,07 0,09
Densidad
DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD
34
Lógica de las pruebas de hipótesis
6. Si el p-valor es bajo, se interpreta que la muestra es “rara” o “inusual” si Ho fuese
realmente verdadera. La muestra se contradice con Ho la hipótesis nula es rechazada.
7. Si el p-valor no es bajo, se interpreta que la
muestra apoya a Ho, no la contradice no hay evidencias contra la hipótesis nula, por lo que no es rechazada.
A menor valor de “p” , menor es la
credibilidad sobre la hipótesis de “no efecto”
35
Lógica de las pruebas de hipótesis
Condición de rechazo de Ho: P-valor será considerado pequeño si resulta menor a una probabilidad fijada a priori (o nivel de
significación) simbolizada como
Los valores más usuales de son 0,01; 0,05 y 0,10.
Alternativamente puede fijarse la condición de rechazo comparando un cierto valor crítico del estimador (que depende del nivel de
significación) con la estimación obtenida de las observaciones muestrales.
36
Entonces…
Fijamos el nivel de significación
en 0,05
La condición que debe
cumplirse para rechazar Ho es:
CR: p-valor < 0,05
Como 0,0145 es < 0,05, se rechaza Ho y se concluye que existen evidencias de que el agregado de vitamina E
aumenta la ganancia en peso de cerdos
75 100 125
ganancia en peso promedio de 30 cerdos 0,00
0,02 0,04 0,07 0,09
Densidad
DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD
Pero ojo: como decidimos basándonos en una muestra y las muestras son variables, no estamos 100% seguros de haber concluido correctamente
37
Otro caso
¿El glifosato afecta el desarrollo embrionario de anuros?
Ho : 1,2 mm
H1 : < 1,2 mm
20 embriones de X. laevis fueron incubados por inmersión en el herbicida comercial conteniendo glifosato en diluciones 1/5000.
Al cabo de 3 semanas se midió La longitud corporal de los 20 embriones y se obtuvo un
promedio de 1 mm con un desvío estándar de 0,3 mm
mm 3
, 0 s
20 n
mm 1
x
38
Pasos en pruebas de hipótesis
mm 2 ,
1 1. Suponer que H0 es cierta
2. Elegir el estimador del parámetro en estudio y construir su distribución muestral:
el estimador de µ es y su distribución de probabilidades es t de Student ya que el desvío estándar poblacional es
desconocido
x
0,0 0,4 0,8 1,2 1,6 2,0 2,4
long promedio de 20 embriones 0,0
0,3 0,6 0,9 1,3
Densidad
DISTRIBUCION DE MUESTRAS
2 , 1 µx
20 3 , 0 n
s
x
n s
µ
t
n1 x
39
Pasos en pruebas de hipótesis
3. Fijar el nivel de significación y la dirección de extremo de la prueba.
4. Establecer la condición de rechazo de Ho, es decir bajo que probabilidades (o alternativamente valores
muestrales) se debería rechazar la hipótesis nula 5. Contrastar la muestra con la distribución teórica,
calcular el p-valor y concluir.
En este caso:
Los investigadores fijaron en 0,05
Condición de rechazo: Si la probabilidad de obtener una muestra con un promedio tan o más extremo que el observado, siendo Ho verdadera, fuese < a 0,05, se rechazará Ho.
40
0,8 0,9 1,1 1,2 1,3 1,5 1,6
long promedio de 20 embriones 0,0
1,4 2,8 4,1 5,5
Densidad
DISTRIBUCION DE MUESTRAS
Pasos en pruebas de hipótesis
2 , 1 µx
<1) x
( P
n s
µ t
n 1x
20 3 , 0 n
s
x
Ho : 1,2 mm H1 : < 1,2 mm
GL=n-1=19
41
¿El lote de glifosato cumple con la especificación?
Ho: = 48% P/V
H1: 48% P/V
Los lotes se controlan a fin de determinar si cumplen con la
especificación tomando 10 alícuotas y midiendo la concentración de glifosato
Por datos históricos se conoce que la dispersión en la concentración de glifo entre alícuotas es de 1% y que la distribución es normal
Se fija el nivel de significación en 5%
Otro caso
05 ,
0
10 n
%
1
42
42 45 48 51 54
promedio de 10 alícuotas
0,00 0,10 0,20 0,30 0,40
Densidad
Distribución muestral
x
Distribución muestral
Suponemos que la concentración promedio del glifo del lote es la deseada (Ho verdadera) 48% P/V)
Modelemos el comportamiento de las muestras de 10 alícuotas:
10 /
1
x
n
%
x
48
48
normal ón
distribuci
43
¿el lote cumple con la especificación?
Controlemos un lote
Al sacar las 10 alícuotas se obtienen los siguientes valores:
La concentración promedio de glifosato de la muestra es:
¿Cuál es la probabilidad de obtener esa concentración o una aún más elevada si el lote cumple con la especificación?
47,9 48,9 49,2 48,1 49,0 47,4 49,0 47,3 48,5 48,8
% 4 , 48 x
48,4 ) x
( P
26 , 10 1
/ 1
48 4
, 48 n
/ µ
z x
446 3
, 0 )
26 , 1 ( F 1
) 4 , 48 x
(
P
42 45 48 51 54
promedio de 10 alícuotas
0,00 0,10 0,20 0,30 0,40
Densidad
Distribución muestral
x
44
Pruebas de hipótesis uni y bilaterales
El cálculo de p depende de la hipótesis alternativa
Unilateral izquierda
Unilateral derecha
H1: < 0 H1: > 0
Bilateral
H1: 0
45
Cálculo del p-valor
Como p-valor es > 0,05, no hay evidencias para rechazar Ho y se concluye que no hay pruebas de que el lote no cumpla con la especificación
48,4 ) x
( P
26 , 10 1
/ 1
48 4
, 48 n
/ µ
z x
446 3
, 0 )
26 , 1 ( F 1
) 4 , 48 x
(
P
42 45 48 51 54
promedio de 10 alícuotas
0,00 0,10 0,20 0,30 0,40
Densidad
Distribución muestral
x p-valor = 2 x 0,3446 = 0,69
Pero ojo: como decidimos basándonos en una muestra y las muestras son variables, no estamos 100% seguros de haber concluido correctamente
46
Observaciones
Las hipótesis no se plantean después de observar los datos, sino antes.
La hipótesis nula es conservadora, no especulativa; es la hipótesis del escéptico
debe ser pequeña y es fijado por el investigador
La prueba de hipótesis se plantea de manera tal de controlar el error de tipo I
Rechazar una hipótesis no prueba que sea falsa. Podemos cometer equivocarnos
No rechazar una hipótesis no prueba que sea cierta. Podemos equivocarnos
No rechazar Ho no implica que Ho sea verdadera
Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos.
Rechazar Ho refuta a la Ho. En cambio, no rechazarla no constituye evidencia a favor
47
H0: Hipótesis nula
Es
H1: Hipótesis alternativa
Es
Riesgos al tomar decisiones
Se juzga a un individuo por la presunta comisión de un delito
Los datos pueden refutarla La que se acepta si las pruebas no indican lo contrario
Rechazarla por error tiene graves consecuencias
No debería ser aceptada sin una gran evidencia a favor. Rechazarla por error tiene consecuencias consideradas menos graves que la anterior
48
Tipos de error al tomar una decisión
Realidad
Inocente Culpable
Inocente OK Error
Menos grave
Culpable Error
Muy grave
OK
V e
e r
d i
c t
o
49
¿La incorporación de vitamina E a la dieta es efectiva?
Ho: 100g/día; la incorporación de vitamina E no es efectiva
H1: > 100g/día; la incorporación de vitamina E es efectiva
Hay 2 x 2 posibilidades:
Ho es o verdadera o falsa (el “estado del mundo”)
Ho es rechazada o no rechazada (decisión basada en la muestra)
50
Tipos de error al tomar una decisión
Realidad
H0 verdadera H0 falsa
Decisión basada
en la muestra
No rechazo Ho
Decisión correcta
Probabilidad 1-α
Error de tipo II
Probabilidad β
Rechazo Ho
Acepto H1
Error de tipo I
Probabilidad α
(nivel de significación)
Decisión correcta
Probabilidad 1-β
(potencia)
51
Definiciones
= P(error tipo I) = P(rechazar Ho / Ho es verdadera)
= P(error tipo II) = P(no rechazar Ho / Ho es falsa)
1- = Potencia = Poder o capacidad de la prueba estadística para detectar diferencias cuando éstas realmente existen
Idealmente, desearíamos que ambas probabilidades de error valgan cero
Pero eso es imposible, a menos que efectuemos un censo
Se elige controlar al menos al error tipo I, que generalmente es el más grave
52
Volviendo a los casos
En el ensayo de suplementación de cerdos, cuando concluimos que existían evidencias de que el
agregado de vitamina E aumentaba la ganancia en peso de cerdos (p-valor = 0,0145)
Error tipo I = rechazar Ho / Ho es verdadera = concluir que el agregado de vitamina E es efectivo e
implementarlo en el criadero cuando en realidad no incrementa la ganancia en peso
Error tipo II = no rechazar Ho / Ho es falsa = concluir que el agregado de vitamina E no es efectivo y por lo tanto no implementarlo en el criadero cuando en realidad sí
incrementa la ganancia en peso
Éste es el que se puede estar cometiendo, y su probabilidad es 0,0145
53
Volviendo a los casos
En el ensayo de control de calidad, cuando
concluimos que no existían evidencias de que el lote no cumpliese con la especificación (p-valor = 0,69)
Error tipo I = rechazar Ho / Ho es verdadera
Error tipo II = no rechazar Ho / Ho es falsa
54
Pasos en pruebas de hipótesis
1. Plantear las hipótesis
2. Fijar el nivel de significación 3. Elegir el estadístico de prueba
4. Establecer la condición de rechazo de Ho 5. Calcular el valor p con los datos muestrales 6. Concluir
Si no se rechaza Ho:
• No hay evidencias contra H0
•La prueba no es concluyente
•Se puede estar cometiendo error tipo II
Si se rechaza Ho:
• Hay evidencias contra H0
•La prueba es concluyente
•La prueba es significativa
•Se puede estar cometiendo error tipo I
“Significativo” en estadística no quiere decir “importante”, sino quiere decir que “es poco probable que ocurra sólo por azar”
P-valor <
Estadística General
Clase 11
Pruebas de hipótesis
para dos medias
56
¿El pastoreo afecta la diversidad florística de los pastizales de la pampa de Achala?
Se desea estudiar el efecto del pastoreo y de su exclusión por 10 años sobre la composición y diversidad florística de un
pastizal en las Sierras de Córdoba (2200 msnm)
Diseño 1: Se tomaron 10 parcelas de 20x20 m que se dividieron al azar en dos grupos: uno fue sometido a pastoreo mientras que en el otro fue excluido el ganado
2 muestras independientes
PASTOREADO
NO PASTOREADO
C T
C C C
C T T T
T
57
Efecto del pastoreo sobre la diversidad florística
Diseño 2: Se tomaron 5 sectores. En cada uno se
delimitaron dos parcelas adyacentes de 20 x 20 m c/u separadas por un alambrado, una pastoreada y otra excluida al ganado
SEC-
TOR PASTOREADO
NO PASTOREADO 1
2 3 4 5
2 muestras dependientes o apareadas
C T
C C C
C T T T
T C
C
C C
T C
T
T T
T
58
Diseños
Muestras independientes
los tratamientos son asignados al azar a las u.e.
Cada observación en una muestra no está relacionada con ninguna observación en la otra muestra
Las dos muestras pueden diferir en varios factores, no solo en el que interesa comparar
Las dos muestras no necesariamente deben ser del mismo tamaño
Muestras dependientes o apareadas
el experimentador agrupa las u.e. en pares y luego asigna al azar los tratamientos a las u.e. dentro de cada par
Cada observación en una muestra está directamente relacionada con otra observación en la otra muestra
Las dos muestras difieren solo en el factor que interesa comparar mayor precisión
Las dos muestras deben ser del mismo tamaño
59
Muestras dependientes vs independientes
Se desea determinar si la prevalencia de
brucelosis bovina en Río Negro difiere de la de Neuquén
Se debe elegir entre dos preparaciones para el tratamiento de la dermatitis en codo. A cada paciente se los trata con ambas cremas, una en brazo derecho y otra en izquierdo
Se desea determinar si un nuevo método para medir contaminación con arsénico en agua
difiere del método actualmente en uso
60
Se desea evaluar el efecto del corte y la aplicación de
herbicida sobre la biomasa de rizomas del caraguatá en un campo con una pastura natural
Ensayo de control del caraguatá
DE=4,0 DE=2,2
¿Muestras dependientes o independientes?
61
Definiendo las Hipótesis
¿el tratamiento de control del caraguatá es efectivo?
1. Planteo de las hipótesis
Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:
Ho : T1 T2 , o lo que es lo mismo T1 - T2 0, Δ 0
H1 : T1 > T2 , o lo que es lo mismo T1 - T2 > 0, Δ > 0
Ho : El tratamiento de control del caraguatá no es efectivo, no reduce la biomasa de rizoma
H1 : El tratamiento de control del caraguatá sí es efectivo, reduce la biomasa de rizoma
62
Comparando dos promedios con muestras independientes
2
1
x
x
x
-5,00 -2,00 1,00 4,00 7,00
0,00 0,10 0,20 0,30 0,40
Comparamos dos promedios haciendo
inferencia sobre Δ
,
la diferencia entre los dos promedios poblacionales.•Si los dos promedios poblaciones son iguales, entonces Δ
0
•El mejor estimador de Δ
es la diferencia entre los dos promedios muestrales•Se desconocen las varianzas poblacionales de ambas poblaciones, pero se supone que son iguales (2T1 = 2T2),
63
DE=4,0 DE=2,2
Como suponemos que las varianzas de las dos poblaciones son iguales (2T1 = 2T2), calculamos un estimador insesgado de la varianza
poblacional:
2 n
n
1 n
S 1
n S S
2 1
2 2 2 1
2 2 1
a +
+
2
2 22 2
a 10,42(g/m )
4
2 2 , 2 2
S 4 +
2
a 10,42 3,23g/m
S
Y el desvío muestral amalgamado es:
64
DE=4,0 DE=2,2
2. Construimos la distribución muestral de suponiendo que Ho es verdadera
3. Fijamos = 0,05 y la zona de rechazo de Ho
x
-15 -10 -5 0 5 10 15
dif medias 0,00
0,03 0,06 0,09 0,13
Densidad
DISTRIBUCION MUESTRAL SIENDO Ho VERDADERA
65
Distribución muestral de
) (
) (
2 2 2 1
2 1
2 1 2 1
n n
µ µ x Z x
+
2 1 x x
x
1. La media de es , la diferencia entre las medias poblacionales.
2. El desvío estándar (EE) de es
3. Si la población original sigue una distribución normal o si el tamaño de ambas muestras es lo suficientemente grande, pero los desvíos poblacionales son desconocidos,
sigue una distribución t de Student
x
n S n
S t x
2 2 a 1
2 a 2
n n1 2
+
+
n s n
s
2 2 a 1
2 a +
x
x66
DE=4,0 DE=2,2
4. Calculamos el estadístico en base a las dos muestras y calculamos el p-valor
5. Conclusión
n S n
S t x
2 2 a 1
2 a 2
n n1 2
+
+
m
2/ g 14 , 24 66
, 8 82
, 32
x
? ) 14 , 24 x
(
P
17 , 9 3
42 , 10 3
42 , 10
0 16 ,
24
+
valor p<0,0005
67
Un investigador cree que los fumadores tienden a fumar más durante los períodos de stress.
Encuesta a un grupo de fumadores en
condiciones normales y al mismo grupo cuando está bajo stress
Efecto del stress sobre el hábito de fumar
cantidad de cigarrillos diarios fumados
Individuo Sin stress Con stress
1 15 20
2 31 45
3 50 48
4 16 30
5 56 72
Muestras dependientes
68
Comparando
dos muestras dependientes
La variable ahora es la diferencia entre las dos observaciones!
Para efectuar esta comparación se requiere:
Una muestra aleatoria de tamaño n de las
diferencias di entre las dos situaciones extraída de la población con parámetro µd
1. La media de es µd
2. El desvío estándar (EE) de es
3. Como el desvío poblacional es desconocido, la distribución muestral es t de Student
con n-1 grados de libertad
xd
n s
t x
d
d d
1 n
n s
dx
d69
Prueba de hipótesis
1. Planteamos las hipótesis
Ho: Los individuos bajo stress no fuman más de lo que lo hacen habitualmente
d 0
H1: Los individuos bajo stress sí fuman más de lo que lo hacen habitualmente
d > 0
Elegimos definir a d como la diferencia entre la cantidad de cigarrillos que fuma cada individuo cuando está bajo stress menos la cantidad de cigarrillos que fuma cuando no está bajo stress
70
Pasos en pruebas de hipótesis
2 d 0g / m
2. Suponemos que H
0es cierta,
elegimos el estimador del parámetro en estudio y construimos su distribución muestral
el estimador de µd es y su distribución de probabilidades es t de Student ya que el desvío estándar poblacional es
desconocido
xd
n s
µ t x
d d 1
n
3. Fijamos el nivel de significación = 0,05
71
Calculando el valor-p
cig 67 , 7 s
cig 4 , 9 x
5 n
d d
cantidad de cigarrillos diarios fumados
Individuo Sin stress Con stress
1 15 20
2 31 45
3 50 48
4 16 30
5 56 72
d
5 14
-2 14 16
9,4) x
( P d
74 , 5 2
67 , 7
0 4 , t 9
n s
µ t x
4
d
d d
1 n
0,025<p-valor<0,05
-15 -10 -5 0 5 10 15
dif media 0,00
0,03 0,05 0,08 0,10
Densidad
DISTRIBUCION MUESTRAL SIENDO Ho VERDADERA
72
Conclusión
Como el valor p es menor a 0,05
Hay evidencias para rechazar Ho, es decir que los individuos cuando están bajo stress fuman más que cuando no lo están
Pero ¿y si hubiésemos elegido = 0,01?
0,025<p-valor<0,05
-15 -10 -5 0 5 10 15
0,00 0,03 0,05 0,08 0,10
Densidad
DISTRIBUCION MUESTRAL SIENDO Ho VERDADERA