Estadística General

(1)

1

Estadística General

Clase 9

Estimación de parámetros

Adriana Pérez

(2)

2

Estimación

 Las poblaciones son descriptas mediante sus parámetros

 Si los valores de los parámetros son desconocidos, podemos estimarlos en base a muestras y

esperamos que sean una buena aproximación al valor exacto

 Pero recordemos que los estimadores son variables aleatorias (cambian de muestra en muestra), por lo que se puede estudiar su distribución de probabilidades (distribución muestral)

(3)

3

Estimación de un parámetro

 estimación puntual: se calcula un valor simple a

partir de una muestra a fin de estimar el parámetro.

No hay medida de cuán buena es la estimación

 Si el promedio  de una población es desconocido, se lo estima puntualmente mediante el promedio de una muestra

 Si el desvío estándar  de una población es

desconocido, se lo estima puntualmente mediante el desvío estándar de una muestra s

 Si la proporción de éxitos  de una población es

desconocida, se la estima puntualmente mediante la proporción de éxitos muestral p

x

(4)

4

Monitoreos Atmosféricos en ciudades

 El monóxido de carbono (CO) es un contaminante atmosférico urbano típico de combustión de

combustibles fósiles. Lo emiten calderas, hornos, incineraciones y quemas en general, pero la

carga urbana habitual más importante se debe a los vehículos, principalmente a los nafteros.

 Se mide

continuamente (en ppm) y se informan los promedios: cada hora, cada 8 hs,

diarios, mensuales

(5)

5

Estimación de la concentración promedio de CO

 En una ciudad se registró la concentración de CO en 20 puntos elegidos al azar entre las 8 y las 10 de la mañana

 Se obtuvo un promedio de 3,3 ppm

 Se desea saber, aproximadamente, cuál es la concentración promedio de CO en la ciudad

 Por mediciones anteriores se sabe que el desvío estándar es de 1,5 ppm

 Variable aleatoria

 Población

 Parámetro

 Muestra

 Estimador

(6)

6

¿Qué tan buena es la estimación?

El error muestral

 es la distancia entre el estimador puntual y el verdadero valor del parámetro. Es decir:

EM = estimador - parámetro

 Posee las mismas unidades que la variable en estudio

 Es el error que surge por estudiar a una parte de la población

 Se sabe que disminuye cuando aumenta el tamaño de la muestra

 Mide la precisión en la estimación

(7)

7

El error muestral: ¿cuánto vale?

EM = estimador - parámetro

 Su magnitud es desconocida ya que el valor del parámetro es desconocido

 Si la muestra es aleatoria es posible dar una

estimación del mismo con una cierta probabilidad, denominada nivel de confianza (simbolizada como 1-)

 Para eso es necesario conocer la distribución de probabilidades (distribución muestral) del

estimador

(8)

8

¿Cómo calcular el error muestral en la estimación de µ?

n µ z x



 



< <

_

)  1  ( z

₂

Z z

₁ ₂

P



^



<  <

_

)  1 

(

₂

z

₁ ₂

n µ z x

P









_



<  <

_

)  1 

( z

_/₂

n x z

₁ _/₂

n P

EM

(9)

9

Volviendo al ejemplo…

 ¿Y entre qué valores esperaría que se encuentra la media poblacional ?





 _

 n < EM < z _ n )  1 z

(

P _/ ₂ ₁ _/ ₂

n z

EM   

(10)

10

Intervalo de confianza para µ

EM EM x

n z

x

LS µ

LI P

2 : IC del Amplitud

1 ) (

2







<











_



<  <

_

)  1 

( z

_/₂

n x z

₁ _/₂

n P





_

1

< < +  

+

_

) 1

( x z

₂

n µ x z

₁ ₂

n P

LI LS

 Estimación por intervalo de confianza: se calculan dos números para crear un rango de valores que se espera contenga al parámetro con una cierta probabilidad o nivel de confianza

) 1

confianza(

de nivel sup)

Lím parámetro

inf Límite (

P < <  

(11)

11

En el ejemplo:

Una vez construido el IC, ya no se habla de probabilidad sino de confianza

(12)

0 25 50 75 12 100 57

58 59 60 61 62 63

Media

Intervalos de confianza para la media

Cobertura: 95,00%

Nivel de confianza

 es – a priori - la probabilidad de que el intervalo contenga al parámetro

 Se lo simboliza como 1- α

 Lo fija el investigador. Valores típicos de 1- α =0,90 ; 0,95;

0,99

 α es la probabilidad de error (no contener al parámetro) y se la denomina también riesgo

 Es el porcentaje de intervalos que se espera contengan al parámetro (para ese tamaño de muestra)

(13)

13

¿ Cómo hacer más precisa una estimación?

EM x

n z

x

1 )

LS µ

LI ( P

2 1







<







Para disminuir el error muestral (mayor precisión):

 Tamaño de la muestra

 Nivel de confianza

 Desvío estándar

Nivel de

confianza z_/2 0.90 1.645 0.95 1.96 0.99 2.576

(14)

14

Supuestos

Para que las estimaciones sean confiables se debe cumplir:

 Muestreo aleatorio probabilístico

 La variable x debe tener distribución normal; en caso contrario, el tamaño de la muestra debe ser lo

suficientemente grande

 El desvío estándar poblacional  debe ser conocido

(15)

15

Otro caso

 Campo de cría de guanacos en semicautiverio ubicado en Ing. Jacobacci, Río Negro

 Rodeo de 500 animales

 Interesa conocer la calidad de la lana para enfocar procesos de selección de animales

 En una muestra de 30 guanacos se midió el diámetro de la fibra

 Se desea estimar el diámetro promedio de la fibra

 Variable aleatoria

 Población

 Parámetro

 Muestra

 Estimador

(16)

16

Estimación de un promedio con desvío poblacional desconocido

 Es la situación más habitual

 Como se desconoce  se utiliza su estimador s  mayor incertidumbre

 No es correcto utilizar la distribución normal para

 Se demuestra que la media muestral en estos casos

ajusta a una distribución conocida como t de Student, que posee mayor dispersión que la normal estándar

n µ z x



 

n s

µ t_GL  x 

(17)

17

Distribución t de Student

 Tiene forma acampanada como la normal estándar, pero su dispersión es mayor (es más aplanada). Esto se debe a que al desconocer  hay mayor incertidumbre

 Es simétrica con respecto al cero, es decir que µ=0

 No se trata de una única curva, sino de infinitas curvas, cada una caracterizada por un parámetro denominado grados de libertad (GL)

 Los GL indican la cantidad de datos independientes, es decir el número de observaciones de la variable menos el número de restricciones que verifican

 Los GL dependen del tamaño

de la muestra y en este caso valen n-1

 A medida que aumentan los GL

más se asemeja a la normal estándar (porque s converge a )

(18)

18

Intervalo de confianza para µ cuando el desvío poblacional  es desconocido

 Con  conocido

 Con  desconocido

EM x

n s

t x

LS µ

LI P

n







<

1, 2

1 )

(





_



< < +  

+

_

) 1

( x z

₂

n µ x z

₁ ₂

n P





_



< < +  

+ t

_ _

s n x t

_ _

s n ) 1

x (

P

_n ₁_,₁ _/ ₂ _n ₁_,₁ _/₂

LI LS

(19)

19

Supuestos

Para que las estimaciones sean confiables se debe cumplir:

 Muestreo aleatorio probabilístico

 La variable x debe tener distribución normal; en caso contrario, el tamaño de la muestra debe ser lo

suficientemente grande

(20)

20

Intervalos de confianza:

interpretación

Holopterus chilensis es un coleóptero barrenador que infesta a

Nothofagus obliqua (roble pellín). Se extrajo una muestra aleatoria de 30 ejemplares en el lago Lacar, con la que se estimó la longitud corporal promedio, obteniéndose

IC₉₅ : 40-45 mm

1. El 95% de los ejemplares mide entre 40 y 45 mm.

2. La longitud corporal promedio de los ejemplares del lago Lacar se encuentra entre 40 y 45 mm.

3. El promedio de la especie se encuentra entre 40 y 45 mm.

4. El 95% de las muestras de 30 ejemplares tiene un promedio entre 40 y 45 mm.

5. Si se aumenta la confianza el intervalo de confianza se achica (es más preciso)

6. Si se quiere achicar el intervalo de confianza se debería aumentar el tamaño de la muestra

(21)

Estadística General

Clase 10

Pruebas de hipótesis

para una media

(22)

22

¿Qué es una prueba de hipótesis?

 Es un proceso para determinar la validez de una aseveración hecha sobre la población

basándose en evidencia muestral

 La afirmación sobre la población se efectúa a nivel de sus parámetros:

 Media

 Diferencia de medias

 etc

 La prueba de hipótesis es un procedimiento de toma de decisiones, relacionada principalmente con la elección de una acción entre dos

conjuntos posibles de valores del parámetro

(23)

23

Definiciones

Hipótesis de investigación: denotada por Hi expresa el objetivo del investigador.

Hipótesis estadísticas:

 La hipótesis nula, denotada por Ho, es el status quo o estado actual (lo que se cree hasta el momento) o la que asegura que no hay diferencias en la población. Es la hipótesis de no efecto.

 La hipótesis alternativa, denotada por H₁, es lo opuesto a la hipótesis nula, el cambio en la población que el investigador espera sea verdadero.

 Notas:

 Las hipótesis nula y alternativa se refieren ambas a la misma población

 Deben plantearse antes de obtener la muestra

(24)

24

Definiendo las Hipótesis

¿La incorporación de vitamina E a la dieta es efectiva?

Se desea determinar la efectividad de incorporar vitamina E a la dieta de cerdos a fin de mejorar el aumento de peso, que actualmente es en promedio de 100g/día.

Ho :

H₁ :

Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:

Ho :

H₁ :

(25)

25

Definiendo las Hipótesis

¿El lote de glifosato cumple con la especificación?

El glifosato es un herbicida post-emergente de amplio espectro, no selectivo, ampliamente utilizado en nuestro país

Se comercializa bajo la forma de sal de isopropilamina a una concentración de 48 % P/V de la sal

Los lotes se controlan a fin de determinar si cumplen con la especificación

Ho :

H₁ :

Usando parámetros:

Ho :

H₁ :

(26)

26

Definiendo las Hipótesis

¿El glifosato retarda el desarrollo embrionario de anuros?

 Los embriones de anfibios de la especie Xenopus laevis son un modelo tradicional para el estudio del desarrollo embriológico.

Tienen una longitud media de 1,2 mm

 Experimento: Se incubaron embriones por inmersión en el herbicida comercial conteniendo glifosato en diluciones 1/5000.

La dilución corresponde a dosis de glifosato entre 50 y 1540 veces inferior de las usadas en el campo. Mayores dosis matan los embriones

 A las tres semanas se

estudiaron los embriones a fin de detectar retardo en el

crecimiento y malformaciones

(27)

27

Definiendo las Hipótesis

¿El glifosato retarda el desarrollo embrionario de anuros?

Ho :

H₁ :

Ho :

H₁ :

(28)

28

Pasos en una Prueba de hipótesis:

1. Planteo de las hipótesis

1.

Establecer la hipótesis nula en términos de igualdad

Ho:  = 

0

  

0

  

0

2.

Establecer la hipótesis alternativa, que puede hacerse de tres maneras,

dependiendo del interés del investigador H

₁

:   

0

 < 

0

 > 

0

Prueba bilateral unilateral izq unilateral der

(29)

29

Resumiendo

 Se plantean dos hipótesis o aseveraciones sobre valores de parámetros poblacionales

 Las dos hipótesis son incompatibles

 Las dos hipótesis se refieren a la misma población

¿Cuál de las dos es válida?

Se debe decidir en base a evidencia muestral

(30)

30

¿La incorporación de vitamina E a la dieta es efectiva?

Ho:   100g/día

H₁ :  > 100g/día

30 cerdos fueron alimentados con la dieta tradicional más el agregado de vitamina E

La ganancia de peso fue de 110 g/día en promedio

Se conoce que el desvío estándar de la ganancia de peso de los cerdos es de 25 g/día

día /

g

 25



30 n 

día /

g 110 x 

(31)

31

Lógica de las pruebas de hipótesis

1. Suponemos que Ho es verdadera

2. Describimos el comportamiento teórico del estimador bajo Ho (distribución de probabilidades del estimador o

distribución muestral)

día /

g

100



? x de ón distribuci

¿

PROMEDIO  =100

DESVÍO STD  =25 PROMEDIO =100

ERROR STD =25/√30=4,56

µ

^x

x

25 63 100 138 175

X=ganancia en peso de cerdos 0,00

0,00 0,01 0,01 0,02

Densidad

DISTRIBUCION DE X

25 50 75 100 125 150 175

ganancia en peso promedio de 30 cerdos 0,00

0,02 0,04 0,07 0,09

Densidad

DISTRIBUCION DE MUESTRAS

SUPONIENDO Ho VERDADERA

(32)

32

Lógica de las pruebas de hipótesis

3. Decidimos la dirección de los extremos, es decir la ubicación de los valores muestrales que nos llevarían a sospechar de Ho

4. Muestreamos y calculamos el estimador

5. Calculamos la probabilidad de obtener un estimador como el obtenido en nuestra muestra o aún más extremo. Tal

probabilidad se conoce como “p de la prueba” o “p-valor”.

75 100 125

0,00 0,02 0,04 0,07 0,09

Densidad

DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD Ho:   100g/día

H₁:  > 100g/día día

/ g 110 x 

75 100 125

0,00 0,02 0,04 0,07 0,09

Densidad

DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD



 110 ) x

( P

 

 n

µ z x

 /

(33)

33

Entonces…

Si el aumento de peso de cerdos suplementados con vitamina E fuese el mismo peso promedio que sin vit E (Ho verdadera,  = 100 g/día) ... el resultado muestral

observado o uno aún más extremo sería improbable (p- valor = 0,0145)

Sin embargo ocurrió.

75 100 125

0,02 0,04 0,07 0,09

Densidad

(34)

34

Lógica de las pruebas de hipótesis

6. Si el p-valor es bajo, se interpreta que la muestra es “rara” o “inusual” si Ho fuese

realmente verdadera. La muestra se contradice con Ho  la hipótesis nula es rechazada.

7. Si el p-valor no es bajo, se interpreta que la

muestra apoya a Ho, no la contradice  no hay evidencias contra la hipótesis nula, por lo que no es rechazada.

A menor valor de “p” , menor es la

credibilidad sobre la hipótesis de “no efecto”

(35)

35

Lógica de las pruebas de hipótesis

 Condición de rechazo de Ho: P-valor será considerado pequeño si resulta menor a una probabilidad fijada a priori (o nivel de

significación) simbolizada como 

 Los valores más usuales de  son 0,01; 0,05 y 0,10.

 Alternativamente puede fijarse la condición de rechazo comparando un cierto valor crítico del estimador (que depende del nivel de

significación) con la estimación obtenida de las observaciones muestrales.

(36)

36

Entonces…

 Fijamos el nivel de significación

 en 0,05

La condición que debe

cumplirse para rechazar Ho es:

CR: p-valor < 0,05

 Como 0,0145 es < 0,05, se rechaza Ho y se concluye que existen evidencias de que el agregado de vitamina E

aumenta la ganancia en peso de cerdos

75 100 125

0,02 0,04 0,07 0,09

Densidad

Pero ojo: como decidimos basándonos en una muestra y las muestras son variables, no estamos 100% seguros de haber concluido correctamente

(37)

37

Otro caso

¿El glifosato afecta el desarrollo embrionario de anuros?

Ho :   1,2 mm

H1 :  < 1,2 mm

20 embriones de X. laevis fueron incubados por inmersión en el herbicida comercial conteniendo glifosato en diluciones 1/5000.

 Al cabo de 3 semanas se midió La longitud corporal de los 20 embriones y se obtuvo un

promedio de 1 mm con un desvío estándar de 0,3 mm

mm 3

, 0 s 

20 n 

mm 1

x 

(38)

38

Pasos en pruebas de hipótesis

mm 2 ,

1 1. Suponer que H₀ es cierta 

2. Elegir el estimador del parámetro en estudio y construir su distribución muestral:

 el estimador de µ es y su distribución de probabilidades es t de Student ya que el desvío estándar poblacional es

desconocido

x

0,0 0,4 0,8 1,2 1,6 2,0 2,4

long promedio de 20 embriones 0,0

0,3 0,6 0,9 1,3

Densidad

2 , 1 µ_x 

20 3 , 0 n

s

x  



n s

µ

t

_n_₁

 x 

(39)

39

Pasos en pruebas de hipótesis

3. Fijar el nivel de significación  y la dirección de extremo de la prueba.

4. Establecer la condición de rechazo de Ho, es decir bajo que probabilidades (o alternativamente valores

muestrales) se debería rechazar la hipótesis nula 5. Contrastar la muestra con la distribución teórica,

calcular el p-valor y concluir.

En este caso:

 Los investigadores fijaron  en 0,05

 Condición de rechazo: Si la probabilidad de obtener una muestra con un promedio tan o más extremo que el observado, siendo Ho verdadera, fuese < a 0,05, se rechazará Ho.

(40)

40

0,8 0,9 1,1 1,2 1,3 1,5 1,6

long promedio de 20 embriones 0,0

1,4 2,8 4,1 5,5

Densidad

Pasos en pruebas de hipótesis

2 , 1 µ_x 



<1) x

( P

 





n s

µ t

_{n 1}

x

20 3 , 0 n

s

x  



Ho :   ^{1,2 mm} H1 :  < 1,2 mm

GL=n-1=19

(41)

41

¿El lote de glifosato cumple con la especificación?

Ho:  = 48% P/V

H₁:   48% P/V

 Los lotes se controlan a fin de determinar si cumplen con la

especificación tomando 10 alícuotas y midiendo la concentración de glifosato

 Por datos históricos se conoce que la dispersión en la concentración de glifo entre alícuotas es de 1% y que la distribución es normal

Se fija el nivel de significación en 5%

Otro caso

05 ,

 0



10 n 

%

 1



(42)

42

42 45 48 51 54

promedio de 10 alícuotas

0,00 0,10 0,20 0,30 0,40

Densidad

Distribución muestral

x

Distribución muestral

 Suponemos que la concentración promedio del glifo del lote es la deseada (Ho verdadera) 48% P/V)

 Modelemos el comportamiento de las muestras de 10 alícuotas:

10 /

1

x 



n 



%

x

 48



 48



normal ón

distribuci

(43)

43

¿el lote cumple con la especificación?

Controlemos un lote

 Al sacar las 10 alícuotas se obtienen los siguientes valores:

 La concentración promedio de glifosato de la muestra es:

 ¿Cuál es la probabilidad de obtener esa concentración o una aún más elevada si el lote cumple con la especificación?

47,9 48,9 49,2 48,1 49,0 47,4 49,0 47,3 48,5 48,8

% 4 , 48 x 



 48,4 ) x

( P

26 , 10 1

/ 1

48 4

, 48 n

/ µ

z x  

 

 

446 3

, 0 )

26 , 1 ( F 1

) 4 , 48 x

(

P    

42 45 48 51 54

0,00 0,10 0,20 0,30 0,40

Densidad

x

(44)

44

Pruebas de hipótesis uni y bilaterales

El cálculo de p depende de la hipótesis alternativa

Unilateral izquierda

Unilateral derecha

H₁:  < ₀ H₁:  > ₀

Bilateral

H₁:  ₀

(45)

45

Cálculo del p-valor

Como p-valor es > 0,05, no hay evidencias para rechazar Ho y se concluye que no hay pruebas de que el lote no cumpla con la especificación



 48,4 ) x

( P

26 , 10 1

/ 1

48 4

, 48 n

/ µ

z x  

 

 

446 3

, 0 )

26 , 1 ( F 1

) 4 , 48 x

(

P    

42 45 48 51 54

0,00 0,10 0,20 0,30 0,40

Densidad

x p-valor = 2 x 0,3446 = 0,69

Pero ojo: como decidimos basándonos en una muestra y las muestras son variables, no estamos 100% seguros de haber concluido correctamente

(46)

46

Observaciones

 Las hipótesis no se plantean después de observar los datos, sino antes.

 La hipótesis nula es conservadora, no especulativa; es la hipótesis del escéptico

  debe ser pequeña y es fijado por el investigador

 La prueba de hipótesis se plantea de manera tal de controlar el error de tipo I

 Rechazar una hipótesis no prueba que sea falsa. Podemos cometer equivocarnos

 No rechazar una hipótesis no prueba que sea cierta. Podemos equivocarnos

 No rechazar Ho no implica que Ho sea verdadera

 Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos.

 Rechazar Ho refuta a la Ho. En cambio, no rechazarla no constituye evidencia a favor

(47)

47

 H₀: Hipótesis nula

 Es

 H₁: Hipótesis alternativa

 Es

Riesgos al tomar decisiones

Se juzga a un individuo por la presunta comisión de un delito

Los datos pueden refutarla La que se acepta si las pruebas no indican lo contrario

Rechazarla por error tiene graves consecuencias

No debería ser aceptada sin una gran evidencia a favor. Rechazarla por error tiene consecuencias consideradas menos graves que la anterior

(48)

48

Tipos de error al tomar una decisión

Realidad

Inocente Culpable

Inocente OK Error

Menos grave

Culpable Error

Muy grave

OK

V e

e r

d i

c t

o

(49)

49

¿La incorporación de vitamina E a la dieta es efectiva?

Ho:   100g/día; la incorporación de vitamina E no es efectiva

H₁:  > 100g/día^; la incorporación de vitamina E es efectiva

Hay 2 x 2 posibilidades:

Ho es o verdadera o falsa (el “estado del mundo”)

Ho es rechazada o no rechazada (decisión basada en la muestra)

(50)

50

Tipos de error al tomar una decisión

Realidad

H₀ verdadera H₀ falsa

Decisión basada

en la muestra

No rechazo Ho

Decisión correcta

Probabilidad 1-α

Error de tipo II

Probabilidad β

Rechazo Ho

Acepto H1

Error de tipo I

Probabilidad α

(nivel de significación)

Decisión correcta

Probabilidad 1-β

(potencia)

(51)

51

Definiciones

  = P(error tipo I) = P(rechazar Ho / Ho es verdadera)

  = P(error tipo II) = P(no rechazar Ho / Ho es falsa)

 1- = Potencia = Poder o capacidad de la prueba estadística para detectar diferencias cuando éstas realmente existen

 Idealmente, desearíamos que ambas probabilidades de error valgan cero

 Pero eso es imposible, a menos que efectuemos un censo

 Se elige controlar al menos al error tipo I, que generalmente es el más grave

(52)

52

Volviendo a los casos

En el ensayo de suplementación de cerdos, cuando concluimos que existían evidencias de que el

agregado de vitamina E aumentaba la ganancia en peso de cerdos (p-valor = 0,0145)

 Error tipo I = rechazar Ho / Ho es verdadera = concluir que el agregado de vitamina E es efectivo e

implementarlo en el criadero cuando en realidad no incrementa la ganancia en peso

 Error tipo II = no rechazar Ho / Ho es falsa = concluir que el agregado de vitamina E no es efectivo y por lo tanto no implementarlo en el criadero cuando en realidad sí

incrementa la ganancia en peso

Éste es el que se puede estar cometiendo, y su probabilidad es 0,0145

(53)

53

Volviendo a los casos

En el ensayo de control de calidad, cuando

concluimos que no existían evidencias de que el lote no cumpliese con la especificación (p-valor = 0,69)

 Error tipo I = rechazar Ho / Ho es verdadera

 Error tipo II = no rechazar Ho / Ho es falsa

(54)

54

Pasos en pruebas de hipótesis

1. Plantear las hipótesis

2. Fijar el nivel de significación  3. Elegir el estadístico de prueba

4. Establecer la condición de rechazo de Ho 5. Calcular el valor p con los datos muestrales 6. Concluir

Si no se rechaza Ho:

• No hay evidencias contra H₀

•La prueba no es concluyente

•Se puede estar cometiendo error tipo II

Si se rechaza Ho:

• Hay evidencias contra H₀

•La prueba es concluyente

•La prueba es significativa

•Se puede estar cometiendo error tipo I

“Significativo” en estadística no quiere decir “importante”, sino quiere decir que “es poco probable que ocurra sólo por azar”

P-valor < 

(55)

Estadística General

Clase 11

Pruebas de hipótesis

para dos medias

(56)

56

¿El pastoreo afecta la diversidad florística de los pastizales de la pampa de Achala?

Se desea estudiar el efecto del pastoreo y de su exclusión por 10 años sobre la composición y diversidad florística de un

pastizal en las Sierras de Córdoba (2200 msnm)

Diseño 1: Se tomaron 10 parcelas de 20x20 m que se dividieron al azar en dos grupos: uno fue sometido a pastoreo mientras que en el otro fue excluido el ganado

2 muestras independientes

PASTOREADO

NO PASTOREADO

C T

C C C

C T T T

T

(57)

57

Efecto del pastoreo sobre la diversidad florística

 Diseño 2: Se tomaron 5 sectores. En cada uno se

delimitaron dos parcelas adyacentes de 20 x 20 m c/u separadas por un alambrado, una pastoreada y otra excluida al ganado

SEC-

TOR PASTOREADO

NO PASTOREADO 1

2 3 4 5

2 muestras dependientes o apareadas

C T

C C C

C T T T

T C

C

C C

T C

T

T T

T

(58)

58

Diseños

 Muestras independientes

 los tratamientos son asignados al azar a las u.e.

 Cada observación en una muestra no está relacionada con ninguna observación en la otra muestra

 Las dos muestras pueden diferir en varios factores, no solo en el que interesa comparar

 Las dos muestras no necesariamente deben ser del mismo tamaño

 Muestras dependientes o apareadas

 el experimentador agrupa las u.e. en pares y luego asigna al azar los tratamientos a las u.e. dentro de cada par

 Cada observación en una muestra está directamente relacionada con otra observación en la otra muestra

 Las dos muestras difieren solo en el factor que interesa comparar  mayor precisión

 Las dos muestras deben ser del mismo tamaño

(59)

59

Muestras dependientes vs independientes

 Se desea determinar si la prevalencia de

brucelosis bovina en Río Negro difiere de la de Neuquén

 Se debe elegir entre dos preparaciones para el tratamiento de la dermatitis en codo. A cada paciente se los trata con ambas cremas, una en brazo derecho y otra en izquierdo

 Se desea determinar si un nuevo método para medir contaminación con arsénico en agua

difiere del método actualmente en uso

(60)

60

Se desea evaluar el efecto del corte y la aplicación de

herbicida sobre la biomasa de rizomas del caraguatá en un campo con una pastura natural

Ensayo de control del caraguatá

DE=4,0 DE=2,2

¿Muestras dependientes o independientes?

(61)

61

Definiendo las Hipótesis

¿el tratamiento de control del caraguatá es efectivo?

1. Planteo de las hipótesis

Ho : _T1  _T2 , o lo que es lo mismo _T1 - _T2  0, Δ  0

H₁ : _T1 > _T2 , o lo que es lo mismo _T1 - _T2 > 0, Δ > 0

Ho : El tratamiento de control del caraguatá no es efectivo, no reduce la biomasa de rizoma

H₁ : El tratamiento de control del caraguatá sí es efectivo, reduce la biomasa de rizoma

(62)

62

Comparando dos promedios con muestras independientes

2

1

x

x  



-5,00 -2,00 1,00 4,00 7,00

0,00 0,10 0,20 0,30 0,40



Comparamos dos promedios haciendo



inferencia sobre ^Δ

,

la diferencia entre los dos promedios poblacionales.

•Si los dos promedios poblaciones son iguales, entonces ^Δ

 0

•El mejor estimador de ^Δ



es la diferencia entre los dos promedios muestrales

•Se desconocen las varianzas poblacionales de ambas poblaciones, pero se supone que son iguales ⁽^²_T1 ⁼^²_T2^),

(63)

63

DE=4,0 DE=2,2

 Como suponemos que las varianzas de las dos poblaciones son iguales (²_T1 = ²_T2), calculamos un estimador insesgado de la varianza

poblacional:

   

2 n

n

1 n

S 1

n S S

2 1

2 2 2 1

2 2 1

a + 

 +

 

 

²

 

₂ ₂

2 2

a 10,42(g/m )

4

2 2 , 2 2

S 4 + 



2

a 10,42 3,23g/m

S  

 Y el desvío muestral amalgamado es:

(64)

64

DE=4,0 DE=2,2

2. Construimos la distribución muestral de suponiendo que Ho es verdadera

3. Fijamos  = 0,05 y la zona de rechazo de Ho

x

-15 -10 -5 0 5 10 15

dif medias 0,00

0,03 0,06 0,09 0,13

Densidad

DISTRIBUCION MUESTRAL SIENDO Ho VERDADERA

(65)

65

Distribución muestral de

) (

2 2 2 1

2 1

2 1 2 1

n n

µ µ x Z x



 +



 

2 1 x x 

 x

1. La media de es , la diferencia entre las medias poblacionales.

2. El desvío estándar (EE) de es

3. Si la población original sigue una distribución normal o si el tamaño de ambas muestras es lo suficientemente grande, pero los desvíos poblacionales son desconocidos,

sigue una distribución t de Student



x

 

n S n

S t x

2 2 a 1

2 a 2

n n₁ ₂

+

 

 +





n s n

s

2 2 a 1

2 a +



x



x

(66)

66

DE=4,0 DE=2,2

4. Calculamos el estadístico en base a las dos muestras y calculamos el p-valor

5. Conclusión

n S n

S t x

2 2 a 1

2 a 2

n n₁ ₂

+

 

 +





m

2

/ g 14 , 24 66

, 8 82

, 32

x   



? ) 14 , 24 x

(

P



 

17 , 9 3

42 , 10 3

42 , 10

0 16 ,

24 

+

  valor p<0,0005

(67)

67

 Un investigador cree que los fumadores tienden a fumar más durante los períodos de stress.

 Encuesta a un grupo de fumadores en

condiciones normales y al mismo grupo cuando está bajo stress

Efecto del stress sobre el hábito de fumar

cantidad de cigarrillos diarios fumados

Individuo Sin stress Con stress

1 15 20

2 31 45

3 50 48

4 16 30

5 56 72

Muestras dependientes

(68)

68

Comparando

dos muestras dependientes

 La variable ahora es la diferencia entre las dos observaciones!

 Para efectuar esta comparación se requiere:

Una muestra aleatoria de tamaño n de las

diferencias d_i entre las dos situaciones extraída de la población con parámetro µ_d

1. La media de es µ_d

2. El desvío estándar (EE) de es

3. Como el desvío poblacional es desconocido, la distribución muestral es t de Student

con n-1 grados de libertad

xd

n s

t x

d

d d

1 n



 



n s

_d

x

d

(69)

69

Prueba de hipótesis

1. Planteamos las hipótesis

Ho: Los individuos bajo stress no fuman más de lo que lo hacen habitualmente

_d  0

H1: Los individuos bajo stress sí fuman más de lo que lo hacen habitualmente

_d > 0

Elegimos definir a d como la diferencia entre la cantidad de cigarrillos que fuma cada individuo cuando está bajo stress menos la cantidad de cigarrillos que fuma cuando no está bajo stress

(70)

70

Pasos en pruebas de hipótesis

2 d  0g / m

 2. Suponemos que H

₀

es cierta,

elegimos el estimador del parámetro en estudio y construimos su distribución muestral

 el estimador de µ_d es y su distribución de probabilidades es t de Student ya que el desvío estándar poblacional es

desconocido

xd

n s

µ t x

d d 1

n

 



3. Fijamos el nivel de significación  = 0,05

(71)

71

Calculando el valor-p

cig 67 , 7 s

cig 4 , 9 x

5 n

d d



cantidad de cigarrillos diarios fumados

Individuo Sin stress Con stress

1 15 20

2 31 45

3 50 48

4 16 30

5 56 72

d

5 14

-2 14 16



 9,4) x

( P _d

74 , 5 2

67 , 7

0 4 , t 9

n s

µ t x

4

d

d d

1 n

 



 

0,025<p-valor<0,05

-15 -10 -5 0 5 10 15

dif media 0,00

0,03 0,05 0,08 0,10

Densidad

(72)

72

Conclusión

 Como el valor p es menor a 0,05 

Hay evidencias para rechazar Ho, es decir que los individuos cuando están bajo stress fuman más que cuando no lo están

 Pero ¿y si hubiésemos elegido  = 0,01?

0,025<p-valor<0,05

-15 -10 -5 0 5 10 15

0,00 0,03 0,05 0,08 0,10

Densidad