• No se han encontrado resultados

Estadística General

N/A
N/A
Protected

Academic year: 2022

Share "Estadística General"

Copied!
72
0
0

Texto completo

(1)

1

Estadística General

Clase 9

Estimación de parámetros

Adriana Pérez

(2)

2

Estimación

Las poblaciones son descriptas mediante sus parámetros

Si los valores de los parámetros son desconocidos, podemos estimarlos en base a muestras y

esperamos que sean una buena aproximación al valor exacto

Pero recordemos que los estimadores son variables aleatorias (cambian de muestra en muestra), por lo que se puede estudiar su distribución de probabilidades (distribución muestral)

(3)

3

Estimación de un parámetro

estimación puntual: se calcula un valor simple a

partir de una muestra a fin de estimar el parámetro.

No hay medida de cuán buena es la estimación

Si el promedio de una población es desconocido, se lo estima puntualmente mediante el promedio de una muestra

Si el desvío estándar de una población es

desconocido, se lo estima puntualmente mediante el desvío estándar de una muestra s

Si la proporción de éxitos de una población es

desconocida, se la estima puntualmente mediante la proporción de éxitos muestral p

x

(4)

4

Monitoreos Atmosféricos en ciudades

El monóxido de carbono (CO) es un contaminante atmosférico urbano típico de combustión de

combustibles fósiles. Lo emiten calderas, hornos, incineraciones y quemas en general, pero la

carga urbana habitual más importante se debe a los vehículos, principalmente a los nafteros.

Se mide

continuamente (en ppm) y se informan los promedios: cada hora, cada 8 hs,

diarios, mensuales

(5)

5

Estimación de la concentración promedio de CO

En una ciudad se registró la concentración de CO en 20 puntos elegidos al azar entre las 8 y las 10 de la mañana

Se obtuvo un promedio de 3,3 ppm

Se desea saber, aproximadamente, cuál es la concentración promedio de CO en la ciudad

Por mediciones anteriores se sabe que el desvío estándar es de 1,5 ppm

Variable aleatoria

Población

Parámetro

Muestra

Estimador

(6)

6

¿Qué tan buena es la estimación?

El error muestral

es la distancia entre el estimador puntual y el verdadero valor del parámetro. Es decir:

EM = estimador - parámetro

Posee las mismas unidades que la variable en estudio

Es el error que surge por estudiar a una parte de la población

Se sabe que disminuye cuando aumenta el tamaño de la muestra

Mide la precisión en la estimación

(7)

7

El error muestral: ¿cuánto vale?

EM = estimador - parámetro

Su magnitud es desconocida ya que el valor del parámetro es desconocido

Si la muestra es aleatoria es posible dar una

estimación del mismo con una cierta probabilidad, denominada nivel de confianza (simbolizada como 1-)

Para eso es necesario conocer la distribución de probabilidades (distribución muestral) del

estimador

(8)

8

¿Cómo calcular el error muestral en la estimación de µ?

n µ z x

 

< <

)  1  ( z

2

Z z

1 2

P

<  <

)  1 

(

2

z

1 2

n µ z x

P

<  <

)  1 

( z

/2

n x z

1 /2

n P

EM

(9)

9

Volviendo al ejemplo…

¿Y entre qué valores esperaría que se encuentra la media poblacional ?

n < EM < z n )1z

(

P / 2 1 / 2

n z

EM   

(10)

10

Intervalo de confianza para µ

EM EM x

n z

x

LS µ

LI P

2 : IC del Amplitud

1

) (

2

<

<

<  <

)  1 

( z

/2

n x z

1 /2

n P

1

< < +  

+

) 1

( x z

2

n µ x z

1 2

n P

LI LS

Estimación por intervalo de confianza: se calculan dos números para crear un rango de valores que se espera contenga al parámetro con una cierta probabilidad o nivel de confianza

) 1

confianza(

de nivel sup)

Lím parámetro

inf Límite (

P < <  

(11)

11

En el ejemplo:

Una vez construido el IC, ya no se habla de probabilidad sino de confianza

(12)

0 25 50 75 12 100 57

58 59 60 61 62 63

Media

Intervalos de confianza para la media

Cobertura: 95,00%

Nivel de confianza

es – a priori - la probabilidad de que el intervalo contenga al parámetro

Se lo simboliza como 1- α

Lo fija el investigador. Valores típicos de 1- α =0,90 ; 0,95;

0,99

α es la probabilidad de error (no contener al parámetro) y se la denomina también riesgo

Es el porcentaje de intervalos que se espera contengan al parámetro (para ese tamaño de muestra)

(13)

13

¿ Cómo hacer más precisa una estimación?

EM x

n z

x

1 )

LS µ

LI ( P

2 1

<

<

Para disminuir el error muestral (mayor precisión):

Tamaño de la muestra

Nivel de confianza

Desvío estándar

Nivel de

confianza z/2 0.90 1.645 0.95 1.96 0.99 2.576

(14)

14

Supuestos

Para que las estimaciones sean confiables se debe cumplir:

Muestreo aleatorio probabilístico

La variable x debe tener distribución normal; en caso contrario, el tamaño de la muestra debe ser lo

suficientemente grande

El desvío estándar poblacional  debe ser conocido

(15)

15

Otro caso

Campo de cría de guanacos en semicautiverio ubicado en Ing. Jacobacci, Río Negro

Rodeo de 500 animales

Interesa conocer la calidad de la lana para enfocar procesos de selección de animales

En una muestra de 30 guanacos se midió el diámetro de la fibra

Se desea estimar el diámetro promedio de la fibra

Variable aleatoria

Población

Parámetro

Muestra

Estimador

(16)

16

Estimación de un promedio con desvío poblacional desconocido

Es la situación más habitual

Como se desconoce  se utiliza su estimador s mayor incertidumbre

No es correcto utilizar la distribución normal para

Se demuestra que la media muestral en estos casos

ajusta a una distribución conocida como t de Student, que posee mayor dispersión que la normal estándar

n µ z x

 

n s

µ tGLx

(17)

17

Distribución t de Student

Tiene forma acampanada como la normal estándar, pero su dispersión es mayor (es más aplanada). Esto se debe a que al desconocer  hay mayor incertidumbre

Es simétrica con respecto al cero, es decir que µ=0

No se trata de una única curva, sino de infinitas curvas, cada una caracterizada por un parámetro denominado grados de libertad (GL)

Los GL indican la cantidad de datos independientes, es decir el número de observaciones de la variable menos el número de restricciones que verifican

Los GL dependen del tamaño

de la muestra y en este caso valen n-1

A medida que aumentan los GL

más se asemeja a la normal estándar (porque s converge a )

(18)

18

Intervalo de confianza para µ cuando el desvío poblacional  es desconocido

Con  conocido

Con  desconocido

EM x

n s

t x

LS µ

LI P

n

<

<

1, 2

1 )

(

< < +  

+

) 1

( x z

2

n µ x z

1 2

n P

< < +  

+ t

s n x t

s n ) 1

x (

P

n 1,1 / 2 n 1,1 /2

LI LS

(19)

19

Supuestos

Para que las estimaciones sean confiables se debe cumplir:

Muestreo aleatorio probabilístico

La variable x debe tener distribución normal; en caso contrario, el tamaño de la muestra debe ser lo

suficientemente grande

(20)

20

Intervalos de confianza:

interpretación

Holopterus chilensis es un coleóptero barrenador que infesta a

Nothofagus obliqua (roble pellín). Se extrajo una muestra aleatoria de 30 ejemplares en el lago Lacar, con la que se estimó la longitud corporal promedio, obteniéndose

IC95 : 40-45 mm

1. El 95% de los ejemplares mide entre 40 y 45 mm.

2. La longitud corporal promedio de los ejemplares del lago Lacar se encuentra entre 40 y 45 mm.

3. El promedio de la especie se encuentra entre 40 y 45 mm.

4. El 95% de las muestras de 30 ejemplares tiene un promedio entre 40 y 45 mm.

5. Si se aumenta la confianza el intervalo de confianza se achica (es más preciso)

6. Si se quiere achicar el intervalo de confianza se debería aumentar el tamaño de la muestra

(21)

Estadística General

Clase 10

Pruebas de hipótesis

para una media

(22)

22

¿Qué es una prueba de hipótesis?

Es un proceso para determinar la validez de una aseveración hecha sobre la población

basándose en evidencia muestral

La afirmación sobre la población se efectúa a nivel de sus parámetros:

Media

Diferencia de medias

etc

La prueba de hipótesis es un procedimiento de toma de decisiones, relacionada principalmente con la elección de una acción entre dos

conjuntos posibles de valores del parámetro

(23)

23

Definiciones

Hipótesis de investigación: denotada por Hi expresa el objetivo del investigador.

Hipótesis estadísticas:

La hipótesis nula, denotada por Ho, es el status quo o estado actual (lo que se cree hasta el momento) o la que asegura que no hay diferencias en la población. Es la hipótesis de no efecto.

La hipótesis alternativa, denotada por H1, es lo opuesto a la hipótesis nula, el cambio en la población que el investigador espera sea verdadero.

Notas:

Las hipótesis nula y alternativa se refieren ambas a la misma población

Deben plantearse antes de obtener la muestra

(24)

24

Definiendo las Hipótesis

¿La incorporación de vitamina E a la dieta es efectiva?

Se desea determinar la efectividad de incorporar vitamina E a la dieta de cerdos a fin de mejorar el aumento de peso, que actualmente es en promedio de 100g/día.

Ho :

H1 :

Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:

Ho :

H1 :

(25)

25

Definiendo las Hipótesis

¿El lote de glifosato cumple con la especificación?

El glifosato es un herbicida post-emergente de amplio espectro, no selectivo, ampliamente utilizado en nuestro país

Se comercializa bajo la forma de sal de isopropilamina a una concentración de 48 % P/V de la sal

Los lotes se controlan a fin de determinar si cumplen con la especificación

Ho :

H1 :

Usando parámetros:

Ho :

H1 :

(26)

26

Definiendo las Hipótesis

¿El glifosato retarda el desarrollo embrionario de anuros?

Los embriones de anfibios de la especie Xenopus laevis son un modelo tradicional para el estudio del desarrollo embriológico.

Tienen una longitud media de 1,2 mm

Experimento: Se incubaron embriones por inmersión en el herbicida comercial conteniendo glifosato en diluciones 1/5000.

La dilución corresponde a dosis de glifosato entre 50 y 1540 veces inferior de las usadas en el campo. Mayores dosis matan los embriones

A las tres semanas se

estudiaron los embriones a fin de detectar retardo en el

crecimiento y malformaciones

(27)

27

Definiendo las Hipótesis

¿El glifosato retarda el desarrollo embrionario de anuros?

Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:

Ho :

H1 :

Ho :

H1 :

(28)

28

Pasos en una Prueba de hipótesis:

1. Planteo de las hipótesis

1.

Establecer la hipótesis nula en términos de igualdad

Ho:  = 

0

  

0

  

0

2.

Establecer la hipótesis alternativa, que puede hacerse de tres maneras,

dependiendo del interés del investigador H

1

:   

0

 < 

0

 > 

0

Prueba bilateral unilateral izq unilateral der

(29)

29

Resumiendo

Se plantean dos hipótesis o aseveraciones sobre valores de parámetros poblacionales

Las dos hipótesis son incompatibles

Las dos hipótesis se refieren a la misma población

¿Cuál de las dos es válida?

Se debe decidir en base a evidencia muestral

(30)

30

¿La incorporación de vitamina E a la dieta es efectiva?

Ho:   100g/día

H1 :  > 100g/día

30 cerdos fueron alimentados con la dieta tradicional más el agregado de vitamina E

La ganancia de peso fue de 110 g/día en promedio

Se conoce que el desvío estándar de la ganancia de peso de los cerdos es de 25 g/día

día /

g

25

30 n

día /

g 110 x

(31)

31

Lógica de las pruebas de hipótesis

1. Suponemos que Ho es verdadera

2. Describimos el comportamiento teórico del estimador bajo Ho (distribución de probabilidades del estimador o

distribución muestral)

día /

g

100

? x de ón distribuci

¿

PROMEDIO  =100

DESVÍO STD  =25 PROMEDIO =100

ERROR STD =25/√30=4,56

µ

x

x

25 63 100 138 175

X=ganancia en peso de cerdos 0,00

0,00 0,01 0,01 0,02

Densidad

DISTRIBUCION DE X

25 50 75 100 125 150 175

ganancia en peso promedio de 30 cerdos 0,00

0,02 0,04 0,07 0,09

Densidad

DISTRIBUCION DE MUESTRAS

SUPONIENDO Ho VERDADERA

(32)

32

Lógica de las pruebas de hipótesis

3. Decidimos la dirección de los extremos, es decir la ubicación de los valores muestrales que nos llevarían a sospechar de Ho

4. Muestreamos y calculamos el estimador

5. Calculamos la probabilidad de obtener un estimador como el obtenido en nuestra muestra o aún más extremo. Tal

probabilidad se conoce como “p de la prueba” o “p-valor”.

75 100 125

0,00 0,02 0,04 0,07 0,09

Densidad

DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD Ho: 100g/día

H1: > 100g/día día

/ g 110 x

75 100 125

0,00 0,02 0,04 0,07 0,09

Densidad

DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD

110 ) x

( P

 

n

µ z x

 /

(33)

33

Entonces…

Si el aumento de peso de cerdos suplementados con vitamina E fuese el mismo peso promedio que sin vit E (Ho verdadera,  = 100 g/día) ... el resultado muestral

observado o uno aún más extremo sería improbable (p- valor = 0,0145)

Sin embargo ocurrió.

75 100 125

ganancia en peso promedio de 30 cerdos 0,00

0,02 0,04 0,07 0,09

Densidad

DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD

(34)

34

Lógica de las pruebas de hipótesis

6. Si el p-valor es bajo, se interpreta que la muestra es “rara” o “inusual” si Ho fuese

realmente verdadera. La muestra se contradice con Ho  la hipótesis nula es rechazada.

7. Si el p-valor no es bajo, se interpreta que la

muestra apoya a Ho, no la contradice  no hay evidencias contra la hipótesis nula, por lo que no es rechazada.

A menor valor de “p” , menor es la

credibilidad sobre la hipótesis de “no efecto”

(35)

35

Lógica de las pruebas de hipótesis

Condición de rechazo de Ho: P-valor será considerado pequeño si resulta menor a una probabilidad fijada a priori (o nivel de

significación) simbolizada como 

Los valores más usuales de  son 0,01; 0,05 y 0,10.

Alternativamente puede fijarse la condición de rechazo comparando un cierto valor crítico del estimador (que depende del nivel de

significación) con la estimación obtenida de las observaciones muestrales.

(36)

36

Entonces…

Fijamos el nivel de significación

en 0,05

La condición que debe

cumplirse para rechazar Ho es:

CR: p-valor < 0,05

Como 0,0145 es < 0,05, se rechaza Ho y se concluye que existen evidencias de que el agregado de vitamina E

aumenta la ganancia en peso de cerdos

75 100 125

ganancia en peso promedio de 30 cerdos 0,00

0,02 0,04 0,07 0,09

Densidad

DISTRIBUCION MUESTRAL SUPONIENDO Ho VERD

Pero ojo: como decidimos basándonos en una muestra y las muestras son variables, no estamos 100% seguros de haber concluido correctamente

(37)

37

Otro caso

¿El glifosato afecta el desarrollo embrionario de anuros?

Ho :   1,2 mm

H1 :  < 1,2 mm

20 embriones de X. laevis fueron incubados por inmersión en el herbicida comercial conteniendo glifosato en diluciones 1/5000.

Al cabo de 3 semanas se midió La longitud corporal de los 20 embriones y se obtuvo un

promedio de 1 mm con un desvío estándar de 0,3 mm

mm 3

, 0 s

20 n

mm 1

x

(38)

38

Pasos en pruebas de hipótesis

mm 2 ,

1 1. Suponer que H0 es cierta

2. Elegir el estimador del parámetro en estudio y construir su distribución muestral:

 el estimador de µ es y su distribución de probabilidades es t de Student ya que el desvío estándar poblacional es

desconocido

x

0,0 0,4 0,8 1,2 1,6 2,0 2,4

long promedio de 20 embriones 0,0

0,3 0,6 0,9 1,3

Densidad

DISTRIBUCION DE MUESTRAS

2 , 1 µx

20 3 , 0 n

s

x

n s

µ

t

n1

x

(39)

39

Pasos en pruebas de hipótesis

3. Fijar el nivel de significación  y la dirección de extremo de la prueba.

4. Establecer la condición de rechazo de Ho, es decir bajo que probabilidades (o alternativamente valores

muestrales) se debería rechazar la hipótesis nula 5. Contrastar la muestra con la distribución teórica,

calcular el p-valor y concluir.

En este caso:

Los investigadores fijaron  en 0,05

Condición de rechazo: Si la probabilidad de obtener una muestra con un promedio tan o más extremo que el observado, siendo Ho verdadera, fuese < a 0,05, se rechazará Ho.

(40)

40

0,8 0,9 1,1 1,2 1,3 1,5 1,6

long promedio de 20 embriones 0,0

1,4 2,8 4,1 5,5

Densidad

DISTRIBUCION DE MUESTRAS

Pasos en pruebas de hipótesis

2 , 1 µx

<1) x

( P

 

n s

µ t

n 1

x

20 3 , 0 n

s

x

Ho :   1,2 mm H1 : < 1,2 mm

GL=n-1=19

(41)

41

¿El lote de glifosato cumple con la especificación?

Ho: = 48% P/V

H1: 48% P/V

Los lotes se controlan a fin de determinar si cumplen con la

especificación tomando 10 alícuotas y midiendo la concentración de glifosato

Por datos históricos se conoce que la dispersión en la concentración de glifo entre alícuotas es de 1% y que la distribución es normal

Se fija el nivel de significación en 5%

Otro caso

05 ,

0

10 n

%

1

(42)

42

42 45 48 51 54

promedio de 10 alícuotas

0,00 0,10 0,20 0,30 0,40

Densidad

Distribución muestral

x

Distribución muestral

Suponemos que la concentración promedio del glifo del lote es la deseada (Ho verdadera) 48% P/V)

Modelemos el comportamiento de las muestras de 10 alícuotas:

10 /

1

x

n

%

x

48

48

normal ón

distribuci

(43)

43

¿el lote cumple con la especificación?

Controlemos un lote

Al sacar las 10 alícuotas se obtienen los siguientes valores:

La concentración promedio de glifosato de la muestra es:

¿Cuál es la probabilidad de obtener esa concentración o una aún más elevada si el lote cumple con la especificación?

47,9 48,9 49,2 48,1 49,0 47,4 49,0 47,3 48,5 48,8

% 4 , 48 x

48,4 ) x

( P

26 , 10 1

/ 1

48 4

, 48 n

/ µ

z x

446 3

, 0 )

26 , 1 ( F 1

) 4 , 48 x

(

P    

42 45 48 51 54

promedio de 10 alícuotas

0,00 0,10 0,20 0,30 0,40

Densidad

Distribución muestral

x

(44)

44

Pruebas de hipótesis uni y bilaterales

El cálculo de p depende de la hipótesis alternativa

Unilateral izquierda

Unilateral derecha

H1: < 0 H1: > 0

Bilateral

H1: 0

(45)

45

Cálculo del p-valor

Como p-valor es > 0,05, no hay evidencias para rechazar Ho y se concluye que no hay pruebas de que el lote no cumpla con la especificación

48,4 ) x

( P

26 , 10 1

/ 1

48 4

, 48 n

/ µ

z x

446 3

, 0 )

26 , 1 ( F 1

) 4 , 48 x

(

P    

42 45 48 51 54

promedio de 10 alícuotas

0,00 0,10 0,20 0,30 0,40

Densidad

Distribución muestral

x p-valor = 2 x 0,3446 = 0,69

Pero ojo: como decidimos basándonos en una muestra y las muestras son variables, no estamos 100% seguros de haber concluido correctamente

(46)

46

Observaciones

Las hipótesis no se plantean después de observar los datos, sino antes.

La hipótesis nula es conservadora, no especulativa; es la hipótesis del escéptico

debe ser pequeña y es fijado por el investigador

La prueba de hipótesis se plantea de manera tal de controlar el error de tipo I

Rechazar una hipótesis no prueba que sea falsa. Podemos cometer equivocarnos

No rechazar una hipótesis no prueba que sea cierta. Podemos equivocarnos

No rechazar Ho no implica que Ho sea verdadera

Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos.

Rechazar Ho refuta a la Ho. En cambio, no rechazarla no constituye evidencia a favor

(47)

47

H0: Hipótesis nula

Es

H1: Hipótesis alternativa

Es

Riesgos al tomar decisiones

Se juzga a un individuo por la presunta comisión de un delito

Los datos pueden refutarla La que se acepta si las pruebas no indican lo contrario

Rechazarla por error tiene graves consecuencias

No debería ser aceptada sin una gran evidencia a favor. Rechazarla por error tiene consecuencias consideradas menos graves que la anterior

(48)

48

Tipos de error al tomar una decisión

Realidad

Inocente Culpable

Inocente OK Error

Menos grave

Culpable Error

Muy grave

OK

V e

e r

d i

c t

o

(49)

49

¿La incorporación de vitamina E a la dieta es efectiva?

Ho:   100g/día; la incorporación de vitamina E no es efectiva

H1:  > 100g/día; la incorporación de vitamina E es efectiva

Hay 2 x 2 posibilidades:

Ho es o verdadera o falsa (el “estado del mundo”)

Ho es rechazada o no rechazada (decisión basada en la muestra)

(50)

50

Tipos de error al tomar una decisión

Realidad

H0 verdadera H0 falsa

Decisión basada

en la muestra

No rechazo Ho

Decisión correcta

Probabilidad 1-α

Error de tipo II

Probabilidad β

Rechazo Ho

Acepto H1

Error de tipo I

Probabilidad α

(nivel de significación)

Decisión correcta

Probabilidad 1-β

(potencia)

(51)

51

Definiciones

= P(error tipo I) = P(rechazar Ho / Ho es verdadera)

= P(error tipo II) = P(no rechazar Ho / Ho es falsa)

1- = Potencia = Poder o capacidad de la prueba estadística para detectar diferencias cuando éstas realmente existen

Idealmente, desearíamos que ambas probabilidades de error valgan cero

Pero eso es imposible, a menos que efectuemos un censo

Se elige controlar al menos al error tipo I, que generalmente es el más grave

(52)

52

Volviendo a los casos

En el ensayo de suplementación de cerdos, cuando concluimos que existían evidencias de que el

agregado de vitamina E aumentaba la ganancia en peso de cerdos (p-valor = 0,0145)

Error tipo I = rechazar Ho / Ho es verdadera = concluir que el agregado de vitamina E es efectivo e

implementarlo en el criadero cuando en realidad no incrementa la ganancia en peso

Error tipo II = no rechazar Ho / Ho es falsa = concluir que el agregado de vitamina E no es efectivo y por lo tanto no implementarlo en el criadero cuando en realidad sí

incrementa la ganancia en peso

Éste es el que se puede estar cometiendo, y su probabilidad es 0,0145

(53)

53

Volviendo a los casos

En el ensayo de control de calidad, cuando

concluimos que no existían evidencias de que el lote no cumpliese con la especificación (p-valor = 0,69)

Error tipo I = rechazar Ho / Ho es verdadera

Error tipo II = no rechazar Ho / Ho es falsa

(54)

54

Pasos en pruebas de hipótesis

1. Plantear las hipótesis

2. Fijar el nivel de significación  3. Elegir el estadístico de prueba

4. Establecer la condición de rechazo de Ho 5. Calcular el valor p con los datos muestrales 6. Concluir

Si no se rechaza Ho:

• No hay evidencias contra H0

•La prueba no es concluyente

•Se puede estar cometiendo error tipo II

Si se rechaza Ho:

• Hay evidencias contra H0

•La prueba es concluyente

•La prueba es significativa

•Se puede estar cometiendo error tipo I

“Significativo” en estadística no quiere decir “importante”, sino quiere decir que “es poco probable que ocurra sólo por azar”

P-valor <

(55)

Estadística General

Clase 11

Pruebas de hipótesis

para dos medias

(56)

56

¿El pastoreo afecta la diversidad florística de los pastizales de la pampa de Achala?

Se desea estudiar el efecto del pastoreo y de su exclusión por 10 años sobre la composición y diversidad florística de un

pastizal en las Sierras de Córdoba (2200 msnm)

Diseño 1: Se tomaron 10 parcelas de 20x20 m que se dividieron al azar en dos grupos: uno fue sometido a pastoreo mientras que en el otro fue excluido el ganado

2 muestras independientes

PASTOREADO

NO PASTOREADO

C T

C C C

C T T T

T

(57)

57

Efecto del pastoreo sobre la diversidad florística

Diseño 2: Se tomaron 5 sectores. En cada uno se

delimitaron dos parcelas adyacentes de 20 x 20 m c/u separadas por un alambrado, una pastoreada y otra excluida al ganado

SEC-

TOR PASTOREADO

NO PASTOREADO 1

2 3 4 5

2 muestras dependientes o apareadas

C T

C C C

C T T T

T C

C

C C

T C

T

T T

T

(58)

58

Diseños

Muestras independientes

los tratamientos son asignados al azar a las u.e.

Cada observación en una muestra no está relacionada con ninguna observación en la otra muestra

Las dos muestras pueden diferir en varios factores, no solo en el que interesa comparar

Las dos muestras no necesariamente deben ser del mismo tamaño

Muestras dependientes o apareadas

el experimentador agrupa las u.e. en pares y luego asigna al azar los tratamientos a las u.e. dentro de cada par

Cada observación en una muestra está directamente relacionada con otra observación en la otra muestra

Las dos muestras difieren solo en el factor que interesa comparar  mayor precisión

Las dos muestras deben ser del mismo tamaño

(59)

59

Muestras dependientes vs independientes

Se desea determinar si la prevalencia de

brucelosis bovina en Río Negro difiere de la de Neuquén

Se debe elegir entre dos preparaciones para el tratamiento de la dermatitis en codo. A cada paciente se los trata con ambas cremas, una en brazo derecho y otra en izquierdo

Se desea determinar si un nuevo método para medir contaminación con arsénico en agua

difiere del método actualmente en uso

(60)

60

Se desea evaluar el efecto del corte y la aplicación de

herbicida sobre la biomasa de rizomas del caraguatá en un campo con una pastura natural

Ensayo de control del caraguatá

DE=4,0 DE=2,2

¿Muestras dependientes o independientes?

(61)

61

Definiendo las Hipótesis

¿el tratamiento de control del caraguatá es efectivo?

1. Planteo de las hipótesis

Traduzcamos las hipótesis a lenguaje estadístico, usando parámetros:

Ho : T1  T2 , o lo que es lo mismoT1 -T2 0, Δ  0

H1 : T1 > T2 , o lo que es lo mismo T1 - T2 > 0, Δ > 0

Ho : El tratamiento de control del caraguatá no es efectivo, no reduce la biomasa de rizoma

H1 : El tratamiento de control del caraguatá sí es efectivo, reduce la biomasa de rizoma

(62)

62

Comparando dos promedios con muestras independientes

2

1

x

x

x  

-5,00 -2,00 1,00 4,00 7,00

0,00 0,10 0,20 0,30 0,40

Comparamos dos promedios haciendo

inferencia sobre Δ

,

la diferencia entre los dos promedios poblacionales.

•Si los dos promedios poblaciones son iguales, entonces Δ

 0

•El mejor estimador de Δ

es la diferencia entre los dos promedios muestrales

•Se desconocen las varianzas poblacionales de ambas poblaciones, pero se supone que son iguales (2T1 = 2T2),

(63)

63

DE=4,0 DE=2,2

Como suponemos que las varianzas de las dos poblaciones son iguales (2T1 = 2T2), calculamos un estimador insesgado de la varianza

poblacional:

   

2 n

n

1 n

S 1

n S S

2 1

2 2 2 1

2 2 1

a + 

 +

 

 

2

 

2 2

2 2

a 10,42(g/m )

4

2 2 , 2 2

S 4 + 

2

a 10,42 3,23g/m

S  

Y el desvío muestral amalgamado es:

(64)

64

DE=4,0 DE=2,2

2. Construimos la distribución muestral de suponiendo que Ho es verdadera

3. Fijamos  = 0,05 y la zona de rechazo de Ho

x

-15 -10 -5 0 5 10 15

dif medias 0,00

0,03 0,06 0,09 0,13

Densidad

DISTRIBUCION MUESTRAL SIENDO Ho VERDADERA

(65)

65

Distribución muestral de

) (

) (

2 2 2 1

2 1

2 1 2 1

n n

µ µ x Z x

+

2 1 x x

x

1. La media de es , la diferencia entre las medias poblacionales.

2. El desvío estándar (EE) de es

3. Si la población original sigue una distribución normal o si el tamaño de ambas muestras es lo suficientemente grande, pero los desvíos poblacionales son desconocidos,

sigue una distribución t de Student

x

 

n S n

S t x

2 2 a 1

2 a 2

n n1 2

+

 

+

n s n

s

2 2 a 1

2 a +

x

x

(66)

66

DE=4,0 DE=2,2

4. Calculamos el estadístico en base a las dos muestras y calculamos el p-valor

5. Conclusión

n S n

S t x

2 2 a 1

2 a 2

n n1 2

+

 

+

m

2

/ g 14 , 24 66

, 8 82

, 32

x   

? ) 14 , 24 x

(

P

 

17 , 9 3

42 , 10 3

42 , 10

0 16 ,

24

+

valor p<0,0005

(67)

67

Un investigador cree que los fumadores tienden a fumar más durante los períodos de stress.

Encuesta a un grupo de fumadores en

condiciones normales y al mismo grupo cuando está bajo stress

Efecto del stress sobre el hábito de fumar

cantidad de cigarrillos diarios fumados

Individuo Sin stress Con stress

1 15 20

2 31 45

3 50 48

4 16 30

5 56 72

Muestras dependientes

(68)

68

Comparando

dos muestras dependientes

La variable ahora es la diferencia entre las dos observaciones!

Para efectuar esta comparación se requiere:

Una muestra aleatoria de tamaño n de las

diferencias di entre las dos situaciones extraída de la población con parámetro µd

1. La media de es µd

2. El desvío estándar (EE) de es

3. Como el desvío poblacional es desconocido, la distribución muestral es t de Student

con n-1 grados de libertad

xd

n s

t x

d

d d

1 n

 

n s

d

x

d

(69)

69

Prueba de hipótesis

1. Planteamos las hipótesis

Ho: Los individuos bajo stress no fuman más de lo que lo hacen habitualmente

d 0

H1: Los individuos bajo stress sí fuman más de lo que lo hacen habitualmente

d > 0

Elegimos definir a d como la diferencia entre la cantidad de cigarrillos que fuma cada individuo cuando está bajo stress menos la cantidad de cigarrillos que fuma cuando no está bajo stress

(70)

70

Pasos en pruebas de hipótesis

2 d0g / m

 2. Suponemos que H

0

es cierta,

elegimos el estimador del parámetro en estudio y construimos su distribución muestral

 el estimador de µd es y su distribución de probabilidades es t de Student ya que el desvío estándar poblacional es

desconocido

xd

n s

µ t x

d d 1

n

 

3. Fijamos el nivel de significación  = 0,05

(71)

71

Calculando el valor-p

cig 67 , 7 s

cig 4 , 9 x

5 n

d d

cantidad de cigarrillos diarios fumados

Individuo Sin stress Con stress

1 15 20

2 31 45

3 50 48

4 16 30

5 56 72

d

5 14

-2 14 16

9,4) x

( P d

74 , 5 2

67 , 7

0 4 , t 9

n s

µ t x

4

d

d d

1 n

0,025<p-valor<0,05

-15 -10 -5 0 5 10 15

dif media 0,00

0,03 0,05 0,08 0,10

Densidad

DISTRIBUCION MUESTRAL SIENDO Ho VERDADERA

(72)

72

Conclusión

Como el valor p es menor a 0,05 

Hay evidencias para rechazar Ho, es decir que los individuos cuando están bajo stress fuman más que cuando no lo están

Pero ¿y si hubiésemos elegido  = 0,01?

0,025<p-valor<0,05

-15 -10 -5 0 5 10 15

0,00 0,03 0,05 0,08 0,10

Densidad

DISTRIBUCION MUESTRAL SIENDO Ho VERDADERA

Referencias

Documento similar

Pacientes con insuficiencia renal: No debe ser utilizado por pacientes con insuficiencia renal grave y se debe tener precaución en pacientes con insuficiencia

Finol y Camacho (2008) dicen que la muestra está constituida por un grupo pequeño de la población (sujeto, documento u objetos), y en todo caso determina que debe tener sus

Un predictor ocupando su tiempo haciendo la diagnosis meteorológica está más en consonancia con su trabajo, entendiendo qué y por qué existen ciertas estructuras atmosféricas,

El interesado podrá acudir ante el señor Personero Municipal o a la Defensoría del Pueblo para que se le colabore en la elaboración de su demanda o petición, así como en los

A continuación de esta etiqueta vendrá, separado por un nuevo punto y también en negritas, el cuerpo del título, el cual debe ser lo suficientemente explicativo para poder entender

Suponiendo que la canción fuera para ser leída y no cantada (más información en los apartados 3.3 y 3.4) debe tener una estructura que se parezca al original, donde se

A continuación de esta etiqueta vendrá, separado por un nuevo punto y también en negritas, el cuerpo del título, el cual debe ser lo suficientemente explicativo para poder

Los lípidos presentes son sólo uno de los componentes de la nutrición parenteral. Para una nutrición parenteral completa es necesaria la sustitución concomitante con