Precurso Estadistica 2 pdf

(1)

1

TÓPICOS AVANZADOS DE INVESTIGACIÓN

2018845 - Grupo 1

“Diversidad funcional y servicios ecosistémicos en el

manejo y la conservación de los bosques tropicales”

23 mayo al 05 de Junio de 2012

Instituto de Ciencias Naturales Universidad Nacional de Colombia

Profesor

(2)

Inferencia estadística

(3)

En esta parte trabajamos dos aspectos

principales

1. Qué confianza poseen los resultados?. Límites de confianza

2. Cuál es la probabilidad de que la diferencia entre los resultados observados y los esperados sobre la base de una hipótesis se deban solo al azar o casualidad. Prueba de Hipótesis.

Las decisiones se basan en la distribución

de frecuencias de la media ( ) y la

desviación estándar ( ).

X

(4)

Teorema Importante 1:

Las medias de las muestras tomadas de una población que tiene distribución normal también se distribuyen normal, cualquiera que sea el tamaño de la

muestra (n).

Preliminarmente establecemos dos cosas importantes

(5)

Mean,Std. dev. 0,1

Normal Distribution

-5 -3 -1 1 3 5

x 0 0,1 0,2 0,3 0,4 de ns i t y Mean,Std. dev. 0,1 Normal Distribution

-5 -3 -1 1 3 5

x 0 0,1 0,2 0,3 0,4 de ns i t y “n” veces

Distribución de medias Experimento muestral

(6)

Teorema Importante 2:

*TEOREMA DEL LIMITE CENTRAL*

A medida que n aumenta, la distribución de MEDIAS de muestras extraídas de una población con cualquier distribución de frecuencias,

también se aproxima a la normal. X

(7)

Mean,Std. dev. 0,1

Normal Distribution

-5 -3 -1 1 3 5

x

0 0,1 0,2 0,3 0,4

de

ns

i

t

y

Experimento muestral

Poisson

“n” veces

(8)

El teorema de límite central permite utilizar la

distribución normal para inferencias estadísticas

sobre

medias

de poblaciones cuyos datos no son

normales… o tienen otra distribución.

Además, la extensión (variación) de la distribución

de medias es menor que la distribución de los

datos originales (muestra) y disminuye aún más a

medida que

n

aumenta.

Es decir, la varianza disminuye

(9)

•Las medias basadas en grandes muestras se aproxima a µ •La varianza de las medias, es función de n

•Si tenemos a medias de n datos, entonces:

El valor esperado de la varianza de medias basados en n datos es:

n

X

2

σ

=

y la desviación estándar esperada de las medias será:

n

X

σ

=

Se ve que la desviación estándar de las medias es función de la desviación estándar de los datos, así como del tamaño de las muestras

de las cuales se han extraído las medias.

(10)

… Y COMO CONSECUENCIA:

Cuando n aumenta entonces la desviación estándar de las medias ( ) disminuye. Si n tiende a ∞

entonces esta se hace infinitamente pequeña.x

σ

Tener en Cuenta que en la Práctica:

Con muestras tomadas de una población se reemplaza σ por s.

Es poco probable obtener suficientes muestras de tamaño n para calcular directamente.

Entonces, este valor se calcula a partir de una sola muestra, de la siguiente manera:

n s s_X =

Este cálculo de la desviación estándar de una distribución de frecuencias de medias es muy importante y de uso frecuente en estadística.

Se llama ERROR ESTANDAR.

n

X

σ

(11)

Distribución y varianza de otros estadísticos

Mediante técnicas de muestreo repetidas o

experimentos muestrales

, como se hizo con la

media, también se pueden obtener errores estándar

de otros estadísticos, tales como coeficientes de

variación (

CV

), los momento estadísticos (g

₁

, g

₂

) o

las varianzas.

Para ello se construyen distribuciones de frecuencias

para cada uno y se calculan sus desviaciones

estándar.

(12)

Pero en otros casos los estadísticos se distribuyen normalmente sólo:

1.Si se basan en muestras extraídas de una población con distribución normal.

2.Si se basan en cálculos con muestras grandes.

3.Si se cumplen las dos condiciones anteriores simultáneamente.

Pero la distribución de varianzas nunca es normal, sino que generalmente es

asimétrica hacia la derecha. Por eso en el Análisis de Varianza se usa la distribución F.

(13)

(14)

LIMITES DE CONFIANZA O

INTERVALOS CONFIDENCIALES

No podemos conocer los

verdaderos

valores

de los

parámetros

por lo que tenemos que

calcular la

credibilidad o confianza

de un

estadístico mediante la construcción de sus

(15)

 Si tenemos una media sabemos que su desviación estándar esperada es:

 Además, sabemos que las muestras de medias es normal.

Por lo tanto:

X σ X

n

X

σ σ =

Distribución de frecuencias de medias

(16)

Si:

(

)

n s X − µ

Entonces:

es la desviación tipificada de la media muestral.

P

(

)

          ≤ − ≤

−1.96 1.96

n s

X µ

= 0.95

P

(

)

     ₋ _≤ ₋ _≤ n s X n

s ₁_.₉₆

96 .

1 µ _{= 0.95}

P _ − ≤ ≤ X + s _n_

n s

X 1.96 µ 1.96 _{= 0.95}

L₁ L₂

Si construimos limites de confianza para repetidas muestras de tamaño n se espera que 95 % de ellas contengan la verdadera media o media paramétrica (µ).

(17)

Para reducir el ancho del intervalo de confianza (e.d. aumentar la confianza de la estimación) se debe reducir la desviación estándar de la media.

Como consecuencia de lo anterior es fácil ver que:

Pero como vimos:

n X

σ

= n s s_X =

ó

♦Esto se puede hacer solo DISMUYENDO la desviación estándar de los datos (s) , o AUMENTANDO el tamaño de la muestra (n).

♦Cuando la población está distribuida normalmente y las muestras son grandes se puede utilizar la desviación estándar muestral para calcular la desviación estándar de las medias, con la ecuación que ya vimos:

n ≥100

(18)

♦Pero cuando n es pequeño (n < 100) y se desconoce σ se debe tener precaución con la fiabilidad o confianza de nuestra estimación de la desviación estándar

muestral.

♦Por esto se utiliza la distribución t - Student para construir los límites confidenciales:

n

s

t

X

±

_α_,_n₋₁

⋅

n

s

X

s

(19)

ESTIMACION Y PRUEBA (TEST)

DE HIPOTESIS

VALIDACION DE HIPOTESIS

(20)

Método o procedimiento que sirve para contrastar

objetivamente y decidir sobre la validez de una hipótesis

planteada, con un grado determinado de confiabilidad.

1. En los campos de la biología sirve para PROBAR o validar

(

no comprobar!

) hipótesis científicas, con base en decisiones

entre una o varias hipótesis alternativas.

2. Mediante una prueba (

test

) se examinan los datos sobre la

base de una distribución esperada, y el resultado nos orienta

para tomar decisiones sobre las hipótesis originales.

ESTIMACION Y PRUEBA (TEST) DE HIPOTESIS.

VALIDACION DE HIPOTESIS

(21)

La tabla muestra las

frecuencias esperadas de machos y de hembras en muestras de 17 animales, bajo

la hipótesis de que la proporción de sexos es 1:1.

Ya que es una variable cuyos resultados solo se manifiestan

en dos estados, tiene una

distribución Binomial, de tal manera que podemos usar esta distribución de frecuencias

teóricas para calcular las frecuencias esperadas de este

suceso.

Esto significa que:

P (hembras) = P (machos) = 0.5

(p + q) k_{= (0.5 + 0.5)}17

21

(22)

(23)

Distribución esperada cuando muestreamos 17 individuos de dos poblaciones hipotéticas. A.Ho: phembras = pmachos =

½. B. H₁: phembras = 2:1

pmachos = 2/3.m

B.Las líneas punteadas separan la región de rechazo o región crítica, de la región de

aceptación de la distribución de

A.

El error Tipo I es

aproximadamente igual a 0.01.

(24)

Si muestreamos en esta población de forma aleatoria y encontramos que en cada muestra obtenemos pocos individuos de un sexo o del otro. Entonces podríamos pensar que son probables las siguientes hipótesis:

1. La verdadera proporción de sexos no es 1:1

2. La muestra no se tomó aleatoriamente (imparcial)

3. Los sexos no son independientes

(25)

En la anterior tabla de frecuencias es fácil estudiar que si se supone que:

• En la población hay preponderancia de hembras, por ejemplo que existan 14 hembras vs. 3 machos, se analiza una sola cola de la distribución y bajo la hipótesis de 1:1 hay una posibilidad muy baja de que esto ocurra o de obtener un resultado como esos. Vea en la tabla que esta probabilidad es solo de 0.5188 %.

25 Ejercicio:

Determine en la tabla cuál es la probabilidad de obtener 14 o más hembras Vs 3 o menos machos.

(26)

(27)

Si no hay ideas preconcebidas con respecto a la dominancia de sexos entonces podrían ser 14 hembras vs. 3 machos o 14 machos

Vs 3 hembras, o cualquier resultado peor.

En estos casos se debe analizar las dos colas de la distribución de frecuencias.

Para dos colas se duplica la probabilidad obtenida en un análisis de una sola cola.

(28)

Ejercicio: Calcule la probabilidad del suceso anterior.

Respuesta:/ 0.0127258 ≈ 0.013 ≈ 1.3 %

Si no hay ideas preconcebidas con

respecto a la dominancia de sexos entonces podrían ser

14 hembras vs. 3 machos o 14 machos

Vs 3 hembras, o cualquier resultado

(29)

Pero si hemos asumido que la hipótesis que se quiere validar es:

Ho: P (hembras) = P (machos) = 0.5

En el ejemplo, si la hipótesis “proporción de sexos 1:1” (Ho) es verdadera, entonces aproximadamente 13 muestras de cada 1000

se desvían (en cualquier dirección) por casualidad o azar, o por errores del muestreo.

En otras palabras, si la hipótesis “proporción de sexos 1:1” (Ho) es verdadera, se puede pensar que:

1. Este acontecimiento (e.d. obtener en una muestra preponderancia de uno de los dos sexos) es poco probable, pues ocurre solo el 1.3 % de las veces.

(30)

SIN EMBARGO:

Este acontecimiento es tan improbable para que

podamos justificar que Ho es verdadera que sería

mejor decidir que Ho es falsa, y concluir así que la

verdadera proporción de sexos es diferente de 1:1.

(31)

En relación con las posibles decisiones que tomemos con respecto a la hipótesis pueden suceder cuatro cosas:

•Ho: 1:1 es verdadera: y la aceptamos = DECISION CORRECTA.

•Si Ho: 1:1 es verdadera: y la rechazamos = ERROR TIPO I.

•Si la proporción de sexos es ≠ de 1:1: y aceptamos Ho = ERROR TIPO II.

•Si la proporción de sexos es ≠ de 1:1: y rechazamos Ho=DECISION CORRECTA.

(32)

En resumen:

Ho

ACEPTO RECHAZO

VERDADERA

_Correcto

_{ERROR TIPO I}

FALSA

ERROR TIPO II

Correcto

(Potencia=1-

β

)

En consecuencia si la hipótesis (Ho) es falsa entonces alguna otra hipótesis alternativa (H₁) debe ser verdadera!

(33)

Para el ejemplo tenemos las siguientes posibilidades:

1.La primera hipótesis Ho: P_hembra = P_macho=0.5 (1:1) 2.Una hipótesis alternativa podría ser:

3.P_hembra = 2P_macho o 2:1 a favor de las hembras

Entonces:

P_hembra = 2/3 y P_macho= 1/3

(p_hembra + q _macho )k _{= (2/3 + 1/3)}17

(34)

1. Cuando vamos a realizar una prueba estadística:

•Establecemos una hipótesis Ho y una hipótesis H₁

•Definimos variables y tomamos datos

•Fijamos un nivel de significancia α, para el error tipo I.

•Vemos si la muestra (o el estadístico) caen en una región de aceptación o de rechazo.

2. Los niveles de significación pueden variar a voluntad, pero una vez fijados no.

3. Si rechazamos Ho a un determinado nivel de significancia α, se dice que la muestra es significativamente diferente de la población (o que la muestra

proviene de otra población) con P α.

NOTAS

≤

(35)

PRUEBA DE t

Procedimiento estadístico usado para probar (validar, no comprobar) la hipótesis de que dos medias muestrales proceden de la misma población con media µ

El procedimiento incluye dos partes principales:

A. Calcular el estadístico respectivo t_s

B. Comparar su valor con un valor crítico o teórico (tabulado).

A.CALCULAR EL ESTADISTICO ts:

1.- Tamaño de muestra diferentes y n₁ ó n₂ pequeños (< 30)

= 0 ya que Ho:

(

)

(

)

(

)

(

)

      +       − + − + − − − − = 2 1 2 1 2 1 2 2 2 2 1 1 2 1 2 1 2 1 1 n n n n n n s n s n X X

t_s µ µ

gl = n₁ + n₂ - 2

2

1 µ

µ =

(36)

2.- Los tamaños de las dos muestras son iguales n₁=n₂ (independiente del tamaño).

(

)

(

)

(

2

)

2 2 1 2 1 2 1 1 s s n X X t_s + − − −

=

µ

gl = 2(n-1)

3.- Tamaños de muestra desiguales (n₁ ≠ n₂) y grandes ( >30)

gl = n₁ + n₂ - 2

(37)

4.- Caso especial: Comparación de una sola observación (un dato) con la media de una muestra.

gl = n₂ - 1

Donde X₁ es la observación o dato único, es la media muestral, es la desviación estándar de la muestra y n₂ es el tamaño de la muestra.

(38)

B. COMPARAR ts CON EL VALOR CRÍTICO TEORICO

Se rechaza

Ho

si el valor calculado del

estadístico

ts

es mayor que el

valor crítico

que aparece en las tablas de la distribución

t-Student

con los respectivos

grados de

libertad

a un nivel de probabilidad (

α

)

determinado, generalmente 0.05

(39)

REQUISITOS O SUPUESTOS DE LOS DATOS PARA USAR LA PRUEBA DE t.

•Los datos deben ser aleatorios - pruebas de aleatoriedad

•Normalidad de los datos – Pruebas de normalidad

•Las varianzas de las poblaciones de donde se tomaron las muestras son iguales. Prueba de homogeneidad de varianzas.

2 2

2 1

s

F =

(40)

PRUEBA DE t PAREADA

Test de la t para comparaciones emparejadas

(41)

D s

s

D

t

=

−

(

µ

1

−

µ

2

)

Donde D es la diferencia media entre los pares de observaciones

20 .

0

15 /

00 .

3 /

=

∑

D

b

D

b s

s_D = _D / D

Y es el error estándar o error típico de

calculado a partir de las diferencias observadas (en la columna 4).

1 / ) ( 2 2 − − =

∑

b b D D s_D 41 bes el número de parejas

(42)

D s

s

D

t

=

−

(

µ

1

−

µ

2

)

Donde D es la diferencia media entre los pares de observaciones

20 .

0

15 /

00 .

3 /

=

∑

D

b

D

b s

s_D = _D / D

Y es el error estándar o error típico de

calculado a partir de las diferencias observadas (en la columna 4).

1 / ) ( 2 2 − − =

∑

b b D D

s_D ₁₅ ₁

15 / ) 00 . 3 ( 6216 . 0 2 − − 0101423 . 0 001543 . 0 14 / 0216 .

0 = =

=

Suponemos que la verdadera diferencia entre la media de los dos grupos es cero µ1 − µ2 = 0

7194 . 19 0101423 . 0 0 20 . 0

0 ₌ − ₌

− = D s s D

t con b-1 = 14 g.l. y P <<0.001

Entonces

(43)

(44)

(45)

NOTAS

1. La prueba de t-pareada prueba si la media de las diferencias entre parejas de datos de dos bloques es diferente significativamente de una

media hipotética, que la hipótesis nula considera igual a cero.

2. Como quedará claro más adelante tanto la prueba de t como la prueba t-pareada se pueden trabajar mejor como casos especiales de análisis de varianza cuando se tiene el caso de bloques completos aleatorizados, en

los que existen únicamente dos tratamientos o grupos (a = 2)!

(46)

3. Se llaman comparaciones emparejadas o pareadas, porque cada observación para un tratamiento esta emparejada con otra observación

para el otro tratamiento. Esta pareja está compuesta de los mismos individuos – o unidades muestrales- comprobados o medidos dos veces,

o de dos individuos – o unidades muestrales- que tienen experiencias comunes, de tal manera que podemos clasificar los datos como un

análisis de varianza de dos factores.

4. Las comparaciones emparejadas o pareadas se trata del único de los anovas de dos factores sin repetición que presenta método alternativo de

análisis equivalente: la prueba de t-pareada.

(47)

LAS PRUEBAS EQUIVALENTES NO PARAMETRICAS

Las anteriores pruebas de t y t-pareada tienen dos pruebas no paramétricas equivalentes.

Estas se pueden hacer cuando:

1. Los datos no reúnen los requisitos necesarios para hacer una prueba de t, vistos anteriormente. Excepto la aleatoriedad.

2. Se quiere tener facilidad de cálculo (condiciones de campo).

3. No se requiere mucho poder estadístico para detectar diferencias (generalmente).

(48)

La prueba no paramétrica equivalente de la prueba de t es la PRUEBA DE U-de MANN-WHITNEY

La prueba no paramétrica equivalente de la prueba t-pareada es la PRUEBA DE RANGOS CON SIGNOS DE WILCOXON

(49)

(50)

(51)

51

Prueba de igualdad de ´”localización” de dos

(52)

(53)