• No se han encontrado resultados

13/08/2015 ANÁLISIS DE LA VARIANZA ANOVA. Cajas Negras 1. INTRODUCCION PLANIFICACIÓN DE LA INVESTIGACIÓN ANALISIS DE LA VARIANZA

N/A
N/A
Protected

Academic year: 2021

Share "13/08/2015 ANÁLISIS DE LA VARIANZA ANOVA. Cajas Negras 1. INTRODUCCION PLANIFICACIÓN DE LA INVESTIGACIÓN ANALISIS DE LA VARIANZA"

Copied!
6
0
0

Texto completo

(1)

ANÁLISIS DE LA

V

ARIANZA

COMPARACIONES MULTIPLES ENTRE MEDIAS MUESTRALES

ANOVA

Marta Alperin

Profesora Adjunta de Estadística Guillermo Natale JTP de Matemática y Estadística alperin@fcnym.unlp.edu.ar guillermo.natale@gmail.com http://www.fcnym.unlp.edu.ar/catedras/estadistica 2015

• Es común en el estudio de las ciencias naturales tomar

datos de dos o más muestras, de dos o más

poblaciones, situación comúnmente denominada

análisis de muestras múltiples.

• Para poder contrastar las hipótesis múltiples generadas

a partir de este tipo de estudios se recurre al Análisis

de la Varianza (ANOVA)

PLANIFICACIÓN DE LA INVESTIGACIÓN

1. INTRODUCCION

• Para todo profesional de las Ciencias Naturales es importante comparar medias muestrales.

Dos procedimientos para comparar dos promedios: Límites de confianza

Prueba de hipótesis “t”

Cuando se necesita comparar mas de dos promedios ¿Por qué no se realizan test de hipótesis “t” para comparar todos los pares posibles de medias?

Dos problemas

1º a medida que el número de comparaciones aumenta, aumenta la probabilidad de cometer errores de tipo I, rechazar la hipótesis nula.

2º por lo general contamos con muy pocas observaciones en cada muestra estadística como para tener una buena estimación de la varianza poblacional2.

ANALISIS DE LA VARIANZA

• “Es un método fundamental para todas aplicaciones de la

estadística a la biología y especialmente en la planificación deexperimentos”

• “Es una forma de comparar si más de dos medias muestrales pueden haberse obtenido de poblaciones con la misma media paramétrica respecto de una variable dada”

• “Sin embargo el ANOVA es algo más que una técnica para análisis estadístico, una vez comprendido, permite discernir la naturaleza de la variación de los acontecimientos naturales.

• “Si se pudiese hablar de belleza en un método estadístico, el análisis de la varianza la poseería en mayor grado que ningúnotro”

Según Sokal y Rohlf (1979)

Cajas Negras

• Dispositivos descriptos por Bunge (1999) se intenta mediante la

experimentación simple “acusar o culpar” al factor estudiado (variable

independiente) como el responsable de generar la causa o el efecto,

medido habitualmente como diferencias significativas en la magnitud

de la variable de respuesta (variable dependiente) en el grupo tratado

respecto del grupo control.

Este tipo de dispositivos, nos permiten realizar explicaciones simples, generales y predictivas

El primer resumen completo de sus ideas fue publicado en 1926, en un artículo “Arrangement of Field Experiments” en el Journal of the Ministry of Agriculture of Great Britain 33, 503-513.

En este artículo describió los componentes de los experimentos de prácticas agrícolas: control local (condiciones para reducir el error experimental), replicación (medio para estimar la varianza del error experimental), aleatorización (medio para obtener una estimación válida de la varianza).

Ronald Aylmer Fisher, (Londres, 17 de febrero de 1890– Adelaida, 29 de julio de 1962) científico, matemático, estadístico, biólogo evolutivo y genetista inglés.

(2)

El diseño de experimentos (1935)

El diseño de experimentos: ANOVA

• La hipótesis de investigación y la relación con los tratamientos. • La forma de reducir el error experimental, incrementar la exactitud,

establecer la base de inferencia del estudio. • Replicar para obtener experimentos válidos

• Reproducibilidad • Detección de errores • Estimación del error experimental • Aumentar la precisión

• La magnitud de las diferencias que consideramos relevante o significativa para el caso a evaluar.

• La aleatorización como un mecanismo para tener inferencias válidas.

Razonamiento: las variables de respuesta se modifican por la

variación de algún conjunto de variables independientes

desconocidas.

Se asume que el conjunto de factores no medidos y desconocidos conformarán un efecto“no explicable” sobre la variable de respuesta (error aleatorio)

ANALISIS DE LA VARIANZA

ANALISIS DE LA VARIANZA

Objetivo: identificar variables independientes importantes en un estudio y determinar como interactúan y afectan a la respuesta

Fuentes de Variación: El análisis de la varianza divide la varianza total, llamada suma de cuadrados total, en partes, cada una de las cuales se atribuye a una de las variables independientes en el experimento, mas un residuo que se asocia con un error aleatorio.

Ejemplo

Hipótesis de trabajo

- Las diferencias ambientales afectan los niveles de acidez-alcalinidad de las aguas de lluvia. - El pH del agua de lluvia es una propiedad que cambia regionalmente.

Experimento

Total de las estaciones meteorológicas del país que tenían relevado datos de pH de agua de lluvia en 2006 (m).

Estaciones meteorológicas seleccionadas para el experimento (k=4)

ANOVA SIMPLE DE UNA VÍA PARA UNMODELOIIOMODELO DE EFECTOS ALEATORIOS

M1 M2 M3 M4 Localidad Replica Marino (1) Volcánico (2) Desértico (3) Mesopotámico (4) 1 5,6 5,1 6,2 6,1 2 5,9 5,3 6,0 5,6 3 5,8 5,6 5,9 6,2 4 6,2 5,7 6,1 5 6,1 6,3 6 6,3 6,0

Datos del pH del agua de lluvia de 4 localidades argentinas con distintas características climáticas

(3)

La denominación más corriente para ANOVA es • X la variable dependiente o respuesta (el pH).

• la variable independiente o factor de variación tiene al menos 3 categorías o condiciones en las cuales se toman los datos a comparar (las distintas estaciones meteorológicas elegidas aleatoriamente para relevar datos).

• k categorías de la variable independiente (4, cada una de la estaciones meteorológicas).

• ni repeticiones o réplicas (cantidad de datos tomados en cada

estación meteorológica). • N número total de datos (19).

• xi,j dato, (i= tratamiento, j= posición del dato en el tratamiento i;

x1,4= 6,2).

1. EL MODELO

1 i 1 i i x CMDentro CMEntre CMTotal Hipótesis nula Hipótesis alternartiva 1 i Hipótesis nula Hipótesis alternartiva

Se denomina modelo lineal para la observación

x

ija: ij i ij

x

(

)

donde: ij

x

es la j-ésimo dato del i-ésimo factor

es la media general de los datos o el punto de equilibrio )

( i es el efecto del i-ésimo factor

ij

es una variable aleatoria normal, independientemente distribuida con esperanza “0” y varianza es igual a la varianza poblacional

2

0

;

2

2

El ANOVA intenta encontrar si existe más variación Entre muestras diferentes o Dentro de una misma muestra.

H0: las muestras son tomadas de la misma población normalmente distribuida (o de poblaciones idénticas).

H1: las muestras son tomadas de diferentes poblaciones aunque todas tienen la misma varianza.

Si las muestras son tomadas en forma aleatoria de una población común ( la hipótesis nula), la variación entre las muestras es aproximadamente la misma que la variación dentro de las muestras pues ambas reflejan la variación de la población.

Si las muestras son tomadas de diferentes poblaciones (la hipótesis alternativa), la variación entre las muestras es el reflejo de la variación de la población de la cual es extraída. La diferencias entre las muestras, indica que existe diferencia entre las poblaciones.

1

i

¿Cómo estimar la varianza poblacional común

2 ?

Recordemos que la varianza se puede escribir como CM

gl SC CM 2 1 ) (x X SC i n i  

Si llamamos

n ij x 1

suma de las observaciones de cada muestra

i

X

promedio de la i-ésima muestra

X

promedio de todos los datos o Gran media

Cada desviación de una observación a la gran media, se puede descomponer en dos términos: la desviación de cada dato a la media grupal, más la desviación de la media de cada grupo a la gran media.

)

(

)

(

)

(

x

ij

X

X

i

X

x

ij

X

i 𝜎2=1 𝑛 1 𝑛 𝑥𝑖− 𝑋2

¿Cómo estimar la varianza poblacional común

2 • Calculando una varianza ponderada a partir de las varianzas muestrales de las distintas poblaciones. Esto es calculando el Cuadrado Medio (CM), CM Dentro también llamado CM Error.

?

glDentro SCDentro CMDentro ;

 

          k i n j i ij X x SCDentro 1 2 1 ;

    k i i N k n glDentro 1 ) 1 (

• Calculando una varianza ponderada a partir de las varianzas entre las medias muestrales de las distintas poblaciones y la gran media esto es el CM Entre.

glEntre SCEntre CMEntre ; 2 1 ) (X X n SCEntre i k i i  

 ; glEntrek1

• También se puede calcular el CM Total:

glTotal SCTotal CMTotal ; 2 1 1 ) (x X SCTotal ij n j k i  

  ; glTotalN1

(4)

En ANOVA se cumplen las siguientes relaciones:

 SCTotal = SCEntre + SCDentro

 GLTotal = GLEntre + GLDentro

 CMTotal

≠ CMEntre +CMDentro

El CMDentro es un estimador insesgado de la varianza poblacional2. Las

medias poblacionales tienen todas la misma varianza, entonces las“i” varianzas muestrales estiman al mismo parámetro poblacional, y el promedio ponderado de estas varianzas es un buen estimador de esta varianza poblacional2.

El CMEntre,

• Hipótesis Nula del ANOVA es cierta, estima a la varianza poblacional2 Solo cuando lasison iguales, ya que la componente de la varianza total producida por los tratamientos se anula y entonces CMEntre es2. • Si la Hipótesis nula no es verdadera el CMEntre estima a la2más una

cantidad que representa una medida de la magnitud de los efectos de los factores.

La relación entre las varianzas calculadas, CMEntre y CMDentro, permite comparar medias poblacionales.

Con esto resolvemos la paradoja de cómo a partir de un análisis de varianzas es posible comparar medias.

1i

La partición en dos de las suma de cuadrados total: en donde una representa la variación entre las medias de los Grupos/Tratamientos (respecto a la media total), y la otra la variación de cada valor (respecto de la media total) = error experimental .

Esta PARTICION FUNDAMENTAL aclara y explica las variaciones en los resultados del experimento.

Al comparar la Suma de cuadrados Total respecto a la Suma de Cuadrados de los tratamientos (SCEntre) y la Suma de Cuadrados del Error (SCDentro), vemos claramente cuanto (p,%) de la variabilidad total están explicando cada una.

Esto se refleja en la tabla RESUMEN DE ANALISIS DE LA VARIANZA.

SC Total = SC tratamientos + SC error

Sintetizando

3. PROCEDIMIENTO PARA EL CALCULO

SC =

  n i i X x 1 2 ) ( =

2 x -

 

x /n 2 Recordemos SCTotal =



  K i n j 1 1 (xij-X)2 =



  K i n j ij x 1 1 2 – C

Factor de corrección de la media: C = (



  K i n j ij x 1 1 )2 N SCEntre =

K i 1 ni (Xi- X )2 =

K i 1 (

n 1 xij)2 / ni - C SCDentro =

 

  K i n j 1 1 ( (xij-Xi) 2 )=SCTotal – SCEntre •GLTotal = N-1 •GLEntre = k-1

•GLDentro = GLtotal – GLEntre

•CMTotal = SCTotal / GLTotal; •CMEntre = SCEntre/GLEntre; •CMDentro = SCDentro/GLDentro

Hiptesis de ANOVAH0 : 1 = 2 = … = k ;

Ha: i ≠ j para al menos un par de (i, j)

Prueba estadística

Comparar el CMEntre con el CMDentro. Las dos varianzas miden en forma independiente la varianza de la distribución de medias muestrales.

¿Que probabilidad hay que estos 2 valores estimen la misma varianza poblacional? Respuesta

“F” es el cociente entre varianzas. La hipótesis nula se rechazará cuando

Fcon1= (k -1) y2= (N -k) grados de libertad

(Los valores críticos de F se encuentran en tablas)

Se realiza una prueba a una cola ya que se trata de detectar la variabilidad que tienda a aumentar la varianza Entre medias.

CMDentro

CMEntre

> F(k-1;N-k;

)

H0:2ENTRE=2DENTRO H1:2ENTRE>2DENTRO

A mayor diferencia entre las medias observadas de los tratamientos, mayor es la evidencia que indica una diferencia entre las medias poblacionales correspondientes.

Cuando se analiza la relación expresada en la SCEntre, se puede ver que a medida que las medias se alejan una de otras, las desviaciones aumentarán en valor absoluto y la SCEntre aumentará en magnitud.

Por consiguiente a mayor valor de SCEntre mayor peso de la evidencia en rechazar la hipótesis nula.

(5)

Fuente de variación

Suma de Cuadrados gl Cuadrado Medio f calculado Entre los tratamientos Dentro de los tratamientos Total

K i 1 (

n j ij x 1 )2 /n i - C SCTotal – SCEntre



  K i n j ij

x

1 1 2 - C k-1 N-k N-1 SCEntre GLEntre SCDentro GLDentro CME CMD TABLA RESUMEN DE ANOVA para el caso de un experimento aleatorizado que contiene k medias de tratamientos

Para C = (



  K j n i Xij 1 1 )2 N Localidad Replica Marino (1) Volcánico (2) Desértico (3) Mesopotamico (4) Totales 1 5,6 5,1 6,2 6,1 2 5,9 5,3 6,0 5,6 3 5,8 5,6 5,9 6,2 4 6,2 5,7 6,1 5 6,1 6,3 6 6,3 6,0 ni 4 3 6 6 19 x 23,5 16,0 36,2 36,3 112,0

n ij x 1 5,9 5,3 6,0 6,1 23,3 (

n ij x 1 )2 552,3 256,0 1310,4 1317,7 3436,4 i n ij n x

1 2 ) ( 138,1 85,3 218,4 219,6 661,4

n ij x 1 2 138,3 85,5 218,6 219,9 662,3 Factor de corrección: C = (



  K j n i Xij 11 )2 N C = (23,5+16,0+36,2+36,3)2 / 19 = (112,0)2 / 19 =12544,0 / 19 = 660,2 SCTotal =



  K j n i ij x 1 1 2 – C SCT = 662,3 – 660,3 = 2,05 SCEntre=

K i 1 (

n j ij x 1 )2 / ni - C SCE = 661,4 – 660,3 = 1,21 SCDentro = SCT – SCE SCD = 2,0 – 1,2 = 0,84 gl T = N – 1 ; glE = K–1 ; glD = glT – glE = (N-K) gl T = 19–1= 18 ; gl E = 4 – 1 = 3 ; gl D = 19 – 4 = 15 CME = SCE / gl E CME = 1,21 / 3 = 0,402 CMD = SCD / gl D CMD = 0,84 / 15 = 0,056 f = CME / CMD f = 0,402 / 0,056 = 7,163

Valor Crítico de tabla: F (K-1; N-K; α) F (3; 15; 0,05) = 3,287

Ho: las 4 medias poblacional i del pH del agua de lluvia de las diferentes estaciones meteorológicas son iguales

H1: la media del pH del agua de lluvia de al menos una de las diferentes estaciones

meteorológicas es diferente

Hipótesis Nula: µ1 = µ2 = µ3 = µ4 ; ó σ 2ENTRE = σ2DENTRO Hipótesis Alternativa: al menos una media diferente; ó σ 2

ENTRE > σ2DENTRO Riesgo de error de tipo I: α = 0,05

Fuente de variación Suma de cuadrados gl Cuadrado Medio f Entre las localidades Dentro de las localidades Total 1,21 0,84 2,0 3 15 18 0,402 0,056 7,163 f = 0,402 / 0,056 = 7,163 F (3; 15; 0,05) = 3,287 Región crítica: f >F (3; 15; 0,10)

Como f> F critico de tabla, rechazo la Hipótesis nula. Por lo tanto puedo afirmar, con un error del 5%, que el pH del agua de lluvia es una propiedad que toma valores diferentes según se trate del lugar.

Tabla resumen de ANOVA

4. SUPUESTOS del ANOVA

1º Se han tomado una muestra aleatoria simple de cada una de los

“i” distribuciones.

2º Las “i” distribuciones son normales.

3º Las “i” distribuciones tienen todas idéntica varianza.

Discrepancias moderadas con el cumplimiento de los “supuestos del ANOVA” (aleatoriedad del muestreo, normalidad en las distribuciones y homogeneidad de varianzas) prácticamente no afectan las propiedades de la prueba. Sin embargo, si las diferencias son importantes se debe recurrir a otra estrategia de análisis.

5. C

OMPARACIONES MÚLTIPLES

. P

RUEBA DE

T

UKEY

Para todos los pares posibles de comparaciones entre medias.

A es la media más grande a comparar y B la más pequeña.

Ho: µ

A

= µ

B

Ha: µ

A

≠ µ

B

SE

X

X

q

A B c

Estadístico de prueba

Tamaños de muestra iguales

ni CMDentro SE

Tamaños de muestra diferentes

nb na CMDentro SE 1 1 2   na=tamaño de la muestra A , nb=tamaño de la muestra B

La hipótesis nula se rechaza cuando qc> q(k; N-k;) Diferencias significativas qc> q(k; N-k;:0,05)

Diferencias altamente significativas qc> q(k; N-k;:0,01)

qcse aproxima a una distribución de q(k; N-k;),

k: número e categorías del factor glD: grados de libertad del CMDentro Tabla Rango Total Studentizado

(6)

Se rechazó la hipótesis nula de ANOVA en el ejemplo del pH del agua de lluvia en las cuatro estaciones meteorológicas

¿entre que ambientes el pH del agua de lluvia es diferente?.

Localidad Marino

(1) Volcánico (2) Desértico (3) Mesopotamico (4)

ni 4 3 6 6

x 23,5 16,0 36,2 36,3

Cuadrado Medio Dentro = 0,056

1. Para cada par posible de comparaciones contrastar las siguientes hipótesis: Ho: µA= µB; Ha: µA≠ µB

2. Calcular las diferencias de medias comenzando por las medias mayores XAXB 3. Calcular nb na CMDentro SE 1 1 2   0966 , 0 6 1 6 1 2 056 , 0 SE 0,1080 4 1 6 1 2 056 , 0 SE 1138 , 0 3 1 6 1 2 056 , 0 SE 0,1278 3 1 4 1 2 056 , 0 SE

4. Buscar valores críticos Tabla Rango Total Studentizado q. q(4; 15; 0,05)=4,08 y q(4; 15; 0,01)=5,245

Datos

5. Armar la tabla, tomar la decisión estadística e interpretar los resultados

Se puede afirmar, con un error de 5%, que el pH del agua de lluvia de las estaciones meteorológicas 3 y 4, correspondientes a ambientes de clima desértico y mesopotámico, son iguales entre si y diferentes al de las estaciones meteorológicas 1 y 2 (ambiente marítimo y volcánico respectivamente). Además el pH del agua de lluvia de las estaciones meteorológicas 1 y 2, marítimo y volcánico, son diferentes entre sí.

Comparación (A vs. B) Diferencias B A X X  SE qc q(4; 15; 0,05) Conclusión 4 vs. 3 36,3-36,2=0,1 0,0966 1,035 4,08 Aceptar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 3 es igual.

4 vs. 1 36,3-23,5=12,8 0,1080 118,5 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 1 es igual.

4 vs. 2 36,3-16,0=20,3 0,1138 171,5 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 2 es igual.

3 vs.1 36,2-23,5=12,7 0,1080 117,58 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 3 y 1 es igual.

3 vs. 2 36,2-16,0=20,2 0,1138 170,72 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 3 y 2 es igual. 1 vs. 2 23,5-16,0=7,5 0,1278 58,68 4,08 Rechazar Ho: el pH del agua de lluvia de las

estaciones meteorológicas 1 y 2 es igual.

EN SINTESIS

• Contrastación de hipótesis,

• Asignación de aportes de efectos (“culpas”) a los

factores y tratamientos,

• Comparación entre grupos (promedios),

• Evaluación de significancias (test a posteriori),

• Contextualización Biológica/Geológica,

• Formular Conclusiones y Tomar decisiones,

• Volver a la planificación de la Investigación…

El ANOVA permite la:

Referencias

Documento similar

Sólo que aquí, de una manera bien drástica, aunque a la vez coherente con lo más tuétano de sí mismo, la conversión de la poesía en objeto -reconocida ya sin telarañas

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

Las probabilidades de éxito de este procedimiento serán distintas en función de la concreta actuación del reclamante antes de que se produjera la declaración de incons-.. En caso

En la parte central de la línea, entre los planes de gobierno o dirección política, en el extremo izquierdo, y los planes reguladores del uso del suelo (urbanísticos y

Sanz (Universidad Carlos III-IUNE): "El papel de las fuentes de datos en los ranking nacionales de universidades".. Reuniones científicas 75 Los días 12 y 13 de noviembre

(Banco de España) Mancebo, Pascual (U. de Alicante) Marco, Mariluz (U. de València) Marhuenda, Francisco (U. de Alicante) Marhuenda, Joaquín (U. de Alicante) Marquerie,