Anova Simple Inferencia

(1)

A

A nánálislis is dis d e la variane la varian za (za (AA NOVANOVA ))

Permite analizar el efecto de variables independientes cualitativas Permite analizar el efecto de variables independientes cualitativas (factores) sobre una variable dependiente cuantitativa (variable (factores) sobre una variable dependiente cuantitativa (variable respuesta)

respuesta) ANÁLISIS DE

ANÁLISIS DE LA VARIANZA LA VARIANZA SIMPLE SIMPLE (ANOVA con (ANOVA con un factor fun factor fijo)ijo)

La técnica estadística de análisis de la varianza simple es la extensión La técnica estadística de análisis de la varianza simple es la extensión de la prueba T de diferencias de medias con dos muestras de la prueba T de diferencias de medias con dos muestras independientes.

independientes. El El ANOVA permiANOVA permite comparar la te comparar la medias de medias de 2 o 2 o másmás poblaciones.

poblaciones.

Por ejemplo, un investigador educacional desea comparar la Por ejemplo, un investigador educacional desea comparar la efectividad de tres métodos diferentes para enseñar Matemática. Para efectividad de tres métodos diferentes para enseñar Matemática. Para evaluar si los métodos de enseñanza producen resultados diferentes, evaluar si los métodos de enseñanza producen resultados diferentes, es decir, promedios diferentes, el investigador debe plantear las es decir, promedios diferentes, el investigador debe plantear las siguientes hipótesis:

siguientes hipótesis: H

H₀₀: μ: μ₁₁ = = μμ₂₂ = = μμ₃₃ (Las medias de los tres métodos (poblaciones) son iguales(Las medias de los tres métodos (poblaciones) son iguales

H

H11: Por lo menos una media es distinta.: Por lo menos una media es distinta.

En general, en un problema como éste, se tienen muestras aleatorias En general, en un problema como éste, se tienen muestras aleatorias independientes tomadas

independientes tomadas de de k k po bla cio ne s pob lac ion es no rmn orm alea les s co n v ac on variarianz anza

común σ

común σ 22 (todas las poblaciones tienen la misma varianza (todas las poblaciones tienen la misma varianza ≡≡

homocedasticidad): homocedasticidad):

Variable

Variable de de interés interés = = YY Tratamiento 1 Tratamiento 1 1 1 1 111 1122 11nn y y y y ... . yy Tratamiento 2 Tratamiento 2 2 2 2 211 2222 22nn y y y y ... . yy … … …… Tratamiento k Tratamiento k k k k k11 kk22 kknn y y y y ... . yy n = n n = n₁₁ + n+ n₂₂ … n… nkk

El modelo de cada observación está

El modelo de cada observación está dadodado yy_ijij está compuesto por: está compuesto por:

En la práctica a las diversas poblaciones En la práctica a las diversas poblaciones se les sueles llamar tratamientos, esto se se les sueles llamar tratamientos, esto se debe que las técnicas de análisis de la debe que las técnicas de análisis de la varianza se crearon, originalmente, en varianza se crearon, originalmente, en conexión con experimentos agrícolas. conexión con experimentos agrícolas.

(2)

ij i ij

Y = μ + ε ; μ_i representa la media de la población i, i = 1,2, …, k

ij

ε es el error aleatorio, j = 1,2 …, nk

ij

ε se distribuyen Normal con media cero y varianza constante

También cada observación se puede expresar de la forma i

ij i ij

μ

Y = μ + ε

donde μ representa a la media global y _i representa el efecto del

tratamiento i.

Del ejemplo: Cada resultado o puntaje y_1j está compuesto por un puntaje medio global (μ) + el efecto de enseñanza con el método 1( ₁)

+ ε_1j (en el error pueden estar las horas de estudio, alimentación, etc.)

La hipótesis nula “H0: μ1 = μ2 = …= μk” es ≡ a “H0: ₁ = ₂ ... = _k = 0“

Decir que las medias de las poblaciones son iguales es equivalente a

“el efecto del tratamiento es nulo” ← estadísticamente

La prueba en si está basada en un análisis de la variabilidad o dispersión total de los datos (numerador de la varianza de la variable de interés o dependiente Y)

Se resuelve ¿a qué se debe la fuente de variabilidad de los datos?, al tratamiento? o al error?

A la variabilidad se le llama Suma de Cuadrados (SC) Variabilidad Total: SC(total)

Variabilidad d ebida a los tratamientos ): SC(Tratamiento) o SC(entre las

Hipótesis básicas del modelo

(3)

El procedimiento estadístico (análisis de la varianza) que permite probar la hipótesis nula

μ₁ = μ₂ = …= μ_k, se resumen en la tabla siguiente:

ANOVA Fuente Variación Suma de cuadrados gl Media cuadrática (Varianzas) F (estadístico de prueba) Inter-grupos (tratamientos) 2 i. i j (y -y) K -1 (n° grupos -1) M.C.(Inte-grupos) M.C.(Inter-grupos) M.C.(Error) Intra-grupos (Error) 2 ij i j i. (y -y ) n – k (n –n° grupos) M.C. (Error) Total 2 ij i j (y -y) _{n - 1}

Se rechaza la hipótesis de que todas la medias poblacionales son iguales o que el tratamiento tiene efecto nulo sobre la variable dependiente si el valor de F (calculado con los datos de la muestra) es mayor que el valor tabla F_(1- α ; k-1, n – k – 1) , donde α en el nivel de significación, esto quiere decir, que rechazamos para valores grande de F lo que implica que rechazamos cuando la varianza explicada por el tratamiento es mucho mayor que la varianza de error.

El cálculo de la MC(Tratamiento), MC(Error) y MC(total) se explicará en el ejemplo siguiente:

Ejemplo: (Met-enseñanza.sav) Quince estudiantes de cuarto año básico se asignaron al a tres grupos (5 alumnos por grupo), con el objeto de experimentar con tres métodos de enseñanza da la matemática. Al final del semestre se aplicó el mismo test a los 15 estudiantes. En la tabla se presentan los resultados:

SC(Total) = SC(Tratamiento) + SC(Error )

(4)

Y = Puntaje del test

Método 1 77 81 71 76 80

Método 2 72 58 74 66 70

Método 3 76 85 82 80 77

Tenemos: SC(Total) = SC(Tratamiento) + SC(Error) ij j y 2_ij j y n_i i. y Método 1 77 81 71 76 80 385 29707 5 77 Método 2 72 58 74 66 70 340 23280 5 68 Método 3 76 85 82 80 77 ₄₀₀ ₃₂₀₅₄ ₅ ₈₀ i 1125 85041 n = 15 SC(Total) = 2 ij i j (y -y) = ; 2 ij i j 2 ij i j y y -n ; n = n₁ + n₂ + n₃ = 2 (1125) 85041 -15 = 666 SC(Tratamiento) = 2 i. i j (y -y) = 2 2 ij ij j=1 i j i i y y -n n 2 2 2 2 385 340 400 1125 5 5 5 15 = 390 La SC(Error) = 2 ij i j i.

(y -y ) se puede calcular por diferencia:

SC(Total) = SC(Tratamiento) + SC(Error) SC(Error) = SC(Total) - SC(Tratamiento) SC(Error) = 666 – 390 = 276

(5)

Variable dependiente: Puntaje de test, Variable independiente (factor): Método de enseñanza

Supuestos: normalidad en los datos

las varianzas de los tres métodos son iguales H0: μ1 = μ2 = μ3

H₁: Por lo menos una media es distinta

Nivel de significación:α = 0,05

Estadístico: F = M.C.(Explicada)

M.C.(Error) F(k -1 = 2, n – k= 12) ; k = 3 ; n = 15;

RC = { F > F0,95(2,12) = 3,885} α = 0,05 Tabla ANOVA

Fuente de Variación SC gl MC Fobs

Método (Inter-grupos) 390 2 390 2 = 195 195 23 = 8,478 Error (Intra-grupos) 276 12 27 6 12 = 23 Total 666 14

Como Fobs = 8,478 es mayor que 3,885, debe rechazarse la hipótesis nula y se concluye que los tres métodos de enseñanza no son igualmente efectivos, en otras palabras, el método de enseñanza de la matemática influye significativamente en los puntajes promedio de los estudiantes. P-valor = P(F(2,12) > 8,478) = 0,005.

Ob s. Para verificar si las poblaciones tienen la misma varianza se

puede hacer a través del test de Levene.

F(2,12)

8,478

α =0,05

(6)

Si se rechaza la hipótesis H0: μ1 = μ2 = …= μk, se puede realizar pruebas a posterior (comparaciones múltiple post hoc. Tukey,

Bo nfe rro ni, Duncan, ….) para determinar que medias difieren.

Ejercicio ANOVA Puntaje 39 0,00 0 2 19 5,00 0 8,4 78 ,00 5 27 6,00 0 12 23 ,000 66 6,00 0 14 Inter-grupos Intra-grupos Total Suma de cu adra dos gl Media cu adrá tica F Si g.

Comparac iones múltiples Variab le dependie nte: Puntaje

HSD de Tukey 9,000* 3,033 ,029 ,91 17,09 -3,000 3,033 ,597 -11,09 5,09 -9,000* 3,033 ,029 -17,09 -,91 -12,000* 3,033 ,005 -20,09 -3,91 3,000 3,033 ,597 -5,09 11,09 12,000* 3,033 ,005 3,91 20,09 (J) Metodo 2 3 1 3 1 2 (I) Metodo 1 2 3 Diferencia de

m edias (I-J) Error típico Si g. Lím ite inferior

Límite superior Intervalo de confianza al

95%

La diferencia de medias es significativa al nivel .05. *.

Promedio del grupo 1

(7)

Como p-valor = 0,407 > 0,05 se asume que las varianzas son iguales.

 Se debe probar la hipótesis de normalidad.

H0: los residuos ~ Normal H1: los residuos ~ Normal

Interpretación: como n = 15 (pequeño), el test de Shapiro-Wilk indica que se puede asumir normalidad (p-valor = 0,567 < 0,05)

Prueba de homogeneidad de varianzas PUNTAJE

,971 2 12 ,407

Estadís tico

de Levene gl1 gl2 Sig.

El estadístico de Levene es la F de un ANOVA simple con las desviaciones medias |y - y |

(8)

Ejercicio

Se mide la contaminación de un río analizando la cantidad de oxígeno que contiene en disolución el agua. Se toman muestras en cuatro lugares diferentes del río (a 10, 25, 50 y 100 km. del nacimiento), obteniéndose:

A 100 km. (1) 4,8 5,2 5,0 4,7 5,1 A 50 km. (2) 6,0 6,2 6,1 5,8

A 25 km. (3) 5,9 6,1 6,3 6,1 6,0 A 10 km. (4) 6,3 6,6 6,4 6,4 6,5

Queremos averiguar si existen diferencias signicativas en el nivel medio de contaminación a distintas alturas del cauce. α = 0,05.

Variable de interés: Y =

Variable independiente (factor) =

Hipótesis básica del modelo:

εij ~ Normal con media 0 y varianza σ2 (varianza constante ≡ homocedasticidad)

Si estas hipótesis no se cumplen las conclusiones del ANOVA pueden ser incorrectas.

Bajo el modelo ANOVA unifactorial se quiere probar

Lugar 4 3 2 1 C _ o x í g e n o 7,0 6,5 6,0 5,5 5,0 4,5 4,0

(9)

Estadístico de prueba: M.C.(Explicada) _{F(3 , 15)} M.C.(Error) ANOVA C_oxigeno Suma de cuadrados gl Media cuadrática F Lugar 6,082 Error Total Decisión: Conclusión: Coeficiente de determinación: R2 = . Método de Bonferroni

Si se rechaza H0 hay que determinar qué parejas de medias son distintas entre sí. Se puede utilizar IC(μi – μ j); i  j con nivel de confianza 1 – α.

i j (gl del error;1-α/2 i j 1 1 (y y ) t · MC(Error) n n      _  _  

(10)

El método de Bonferroni utiliza α = 0,05 k 2       , k = número de tratamientos

En ejemplo, con 95% de confianza α = 0,0083

Comprobación de las hipótesis básicas del modelo:

Comparaciones múltiples

Variable dependiente: C_oxigeno Bonferroni -1,0650* ,1095 ,000 -1,397 -,733 -1,1200* ,1032 ,000 -1,433 -,807 -1,4800* ,1032 ,000 -1,793 -1,167 1,0650* ,1095 ,000 ,733 1,397 -,0550 ,1095 1,000 -,387 ,277 -,4150* ,1095 ,011 -,747 -,083 1,1200* ,1032 ,000 ,807 1,433 ,0550 ,1095 1,000 -,277 ,387 -,3600* ,1032 ,020 -,673 -,047 1,4800* ,1032 ,000 1,167 1,793 ,4150* ,1095 ,011 ,083 ,747 ,3600* ,1032 ,020 ,047 ,673 (J) Lugar A 50 km A 25 km A 10 km A 100 km A 25 km A 10 km A 100 km A 50 km A 10 km A 100 km A 50 km A 25 km (I) Lugar A 100 km A 50 km A 25 km A 10 km Diferencia de

medias (I-J) Error típico Sig. Lím ite inferior

Límite superior Intervalo de confianza al

95%

La diferencia de media s es sig nificativa al nivel .05. *.

Prueba de homogeneidad de varianzas

C_oxigeno ,873 3 15 ,477 Estadístico de Levene gl1 gl2 Sig. Pruebas de normalidad ,969 19 ,759

Residuo para C_oxigeno

Es tadístico gl Sig.