NATIONAL FOOD ADMINISTRATION
ESTADÍSTICA BÁSICA II
Prueba de significancia 2: F-test
Análisis de Varianza (ANOVA)
Identificación de valores anómalos (outliers
)
-Cochran y Grubbs test
Taller 3
Leonardo Merino
Science Department – Swedish National Food Agency Santiago de Chile, Julio 2013
NATIONAL FOOD
¿Es la diferencia de las dispersiones debido a errores aleatorios?
…
La prueba-t es usada para comparar medias aritméticas, y asi, detectar erroressistemáticos. Sin embargo, en algunos casos se puede necesitar comparar sus dispersión (i.e. sus desviación estándar) para determinar si los dos grupos de datos provienen de una misma población, es decir, la diferencia de las dispersiones observadas es debido solamente a variaciones aleatorias.
¿Son las dispersiones diferentes?
NATIONAL FOOD ADMINISTRATION
… ¿o la diferencia es debido a los dos grupos de datos
provienen de dos poblaciones
diferentes?
En un sentido práctico usamos la prueba-F si queremos saber si el método A es más preciso que el método B (prueba de una-cola) o si deseamos saber si las precisiones de los métodos A y B son diferentes (prueba de dos-colas).
¿Son las dispersiones diferentes?
Dispersión
NATIONAL FOOD ADMINISTRATION
F-Test
(
detectar diferencias de precisión entre dos métodos)
Calcular el F
obs:
comparar las dispersiones expresadas como varianzas:
F
obs=
S
12/
S
22El número de grados de libertad del numerador y denominador son
n
1-1
and
n
2-1
respectivamente.
Prueba de significación 2: F-Test
Debido a que la distribución-F no es simétrica. La aplicación del F-Test
exige tomar en cuenta ciertas criterios diferentes al seguidos en el
t-test para obtener el número de colas del valor crítico.
NATIONAL FOOD ADMINISTRATION
Reglas para el F-Test
F
crit= F
(. 1.2)F = S
2mayor/S
2menorF
crit= F
(/2. 1.2)No
Sí
= 0.05
(95%)
Una-cola
Dos-colas
¿Es la varianza 1
mayor que la 2
?
¿Colas?
¿Son las varianzas
diferentes?
No
Significante
¿
F
obs>F
crit?
Significante
Observe que si S
12< S
22no hay necesidad de realizar el F-Test
NATIONAL FOOD
Buscando el valor crítico F
Crit• Cálcular los grados de libertad (
)
1= n
1- 1
2= n
2– 1
• Usar las tablas estándar de valores F
• Significancia:
F
obs> F
CritNATIONAL FOOD ADMINISTRATION
Valores críticos del F-test
(dos-colas a 95 %)
(tambien usado para una-cola a 97.5% nivel de confianza)
Grados de libertad DenominadorNumerador1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 1 648 799 864 900 922 937 948 957 963 969 973 977 980 983 985 993 998 1001 2 38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.5 39.5 3 17.4 16.0 15.4 15.1 14.8 14.7 14.6 14.5 14.4 14.4 14.3 14.3 14.3 14.2 14.2 14.1 14.1 14.0 4 12.2 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.79 8.75 8.71 8.68 8.66 8.56 8.50 8.46 5 10.0 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.57 6.52 6.49 6.46 6.43 6.33 6.27 6.23 6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.41 5.37 5.33 5.30 5.27 5.17 5.11 5.07 7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.71 4.67 4.63 4.60 4.57 4.47 4.40 4.36 8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.24 4.20 4.16 4.13 4.10 4.00 3.94 3.89 9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.91 3.87 3.83 3.80 3.77 3.67 3.60 3.56 10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.66 3.62 3.58 3.55 3.52 3.42 3.35 3.31 11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.47 3.43 3.39 3.36 3.33 3.23 3.16 3.12 12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.32 3.28 3.24 3.21 3.18 3.07 3.01 2.96 13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.20 3.15 3.12 3.08 3.05 2.95 2.88 2.84 14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.09 3.05 3.01 2.98 2.95 2.84 2.78 2.73 15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 3.01 2.96 2.92 2.89 2.86 2.76 2.69 2.64 20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.72 2.68 2.64 2.60 2.57 2.46 2.40 2.35 25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.56 2.51 2.48 2.44 2.41 2.30 2.23 2.18 30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.46 2.41 2.37 2.34 2.31 2.20 2.12 2.07 NATIONAL FOOD ADMINISTRATION
Valores críticos del F-test
(una-cola a 95 %)
(tambien usado para dos-colas a 90% nivel de confianza)
Grados de libertad Denominador Numerador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 1 161 199 216 225 230 234 237 239 241 242 243 244 245 245 246 248 249 250 2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 8.73 8.71 8.70 8.66 8.63 8.62 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.94 5.91 5.89 5.87 5.86 5.80 5.77 5.75 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.70 4.68 4.66 4.64 4.62 4.56 4.52 4.50 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 3.98 3.96 3.94 3.87 3.83 3.81 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.60 3.57 3.55 3.53 3.51 3.44 3.40 3.38 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.31 3.28 3.26 3.24 3.22 3.15 3.11 3.08 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.10 3.07 3.05 3.03 3.01 2.94 2.89 2.86 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.94 2.91 2.89 2.86 2.85 2.77 2.73 2.70 11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.82 2.79 2.76 2.74 2.72 2.65 2.60 2.57 12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.72 2.69 2.66 2.64 2.62 2.54 2.50 2.47 13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.63 2.60 2.58 2.55 2.53 2.46 2.41 2.38 14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.57 2.53 2.51 2.48 2.46 2.39 2.34 2.31 15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.51 2.48 2.45 2.42 2.40 2.33 2.28 2.25 20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.31 2.28 2.25 2.22 2.20 2.12 2.07 2.04 25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.20 2.16 2.14 2.11 2.09 2.01 1.96 1.92 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.13 2.09 2.06 2.04 2.01 1.93 1.88 1.84
NATIONAL FOOD ADMINISTRATION
Cálculo del valor crítico (F
crit
) en Excel
• FINV (probability, df numerador, df denominador)
• Uso del F-Test en Excel
FINV
(probabilidad; grados de libertad 1; grados de libertad 2)
Probabilidad
es la probabilidad asociada con la distribución-F
Grados de libertad 1
son los grados de libertad del numerador
Grados de libertad 2
son los grados de libertad del denominador
Nota: La funcion F-Test en Excel da
p
-values (
de una-cola, si
se quiere dos-colas usar la probabilidad Alpha =
NATIONAL FOOD
3.
F
-
Test en EXCEL (Versión 97-2003)
1.
2.
4.
NATIONAL FOOD ADMINISTRATION
Análisis de Varianza (ANOVA)
NATIONAL FOOD ADMINISTRATION
A
n
alito conc.
Analista
A
B
C
D
90
95
100
105
Media
ANOVA nos responde la pregunta: ¿hay una diferencia significante entre las
medias (o analistas), considerando que ellas son calculadas a partir de un
número repetido de mediciones?
¿Porqué ANOVA?
El Análisis de Varianza expande la aplicación de las pruebas de significancia (t-test), al comparar varias medias y varianzas al mismo tiempo.
p(p-1)/2 nos da el número de t-test que serian necesarios (p= número de medias)
E
NATIONAL FOOD ADMINISTRATION
Análisis de Varianza (ANOVA)
Es un método de comprobar la igualdad de tres o mas medias
poblacionales evaluando sus varianzas.
La idea central en ANOVA esta en que nos permite separar las diferentes
fuentes de variación que contribuyen a la variación total (las variaciones de
las mediciones de las eventuales variaciones de la muestra); compararlas y
determinar si ellas son significativamente diferentes.
La más simple forma de ANOVA es la de un solo factor (one-way). Un factor es una propiedad o característica, que permite distinguir una población de otra, (un analista, un método, una misma temperatura, etc.). Cuando son considerados simultanemente dos factores (ej. temperatura y tiempo) se usa el ANOVA de dos factores (two-ways).
NATIONAL FOOD
Fuentes de variación
Hay dos fuentes de variación independientes:
1. Variación entre-grupos y
2. Variación dentro-grupos
La variación total incluye la variación entre-grupos y dentro-grupos.
Fue nte s de
Suma de Cuadrados Grados de Cuadrado Me dio
variación
(SS)
libe rtad (
) (MS)
Entre-grupos, SS
eSS
e= SS
t- SS
d
e=
p
-1
MS
e= SS
e/
eDentro-grupos, SS
dSS
d=
iS
i²
d=
p
(n-1)
MS
d= SS
d/
dTotal SS
tSS
t=
tS
t²
t=
p
n-1
-Calculando ANOVA (1)
Conceptos y parámetros estadísticos usados en ANOVA
NATIONAL FOOD ADMINISTRATION
2Suma de cuadrados
Estadístico que mide las variaciones dentro y entre-grupos. Las sumas de
cuadrados equivalen a sumas de varianzas.
Suma de Cuadrados
(SS)
SS
e
= SS
t
- SS
d
SS
d
=
i
s²
i
SS
t
=
t
s
²
t
Calculando ANOVA (2)
Donde:
SS
e= Suma de cuadrados entre-grupos
SS
d= Suma de cuadrados dentro-grupos
SS
t= Suma de cuadrados total
s
2i= Varianza de los resultados dentro-grupos
s
2t
= Varianza del total de resultados
= Grados de libertad
La suma de cuadrados dentro-grupos representa la variación
debida al error aleatorio de la medición (repetibilidad), mientras
que la suma de cuadrados entre-grupos representa la variación
debido a las diferencias de las medias (muestras).
NATIONAL FOOD ADMINISTRATION
Número de grados de libertad
(
)
Es el número de valores independientes incluídos en el cálculo del estadístico
Se representa por el simbolo “
” o “df”
Calculando ANOVA (3)
Grados de
libe rtad (
)
e=
p
-1
d=
p
(n-1)
t=
p
n-1
Donde:
p
= número de grupos
NATIONAL FOOD ADMINISTRATION
Cuadrado medio
El cuadrado medio puede ser considerado como un tipo de “promedio“ de la
suma de cuadrados.
Cuadrado Me dio
(MS)
MS
e=
SS
e/
eMS
d= SS
d/
d-Calculando ANOVA (4)
Donde:
MS
e= Cuadrado Medio entre-grupos
MS
d= Cuadrado Medio dentro-grupos
=
número de grados de libertad
NATIONAL FOOD
F-Test
Los cuadrados medios son comparados usando el F-Test
F
obs= MS
e(entre-grupos) / MS
d(dentro-grupos)
Si F
obs> F
critla variación entre-grupos es significativa comparada con la
variación dentro-grupos
Calculando ANOVA (5)
En ANOVA de un solo factor la hipótesis que se prueba es si:
El cuadrado medio entre-grupos, MSees mayor que el cuadrado medio
NATIONAL FOOD ADMINISTRATION
Expresión de los resultados de ANOVA en Excel
Calculando ANOVA (6)
NATIONAL FOOD ADMINISTRATION
Tabla I. Resultados experimentales
mg /L
Grupos
I II III IV V VI VII VIII IX X
Test 1
20.70 20.01 20.82 21.00 21.10Test 2
21.00 20.70 21.10 20.79 20.70Test 3
21.45 20.25 20.55 20.61 20.45Test 4
Test 5
21.1 20.3 20.8 20.8 20.8s
0.38 0.35 0.28 0.20 0.33s
i²
0.14 0.12 0.08 0.04 0.11
i 2 2 2 2 2
is
i²
0.28 0.25 0.15 0.08 0.22x
Ejemplo: ¿Hay diferencia significativa entre los
resultados de las titulaciones de los 5 analistas?
NATIONAL FOOD ADMINISTRATION
1. Calcular la suma de cuadrados
Total SS
t=
tS
t²
Total SS
t= 14*(0.36)
2=
1.82
Dentro-grupos SS
d=
iS
i²
Dentro-grupos SS
d= (2*0.38
2)+(2*0.35
2)+(2*0.28
2)+(2*0.20
2)+(2*0.33
2)
= 0.29 + 0.25 + 0.15 + 0.08 + 0.22 =
0.97
Entre-grupos SS
e= Total SS
t– dentro-grupos SS
dEntre-grupos SS
e=
1.82 - 0.97
= 0.85
Grados de libertad total:
t =pn
-1 (
p
= 5,
n
= 3)
NATIONAL FOOD
•
Cuadrado Medio entre-grupos MS
e=SS
e/
e= 0.85 / 4 = 0.21
Grados de libertad entre-grupos:
e =p
-1 (
p
= 5 grupos)
•
Cuadrado Medio dentro-grupos MS
d=SS
d/
d= 0.97 / 10 = 0.10
Grados de libertad dentro-grupos:
d=
p
(
n
i– 1) (
n
= 3 repeticiones)
d=
5
(
3
– 1) = 10
NATIONAL FOOD ADMINISTRATION
3. El F-test
El F
obs
es calculado por la ecuación:
F
obs
= MS
e
/ MS
d
= 0.21 / 0.10 = 2.18
F
crita un nivel de confianza de 95% con 4 y 10 grados de
libertad es 3.478
El F
obses menor que el F
crit, por lo tanto, no hay
evidencia de diferencia significativa en los
resultados de los diferentes analistas.
NATIONAL FOOD ADMINISTRATION
ANOVA en EXCEL (Versión 97-2003)
1.
2.
3.
4.
Un factor, diferentes analístas
NATIONAL FOOD ADMINISTRATION x
x
ANOVA en una hoja de aplicación-EXCEL
NATIONAL FOOD
Identificación de valores anómalos (outliers)
Cochran test
Identifica resultados que
muestran significativa
variabilidad entre
repeticiones (varianzas)
Grubbs test
Identifica valores medios
anómalos en una población
NATIONAL FOOD ADMINISTRATION
Cochran test
i) Calcular la diferencias de cada par de resultados duplicados y
elevarlos al cuadrado (
D
i2)
ii) Sumar los cuadrados de estas diferencias (
D
i2)
iii) Calcular una relación dividiendo la mayor de estas diferencias
cuadradas por la suma de todas las diferencias cuadradas, y
multiplicar por 100. (Si n>2 se comparan varianzas en lugar de
diferencias)
iv) Comparar la relación calculada con los valores crítico tomado de
las tablas. Si la relación es mayor que el C
crítobtenido de las
tablas, el resultado puede ser considerado anómalo.
2100
2 max
i iD
D
Cochran
NATIONAL FOOD ADMINISTRATIONSimple Grubbs test
1. Calcular la desviación estándar de todos las medias (SD)
Simple Grubbs
2. Eliminar la media más alta y calcular la SD de las restantes (SD
H).
3. Eliminar la media más baja y calcular la SD de las restantes (SD
L).
4. Calcular la disminución (%) de las SD (G
Lo G
H) segun las ecuaciones:
5. El mayor de estos resultados es el estadístico Grubbs (G
Lo G
H).
6. Si el G
Lo G
Hcalculado es mayor que el G crítico (tomado de las
tablas), indica la presencia de un valor anómalo.
SD
SD
G
L L100
1
SD
SD
G
H H100
1
NATIONAL FOOD ADMINISTRATION
Doble Grubbs test
Doble Grubbs
6. Eliminar las dos medias mas altas y calcular la SD de las restantes (SD
2H)
7. Eliminar los dos medias mas bajas y calcular la SD de las restantes (SD
2L)
8. Eliminar la media mas alta y la media mas baja y calcular la SD de las
restantes (SD
HL)
9. Calcular la disminución (%) de los SD (estadístico Grubbs), usando el menor de
los SD obtenidos y tomando la siguiente fórmula como ejemplo:
10. Comparar el valor Grubbs con el valor crítico de las tablas. El resultado es
considerado un valor anómalo si el Grubbs observado es mayor que el Grubbs
crítico encontrado en las tablas.
(Los otros valores Grubbs alternativos son calculados subtituyendo SD
HLpor SD
2H, o SD
2L)
SD
SD
G
HL HL100
1
NATIONAL FOODEjemplo: Exclusion de outliers – Cochran test
2100
2 max
a
b
b
a
Cochran
0
.
302
100
82
.
8
%
250
.
0
max
Cochran
Cochran crítico = 88.6%
No
a
b
(a-b)
2
1
2.5
3.0
0.250
2
2.5
2.7
0.027
3
2.5
2.4
0.006
4
2.7
2.7
0.000
5
2.9
3.0
0.018
Sum 0.302
Cochran %
82.8
NATIONAL FOOD ADMINISTRATION
Ejemplo: Grubbs test
SD
SD
G
H
H
100
1
No
H
L
2H
2L
LH
1
1.1
1.1
1.1
2
1.2
1.2
1.2
1.2
1.2
3
1.5
1.5
1.5
1.5
1.5
1.5
4
1.8
1.8
1.8
1.8
1.8
1.8
5
1.9
1.9
1.9
1.9
1.9
1.9
6
2.2
2.2
2.2
2.2
2.2
7
4.1
4.1
4.1
SD
x
1.02 0.43 1.03 0.35 1.04 0.38
Grubbs (G
X
)
57.8
-1.0
65.7
-2.0
62.3
%
8
.
57
02
.
1
43
.
0
1
100
H
G
1. Calcular G
obs:
Eliminar medias y
calcular SD segun
procedimiento ....
2.
Buscar valores
críticos
Simple (H,L) = 57.0%
Doble
(2H,2L) = 73.1%Doble
(LH) = 76.2%3. ¿Es G
obs> G
cri?
mg/kg
NATIONAL FOOD ADMINISTRATION
Secuencia para la eliminación de anómalos
Calcular
precisión
Cochran?
Simple Grubbs? Doble Grubbs?Eliminar laboratorio
(no deben exceder 2/9)
Si Si Si No No No Algún valor eliminado?Fin
Eliminar laboratorio
( no deben exceder 2/9)
Eliminar laboratorios
(no deben exceder 2/9)
SiCollaborative Study Guidelines
Journal Of AOAC International Vol. 78. No. 5 1995
Eliminar
no-válidos
NATIONAL FOOD ADMINISTRATION
Valores críticos: Cochran test,
2.5 % (1-cola)
y Grubbs test
a 2.5 % (2-colas), 1.25% (1-cola)
Simple Grubb's Doble Grubb's Doble Grubb's 1 alto o 1 bajo 2 bajos o 2 altos 1 alto y 1 bajo 4 94.3 86.1 98.9 99.1 5 88.6 73.5 90.9 92.7 6 83.2 64.0 81.3 84.0 7 78.2 57.0 73.1 76.2 8 73.6 51.4 66.5 69.6 9 69.3 46.8 61.0 64.1 10 65.5 42.8 56.4 59.5 11 62.2 39.3 52.5 55.5 12 59.2 36.3 49.1 52.1 13 56.4 33.8 46.1 49.1 14 53.8 31.7 43.5 46.5 15 51.5 29.9 41.2 44.1 16 49.5 28.3 39.2 42.0 17 47.8 26.9 37.4 40.1 18 46.0 25.7 35.9 38.4 19 44.3 24.6 34.5 36.9 20 42.8 23.6 33.2 35.4 No de resultados (muestras o laboratorios Cochran Valor critico r = 2Collaborative Study Guidelines Journal Of AOAC International Vol. 78. No. 5 1995
NATIONAL FOOD
Usando las fórmulas dadas en el curso:
• Comparar la precisión de dos métodos a un nivel de confianza de 95%
• Calcular la suma de cuadrados, grados de libertad y cuadrados medios
• Efectuar los cálculos de ANOVA e interpretar los resultados.
Taller 3
Referencias
• Wilson A.L. The chemical Analysis of Water. The Royal Society of Chemistry. 2nd ed. 1986 • Method Validation Course 0072. LGC limited. London
• Statistic for Analytical Chemist. Training Course. LGC London.
• Miller. J.N. & Miller. J.C. Estadística y Quimiometría para Química Analítica. Prentice Hall. 4ta Ed. 2000