L’ANÀLISI DE VARIÀNCIA (ANOVA)
1. Comparació de múltiples poblacions
Ricard Boqué, Alicia Maroto
Grup de Quimiometria i Qualimetria. Universitat Rovira i Virgili. Pl. Imperial Tàrraco, 1. 43005-Tarragona
L’anàlisi de variància (ANOVA) és una potent eina estadística, de gran utilitat tant a la indústria, per al control de processos, com al laboratori d’anàlisi, per al control de mètodes analítics. Les aplicacions són nombrosos, i es poden agrupar, segons l’objectiu que persegueixen, en dos principalment: la comparació de múltiples columnes de dades i l’estimació dels components de variació d’un procés. Ens ocuparem en aquest article de la primera d’elles.
Comparació de múltiples poblacions
La comparació de diversos conjunts de resultats és habitual als laboratoris analítics. Així, per exemple, ens pot interessar comparar diversos mètodes d’anàlisi amb diferents característiques, diversos analistes entre si, o una sèrie de laboratoris que analitzen una mateixa mostra amb el mateix mètode (assaigs col·laboratius). També seria el cas quan volem analitzar una mostra que ha estat sotmesa a diferents tractaments o ha esta t emmagatzemada en diferents condicions. En tots aquests e xemples hi han dos possibles fonts de variació: una és l’error aleatori en la mesura i l’altra és el que es denomina factor controlat (tipus de mètode, diferents condicions, analista o laboratori,...). Una de les eines estadístiques més utilitzades que permet la separació de les diverses fonts de variació és l’anàlisi de variància (ANOVA, de l’anglès Analysis of Variance) [Massart, 1997].
L’ANOVA també pot utilitzar-se en situacions on ambdues fonts de variació són aleatòries. Un exemple seria l’anàlisi d’algun compost d’un vi emmagatzemat en un dipòsit. Suposem que les mostres es prenen de forma aleatòria de diferents parts del dipòsit i es realitzen diverses anàlisis replicades. Apart de la variació natural en
Quan tinguem un factor, controla t o aleatori, apart de l’error propi de la mesura, parlarem de l’ANOVA d’un factor. En el caso de que estiguéssim desenvolupant un nou mètode colorimètric i volguéssim investigar la influència de diversos factors independents sobre la mesura de l’absorbància, tal com la concentració de reactiu A i la temperatura a la que té lloc la reacció, llavors parlaríem d’un ANOVA de dos factors. En els casos on tenim dos o més factors que influeixe n, es realitzen els experiments per a totes les combinacions dels factors estudiats, seguit de l’ANOVA. Es pot deduir llavors si cadascun dels factors o una interacció entre ells té influència significativa en el resultat.
Per a utilitzar l’ANOVA de forma satisfactòria s’han de complir tres hipòtesis, tot i que s’accepten lleugeres desviacions de les condicions ideals:
1. Cada conjunt de dades ha de ser independent de la resta.
2. Els resultats obtinguts per a cada conjunt han de seguir una distribució normal.
3. Les variàncies de cada conjunt de dades no han de diferir de forma significativa.
ANOVA d’un factor
Prenem com a exemple la comparació de 5 laboratoris que analitzen nk vegades amb el mateix procediment la concentració de Pb en una mateixa mostra d’aigua de riu. L’objectiu de l’ANOVA aquí és comparar els errors sistemàtics amb els aleatoris comesos en realitzar diverses anàlisis a cada laboratori. Hem comentat abans que són condicions importants que cada laboratori analitzi les seves mostres de manera independent i amb precisions semblants a les de la resta de laboratoris. A la ta ula 1 es mostren els resulta ts obtinguts (expressats en µg/L).
Taula 1. Resultats de l’anàlisi de plom en aigua de riu realitzada per 5 laboratoris (k indica
el nº de laboratori).
Resultats Laboratori A Laboratori B Laboratori C Laboratori D Laboratori E
1 2 3 4 5 6 7 2.3 4.1 4.9 2.5 3.1 3.7 - 6.5 4.0 4.2 6.3 4.4 - - 1.7 2.7 4.1 1.6 4.1 2.8 - 2.1 3.8 4.8 2.8 4.8 3.7 4.2 8.5 5.5 6.1 8.2 - - - Suma Valor mitjà, xk nk 20.6 3.4 6 25.4 5.1 5 17.0 2.8 6 26.2 3.7 7 28.3 7.1 4
Mitjana aritmètica de tots els resultats, x = 4.2 Número total de resultats, N = 28
Observant els valors mitjans tot sembla indicar que existeixe n diferències entre els laboratoris. Ara bé, són significatives aquestes diferències? L’ANOVA respon a aquesta qüestió. L’objectiu de l’ANOVA és comparar els diversos valors mitjans per a determinar si algun d’ells difereix significativament de la resta. Per a fer-ho s’utilitza una estratègia ben lògica: si els resulta ts proporciona ts pels diversos laboratoris no contenen errors sistemàtics, els valores mitjans respecti us no diferiran molt els uns dels altres i la seva dispersió, deguda als errors aleatoris, serà comparable a la dispersió present individualment en cada laboratori.
El secret està, doncs, en descompondre la variabilitat total de les dades en dues fonts de variació: la deguda als laboratori s i la deguda a la precisió dins de cada laboratori . Matemàticament, la suma de quadrats total, SST, pot descompondre’s com una suma de dues sumes de quadrats:
SST = SSR + SSlab
SST és la suma de las diferències al quadrat de cada resultat individual respecte la mitjana de tots els resultats i, per tant, representa la variació total de les dades. SSR mesura les desviacions entre els resultats individuals (xkj), de cada laboratori (on j indica el nº de repetició) i la mitjana del laboratori (xk) y, per tant, és una mesura de la dispersió dintre dels laboratoris. Quan es divideix SS pels corresponents graus de
Per la seva banda, SSlab mesura les desviacions entre els resultats mitjans dels laboratoris i el resultat mitjà global i, dividit pels graus de llibertat, (k - 1), constitueix el quadrat mitjà "entre laboratoris", MSlab. La Taula 2 mostra les diferents expressions per calcular les sumes de quadrats i els corresponents quadrats mitjans.
Taula 2. Expressions per al càlcul de l’ANOVA d’un factor (K indica el número de
laboratoris i N el número total de resultats).
Font Suma de quadrats Graus de
llibertat Quadrat mitjà Fcal
Entre laboratoris = ∑= − K k k k x x ( n SS 1 2 lab ) K - 1 1 -K SS MSlab = lab Dintre dels laboratoris = ∑= =∑ − K k k n j kj x x SS k 1 2 1 R ( ) N – K K -N SS MS R R = MS MS = F R lab Total = ∑ ∑ − = = K k n j kj k x x SS 1 2 1 T ( ) N - 1 1 -N SS MST = T
Es calculen, per tant, MSlab i MSR com una mesura de les dispersions comentades i es comparen mitjançant una prova d’hipòtesis F. Si no existeix diferència estadísticament significativa entre elles, la presència d’errors aleatoris serà la causa predominant de la discrepància entre els valors mitjans. Si, pel contrari, existeix algun error sistemàtic, MSlab serà molt més gran que MSR, amb la qual cosa el valor calculat d’F serà major que el valor tabulat Ftab per al nivell de significació α triat i els graus de llibertat esmentats.
A continuació es mostra la típica taula ANOVA obtinguda per als resultats de l’exemple de la Taula 1:
Taula 3. Taula ANOVA per als resultats de la Taula 1.
Font Suma de quadrats
Graus de
llibertat Quadrat mitjà Fcal Probabilitat
Entre laboratoris 53.13 4 13.28 10.30 6.23·10-5 Dintre dels laboratoris 29.64 23 1.29 Total 82.77 27 Ftab = 2.79 (α = 0.05, 4, 23, 1 cola)
significativa de la resta de laboratoris. El valor de probabili tat que apareix a la Taula 3 indica aquell valor d’α a partir del qual l’ANOVA no detectaria cap diferència significativa. Així doncs, a menor valor de probabilitat, més seguretat de que existeixen diferències significatives.
L’ANOVA no indica quants laboratoris difereixen ni quins són. Una inspecció visual dels resultats pot proporcionar sens dubte alguna pista, però si es volen tenir criteris més sòlids, hi han diverses proves estadístiques que permeten saber de quin(s) laboratori(s) es tracta [Massart, 1997].
A l’exemple que hem presenta t, tots els laboratoris han analitza t la mostra seguint un procediment analític comú. S’hagués pogut plante jar que cada laboratori utilitzés dos procediments comuns, per exemple el mètode oficial y un mètode alternatiu. En aquest cas disposaríem dels resultats del contingut en plom obtinguts per una sèrie de laboratoris amb dos mètodes diferents, i l’ANOVA ens proporcionaria informació sobre l’existència de discrepàncies entre laboratoris i entre mètodes. Seria un exemple d’ANOVA de dos factors.
Conclusions
En aquest article hem vist que l’ANOVA pot utilitzar-se per a comparar entre si les mitjanes dels resultats proporcionats per diversos laboratoris, analistes, mètodes d’anàlisi, etc. En el següent article mostrarem com utilitzar l’ANOVA per a descompondre la variació total d’un procés en les fonts de variació parcials. Això ens pot resultar molt útil per a, per exemple, determinar quins són els factors que afecte n més a un determina t procediment analític.
Des del punt de vista pràctic, existeixen múltiples paquets estadístics que permeten executar ràpidament els càlculs de l’ANOVA. Tanmateix, el que és interessant és que l’usuari tingui capacitat per extraure conclusions químiques dels resulta ts obtinguts.
Referències bibliogràfiques
D.L. Massart, B.M.G. Vandeginste, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. Smeyers-Verbeke, “Handbook of Chemometrics and Qualimetrics: Part A”, Elsevier (1997), Amsterdam.
Els autors agraeixen tots els comentaris relacionats amb els continguts d’aquest article. Poden dirigir-se, mitjançant missatge electrònic, a l’adreça:
quimio@quimica.urv.es
Hom pot trobar una versió en suport electrònic d’aquest article i informació suplementària a: