• No se han encontrado resultados

L ANÀLISI DE VARIÀNCIA (ANOVA) 1. Comparació de múltiples poblacions

N/A
N/A
Protected

Academic year: 2021

Share "L ANÀLISI DE VARIÀNCIA (ANOVA) 1. Comparació de múltiples poblacions"

Copied!
6
0
0

Texto completo

(1)

L’ANÀLISI DE VARIÀNCIA (ANOVA)

1. Comparació de múltiples poblacions

Ricard Boqué, Alicia Maroto

Grup de Quimiometria i Qualimetria. Universitat Rovira i Virgili. Pl. Imperial Tàrraco, 1. 43005-Tarragona

L’anàlisi de variància (ANOVA) és una potent eina estadística, de gran utilitat tant a la indústria, per al control de processos, com al laboratori d’anàlisi, per al control de mètodes analítics. Les aplicacions són nombrosos, i es poden agrupar, segons l’objectiu que persegueixen, en dos principalment: la comparació de múltiples columnes de dades i l’estimació dels components de variació d’un procés. Ens ocuparem en aquest article de la primera d’elles.

Comparació de múltiples poblacions

La comparació de diversos conjunts de resultats és habitual als laboratoris analítics. Així, per exemple, ens pot interessar comparar diversos mètodes d’anàlisi amb diferents característiques, diversos analistes entre si, o una sèrie de laboratoris que analitzen una mateixa mostra amb el mateix mètode (assaigs col·laboratius). També seria el cas quan volem analitzar una mostra que ha estat sotmesa a diferents tractaments o ha esta t emmagatzemada en diferents condicions. En tots aquests e xemples hi han dos possibles fonts de variació: una és l’error aleatori en la mesura i l’altra és el que es denomina factor controlat (tipus de mètode, diferents condicions, analista o laboratori,...). Una de les eines estadístiques més utilitzades que permet la separació de les diverses fonts de variació és l’anàlisi de variància (ANOVA, de l’anglès Analysis of Variance) [Massart, 1997].

L’ANOVA també pot utilitzar-se en situacions on ambdues fonts de variació són aleatòries. Un exemple seria l’anàlisi d’algun compost d’un vi emmagatzemat en un dipòsit. Suposem que les mostres es prenen de forma aleatòria de diferents parts del dipòsit i es realitzen diverses anàlisis replicades. Apart de la variació natural en

(2)

Quan tinguem un factor, controla t o aleatori, apart de l’error propi de la mesura, parlarem de l’ANOVA d’un factor. En el caso de que estiguéssim desenvolupant un nou mètode colorimètric i volguéssim investigar la influència de diversos factors independents sobre la mesura de l’absorbància, tal com la concentració de reactiu A i la temperatura a la que té lloc la reacció, llavors parlaríem d’un ANOVA de dos factors. En els casos on tenim dos o més factors que influeixe n, es realitzen els experiments per a totes les combinacions dels factors estudiats, seguit de l’ANOVA. Es pot deduir llavors si cadascun dels factors o una interacció entre ells té influència significativa en el resultat.

Per a utilitzar l’ANOVA de forma satisfactòria s’han de complir tres hipòtesis, tot i que s’accepten lleugeres desviacions de les condicions ideals:

1. Cada conjunt de dades ha de ser independent de la resta.

2. Els resultats obtinguts per a cada conjunt han de seguir una distribució normal.

3. Les variàncies de cada conjunt de dades no han de diferir de forma significativa.

ANOVA d’un factor

Prenem com a exemple la comparació de 5 laboratoris que analitzen nk vegades amb el mateix procediment la concentració de Pb en una mateixa mostra d’aigua de riu. L’objectiu de l’ANOVA aquí és comparar els errors sistemàtics amb els aleatoris comesos en realitzar diverses anàlisis a cada laboratori. Hem comentat abans que són condicions importants que cada laboratori analitzi les seves mostres de manera independent i amb precisions semblants a les de la resta de laboratoris. A la ta ula 1 es mostren els resulta ts obtinguts (expressats en µg/L).

(3)

Taula 1. Resultats de l’anàlisi de plom en aigua de riu realitzada per 5 laboratoris (k indica

el nº de laboratori).

Resultats Laboratori A Laboratori B Laboratori C Laboratori D Laboratori E

1 2 3 4 5 6 7 2.3 4.1 4.9 2.5 3.1 3.7 - 6.5 4.0 4.2 6.3 4.4 - - 1.7 2.7 4.1 1.6 4.1 2.8 - 2.1 3.8 4.8 2.8 4.8 3.7 4.2 8.5 5.5 6.1 8.2 - - - Suma Valor mitjà, xk nk 20.6 3.4 6 25.4 5.1 5 17.0 2.8 6 26.2 3.7 7 28.3 7.1 4

Mitjana aritmètica de tots els resultats, x = 4.2 Número total de resultats, N = 28

Observant els valors mitjans tot sembla indicar que existeixe n diferències entre els laboratoris. Ara bé, són significatives aquestes diferències? L’ANOVA respon a aquesta qüestió. L’objectiu de l’ANOVA és comparar els diversos valors mitjans per a determinar si algun d’ells difereix significativament de la resta. Per a fer-ho s’utilitza una estratègia ben lògica: si els resulta ts proporciona ts pels diversos laboratoris no contenen errors sistemàtics, els valores mitjans respecti us no diferiran molt els uns dels altres i la seva dispersió, deguda als errors aleatoris, serà comparable a la dispersió present individualment en cada laboratori.

El secret està, doncs, en descompondre la variabilitat total de les dades en dues fonts de variació: la deguda als laboratori s i la deguda a la precisió dins de cada laboratori . Matemàticament, la suma de quadrats total, SST, pot descompondre’s com una suma de dues sumes de quadrats:

SST = SSR + SSlab

SST és la suma de las diferències al quadrat de cada resultat individual respecte la mitjana de tots els resultats i, per tant, representa la variació total de les dades. SSR mesura les desviacions entre els resultats individuals (xkj), de cada laboratori (on j indica el nº de repetició) i la mitjana del laboratori (xk) y, per tant, és una mesura de la dispersió dintre dels laboratoris. Quan es divideix SS pels corresponents graus de

(4)

Per la seva banda, SSlab mesura les desviacions entre els resultats mitjans dels laboratoris i el resultat mitjà global i, dividit pels graus de llibertat, (k - 1), constitueix el quadrat mitjà "entre laboratoris", MSlab. La Taula 2 mostra les diferents expressions per calcular les sumes de quadrats i els corresponents quadrats mitjans.

Taula 2. Expressions per al càlcul de l’ANOVA d’un factor (K indica el número de

laboratoris i N el número total de resultats).

Font Suma de quadrats Graus de

llibertat Quadrat mitjà Fcal

Entre laboratoris = ∑= − K k k k x x ( n SS 1 2 lab ) K - 1 1 -K SS MSlab = lab Dintre dels laboratoris = ∑= =∑ − K k k n j kj x x SS k 1 2 1 R ( ) N – K K -N SS MS R R = MS MS = F R lab Total = ∑ ∑ − = = K k n j kj k x x SS 1 2 1 T ( ) N - 1 1 -N SS MST = T

Es calculen, per tant, MSlab i MSR com una mesura de les dispersions comentades i es comparen mitjançant una prova d’hipòtesis F. Si no existeix diferència estadísticament significativa entre elles, la presència d’errors aleatoris serà la causa predominant de la discrepància entre els valors mitjans. Si, pel contrari, existeix algun error sistemàtic, MSlab serà molt més gran que MSR, amb la qual cosa el valor calculat d’F serà major que el valor tabulat Ftab per al nivell de significació α triat i els graus de llibertat esmentats.

A continuació es mostra la típica taula ANOVA obtinguda per als resultats de l’exemple de la Taula 1:

Taula 3. Taula ANOVA per als resultats de la Taula 1.

Font Suma de quadrats

Graus de

llibertat Quadrat mitjà Fcal Probabilitat

Entre laboratoris 53.13 4 13.28 10.30 6.23·10-5 Dintre dels laboratoris 29.64 23 1.29 Total 82.77 27 Ftab = 2.79 (α = 0.05, 4, 23, 1 cola)

(5)

significativa de la resta de laboratoris. El valor de probabili tat que apareix a la Taula 3 indica aquell valor d’α a partir del qual l’ANOVA no detectaria cap diferència significativa. Així doncs, a menor valor de probabilitat, més seguretat de que existeixen diferències significatives.

L’ANOVA no indica quants laboratoris difereixen ni quins són. Una inspecció visual dels resultats pot proporcionar sens dubte alguna pista, però si es volen tenir criteris més sòlids, hi han diverses proves estadístiques que permeten saber de quin(s) laboratori(s) es tracta [Massart, 1997].

A l’exemple que hem presenta t, tots els laboratoris han analitza t la mostra seguint un procediment analític comú. S’hagués pogut plante jar que cada laboratori utilitzés dos procediments comuns, per exemple el mètode oficial y un mètode alternatiu. En aquest cas disposaríem dels resultats del contingut en plom obtinguts per una sèrie de laboratoris amb dos mètodes diferents, i l’ANOVA ens proporcionaria informació sobre l’existència de discrepàncies entre laboratoris i entre mètodes. Seria un exemple d’ANOVA de dos factors.

Conclusions

En aquest article hem vist que l’ANOVA pot utilitzar-se per a comparar entre si les mitjanes dels resultats proporcionats per diversos laboratoris, analistes, mètodes d’anàlisi, etc. En el següent article mostrarem com utilitzar l’ANOVA per a descompondre la variació total d’un procés en les fonts de variació parcials. Això ens pot resultar molt útil per a, per exemple, determinar quins són els factors que afecte n més a un determina t procediment analític.

Des del punt de vista pràctic, existeixen múltiples paquets estadístics que permeten executar ràpidament els càlculs de l’ANOVA. Tanmateix, el que és interessant és que l’usuari tingui capacitat per extraure conclusions químiques dels resulta ts obtinguts.

(6)

Referències bibliogràfiques

D.L. Massart, B.M.G. Vandeginste, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. Smeyers-Verbeke, “Handbook of Chemometrics and Qualimetrics: Part A”, Elsevier (1997), Amsterdam.

Els autors agraeixen tots els comentaris relacionats amb els continguts d’aquest article. Poden dirigir-se, mitjançant missatge electrònic, a l’adreça:

quimio@quimica.urv.es

Hom pot trobar una versió en suport electrònic d’aquest article i informació suplementària a:

Referencias

Documento similar

El derecho romano tiene diferentes criterios de periodización los cuales son clasificados con criterios de aspecto geográfico histórico, económico, religiosos y

L’organització fictícia on es dur a terme la implementació del sistema de planificació de recursos empresarials lliure, és l’empresa Autocars Bruno, que disposa de més de

Amb aquest objectiu es desenvolupa un anàlisi de com funcionen els serveis de traducció en diferents àmbits del procés (policial i judicial, fonamentalment), quins problemes

En base a estudis inicials de les normatives vigents aplicables al treball, realitzarem un model del sistema, fent un anàlisi de les diferents característiques de la població,

Això fa que el 2016 hagi estat un bon moment per retornar sobre un tema que m’ha por- tat per camins diversos i ha compromès, en especial, la meva anàlisi d’El jardí de

La inferència s’ha de fer mitjançant la comparació del patró de les estries dels homínids fòssils amb el patró d’estriació que presenten poblacions humanes o de primats

Així, per exemple, per parlar només d’aquelles associacions que sorgeixen de manera molt evident en estreta relació amb el Cercle Literari, Catalunya Vella recollia

Per una altra part, i ja referint la nostra tasca de prospectiva i anàlisi al voltant de la revista Texto Poético, direm que el nostre estudi, la nostra tesi, se centra en la