PARTE I: ESTADO DE LA CUESTIÓN
Capítulo 4. Fundamentos Teóricos
4.3. Análisis de Varianza
El análisis de varianza, frecuentemente denominado ANOVA, fue desarrollado por Ronald Fisher [FISHER71], con el fin de decidir sobre la igualdad o diferencia entre poblaciones a partir de muestras de las mismas, por lo que se usa frecuentemente como método de inferencia estadística en muchos campos científicos. El uso de ANOVA permite también analizar independientemente el efecto de n distintos factores, así como los posibles efectos de interferencia entre los mismos, en un solo conjunto de pruebas experimentales, mediante el denominado ANOVA de n vías, por lo que resulta un método muy eficiente de contrastar hipótesis con el mínimo número necesario de pruebas experimentales.
A lo largo de nuestro estudio, hemos utilizado ANOVA de una vía sobre los resultados experimentales obtenidos para diferentes valores de un mismo factor (por ejemplo, algoritmo de análisis utilizado, o tipo de colección de documentos) para decidir si existe un efecto significativo de ese factor individual sobre los resultados. También hemos utilizado ANOVA de dos vías de los resultados obtenidos variando dos factores (tales como algoritmo de análisis, y algoritmo de proyección) para identificar tanto los efectos individuales de cada uno de ellos como los efectos de interferencia, por los cuales una combinación de dos factores se comporta de forma significativamente diferente a lo que cabía esperar de los efectos individuales de cada uno de ellos.
4.3.1. ANOVA de una vía
Supongamos que disponemos de dos o más muestras, o grupos de medidas, extraídas al azar de poblaciones con una distribución normal gaussiana de la característica a analizar. Nuestro objetivo es determinar con un cierto nivel de confianza p si las muestras han sido extraídas de
Aplicación de Entornos Virtuales para la Exploración y Búsqueda de Información
52 ESTADO DE LA CUESTIÓN
poblaciones con iguales valores de media y varianza (hipótesis nula), o si, por el contrario, las poblaciones difieren en estos valores. A partir de las características estadísticas de las muestras, determinaremos p, que es probabilidad de que las diferencias observadas se deban a variaciones casuales de muestreo, y no a una diferencia real entre las poblaciones originales. Si la probabilidad p no supera el valor umbral que establezcamos (habitualmente, se utiliza 0.05, ó 0.01), se considera demostrado que existen diferencias significativas entre las poblaciones. En caso contrario, tendremos que considerar que no está descartada la hipótesis nula de igualdad entre poblaciones.
El análisis de varianza parte de la siguiente ecuación fundamental:
∑
− =∑
− +∑
− ij ij G i i ij ij G ij X X X X X X )2 ( )2 ( )2 ( (14)donde Xij es el valor de la medida j-ésima de la muestra o grupo i, X es la media general de las G
medidas de todos los grupos, y X es la media de medidas del grupo i. Esta igualdad indica, i
usando la terminología habitual del análisis de varianza, que la suma de desviaciones cuadráticas totales es igual a la suma de desviaciones cuadráticas dentro de los grupos más la suma de desviaciones cuadráticas entre grupos: SCT = SCD + SCE.
Pretendemos comparar la variación encontrada en las medias de las distintas muestras con la variación que cabría esperar, suponiendo que las muestras proceden de poblaciones iguales. Para ello, calcularemos el estimador para la varianza esperada de las medias de muestras, a partir de los valores medidos, y suponiendo tentativamente que la hipótesis nula es correcta.
Recordemos que, si tenemos una muestra caracterizada por un valor estadístico, se denominan grados de libertad (GDL) al número de medidas de la muestra que se pueden hacer variar simultáneamente, sin que el valor estadístico varíe. Por ejemplo, si tenemos n valores descritos por su media, el número de grados de libertad será n – 1.
Si tenemos a grupos, cada uno de ellos compuesto por n medidas, y caracterizados por sus varianzas, los grados de libertad entre grupos serán: GDLE = a – 1, los grados de libertad dentro de
los grupos: GDLD = a.(n – 1), y los grados de libertad totales: GDLT = GDLE + GDLD = a.n – 1.
Los estimadores de las varianzas dentro de los grupos y entre grupos son, respectivamente: ) 1 .( − = = n a SC GDL SC S D D D D ) 1 ( − = = n SC GDL SC S E E E E (15) (16)
y, suponiendo que la hipótesis nula es correcta, el estimador de la varianza esperada de las medias de las muestras será:
Fundamentos Teóricos 53 n SD x = 2 ˆ σ (17)
Para la aplicación práctica de ANOVA, se utiliza la función F, definida como:
D E D E S S GDL GDL F( , )= (18)
Este valor es equivalente al cociente entre la varianza estimada en las medias de las muestras a partir de sus medidas, y la varianza que cabe esperar a partir de la hipótesis nula. Por tanto, un valor próximo a 1 apoya la hipótesis de igualdad entre poblaciones, mientras que valores de F mucho mayores indican la existencia de variaciones que hacen mucho más probable la hipótesis contraria. A partir de los valores de F, obtenidos de las medidas de las muestras, y de los GDLE y
GDLD, se puede obtener directamente, por cálculo de la función o por consulta tabular, el valor de
la probabilidad p.
Como ejemplos prácticos de la aplicación detallada del método, pueden consultarse los recogidos en el Apéndice B, que han sido calculados utilizando el Complemento para Análisis Estadístico de la hoja de cálculo Excel.
4.3.2. ANOVA de dos vías
El mismo concepto de ANOVA puede generalizarse al caso en que tengamos dos o más factores que varían simultáneamente. Supongamos que tenemos a posibles valores para el primer factor, b posibles valores para el segundo, y a.b muestras de n valores cada una, los grados de libertad totales GDLT son:
GDLT = GDLE1 + GDLE2 + GDLD + GDLI
(19)
siendo GDLE1 los grados de libertad entre grupos por variación del factor 1, GDLE2 los grados de
libertad entre grupos por variación del factor 2, GDLD los grados de libertad dentro de los grupos,
y GDLI los grados de libertad por interferencia entre factores.
Los cálculos de F(GDLE1, GDLD), F(GDLE2, GDLD), y F(GDLI, GDLD) con formulaciones
similares a las de ANOVA de una vía nos darán los criterios de diferencia significativa para el factor 1, el factor 2 y la interferencia entre factores, respectivamente.
En el Apéndice B se recogen también ejemplos de la aplicación del análisis ANOVA de dos vías, para estudiar los efectos de pares de factores y su interferencia mutua en los resultados experimentales.
55