4. Análisis de la varianza

Texto completo

(1)

4. Análisis de la varianza

4.1. Introducción

Recordad que ya estudiamos la comparación de medias de dos poblaciones in- dependientes a partir de diferentes estadísticos de prueba. Así, con poblacio- nes básicas normales o con muestras grandes, y si no conocíamos las varianzas poblacionales, pero las suponíamos iguales, teníamos el estadístico siguiente:

o incluso con varianzas desconocidas, pero con muestras grandes, podíamos utilizar, por aproximación, el estadístico:

Estos estadísticos sólo se pueden aplicar para relacionar dos poblaciones, com- parar la vida media de dos marcas de televisores, determinar si hay diferencia significativa entre las rentas per cápita en los hábitats rural y urbano, discutir el aumento de productividad al pasar de un proceso tecnológico a otro, etc.

Si estamos interesados en comparar diferentes poblaciones, tendremos que utilizar otros estadísticos de prueba basados en el análisis de la varianza o, en su defecto, en otras técnicas no paramétricas. Antes, sin embargo, definiremos de manera muy concisa los modelos probabilísticos χ2 de Pearson y F de Sne- decor, claves para la correcta aplicación de estos tests.

En este apartado sobre el análisis de la varianza aprenderéis:

• qué son las distribuciones χ2 de Pearson y F de Snedecor;

• cómo se contrasta la desigualdad de medias correspondientes a más de dos muestras;

X1X2

( )–(μ1–μ2) 1

n1 --- 1

n2 ---

⎝ + ⎠

⎜ ⎟

⎞ n( 1–1)s12+(n2–1)s22 n1+n2–2 --- --- tn

1+n22

X1X2

( )–(μ1–μ2) s12

n1 --- s22

n2 --- +

--- N 0,1∼ ( )

(2)

• cómo se contrasta la desigualdad de medias entre muestras o grupos defi- nidos por medio de dos criterios de clasificación;

• cómo se contrastan las desigualdades de más de dos medias con pruebas no paramétricas.

4.2. Distribución χ2 de Pearson

La densidad se define por los valores positivos de la variable y presenta un comportamiento campaniforme y un asimetría hacia la derecha, como pone de manifiesto la siguiente figura:

4.2.1. Uso de tablas para el cálculo de valores y de probabilidades en la distribución χ2

Así, podemos buscar qué valor de la χ2 con 15 grados de libertad genera un área a su derecha del 1%. Si fijamos un nivel (en la cabecera de la columna) de 0,01 y la quinceava línea para determinar los grados de libertad, encontramos en la in- tersección de los dos puntos que el valor que buscamos es = 30,578.

Definiremos un modelo χ2 como la suma de los cuadrados de normales independientes y estandarizadas:

con Zi ~ N(0,1) ∀i, Zi y Zj independientes ∀ i ≠ j, n = grados de libertad del modelo χ2.

χn2 = Z12+Z22+… Z+ n2

Karl Pearson (1857-1936)...

... es el exponente de la escuela estadística anglosajona, el fun- dador de la revista Biometrika y el autor de la distribución χ2. Se ha dicho que el modelo χ2 (y sus aplicaciones en la infe- rencia estadística) forma parte de los veinte máximos descu- brimientos de este siglo, junta- mente con los plásticos, la teoría de la relatividad, la tele- visión, los antibióticos, la teoría del big-bang, el láser, etc.

χ0,001 , 152

Para el cálculo de valores y de probabilidades en la distribución χ2, podemos utilizar las tablas que se presentan en la web asociada.

(3)

También podríamos determinar qué dos puntos de la ley χ2 con 8 grados de libertad acotan el 90% del área, descartando colas extremas del 5%. El valor que genera un área del 95% a su derecha es = 2,733, que se encuentra en la intersección de la octava fila con la columna del 0,95, mientras que el que deja un área del 5% a su derecha es = 15,507.

De hecho, cuando el modelo presenta muchos grados de libertad (n > 30), se puede utilizar la aproximación asintótica a la ley normal que vemos a conti- nuación:

Con el fin de ilustrar esta aproximación, supongamos que queremos calcu- lar el tercer cuartil, Q3, del modelo. Dado que los grados de libertad son superiores a 30, podemos hacer el cálculo a partir de la aproximación N(200,20). Si estandarizamos y buscamos en las tablas de la normal están- dar el valor z que corresponde al tercer cuartil, es decir, el que acumula has- ta él un área 0,75, tenemos que:

donde Q3 = 213,5, resultado muy cercano al valor exacto . Actividades

4.1. Calculad la probabilidad de encontrar un valor superior al 12,59 en una distribución χ2 con 6 grados de libertad. (Respuesta: 0,05)

4.2. Calculad el valor de la distribución χ2 con 15 grados de libertad que deja por encima de él una probabilidad del 10%. (Respuesta: 22,3)

4.3. Calculad la probabilidad de que la distribución χ2 con 25 grados de libertad tome un valor en el intervalo que vaya desde el 30,0 hasta el 40,0. (Respuesta: 0,1955)

4.3. Distribución F de Snedecor

Una variable aleatoria sigue un modelo F de Snedecor (o de Fisher) cuando resulta de operar dos distribuciones χ2 de Pearson independien- tes según el criterio:

donde m y n son los grados de libertad de F y vienen determinados por los grados de libertad de ambas χ2.

χ0,95 , 82

χ0,05 , 82

χn2

n 30( > ) N μ( =n , σ= 2n)

χ2002

Q3–200

---20 = 0,675

χ0,25 , 2002

Fm,n χm2m χn2n ---

=

(4)

La densidad, definida por valores positivos de la variable, es campaniforme con asimetría hacia la derecha, como muestra la figura, y con una media

para n > 2 y una varianza para n > 4.

La expresión analítica de la densidad no es cómodamente operable, razón por la cual omitimos su presentación. En consecuencia, es necesario usar tablas es- tadísticas para el cálculo de probabilidades.

4.3.1. Uso de tablas para el cálculo de valores y de probabilidades de la ley F de Snedecor

Las tablas proporcionan puntos Fα que generan colas a la derecha con niveles α (significación) del 10%, del 5% y del 1%; para el cálculo de niveles mayores, siempre es posible utilizar la relación:

Por ejemplo, supongamos que un indicador económico X determinado se adapta a un modelo F de Snedecor con 3 y 20 grados de libertad y que queremos calcular el noveno decil, d9 (valor que toma, como vemos en la figura, a su izquierda un área de 0,9) en las tablas de la distribución F, con una cola superior de 0,1. Leemos 3 (como primeros grados de libertad) y 20 (como segundos grados de libertad) y encontramos en la convergencia de ambas líneas el punto 2,38.

Si ahora quisiéramos calcular el primer centil, c1 (valor que toma a su izquierda un área de 0,01), no lo podríamos encontrar en las tablas de F3, 20, pero podría- mos utilizar el cambio:

Actividades

4.4. Calculad la probabilidad de encontrar un valor superior a 20,3 en una F con 8 y 16 grados de libertad. (Respuesta: 0)

4.5. Qué valor de la distribución F con 4 y 19 grados de libertad deja por encima de él un área del 20%. (Respuesta: 1,6630)

4.6. Calculad la probabilidad de que la F con 3 y 12 grados de libertad tome un valor entre 0,1 y 6,4. (Respuesta: 0,9507)

4.4. Análisis simple de la varianza. Objetivos y requisitos

El análisis de la varianza (Anova) permite comparar las medias de va- rios grupos, después de cumplir algunos supuestos de partida. Sirve para contrastar hipótesis del tipo H0: μ1 = μ2 = ... = μk, que tiene tra- ducciones diferentes.

n n–2

--- 2n2(m n+ –2)

m n( –4) n 2( – )2 ---

F1 α,n,m 1

Fα,n,m ---

=

C1 F0,99, 3, 20

1 F0,01, 20, 3

--- 1 26 69,

--- 0,0374=

=

=

=

(5)

Suponemos que hemos dividido España en provincias y que estamos interesa- dos, a partir de la experimentación muestral, en determinar si:

– La renta per cápita de las provincias es la misma (y, por tanto, igual a la de toda España).

– España es homogénea en su división provincial por lo que respecta a la re- partición de las rentas.

– El hecho no es explicativo de la desigualdad de rentas.

Estos tres planteamientos son sinónimos y tienen un mismo tratamiento es- tadístico: el Anova.

Dado que no siempre será fácil asumir estos supuestos de partida, nos remiti- mos a otras técnicas de estadística no paramétrica; sin embargo, si estos requi- sitos se cumplen, el Anova resulta el procedimiento más potente (la probabilidad de aceptar una hipótesis falsa es menor que en otras técnicas).

4.4.1. Información muestral

Consideramos k poblaciones (o k grupos en que hemos dividido una pobla- ción), de las cuales hemos tomado diferentes muestras:

Unas restricciones previas son necesarias para poder aplicar esta técnica con fiabilidad:

1) Las muestras (submuestras) tienen que ser independientes.

2) Las poblaciones (o subpoblaciones) siguen distribuciones normales o, en su defecto, la muestra elegida es suficientemente grande (más de 40 datos en cada submuestra).

3) Supondremos la misma varianza para cada población (o subpobla- ción):

Grupos

1 2 ... k

Observaciones

x11 x12 x1n1

x21 x22 x2n2

...

...

...

xk1 xk2 xknk

Muestras n1 n2 ... nk

Medias muestrales ...

Varianzas

muestrales ...

El uso del Anova...

... es recomendable por enci- ma de otras técnicas de esta- dística no paramétrica si se cumplen los requisitos de uso . Es un procedimiento más ade- cuado porque no acepta una hipótesis falsa, como hacen otros recursos estadísticos.

σ12 = σ22 = … = σk2

Notad...

... que hemos asumido la res- tricción a priori

, pero que esto no quiere decir que en el ámbito muestral se dé la igualdad de varianzas ( ).

σ12 = σ22 =

σk2

= =

Sj2

X1 X2 Xk

S12 S22 Sk2

(6)

donde: xji = i-ésima observación del j-ésimo grupo

i = 1, 2, ... , nj

j = 1, 2, ... , k

y las características para la muestra global:

La siguiente figura sitúa las observaciones y los parámetros calculados:

Obviamente, las medias muestrales no deben ser iguales obligatoriamente

; lo que se cuestiona es saber si en el ámbito poblacional todas las medias (μj) son iguales.

n nj

j

=

X

xji

j

j

---n

Xjnj

j

---n

= =

S2

XjiX

( )2

i j

n–1 ---

=

( )

Xj

(7)

La dispersión de la nube de puntos que constituye la muestra global puede ve- nir dada a partir de medidas como la varianza, la desviación estándar, etc. Ele- giremos como variación total de la muestra STC (suma total de cuadrados):

Esta dispersión se puede dividir fácilmente en dos componentes: la dispersión explicada mediante los grupos SCE (suma de cuadrados entre grupos):

y la dispersión explicada por medio de otros factores diferentes de los grupos en que hemos dividido la población SCD (suma de cuadrados dentro de los grupos):

es fácilmente demostrable la relación:

4.4.2. Contraste F de Snedecor

Como ya habíamos dicho al principio, nuestro objetivo es determinar si hay diferencias significativas entre los grupos en que hemos dividido la población;

es decir, comprobar la variación que existe entre los grupos (SCE) es lo sufi- cientemente importante como para entender que no se trata de una población homogénea. Como es obvio, no podemos contestar dando una simple ojeada porque nos arriesgaríamos a dar respuestas subjetivas; se trata de utilizar un criterio objetivo de decisión, como el basado en un estadístico F de Snedecor.

Para contrastar la hipótesis nula:

H0: μ1 = μ2 = ... = μk = μ STC = SCE + SCD STC (xjiX)2

i

j

xji

2nX2

i

j

(n 1 )S2

= = =

SCE (XjX)2nj

j

Xj2nj(n 1 )X2

j

= =

SCD (xjiXj)2

i

j

xji

2 Xj2nj

j

i

j

Sj

2(nj–1)

j

= = =

(8)

utilizaremos la expresión, válida para n observaciones y k grupos:

la cual, con una significación αprefijada, permite distinguir entre el rechazo de la H0 (cuando F* > Fα , k − 1 , n − k) o el no-rechazo de la H0 (cuando F* < Fα , k − 1 , n − k).

Notad que el hecho de no rechazar la H0 no quiere decir exactamente que aceptemos la hipótesis, sino simplemente que nada se opone a pensar que la H0 pueda ser verdad.

Por otro lado, rechazar la H0 no quiere decir necesariamente que todas las me- dias sean diferentes, sino que algunas (quizá todas) son diferentes. La realiza- ción de pruebas de t de Student para pares de medias pueden determinar qué grupos son los que presentan unas diferencias suficientemente significativas.

Ejemplo

A partir de un diseño muestral estratificado previo, se eligieron 123 tiendas de una ciudad, de las cuales 36 correspondían a la periferia, 48 a la zona centro y 39 al barrio antiguo. En el cuadro que tenemos a continuación se detalla la suma de las superficies de los diferentes establecimientos:

Fuente de variación Suma de cuadrados Grados de libertad

Entre grupos (SCE) k − 1

Dentro de los grupos (SCD) n − k

Total (STC) n − 1

si F> Fα , k − 1 , n − k Rechazo H0 si F< Fα , k − 1 , n − k No-rechazo H0

Total Suma de cuadrados

Periferia Zona centro Barrio antiguo

1.157 1.464 1.205

245.926 323.152 264.340

F

SCE k 1– --- SCD n k– --- ---

=

La ciencia del pesimismo Alguien etiquetó la estadística como la ciencia del pesimismo, porque las hipótesis plantea- das pueden ser rechazadas o no rechazadas, pero nunca son aceptadas.

Xj2nj(n 1 )X2

j

xjiXj

( )2

i

j

xji2 nXj2 j

i

j

F

SCE k 1 --- SCD n k --- ---

=

(9)

Teniendo en cuenta que no hay nada que impida aceptar la premisa de varian- zas iguales en las tres zonas, contrastaremos la hipótesis de que también son iguales las medias con un 25% de significación.

En primer lugar, calculamos las medias muestrales de cada una de las tres zo- nas y la total:

= 32,138 = 30,500 = 30,897

= 31,105

A continuación, podemos calcular las variaciones que presentan los datos re- gistrados:

STC =

= 245.926 + 325.152 + 264.340 − 123(31,105)2 = 714.412,914

SCE =

= 36(32,138)2 + 48(30,500)2 + 39(30,897)2 − 123(31,105)2 = 59,911

SCD = STC − SCE = 714.412,914 − 59,911 = 714.353,003 Contrastamos la H0: μn = μc = μs = μ (igual superficie media por zona):

por lo cual no se rechaza la hipótesis nula, al 25% de significación.

Actividades

4.7. Hemos observado en horas diferentes el número de usuarios de tres cajeros automá- ticos que hay en una agencia bancaria. Los resultados obtenidos son los siguientes:

Cajeros

1r 2n 3r

32 38 28 33 39

28,0 31,0 33,0 27,0 31,0

37 36 40 29 33

Media Varianza

34 16,4

30,0 4,8

35 14

X1 X2 X3

X

xji2nX2

i

j

=

Xj2njnX2

j

=

0,25,2,120

59,911 3 1

1 0,005 1,40

714.353,003 123 3 SCE

k F

SCD n k

− = = < =

− −

(10)

Después de asumir los supuestos que hacen viable el análisis de la varianza probad, con una significación del 5%, si es posible aceptar un ritmo de trabajo igual en los tres cajeros.

La cuestión que se plantea es probar hasta qué punto es suficientemente pequeña la va- riación que existe entre grupos como para asignar una dispersión a errores muestrales o, en definitiva, al azar, lo cual equivale a postular la hipótesis H0: μ1 = μ2 = μ3.

Si realizáis las operaciones correspondientes, obtendréis unas sumas de cuadrados:

SCE = 70, SCD = 176 y STC = 246

con lo cual el estadístico de contraste toma el valor 2,4, que es menor que el valor crítico en tablas. En consecuencia, no rechazamos la H0 de un ritmo medio de clientes por cajero igual.

4.8. En diferentes momentos del mes de abril, hemos medido la temperatura de cinco ciudades del interior. Los resultados que hemos obtenido son los siguientes:

que nos han permitido calcular la media y la desviación estándar de las temperaturas muestrales en cada ciudad:

Una vez que habéis admitido los supuestos que permiten efectuar el análisis de la varian- za, comprobad si es posible aceptar una temperatura media igual para las cinco ciudades durante el mes de abril.

Tenéis que llegar a conseguir el cuadro que reúne toda la información necesaria:

y a “aceptar” la hipótesis de igualdad de medias al 5% de significación.

Ciudad 1

Ciudad 2

Ciudad 3

Ciudad 4

Ciudad 5 26

17 11 6 26 7 7 24 16 21 22 11

18 11 21 9 25 2 6 20 12 11 4 4

3 22 20 8 24 5 3 25 17 14 1 11

14 5 20 11 22 6 8 21 21 17 8 17

11 23 31 10 25 9 14 31 30 17 12 26

Media Desviación estándar Ciudad 1

Ciudad 2 Ciudad 3 Ciudad 4 Ciudad 5

16,167 11,917 12,750 14,167 19,917

7,614 7,537 8,781 6,337 8,649

Fuente Grados de libertad

Suma de

cuadrados Media F

Factor Error Total

4 55 59

489,6 3.375,4 3.865,0

122,4 61,4

1,99

(11)

4.9. Queremos determinar si el lugar donde se encuentra un árbol plantado puede influir en sus dimensiones: diámetro, altura y peso. Para este fin, hemos seleccionado aleatoria- mente diez árboles de zona seca y soleada (lugar 1) y diez árboles de zona húmeda y som- bría (lugar 2). Éstos son los datos relativos a cada árbol:

Efectuad tres análisis de la varianza para comprobar si el factor lugar es explicativo de las diferentes dimensiones observadas. Tenéis que acabar encontrando los cuadros de traba- jo siguientes y concluir que el tipo de zona donde está la plantación no es relevante para determinar las diferentes dimensiones.

Observación Diámetro Altura Peso Lugar 1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

2,23 2,12 1,06 2,12 2,99 4,01 2,41 2,75 2,20 4,09 3,62 4,77 1,39 2,89 3,90 1,52 4,51 1,18 3,17 3,33

3,76 3,15 1,85 3,64 4,64 5,25 4,07 4,72 4,17 5,73 5,10 5,54 2,40 4,48 4,84 2,90 5,27 2,20 4,93 4,89

0,17 0,15 0,02 0,16 0,37 0,73 0,22 0,30 0,19 0,78 0,60 1,11 0,04 0,32 0,07 0,07 0,79 0,03 0,44 0,52

1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2

Análisis de la varianza en altura Fuente Grados

de libertad

Suma

de cuadrados Media Estadístico F Valor P

Lugar Error

1 18

0,12 25,10

0,12 1,39

0,09 0,770

Total 19 25,22

Análisis de la varianza en peso Fuente Grados

de libertad

Suma

de cuadrados Media Estadístico F Valor P

Lugar Error

1 18

0,0405 1,7782

0,005 0,0988

0,41 0,530

Total 19 1,8187

Análisis de la varianza en diámetro Fuente Grados

de libertad

Suma

de cuadrados Media Estadístico F Valor P

Lugar Error

1 18

0,92 22,39

0,92 1,24

0,74 0,400

Total 19 23,32

Figure

Actualización...

Referencias

Actualización...

Related subjects :