Diseños de Experimentos (Bueno Material Diapositivas)

(1)

D

DI

IIS

I

S

SE

S

E

EÑ

E

ÑO

Ñ

O

O Y

O

Y

Y A

Y

A

AN

A

NÁ

N

Á

ÁL

Á

L

LI

L

IIS

I

SI

S

IIS

I

S

S D

S

DE

D

E E

E

EX

E

X

XP

X

PE

P

E

ER

E

R

RI

R

IIM

I

M

ME

M

E

EN

E

NT

N

T

TO

T

O

OS

O

S

M

MO

O

ON

O

N

NO

N

OF

O

F

FA

F

A

AC

A

C

CT

C

TO

T

O

OR

O

R

RI

R

IIA

I

AL

A

L

LE

L

E

ES

E

S

1

118

88.

8 .

..1

11.

1 .. I

.

IIN

I

N

NT

N

T

TR

T

R

RO

R

OD

O

D

DU

D

U

UC

C

CC

CI

C

IIÓ

I

Ó

ÓN

N

En la Unidad de Inferencia Estadística se presentaron problemas que implican el manejo de En la Unidad de Inferencia Estadística se presentaron problemas que implican el manejo de datos numéricos correspondientes a la observación de una o más variables aleatorias, y el interés se datos numéricos correspondientes a la observación de una o más variables aleatorias, y el interés se focalizó en efectuar estimaciones puntuales o intervalares y en la aplicación de pruebas de hipótesis focalizó en efectuar estimaciones puntuales o intervalares y en la aplicación de pruebas de hipótesis relacionadas con una o más poblaciones.

relacionadas con una o más poblaciones. En esta unidad se En esta unidad se trata el diseño experimental y el análisis detrata el diseño experimental y el análisis de los datos experimentales.

los datos experimentales. El

El

diseño experimental

comprende un conjunto de procedimientos que se utilizan para obtener comprende un conjunto de procedimientos que se utilizan para obtener datos numéricos bajo condiciones controladas. Como ya se sabe sólo es posible realizar inferencias datos numéricos bajo condiciones controladas. Como ya se sabe sólo es posible realizar inferencias válidas aplicando un diseño que cumpla con los principios básicos de la experimentación: repetición, válidas aplicando un diseño que cumpla con los principios básicos de la experimentación: repetición, aleatorización y control (por ejemplo, bloqueo). Para esto se requiere planificar la experimentación y aleatorización y control (por ejemplo, bloqueo). Para esto se requiere planificar la experimentación y diseñar un dispositivo experimental (esquema de distribución de las unidades experimentales y los diseñar un dispositivo experimental (esquema de distribución de las unidades experimentales y los tratamientos) que llevado a la práctica permita obtener datos empíricos apropiados para el análisis tratamientos) que llevado a la práctica permita obtener datos empíricos apropiados para el análisis estadístico posterior.

estadístico posterior. El

El

análisis de los datos experimentales

se centra en realizar comparaciones. A partir de se centra en realizar comparaciones. A partir de experimentar con diferentes situaciones, los datos correspondientes se analizan mediante los experimentar con diferentes situaciones, los datos correspondientes se analizan mediante los procedimientos del análisis de la varianza y algunas pruebas complementarias. El concepto fundamental procedimientos del análisis de la varianza y algunas pruebas complementarias. El concepto fundamental de los experimentos estadísticos es la varianza residual. Esta es la variación debida al error de los experimentos estadísticos es la varianza residual. Esta es la variación debida al error experimental (variación dentro) que mide la porción de la variabilidad total de los datos no explicada por experimental (variación dentro) que mide la porción de la variabilidad total de los datos no explicada por la variación debida a los tratamientos (variación entre)

la variación debida a los tratamientos (variación entre)

Se ha visto en el análisis de la varianza que generalmente se utiliza la prueba de F, para tomar Se ha visto en el análisis de la varianza que generalmente se utiliza la prueba de F, para tomar una decisión con respecto a si varias muestras proceden de poblaciones que tienen la misma media una decisión con respecto a si varias muestras proceden de poblaciones que tienen la misma media paramétrica. Además que se utilizó el nombre genérico de

paramétrica. Además que se utilizó el nombre genérico de

grupos

para referirse a las muestras, pero para referirse a las muestras, pero en el contexto experimental los

en el contexto experimental los

grupos

se corresponden con se corresponden con

tratamientos

(j=1,2,…,k) o los (j=1,2,…,k) o los

bloques

(r=1,2,... , n) y, se presentó la

identidad fundamental del ADEVA

que hace referencia a la partición que hace referencia a la partición como:

como:

SCG = SC entre grupos + SC dentro de grupos SCG = SC entre grupos + SC dentro de grupos

A partir de las sumas de cuadrados “entre” y “dentro”, se obtuvieron dos estimaciones independientes de A partir de las sumas de cuadrados “entre” y “dentro”, se obtuvieron dos estimaciones independientes de la varianza poblacional

la varianza poblacional 22 σ

σ asociada al primer término de la ecuación, que fueron el cuadrado medioasociada al primer término de la ecuación, que fueron el cuadrado medio entre grupos

entre grupos y el cuadrado medio y el cuadrado medio dentro de grupos. Bajo hipótesis nula dentro de grupos. Bajo hipótesis nula de que los de que los grupos proceden degrupos proceden de poblaciones con idéntica media (Ho:

poblaciones con idéntica media (Ho:

µµ

11 = =

µµ

22= … == … =

µµ

kk ), ), los dos cuadrados los dos cuadrados medios toman el mismo medios toman el mismo valor,valor,

luego la razón luego la razón grupos grupos dentro dentro CM CM grupos grupos entre entre CM CM F

F

==

, que en el muestreo sigue la distribución F, que en el muestreo sigue la distribución Fαα;; ν ν1 ,1 , ν ν22 , resulta igual a , resulta igual a

1. Pero, si los datos observados aportan suficiente evidencia para rechazar Ho, se concluye a favor de la 1. Pero, si los datos observados aportan suficiente evidencia para rechazar Ho, se concluye a favor de la hipótesis alternativa (H1: al menos existe una media que difiere de las restantes). Evidentemente en este hipótesis alternativa (H1: al menos existe una media que difiere de las restantes). Evidentemente en este

Contenidos

18.1. 18.1. Introducción

Introducción

18.2. Diseños experimentales básicos

18.2.1.Dispositvo experimental

18.2.1.1. Diseño completamente aleatorizado (DCA)

18.2.1.2. Diseño de bloques completos al azar (DCBA)

18.2.1.3. Diseño cuadrado latino (DCL) 18.2.1.3. Diseño cuadrado latino (DCL)

18.2.2. 18.2.2. Análisis comparativo de

Análisis comparativo de los diseños

los diseños básicos

básicos

18.3. 18.3. Análisis de los experimentos monofactoriales

Análisis de los experimentos monofactoriales

18.3.1. Análisis de la varianza (ADEVA)

18.3.1.1.Diseño completamente aleatorizado (DCA)

18.3.1.2.Diseño de bloque completo al azar (DCBA).

18.3.1.3.Análisis de la varianza del cuadrado latino (DCL)

18.3.2. Análisis a posteriori del ADEVA

18.3.2.1.Caso de un factor cualitativo

18.3.2.2. Caso de un factor cuantitativo.

TEMA TEMA

(2)

(3)

caso el CM del numerador resulta mayor al CM del denominador, F>1, y el valor resulta tanto mayor a la unidad cuanto mayor sea la diferencia entre las medias de los grupos (tratamientos o bloques).

En el contexto del análisis experimental se presentarán otras expresiones para explicar la partición de la SCG, que reflejarán el tipo de dispositivo experimental utilizado y la naturaleza de los tratamientos. En este capítulo particularmente, se verá la aplicación del ADEVA en el análisis de datos experimentales (valores observados de una variable respuesta Y) derivados de experimentos monofactoriales, es decir, que se ha experimentado con un único factor, cuyos tratamientos (tratamientos simples) se han distribuido aleatoriamente, con diferente grado de control experimental (DCA, DBCA y DCL).

No resulta difícil calcular las sumas de cuadrados con una calculadora manual, si se parte de una tabla con datos correctamente organizados y se aplican fórmulas operativas de cálculo, aunque la tarea puede resultar algo tediosa. Se pueden diseñar planillas de cálculo MS EXCEL, tanto para realizar el análisis inicial exploratorio de los datos (análisis descriptivo), que permitirá vislumbrar el cumplimiento de los supuestos del ADEVA, como para realizar los cálculos que requiere el análisis inferencial (Pruebas de F y Pruebas de comparaciones múltiples de medias). También se puede recurrir a paquetes estadísticos para computadoras; en este curso se presentarán ejercicios con salidas obtenidas con el INFOSTAT para su interpretación.

118 8..22..

DIIS

D

SE

EÑ

ÑO

OS

S E

EX

XP

PE

ER

RIIM

ME

EN

NT

TA

AL

LE

ES

S B

BÁ

ÁS

SIIC

CO

OS

S

18.2.1. Dispositivo experimental

Existen tres formas básicas para distribuir aleatoriamente los tratamientos en las unidades experimentales, que se diferencian por el grado en que controlan el error experimental:

Menor control

•

Diseño completamente aleatorizado (DCA)

•

Diseño de bloques al azar (DBA)

•

Diseño de cuadrado latino (DCL)

Mayor control

118 8..22..11.. D

Diisseeñ

ño

o cco

om

mp

plleettaam

meen

nttee aalleeaatto

orriizzaad

do

o ((D

DC

CA

A))

El diseño completamente aleatorio es apropiado cuando se sabe que además de la variación aleatoria entre las unidades experimentales, la única fuente de variación adicional que existe, es la debida a la aplicación aleatoria en ellas de diferentes tratamientos.

Características

•

Las unidades experimentales deben ser homogéneas entre sí (sustrato homogéneo)

•

Los tratamientos se distribuyen al azar en las unidades experimentales, mediante un procedimiento físico (bolillero) o una tabla de números aleatorios o dados de 10 caras (decaedro), sin ninguna restricción en el sorteo.

•

El número de repeticiones por tratamiento puede ser igual o diferente:

Ejemplo ilustrativo de un DCA con igual número de repeticiones por tratamiento:

Sea el caso de un ensayo en laboratorio, con cuatro dosis de fertilizante (A, B, C, D), aplicadas a terrinas con plantas de tomate. El

dispositivo experimental

o

plano de distribución de los tratamientos

de la Figura 18.1 puede ser un resultado posible, después de sortear estos tratamientos en las distintas unidades o terrinas. En el dispositivo se observan las 5 unidades que recibirán cada uno de los tratamientos (repeticiones). B1 A1 A2 C1 A3 B2 D1 B3 C2 C3 A4 D2 A5 D3 B4 C4 B5 D4 D5 C5

Figura 18.1. Distribución de un experimento monofactorial en DCA, 4 dosis (A,B,C,D) ; r= 5 repeticiones (i=1,2,3,4,5)

(4)

(5)

118 8..22..22.. D

Diisseeñ

ño

o d

dee b

bllo

oq

qu

ueess cco

om

mp

plleetto

oss aall aazzaarr ((D

DC

CB

BA

A))

En muchas situaciones se sabe de antemano que las unidades experimentales presentan diferencias y entonces, aún cuando se las trate posteriormente de igual modo (con un mismo tratamiento), se debe esperar resultados diferenciados. Por ejemplo, en experimentos con animales, los ejemplares que provienen de diferente cruza o de diferentes camadas tienen diferencias genéticas y esto puede determinar que ante una misma dieta alimentaria respondan en forma diferente. También podrían encontrarse diferencias en el peso inicial, condición de salud del animal, raza, sexo o edad, etapa de lactancia, etc. En experimentos con plantas se pueden encontrar diferencias en el estado de desarrollo, la exposición al sol de los frutos, o bien en el suelo (pendiente, humedad, etc.), en tanto que en experimentos industriales se puede considerar variaciones por la posición en una cámara frigorífica, la línea de producción, el turno laboral, etc.

En experimentos a campo con plantas, a veces no hay suficientes unidades experimentales similares para realizar todas las repeticiones que se desean. Se pueden requerir parcelas grandes, y entonces sucede que las parcelas adyacentes suelen responder de manera más similar que las que están distanciadas por diversas razones (gradientes de fertilidad, textura, etc.), de modo que algunos tratamientos pueden resultar favorecidos y otros perjudicados. También ocurre, en experimentos realizados en laboratorio, que las observaciones efectuadas en un día dado o usando cierto equipo pueden parecerse más que las hechas en días diferentes o con diferentes equipos, respectivamente.

En tales situaciones, se puede proceder de una manera análoga a la vista en el muestreo estratificado. Con las unidades experimentales que presentan condiciones similares, se arman agrupamientos o bloques, que serían equivalentes a los estratos: las unidades son homogéneos dentro del bloque, pero hay diferencia entre los bloques. De esta manera, se puede controlar experimentalmente alguna fuente de variabilidad, que de otro modo perturbaría los resultados experimentales, porque sus efectos quedarían englobados en el error experimental relacionado con el denominador de la razón F (mayor valor, en detrimento de la significancia de los efectos de los tratamientos).

Existen situaciones en las cuales, de entrada resulta que no es posible tener igual número de unidades experimentales homogéneas para tener una repetición de todos los tratamientos por bloque, entonces se recurre al

diseño de bloques incompletos

(no se estudiarán en este curso).

•

El objetivo del agrupamiento es lograr unidades en un bloque tan uniformes como sea posible, de modo que las diferencias observadas se deban sólo a los efectos de tratamientos.

•

En promedio, la variabilidad entre unidades de diferentes bloques será mayor que la variabilidad entre unidades del mismo bloque si no van a aplicarse tratamientos. Idealmente, la variabilidad entre unidades experimentales se controla (recordar muestreo estratificado) de tal forma que, simultáneamente:



se maximice la variación entre bloques



se minimice la variación dentro de ellos

•

En el DBA, la variación entre bloques no afecta claramente a las diferencias entre las medias de tratamientos, ya que cada tratamiento aparece el mismo número de veces en cada bloque.

Cuatro importantes criterios para el bloqueo

Los cuatro criterios que se usan con más frecuencia para armar bloques o agrupamientos de

unidades experimentales son:

1) proximidad en el espacio o en el tiempo (ej.: parcelas vecinas),

2) características físicas (ej.: edad o peso),

3) proximidad cronológica o en el tiempo,

4) administración de tareas o manejo de las unidades experimentales.

•

En el diseño de bloques completos al azar,

cada tratamiento aparece igual número de veces

, usualmente una vez, en cada bloque y cada bloque contiene todos los tratamientos. Bloques y tratamientos son ortogonales entre sí, esta propiedad matricial lleva a los sencillos cálculos aritméticos que entran en el análisis de los datos resultantes.

•

Cada observación se puede clasificar de acuerdo con: a) el bloque del que procede y,

b) el tratamiento al que corresponde,

Esto da lugar a una clasificación doble, de ahí que este diseño también sea conocido como

diseño de clasificación de dos vías o de dos modos

.

El control del gradiente de heterogeneidad en un área experimental, debe hacerse tal que:

•

los bloques resulten perpendiculares al gradiente

(6)

(7)

•

Los bloques se pueden mantener:

a) Compactos, disponiendo las parcelas, usualmente de forma larga y estrecha, cercanas a las de otro bloque

b) no compactos (en diferentes lugares, por ejemplo), pero manteniendo la condición de que sus unidades experimentales sean homogéneas.

•

El número de tratamientos debe ser lo menor posible; debe ser suficiente para lograr los objetivos del experimento. Cuando el tamaño del bloque aumenta, se incrementará la variabilidad dentro de éste.

•

Es necesario que los bloques sean de la misma forma, puesto que las diferencias en las formas de los bloques generalmente incrementan la variabilidad dentro del bloque.

Durante el transcurso del experimento, todas las unidades de un bloque deben tratarse tan uniformemente como sea posible en todo aspecto diferente del tratamiento. Todo cambio en la técnica u otra condición, que pueda afectar los resultados deben hacerse en todo en bloque: se trata de que las diferencias que se observen se deban exclusivamente al efecto del tratamiento recibido. Por ejemplo, si la cosecha abarca un período de varios días, se harán agrupamientos y los bloques se corresponderán con lo cosechado el mismo día o bien si personas diferentes hacen observaciones en el material experimental, en lo posible una persona debe hacer todas las observaciones en un bloque. Así, esta variación reconocida y controlada por bloqueo, quedará excluidas aritméticamente de la variación debida al error experimental.

N S

(a)

I

//////////// //////////// IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIII OOOOOOOO OOOOOOOO Bloques incorrectos

II

//////////////////////// IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIII OOOOOOOO OOOOOOOO

III

//////////// //////////// IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIII OOOOOOOO OOOOOOOO

(b)

-

+

//////////////////////

/// parte ///

/// alta ///

//////////////////////

IIIIIIIIIIIIIIIIIIIIIIIIIII

IIIIIIIIIIIII

IIII

parte

IIIIIII IIII

media

IIIIII IIIIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIII OOOOOOO OOOOOOOO OO

parte

OO OO

baja

OO OOOOOOOOO OOOOOOO Bloques correctos

I

II

III

(c)

Figura 18.2. (a)Sección transversal de una porción de terreno: La sección que va de norte a sur es la que va a utilizarse en el experimento, se supone que la fertilidad y la humedad del suelo aumentan desde la parte alta (norte) a la parte baja (sur). (b) División incorrecta del terreno en bloques. De esta forma, todos los bloques son iguales, pero dentro del bloque cada parcela para los tratamientos es heterogénea, lo cual influye sobre la exacta valoración de los efectos de los tratamientos. (c) División correcta del terreno en bloques. De esta forma, los bloques son todos diferentes pero dentro de un bloque las parcelas son homogéneas.

(8)

(9)

Cuando se han definido las unidades experimentales de los bloques, se numeran en cierto orden conveniente. Los tratamientos también se numeran y luego se asignan aleatoriamente a las unidades dentro de un bloque.

I

II

III

C

A

C

B

C

Fertilidad

Figura 18.3. Distribución de un experimento en DBA, 4 variedades (A, B, C, D); n=3 bloques (I, II, III)

Este diseño se usa con mayor frecuencia que cualquier otro, aunque muchas veces se lo aplica dogmáticamente, sin hacer un análisis adecuado del criterio de control de una variable determinada sino porque “da más prestigio” a un trabajo.

118 8..22..33.. D

Diisseeñ

ño

o ccu

uaad

drraad

do

o llaattiin

no

o ((D

DC

CL

L))

El diseño cuadrado latino es usado con ventaja, cuando hay dos fuentes importantes de variación a controlar, al realizar un experimento.

•

El doble control lleva a disponer los tratamientos en las unidades experimentales de dos maneras diferentes

, por filas y por columna

.

•

Cada tratamiento se presenta una y sólo una vez en cada fila y columna; cada fila así como cada columna, es un bloque completo. Mediante un análisis apropiado, es posible eliminar del error la variabilidad debida a diferencias tanto en filas como en columnas.

•

Los términos filas y columnas son términos generales que se refieren a criterios de clasificación.

•

El número de tratamientos resulta igual al número de filas y al número de columnas.

•

El número de unidades experimentales será igual al cuadrado del número de tratamientos.

•

El número de repeticiones resulta igual al de tratamientos

Para lograr la aleatorización en el

dispositivo experimental

o

plano de distribución de los

tratamientos

de un cuadrado latino, se pueden utilizar dos procedimientos:

a) Recurrir a cuadrados latinos que están disponibles en la bibliografía y sortear uno de ellos entre todos los cuadrados latinos posibles. El texto de Fisher y Yates tiene el conjunto completo de cuadrados latinos de tamaño 4 x 4 hasta 6 x 6, y muestran cuadrados hasta 12 x 12. Cochran y Cox dan cuadrados latinos de muestra desde 3 x 3 hasta 12 x 12.

b) Diseñar un cuadrado latino. Supóngase un experimento a campo con 5 tratamientos, donde hay que controlar dos fuentes de variación (humedad del suelo y nivel del terreno). Se debe proceder de la siguiente manera:

Paso 1: el proceso de distribución de los k tratamientos comienza con el análisis de las unidades experimentales para su clasificación o agrupamiento en k bloques horizontales y k verticales.

Paso 2: distribuir los tratamientos en forma tal que ningún tratamiento se repita en filas ni en columna. Para lograrlo hay que proceder como sigue:

1º) partir de un cuadrado 5x5 con distribución de los tratamientos en forma sistemática (Figs. a y b)

A

B

C

D

E

A

E

D

C

B

E

A

B

C

D

B

A

E

D

C

D

E

A

B

C

B

A

E

D

C

D

E

A

B

D

C

B

A

E

B

C

D

E

A

E

D

C

B

A

Fig.a. Cuadrado sistemático Permutaciones horizontales

Fig.b. Cuadrado sistemático Permutaciones verticales

2º) Primer cuadrado reordenado: reordenar, por sorteo, los bloques horizontales o filas (Ih, IIh, IIIh, IVh y

(10)

(11)

Iv IIv IIIv IVv Vv Iv IIv IIIv IVv Vv Ih

A

B

C

D

E

Vh

B

C

D

E

A

IIh

E

A

B

C

D

IIh

E

A

B

C

D

IIIh

D

E

A

B

C

IVh

C

D

E

A

B

IVh

C

D

E

A

B

Ih

A

B

C

D

E

Vh

B

C

D

E

A

IIIh

D

E

A

B

C

Fig.c. Cuadrado sistemático Fig. d. 1ª Cuadrado reordenado

3º) Segundo cuadrado reordenado : reordenar, por sorteo, los bloques verticales o columnas (Iv, IIv, IIIv,

IVv y Vv) del 1º cuadrado reordenado (Fig.e)

4º) Tercer cuadrado reordenado: sortear las filas y trasponerlas como columnas, en el orden obtenido (Fig.f). IIIv Vv IIv IVv Iv IIv Iv IVv Vv IIIv Vh

D

A

C

E

B

C

E

D

A

IIh

B

D

A

C

E

D

E

B

A

C

IVh

E

B

D

A

C

A

B

D

C

E

Ih

C

E

B

D

A

C

D

A

E

B

IIIh

A

C

E

B

D

E

A

C

B

D

Fig.e. 2º Cuadrado reordenado Fig. f. 3º Cuadrado reordenado

B

11 (1/1)

C

12 (1/2)

E

13 (1/3)

D

14 (1/4)

A

15 (1/5)

D

21 (2/6)

E

22 (2/7)

B

23 (2/8)

A

24 (2/9)

C

25 (2/10)

A

31 (3/11)

B

32 (3/12)

D

33 (3/13)

C

34 (4/14)

E

35 (3/15)

C

41 (4/16)

D

42 (4/17)

A

43 (4/18)

E

44 (4/19)

B

45 (4/20)

E

51 (5/21)

A

52 (5/22)

C

53 (5/23)

B

54 (5/24)

D

55 (5/25)

Fig. 18.4. Cuadrado latino 5x5 aleatorizado: a) la letra indica el tratamiento; (b) los subíndices ij un ordenamiento matricial (para filas y columnas o bien 1º y 2º variable controlada, respectivamente); (c) la fracción indica nº de repetición del tratamiento y nº de unidad experimental (numerador y denominador, respectivamente).

Llevado al terreno, el dispositivo generalmente adopta una forma compacta cuadrada, pero también podría presentarse de otra, como ser la del siguiente DCL:

PI PII PIII PIV PV

CI CII CIII _IVC CV CI CII CIII _IVC CV CI CII CIII _IVC CV CI CII CIII _IVC CV CI CII CIII _IVC CV

B C E D A D E B A C A B D C E C D A E B E A C B D

En este caso el criterio para el doble bloqueo ha sido porque se experimenta bajo las siguientes condiciones: 5 propiedades del Dpto. de Luján de Cuyo (PI, PII, PIII, PIV, PV) y 5 cuadros en cada una de ellas que se diferencias por la procedencia de las estacas de vid de la variedad Malbec (CI, CII, CIII, CIV, CV). El factor en estudio es el tipo de fertilización (A, B, C, D, E). Ejemplos análogos podrían tenerse al analizar la calidad de k diferentes métodos (tratamientos) para recuento de microorganismos controlando el laboratorio y el analista; o bien en un experimento con vacas lecheras para determinar si existen diferencias entre las cantidades de leche producidas por el ordeñe de los cuatro pezones de los cuartos (cuarterones) de sus ubres (tratamientos), controlando una posible variación de la respuesta (litros diarios) debido a los tiempos de ordeñe y el momento de ordeñe o posición en el tiempo.

(12)

(13)

18.2.2. Análisis comparativo de los diseños básicos

Ventajas y desventajas del DCA.

VENTAJAS

DESVENTAJAS

a) Es fácil de planear y flexible en cuanto al número de tratamientos y repeticiones. Su única limitación es el número de unidades experimentales disponibles para el experimento.

b) El número de repeticiones puede variar de tratamiento a tratamiento.

c) En el análisis de varianza permite el máximo de grados de libertad para el error experimental.

a) Es apropiado para pequeño número de tratamientos y para un material experimental homogéneo.

b) Dado que la aleatorización es irrestricta, el error experimental incluye toda la variabilidad entre las unidades del experimento.

Ventajas y desventajas de un DBCA

VENTAJAS

DESVENTAJAS

a) Al responder todas las unidades experimentales de cada bloque a un nivel diferente de una fuente de variabilidad, se elimina la variabilidad total existente en todas las unidades la debida a dicha fuente. Por esta causa, es más eficiente que un DCA.

b) Se pueden estimar los datos de algunas unidades experimentales si se pierden a través de la técnica de Yates.

a) No es apropiado para un número elevado de tratamientos, debido a que ello aumenta el tamaño del bloque y, como consecuencia, se incrementa la variabilidad dentro de cada bloque y, por ende, el error experimental.

b) Tampoco resulta aconsejable cuando existe gran variabilidad en el material experimental (interacciones).

c) La principal desventaja de los bloques completos al azar es que cuando la variación entre unidades experimentales dentro de un bloque es grande, resulta un término de error considerable. Eso ocurre frecuentemente cuando el número de tratamientos es grande; así puede no ser posible asegurar grupos de unidades suficientemente uniformes para los bloques. En tales situaciones, se dispone de otros diseños para controlar una mayor proposición de la variación: diseño de bloques incompletos.

Ventajas y desventajas del diseño en DCL

VENTAJAS

DESVENTAJAS

a) Mayor precisión que los diseños DCA y DBA; disminuye el error experimental como consecuencia de considerar dos fuentes de variabilidad.

b) Análisis numérico sencillo.

c) Si se pierden todas las unidades experimentales de un mismo tratamiento, el resto de los tratamientos siguen ajustados a un DCL. Si se pierden una o varias unidades experimentales del mismo tratamiento, se pueden estimar sus valores.

a) como el número de tratamientos depende del de bloques y columnas y, por consiguiente, del de unidades experimentales, esto le resta flexibilidad al diseño. Es por esta razón que no se recomienda para más de 10 tratamientos.

b) A igualdad de número de tratamientos y repeticiones, este diseño tiene menos grados de libertad para el error experimental que el de DBA y el DCA, diferencia más pronunciada a medida que disminuye el número de tratamientos.

c) Si hay interacción entre los efectos de las dos fuentes de variación (filas y columnas), entonces el valor F no se distribuye de acuerdo con el valor tabular de F y como consecuencia no resulta válida la prueba de significación.

118 8..33..

AN

A

NÁ

ÁL

LIIS

SIIS

S D

DE

E L

LO

OS

S E

EX

XP

PE

ER

RIIM

ME

EN

NT

TO

OS

S M

MO

ON

NO

OF

FA

AC

CT

TO

OR

RIIA

AL

LE

ES

S

118 8..33..11.. A

An

náálliissiiss d

dee llaa vvaarriiaan

nzzaa

118 8..33..11..11.. D

Diisseeñ

ño

o cco

om

mp

plleettaam

meen

nttee aalleeaatto

orriizzaad

do

o ((D

DC

CA

A))

C

C r r i i t t e e r r i i o o

Datos con un solo criterio de clasificación (según tratamiento). Se considerará el análisis de la varianza para cualquier número de tratamientos con igual número de repeticiones, pero no resulta difícil adaptar las fórmulas para el caso en que se tenga diferente número de repeticiones.

E

E c c u u a a c c i i ó ó n n f f u u n n d d a a m m e e n n t t a a l l p p a a r r a a l l a a p p a a r r t t i i c c i i ó ó n n

(14)

(15)

b) de los grados de libertad ν νν ν g = ν ν νν t + ν νν ν εε ε ε

M

M o o d d e e l l o o





=  +



+



  = 1,�, ; = 1,�,

donde:

Y ij

:

valor de la variable aleatoria respuesta para la unidad experimental que corresponde a la i-ésima

repetición del j-ésimo tratamiento µ : media general

i

τ

: efecto del j-ésimo tratamiento

ij

ε : error aleatorio de la unidad experimental que corresponde a la i-ésima repetición del j-ésimo tratamiento

Suposiciones:

1. Las respuestas provienen de nk muestras aleatorias e independientes de las rk respectivas poblaciones.

2.

Las poblaciones se distribuyen normalmente con medias µ 1

,

µ 2

,... ...

µ k.

3.

Las varianzas poblacionales son iguales σ 11

=

σ 2 2

= ... =

σ 2 k

=

σ e 2

.

P

P r r u u e e b b a a F F p p a a r r a a c c o o m m p p a a r r a a r r k k m m e e d d i i a a s s p p o o b b l l a a c c i i o o n n a a l l e e s s ..

1. Hipótesis estadísticas

k H ₀ : µ ₁ = µ ₂ =...=µ ∀ j=1,2,...,k otra alguna de difiere les poblaciona medias las de una menos lo por es, esto iguales, son medias las todas no 1: H 2.

Estadígrafo de prueba

:

F= CMT/CME, en donde F se distribuye en el muestreo, bajo el supuesto de que Ho es verdadera, como una distribución F con grados de libertad

υ

₁

=

(

k

−

1

)

y

υ

₂

=

(

rk

−

k

)

3.

Regla de decisión

:

La región de rechazo se encuentra en la F

(

α

;

υ

₁;

υ

₂

)

y satisface la expresión P

(

F

>

F _c

)

=

α

, donde F _c es un percentil que pertenece a la cola superior de la distribución de probabilidad F. La regla de decisión será: Si F _m

>

F _c, se rechaza H ₀

T

T a a b b l l a a d d e e AAD D E E V V AA d d e e u u n n D D C C AA

Una típica tabla ADEVA para un análisis de varianza para

k

tratamientos distribuidos según un DCA, se puede formalizar según se muestra a continuación:

Tabla 18.1. Tabla ADEVA para k tratamientos y r repeticiones

Fuente de

Variación

Suma de Cuadrados

_{Grados de}

libertad

Cuadrados

Medios

F

m

Fórmula procedim.

directo (definición)

abreviado (operativa)

Fórmula procedim.

Total





−

••













∑∑

= =

−

=

r i k j ij C y SCG 1 1 2 1

−

rk Tratamientos



•



− 

••









C r y SCT k j j

−

=

∑

=1 • 2 1

−

k

 = 

( − 1)

CMT / CME Error





− 

•















SCE

=

SCG

−

SCT rk

−

k

 = 

( −)

0 6 _F f ( F ) α α α α F c f(F) .



(;



;



)

(16)

(17)

Una forma abreviada es la siguiente:

Fuente de

Variación

cuadrados

Suma de

Grados de

libertad

Cuadrados medios

F

m

Total SCG

 − 1

Factor SCT k

−

1

CMT

=

SCT

ν

t CMT CME

Error SCE

 − 

CME

=

SCE

ν

_e

Ejemplo ilustrativo de un DCA

En la tabla 18.2. se da el contenido del nitrógeno (mg) de plantas de trébol rojo que fueron inoculadas al azar, con uno de cinco cultivos de

Rhizobium trifolii

(tratamientos 3 DOk1 a 3DOk13) y un compuesto de cepas de

Rhizobium meliloti +

Cepa de

R. trifolii.

lo que da seis tratamientos en total. El experimento se realizó en un invernadero empleando cinco terrinas por tratamiento.

Tabla 18.2. Contenido de nitrógeno, en mg, de plantas de trébol rojo inoculadas con combinaciones de cultivos de cepas de Rhizobium trifolii y cepas de Rhizobium meliloti + Cepa deR. trifolii.

Tratamientos

Total

Terrina 3DOk1 3DOk5 3DOk4 3DOk7 3DOk13 Compuest

o 1 19,4 17,7 17,0 20,7 14,3 17,3 2 32,6 24,8 19,4 21,0 14,4 19,4 3 27,0 27,9 9,1 20,5 11,8 19,1 4 32,1 25,2 11,9 18,8 11,6 16,9 5 33,0 24,3 15,8 18,6 14,2 20,8 j y_• 144,1 119,9 73,2 99,6 66,3 93,5 y_•_•

=

596,6

∑

2 ij y _4.287,53 _2.932,27 _1.139,42 _1.989,14 _887,29 _1.758,71

∑ ∑

y_ij2 =_12,994,36 j y_• 28,8 24,0 14,6 19,9 13,3 18,7

(

)

2

∑

yij

−

y• j 134,57 57,07 67,77 5,11 8,15 10,26 282,93

Para el cálculo de las sumas de cuadrados, grados de libertad y cuadrados medios se procede según se vió en el capítulo donde se presentó el Análisis de la Varianza, como una prueba para comparar k grupos. Así se llega a:

Tabla 18.3. Análisis de la varianza de los datos de la tabla 18.2.

Fuentes de variación

_Cuadrados

Suma de

Grados de

_libertad

Cuadrados

_medios

F

m

F

0,01; 5, 24

Total 1.129,98 29

Entre los cultivos 847,05 5 169,41 14,37

**

3,90

Dentro de los cultivos 282,93 24 11,79

El valor muestral del estadígrafo de prueba (

F

m

)

se obtiene dividiendo el cuadrado medio de los

tratamientos por el cuadrado medio del error, esto es, CMT/CME. Estos cuadrados medios son comparables, cada uno estima en forma independiente la variación entre observaciones individuales. El F muestral, se compara con el F crítico (percentil de la tabla de distribución F) para grados de libertad

υ

_t

y

υ

_e, y en base a la comparación entre los dos valores del estadígrafo (

F

m

y F

c

)

se decide si se rechaza

o no la hipótesis nula, que plantea la no diferencia entre las medias poblacionales. Si el experimento no aporta suficiente evidencia para sostener la Ho, se pasa a sostener la hipótesis alternativa de que al

menos una diferencia de entre dos medias poblacionales resulta estadísticamente significativa (o por lo menos hay una media poblacional de tratamiento que difiere de otra).

.

En el ejemplo Fm= 169,4/11,79 = 14,37 y el valor tabulado Fc para 5 y 24 grados de libertad es

3,90, al nivel de probabilidad del 0,01. Dado que

F

m

> F

c

,

se rechaza la Ho para el nivel de α

=

0,01,

dejándolo indicado cómo 14,37**, donde el doble asterisco indica que el “resultado es altamente significativo”. En términos del problema, los datos experimentales aportan evidencia de que hay diferencia real entre al menos entre dos medias de tratamientos de inoculación. Esto significa que por ejemplo, el contenido medio de nitrógeno, en mg, de plantas de trébol rojo inoculadas, no es idéntico para todas las combinaciones de a pares con las diferentes cepas de Rhizobium trifolii y el complejo de

(18)

(19)

cepas de Rhizobium meliloti +Cepa de R. Trifolii. Pero esta es solo una de las varias posibilidades que se podrían dar.

NOTAR

En términos estadísticos, o sea, en relación a las hipótesis estadísticas y el nivel de significancia se concluye como sigue:

Si F

m

excede el F

c

para un nivel de significancia igual a:

a)

α αα α = 0,01

, se concluye que al menos existe una

diferencia altamente significativa

entre las medias

poblacionales. Sintéticamente se dice que el estadígrafo muestral tomó un

valor altamente significativo

, y se lo deja indicado en la tabla de ADEVA, colocándole a la derecha del valor de F

m

un

doble asterisco

(ejemplo

14,37

**)

.

b) α αα α = 0,05

, se concluye análogamente con relación a una

diferencia significativa

. Sintéticamente se

dice que el estadígrafo muestral tomó un

valor significativo

, y se lo deja indicado en la tabla de

ADEVA, colocándole a la derecha del valor de F

m un asterisco

(ejemplo

14,37

*)

.

118 8..33..11..22.. D

Diisseeñ

ño

o d

dee b

bllo

oq

qu

ueess cco

om

mp

plleetto

oss aall aazzaarr ((D

DB

BC

CA

A))

C

C r r i i t t e e r r i i o o

Datos con doble criterio de clasificación (según bloque y tratamiento). El análisis estadístico de los datos es simple y, si como resultado de un contratiempo, algunos datos o todos los datos de un bloque no estuvieran disponibles (por ejemplo, por destrucción de una parcela) el bloque puede omitirse para el análisis con la sola complicación de haber perdido una “repetición”.

M

M o o d d e e l l o o

Y ij = µ µ µ + β µ β β β i+ τ ττ τ j + ε εε ε ij

;

j: 1, ...., k

i: 1, ..., r

donde

Y

ij : la respuesta en la unidad experimental del i-ésimo bloque a la que se

le aplicó el tratamiento j µ : media general

β i

:

efecto del i-ésimo bloque

τ j : efecto del j-ésimo tratamiento

ε ij : error aleatorio de la observación en la unidad experimental del i-ésimo

bloque a la que se le aplicó el tratamiento j

Los

supuestos

para el modelo que explica los datos de un experimento monofactorial con los

tratamientos distribuidos según un DBA son:

a) Distribución normal de la variable en estudio

(

2

)

σ µ , ; . ~n x Y ;

b) Varianzas y medias no relacionadas o independientes; c) Errores con distribución normal (0 y

σ

2);

d) Efectos aditivos en bloques y tratamientos, es decir no hay interacción y si la hay se acumula en el error experimental.

Una medida o valor esperado se define en términos de una media general

µ

, una contribución de tratamiento τ i, y una contribución de bloque

β

j ; Esto es, la media de la celda i, j-ésima es

µ

+ τ i+

β

j. Una

observación está sujeta a un error aleatorio, donde los errores provienen de una sola población con media cero y varianza fija pero desconocida. Así

Y ij = µ µ µ + τ µ ττ τ j + β β β β i + ε εε ε ij

Una media estimada de celda se denota por

µ

ij , donde

(20)

(21)

P

P r r u u e e b b a a s s F F p p a a r r a a c c o o m m p p a a r r a a r r k k m m e e d d i i a a s s p p o o b b l l a a c c i i o o n n a a l l e e s s d d e e t t r r a a t t a a m m i i e e n n t t o o s s ,, y y n n m m e e d d i i a a s s p p o o b b l l a a c c i i o o n n a a l l e e s s d d e e b

b l l o o q q u u e e s s ..

1. Hipótesis estadísticas:

Para los tratamientos Para los bloques H0: τ _j

=

0

∀

j

=

1,...,k H0: β i =0 ∀i =1,...,n

H1: τ j

≠

0 para algún j H1:

β

i

≠

0 paraalgúni

2. Estadígrafo de prueba:

Para los tratamientos: F

=

CMT CME , en donde F se distribuye en el muestreo, bajo el supuesto de que Ho es verdadera, como una distribución F con grados de libertad

υ

₁

=

(

k

−

1

)

y

υ

₂

=

(

rk

−

k

)

Para los bloques: F

=

CMB CME , en donde F se distribuye en el muestreo, bajo el supuesto de que Ho es verdadera, como una distribución F con grados de libertad υ _β

=

r

−

1 y

1

+

−

=

rk r k ε

υ

4.

Regla de decisión

:

La región de rechazo se encuentra en la F

(

α

;

υ

₁;

υ

₂

)

y satisface la expresión P

(

F

>

F _c

)

=

α

, donde F _c es un percentil que pertenece a la cola superior de la distribución de probabilidad F, y que se establece con los correspondientes grados de libertad para tratamientos y error, y para bloques y error. La regla de decisión será: Si F _m

>

F _c, se rechaza H , tanto para los tratamientos y los bloques.₀

T

T a a b b l l a a d d e e AAD D E E V V AA d d e e u u n n D D B B C C AA

Una típica tabla ADEVA para un análisis de varianza para

k

tratamientos distribuidos según un DBCA, se puede formalizar según se muestra a continuación:

Tabla 18.4. Tabla ADEVA para k tratamientos distribuidos según un diseño de bloque completo al azar, en n bloques.

Fuente de

variación

Suma de cuadrados

Grados de

Fórmula procedimiento

directo (definición)

Fórmula procedimiento

abreviado (operativa)

Libertad

Total

∑∑

(

−

••

)

i j ij y y 2 SCG y C i j ij

−

=

_∑∑

2 1

−

rk

Bloques

∑

(

•

−

••

)

i i y y k 2 C k y SCB i i

−

=

∑

• 2 1

−

r

Tratamiento

n

∑

_j

(

y• j

−

y••

)

2 C r y SCT j j

−

=

∑

• 2 1

−

k

Error

∑∑

(

−

•

−

•

+

••

)

i j i j

ij y y y

y 2 _SCE

₌

_SCG

₋

_SCT

₋

_SCB

_{( )( )}

_r

₋

₁ _k

₋

₁

Sea Yij la observación del i-ésimo bloque bajo el j-ésimo tratamiento, donde i

=

1 ,2,...,r bloques

y, j

=

1,2,...,k tratamientos. La notación de punto se usa siempre que sea posible. Así,

_∑

_•2

j

Y quiere

decir que se obtiene la suma total de los cuadrados de los totales de los k tratamientos. Luego

0 6 _F f ( F ) α αα α F c

(22)

(23)

2 2

1 Y ... Y k

Y _•

+

_•

+

_• indica el cuadrado del total tratamiento 1 + el cuadrado del total tratamiento 2 + … + el cuadrado del total tratamiento k

.

La media general para los nk datos se representa como



Y.. . La varianza de la distribución de las medias de muestras de tamaño n es σ 2

/n

, siendo σ 2 =σ e 2 .Los cuadrados medios estiman en forma

independiente la misma σ 2 y σ 2 e , cuando no hay efectos de bloques o tratamientos.

Una forma abreviada es la siguiente:

Fuente de

variación

Cuadrados

Suma de

Grados de

libertad

Cuadrados medios

F

m

Total SCG rk - 1

Bloques SCB r - 1 CMB = SCB /( r – 1) CMB/CME

Tratamientos SCT k - 1 CMT = SCT / (k – 1 ) CMT/CME

Error SCE rk – r – k + 1 CME= SCE / (rk – r – k + 1)

En la práctica la suma de cuadrados del error se calcula restando a la suma de cuadrados total, las sumas de cuadrados de bloques y tratamientos. Esto es posible ya que las sumas de cuadrados son aditivas. La

suma de cuadrados del error

puede obtenerse directamente por

SC E=

_∑∑

r

(

−

_•

−

_•

+

_•_•

)

i k j j i

ij Y Y Y

Y 2

Esta fórmula de definición proviene del

modelo

que define las medias de las varias poblaciones muestreadas. Hay

n

medias en el caso del diseño de bloque completo al azar, uno por celda, con sólo una observación necesariamente hecha en cada población.

Ejemplo ilustrativo de un DBCA

Tabla 18.8. Contenido (%) de aceite de semillas de lino Redwing inoculadas en diferentes estados de crecimiento (A: plántula, B: Florecimiento temprano, C: Florecimiento completo, D: Florecimiento

completo (1/100), E: Maduración) y sin inocular (F: Control) con S.

Bloques Tratamientos Totales para bloques

A B C D E F y_i_• y2_i_• I 4,4 3,3 4,4 6,8 6,3 6,4 31,6 998,56 II 5,9 1,9 4,0 6,6 4,9 7,3 30,6 936,36 III 6,0 4,9 4,5 7,0 5,9 7,7 36,0 1296,00 IV 4,1 7,1 3,1 6,4 7,1 6,7 34,5 1190,25 j

y_• 20,4 17,2 16,0 26,8 24,2 28,1 y••=132,7

∑

yi2. = 4421,71

j y2• 416,16 295,84 256,00 718,24 586,64 789,61

∑

y.2 j =3061,49 •• 2 y = 17609,29 j y_• 35,1 34,3 34,0 36,7 36,0 37,0 35,5 =

∑ ∑

y2_ij 788,23

En la tabla se observan los totales correspondientes: a los tratamientos ( y_•_j= 20,4; 17,2; etc), a los bloques ( y = 31,6; 30,6; etc) y, el gran total o total general (_i_• y••= 132,7). También se observa la suma

de los cuadrados de los k totales de tratamientos (3061,49) y de los n bloques (4421,71) así como el cuadrado del total de los nk datos ( 2_•_•

y =17609,29), y finalmente la doble suma de los cuadrados de los nk valores observados (

∑ ∑

=

2

ij

(24)

(25)

Cálculo de la sumas de cuadrados (ajustadas por el término común C):

••

Téérrm

T

miin

no

o cco

om

mú

ún

n =

= C

C =

=

rk

Y

_..2

••

SC

S

C tto

ottaall =

=

∑∑

−

r i k i ij

C

Y

2

• SC bloques =

C k Y i i

−

∑

2 .

• SC tratamientos

= C r Y i j

−

∑

2 .

• SC error = SC total – SC tratamientos – SC bloques

=

54,51 – 3,14 – 31,65 = 19,72

Cálculo de los cuadrados medios

(CM = SC/gl)

Cálculo del valor del estadígrafo de prueba (F para bloques y tratamientos)

Tabla 18.9. Análisis de la varianza de los datos de la tabla 18.8.

Fuente de

variación

g.l.

SC

CM

F

m Total rk – 1 =23 54,51 Bloques r – 1 = 3 3,14 1,05 Tratamientos k – 1 = 5 31,65 6,33 4,83** Error (r - 1)(k – 1) = 15 19,72 1,31

a) Prueba de F

para bloques

. En nuestro ejemplo, no es significativa. Su interpretación debe hacerse con cuidado. En la mayoría de los experimentos, la hipótesis nula de que no hay diferencias entre bloques no es de importancia particular, ya que los bloques son una fuente de variación reconocida, a menudo, con base en experiencia pasada, que se espera produzca un efecto considerable en la variación de los datos. En algunos experimentos, los bloques pueden medir diferencia en el orden de ejecución de su conjunto de operaciones, en pares de un equipo, en personas, etc. en tales casos, la prueba F para bloques en este caso puede tener significado especial.

Si los efectos de los bloques son significativos, ello indica que la precisión del experimento ha

aumentado debido al uso del diseño en relación con el diseño completamente aleatorizado. En efecto, la

ganancia en eficiencia puede ser de más interés que los resultados de una prueba de significancia; la

eficiencia se estudia según lo visto en el apunte anterior. También el alcance de un experimento puede

haber aumentado cuando los bloques son significativamente diferentes, ya que los tratamientos han sido

probados en condiciones experimentales más amplias. Una palabra de cautela es pertinente aquí: si las

diferencias de bloques son muy grandes, puede haber un problema de heterogeneidad de error.

Si los efectos de bloque son pequeños, ello indica o que el experimentador no tuvo éxito en reducir la

varianza del error agrupando las unidades individuales o que las unidades experimentales eran

esencialmente homogéneas desde un principio.

c)

Prueba de F para tratamientos.

Para probar la hipótesis nula de que no hay diferencia entre tratamientos es 6,33/ 1,31 = 4,83** con 5 y 15 grados de libertad es significante al 1 por ciento. Esto comprueba que hat diferencias reales entre las medias de los tratamientos. Para determinar donde se encuentran las diferencias, pueden usarse procedimientos generales como los vistos.

A

An n á á l l i i s s i i s s d d e e l l a a v v a a r r i i a a n n z z a a d d e e l l C C u u a a d d r r a a d d o o LLa a t t i i n n o o ( ( D D C C LL ) ) M

M o o d d e e l l o o l l i i n n e e a a l l p p a a r r a a e e l l c c u u a a d d r r a a d d o o l l a a t t i i n n o o ..

Sea

Y

ij la observación en la intersección de la

fila i-ésima

con la

columna j-ésima

. Esto ubica

cualquier observación, pero no dice nada respecto al tratamiento aplicado. Un tercer subíndice puede desorientar, haciendo pensar que se tiene

r

3 en vez de

r

2 observaciones. Por ejemplo, el tratamiento aparece una vez en cada una de las

r filas

, una vez en cada una de las

r columnas

, pero solamente

r

veces en total; así que

t = 1

supone un conjunto de variables

i, j,

con un número

r

. Lo mismo puede decirse para los otros valores de

t

.

= ₇₃₃_,₇₂ 24 ) 7 , 132 ( 2

₌

= 176,50 + … + 213,09 – 733,72 = 54,51 = ₇₃₃_,₇₂ ₃_,₁₄ 6 5 , 34 ... 6 , 31 2 2

=

−

+

65 ,

31

72 ,

733

4

1 ,

28 ...

4 .

20

2 2

=

−

+

(26)

(27)

Expresamos una observación mediante





=  +



+



+



+



Los grados de libertad y las fórmulas para las sumas de cuadrados para un cuadrado latino

r x r

se dan en la tabla 18.10. Aquí

Y

ij representa la observación en la intersección de la fila

i-ésima

(bloques horizontales

o 1º variable controlada) y la columna

j-ésima (bloques verticales o 2º variable controlada)

. Las sumas de filas y medias se representan como Yi. y



Yi. ,para

i = 1, ..., k

. y las sumas de columnas y medias con Y . j

y



Y j . ,

j = 1, ..., k

. Si bien esta notación es adecuada para localizar una observación, no dice nada

respecto al tratamiento recibido, se usa

Y

ijl donde l representa el tratamiento.

Ejemplo ilustrativo

En El análisis estadístico de un cuadrado latino 4 x 4 se ilustra mediante los datos de rendimiento en una prueba de evaluación de una variedad de trigo efectuada por Ali A. El Khishen, Escuela de Agricultura. Universidad de Alejandría, Alejandría, Egipto. Los datos, el análisis y el plan de campo se presentan en la tabla 18.11. Las variedades están representadas por letras A = Baldi, B = Moktar, C= Giza 139, y D = Thatcher. Los rendimientos están en kilogramos por parcela de tamaño 42 m 2. El procedimiento de cálculo es como sigue.

Tabla 18.10. Análisis de la varianza para un experimento monofactorial con tratamiento distribuidos según un cuadrado latinok x k.

Fuente de

variación

g.l.

Fórmulas de definición

Sumas de cuadrados

Fórmulas de

cálculo

Total k 2 - 1







−

_•••



















− 

Filas k - 1

(





_••

− 

_•••

)





∑



••



 − 

Columnas k - 1



•



•

−

•••









∑

•





•

 − 

Tratamientos k - 1

(

••



− 

•••

)







∑

••



 − 

Error (k – 1)(k – 2)





− 



••

− 

•



•

−

••



+ 2

•••

















Por sustitución

Paso 1

. Calcular:

a) los totales de filas Yi ..

b) los totales de columna Y. j.

c) los totales de tratamientos Y..k

d) el total general Y.. . Esta es la suma cuadrados total no ajustada

e) simultáneamente hallar las sumas de los totales al cuadrado de filas, de columnas y de tratamientos

Tabla 18.11. Plan de campo con los rendimientos de trigo, en kilogramos por parcela, dispuestos en cuadrado latino 4 x 4.

Columna Totales de fila

Fila 1 2 3 4 Yi. ∑Y ij 1 C= 10,5 D= 7,7 B= 12,0 A= 13,2 43,4 487,78 2 B= 11,1 A= 12.0 C= 10,3 D= 7,5 40,9 429,55 3 D= 5,8 C= 12,2 A= 11,2 B= 13,7 42,9 495,61 4 A= 11,6 B= 12,3 D= 5,9 C= 10,2 40,0 424,70 Totales de



•



• 39,0 44,2 39,4 44,6 162,7





= 1837,64

Columna

∑

_•





_• 401,66 503,42 410,34 522,22

Tabla 18.12. Totales y medias de variedades.

A B C D

Totales =



••



48,0 49,1 43,2 26,9

(28)

(29)

Tabla 18.13. Análisis de la varianza

Fuente de variación

g.l.

SC

CM

F

Total (k – 1)= 15 90,40 Filas (k – 1)= 3 1,95 0,65 1,44 Columnas (k – 1)= 3 6,80 2,27 5,04 Tratamientos (k – 1)= 3 78,93 26,31 58,47** Error (k – 1)(k – 2)= 6 2,72 0,45

 = ∑

••



 − = 48,0



+⋯+26,9

4



−1747,24 = 78,93

SC error = SC(total) – (filas) – SC(columnas) – SC(tratamientos) = 90,40 – (1,95 + 6,80 + 78,93) = 2,72

Las sumas de cuadrados se llevan a una tabla de análisis de la varianza y luego se encuentra los cuadrados medios. El valor F para las variedades (tratamientos) es igual a 26,31/0,45 = 58,47**, con 3 y 6 grados de libertad; es mucho mayor que el valor tabulado, el 1 por ciento, 9,78. Entonces se dice que hay diferencia altamente significante entre los rendimientos de las variedades.

Paso 2

: Hallar el término de corrección y las sumas de cuadrados (ajustadas)

Factor de ajuste, C = 1,747.24 4 2 , 167 ... 2 2 2 2

=

k Y SC Total =

∑

y2

−

C

=

1,837.64

−

1,747.24

=

90,40 ijl ijl SC Filas= 1747 24 4 0 40 4 43 2 2 2 . , , ... ,

−

+

=

−

∑

•• C k y i i = 1,95 SC Columnas = 1747 24 4 6 44 0 39 2 2 2 . , , ... ,

−

+

=

−

∑

• • C k y j j

El error estándar muestral para una media de tratamientos es s Y =

√

s2 /r = 0,34 kg., donde s2 es

el cuadrado medio del error y r es el número de unidades experimentales por tratamiento. El error estándar de una diferencia entre dos medias de tratamientos es s Yr –  Yr. =

√

2s2 /r = 0,47 kg. Si se

sospecha heterogeneidad de error, éste no puede dividirse tan fácilmente como en el caso del diseño de bloques completos al azar.

A

An n á á l l i i s s i i s s d d e e s s p p u u é é s s d d e e l l AAD D E E V V AA

Pruebas de hipótesis: El paso siguiente, dado que se trata de tratamientos de naturaleza cualitativa, es recurrir a una prueba de comparaciones múltiples para determinar cuál o cuáles medias difieren entre sí. Ya que F resultó significativo y a los efectos de brindar ejemplos, se aplicarán, a los efectos demostrativos, las pruebas de Duncan y de Tukey para un α

=

0,05.

18.1.1.1.1.

Prru

P

ueeb

baa d

dee D

Du

un

nccaan

n

 Primero, ordenar las medias de menor a mayor, o a la inversa. Puede ser útil espaciarlas de acuerdo a una escala, para reflejar mejor las medias que se aproximan y las que se alejan.

3Dok13 5 ∗ y (A) 3Dok4 3 ∗ y (B) Compuesto 6 ∗ y ( C) 3Dok7 4 ∗ y (D) 3Dok5 2 ∗ y (E) 3Dok1 1 ∗ y (F) 13,1 14,6 18,7 19,9 24,0 28,8

Se calculan todas las posibles comparaciones

 Se observa el número de medias que entran en la comparación y se obtienen los valores de DMS en la tabla de Duncan para el

α

fijado y

υ

_ε, en este caso serán 24 grados de libertad de la tabla de ADEVA.

Diferencias Mínimas Significativas

para p: nº de medias que entran en la comparación

2

3

4

5

6 α=

0,05 2,92 3,07 3,16 3,23 3,28

(30)

(31)

 Se establece la significancia (la diferencia observada es mayor al valor DMS) o no entre medias diferentes ivamente significat son 3,28 R 15,7 13,1 28,8 y y_•₁

−

_•₅

=

−

=

>>

₆

=

diferentes ivamente significat son 3,23 R 14,2 14,6 28,8 y y_•₁

−

_•₃

=

−

=

>>

₅

=

−

_•₆

=

−

=

>>

₄

=

−

_•₄

=

−

=

>>

₃

=

diferentes ivamente significat son 92 , 2 R 4,8 0 , 24 28,8 y y_•₁

−

_•₂

=

−

=

>>

₂

=

diferentes ivamente significat son 3,23 R 10,9 13,1 24,0 y y_•₂

−

_•₅

=

−

=

>>

₅

=

diferentes ivamente significat son 3,16 R 4 , 9 6 , 14 0 , 24 y y_•₂

−

_•₃

=

−

=

>>

₄

=

diferentes ivamente significat son 3,07 R 3 , 5 7 , 18 0 , 24 y y_•₂

−

_•₆

=

−

=

>

₃

=

diferentes ivamente significat son 92 , 2 R 9 , 4 1 , 19 0 , 24 y y_•₂

−

_•₄

=

−

=

>

₂

=

diferentes ivamente significat son 3,16 R 0 , 6 1 , 13 1 , 19 y y_•₄

−

_•₅

=

−

=

>>

₄

=

diferentes ivamente significat son 3,07 R 5 , 4 6 , 14 1 , 19 y y_•₄

−

_•₃

=

−

=

>

₃

=

diferentes ivamente significat son no 92 , 2 R 4 , 0 7 , 18 1 , 19 y y_•₄

−

_•₆

=

−

=

<<

₂

=

 diferentes ivamente significat son 3,07 R 6 , 5 1 , 13 7 , 18 y y_•₆

−

_•₅

=

−

=

>

₃

=

diferentes ivamente significat son 92 , 2 R 1 , 4 6 , 14 7 , 18 y y_•₆

−

_•₃

=

−

=

>

₂

=

diferentes ivamente significat son no 92 , 2 R 5 , 1 1 , 13 6 , 14 y y_•₅

−

_•₃

=

−

=

<

₂

=



 Presentar los resultados: Se unen con un trazo las medias que no resultaron significativamente diferentes.

13,3(A) 14,6(B) 18,7(C) 19,9(D) 24,0(E) 28,8(F)

α=0,0

5 Por ejemplo:

a) 18,7 y 19,9 están subrayados por la misma línea, porque hay evidencia muestral de que las correspondientes dos medias poblacionales son iguales;

b) 14,6 y 19,9 no están unidas por una línea, así que las dos poblaciones deben declararse diferentes; c) 28,8 aparece solo, así que su media poblacional difiere de todas las otras.

18.1.1.1.2.

Prru

P

ueeb

baa d

dee T

Tu

ukkeeyy::

La prueba de comparaciones múltiples de Tukey hace uso de la diferencia honestamente significativa DHS y es aplicable a todos los posibles pares de medias. A diferencia de Duncan, se necesita de un solo valor crítico para juzgar la significancia de todas las diferencias. Todos los pares de medias constituyen una familia y la tasa de error es familiar, como lo es el coeficiente de confianza relacionado con las estimaciones de la diferencia de dos medias poblacionales a través de intervalos.

Para los datos de

Rhizobium

(k = 6;

ν

e = 24; qo.o5 = 4,37 y se

=

CME r

=

11,79 5

=

1,54), el

valor crítico para comparar las diferencias de medias es 4,37(1,54) = 6,7mg.

Tabla 18.5. Diferencias entre medias de nitrógeno en un experimento conRhizobium.

(6) (5) (4) (3) (2) (1) 15,5* 10,7* 6,6* 5,4 1,3 (2) 14,2* 9,4* 5,3 4,1 (3) 10,1* 5,3* 1,2 (4) 8,9* 4,1 (5) 4,8

18.1.1.1.3.

Essttiim

E

maacciió

ón

n iin

ntteerrvvaallaarr d

dee llaass d

diiffeerreen

ncciiaass d

dee m

meed

diiaass..

El procedimiento apropiado se determina mediante las preguntas que inicialmente se plantea en experimentador. Varios procedimientos están disponibles:

a) Pruebas de comparaciones múltiples (tratamientos cualitativos) b) Análisis de la tendencia (tratamientos cuantitativos)

(32)