Algunos diseños experimentales y el análisis de varianza mulivariado

(1)

ESPECIALIDAD EN

MÉTODOS

ESTADÍSTICOS

FACULTAD

DE

ESTADÍSTICA E

INFORMÁTICA

UNIVERSIDAD

VERACRUZANA

ALGUNOS

DISEÑOS

EXPERIMENTALES Y

EL

ANÁLISIS

DE

VARIANZA

MULTIVARIADO

Trabajo recepcional que como requisito

parcial para obtener el diploma de esta

Especialidad presenta:

JOSÉ MIGUEL HERNÁNDEZ MORALES.

Tutor Académico

M. en C. Ibrahima Gobhi Sow

(2)

DATOS DEL AUTOR: José Miguel Hernández Morales, nació en Xalapa, Veracruz en 1952,

realizó todos sus estudios en su ciudad natal. En 1972 ingreso a la Facultad de Estadística de la

Universidad Veracruzana. Obtuvo el titulo de Licenciado en Estadística en 1979, con la tesis titulada

“Distribución óptima en asignación sistemática de testigos, empleando funciones de tendencia”.

Trabajo en México D.F., en el Instituto Nacional de Investigaciones Agrícolas de enero de 1977 a

abril de 1978. En 1978 se incorporo a la docencia en las Carreras de Biología, Estadística y

Economía de la U.V. En 1980 formó parte del grupo de académicos que fundan el Sistema de

Enseñanza Abierta de la U.V. en donde actualmente labora.

AGRADECIMIENTOS:

Agradezco los apoyos prestados por las autoridades universitarias y sindicales, así como las

facilidades por parte del SEA para realizar estos estudios. Deseo hacer patente mi agradecimiento a

todos los maestros de la Especialidad, y en particular al M. en C. Ibrahima Gobhi Sow por la

dirección de esta monografía y al Dr. Mario Miguel Ojeda R. por la revisión, sugerencias y

recomendaciones. A las futuras licenciadas en Estadística Erika Cervantes C. y Erika Rodríguez V.

por su esmerado apoyo en la edición del trabajo.

El Comité Académico de la Especialidad en Métodos Estadísticos, y el respectivo Tutor Académico

del trabajo recepciones “ALGUNOS DISEÑOS EXPERIMENTALES Y ANÁLISIS DE

VARIANZA MULTIVARIADO”, una vez cubiertos todos los requisitos académicos y

administrativos establecidos, autorizan la impresión y la constitución del jurado para la defensa del

mismo.

(3)

9

1

2

3 INTRODUCCION

5 CONCEPTOS GENERALES DE LOS DISEÑOS EXPERIMEN

TALES

9 2.1 Antecedentes...

9

2.2 Terminología ...

10

2.3 Principios

básicos

de

los

diseños experimentales

...

12

2.4 Directrices

para el

diseño

de

experimentos... 14

DISEÑO COMPLETAMENTE AL AZAR

17 3.1 Caso

Univariado

...

17

3.1.1 Introducción

...

17

3.1.2 Modelo

lineal...

20

3.1.3 Notación

matricial

.

...

21

3.1.4 Análisis

de

varianza

...

23

3.1.5 Ejemplo...

. .

...

25

3.2 Caso

Multivariado

...

31

3.2.1 Introducción

...

31

3.2.2 Modelo lineal

... 32

(4)

V

- .'

•

3.2.4 Análisis

de

varianza

multivariado...

36

3.2.5 Ejemplo:...

39

4 DISEÑO DE BLOQUES COMPLETOS AL AZAR

44

4.1 Caso

Univariado...

44

4.1.1 Introducción...

44

4.1.2 Modelo

Lineal

...

46

4.1.3 Notación

matricial

...

47

4.1.4 Análisis de

varianza

...

49

4.1.5 Ejemplo

...

51

4.2 Caso

Multivariado

...

55

4.2.1 Introducción.

. . .

...

55

4.2.2 Modelo

lineal... ...

-... ...

.

56

4.2.3 Notación

matricial

...

57

4.2.4 Análisis de

varianza...

(

.

59

4.2.5 Ejercicio

... 61

5 DISEÑO

EN CUADRADO LATINO

68

5.1 Caso

univariado

... 68

5.1.1 Introducción...

68

(5)

5.1.3 Notación

matricial

... ...

5.1-4

Análisis de varianza

... ...

5.1.5 Ejemplo...

5.2 Caso Múltivariado

... ...

5.2.1 Introducción... ...

5.2.2 El

modelo

lineal

...

5.2.3 Notación matricial

...

5.2.4 Análisis

de

varianza...

5.2.5 Ejemplo

... ... ...

73

74

76

80

81

82

84 6 DISEÑO COMPLETAMENTE AL AZAR DE DOS FACTORES

CON n OBSERVACIONES POR CELDA

6.1 Caso

Univariado...

6.1.1 Introducción ...

6.1.2 Modelo

lineal... ...

6.1.3 Notación

matricial

.

...

6.1.4 Análisis

de

varianza

...

6.1.5 Ejemplo...

6.2 Caso Múltivariado ...

6.2.1 Introducción... ... ...

6.2.2 Modelo lineal... ...

91

94

95

96

99

104

(6)

6.2.3 Notación matricial

...

107

6.2.4 Análisis

de varianza

...

108

6.2.5 Ejemplo... 111

7 BIBLIOGRAFIA

119 8 APENDICES

121 8.1 Tablas.

...

121

(7)

1 INTRODUCCION

La

importancia

de

la estadística multivariada

está

fuera

de

discusión.

Algunas

razones

son:

• Los

investigadores

estudian los

fenómenos

multidimensionalmente.

• Se

cuenta

con

los

desarrollos

teóricos

y

metodológicos

desde

hace

varias

décadas.

• Se

dispone

de

software para

poder

aplicar

las técnicas

y

métodos

multi-variados.

En

el área

de diseños

experimentales

es bastante

frecuente

que

se

colecten

ob

servaciones

en

varias variables.

Por tal

motivo

es

muy

importante

aplicar

técnicas

multi variadas

al

análisis

de estos datos.

Los

análisis

marginales

pueden

dar

resulta

dos no

realistas,

en

razón

que

las variables

observan una

estructura

de

correlación.

Sin embargo

tal aspecto

no

se

considera

en

los

cursos

de

diseños

experimentales

y

los

cursos

de multivariado

sólo

dan una

introducción

al

análisis

de

varianza multivariado.

Aunado

a

esto

se

debe

decidir

que no

hay

libro

alguno

dedicado

a

presentar en

una

forma

didáctica y

sencilla el

análisis

de varianza multivariado aplicado

a los

diseños

(8)

Así, en

virtud

de

que

no

existe

un material

didáctico que se

ajuste

a los

objetivos

que

persiguen los

cursos

que traten

el

tema

de

diseños

experimentales

en

su

modal

idad

multivariada,

impartidos

en

la

licenciatura en Estadística

de

la

Universidad

Veracruzana, se consideró

de

gran interés la realización

de

un

trabajo con las carac

terísticas

de

una

monografía

cuyo fin

fuese

el de llenar

este

vacío

en

la

bibliografía.

Tal

es

el

objetivo

del

presente.

La

temática

que

se

expone

tiene

el propósito de, en

forma

didáctica

y sencilla, dar

una

panorámica

metodológica del

análisis

de varianza

multivariado, pensando en

un

curso

que

trate

los

diseños experimentales más

usuales,

generalizando

de

lo

univariado

a lo

multivariado.

No

se

pretende,

por

supuesto,

hacer

ninguna

aportación

novedosa

a

la extensa

lit

eratura

teórica

y

metodológica

ya existente;

la

idea primordial es presentar,

de manera

detallada

e

ilustrada, la

metodología

usando un

enfoque

basado en

la

generalización

del

análisis

univariado al

caso

multivariado, misma que consideramos ayudará

a

una

mejor

comprensión

del

tema,

así

como

a una mayor asimilación

y

fácil

aprendizaje

de los procedimientos.

Para

esto

se

presentan

ejemplos en los

que se ilustra

detal

ladamente

el aspecto

operativo,

tanto de

forma

manual como mediante

el

paquete

estadístico

SAS.

El

presente trabajo

está

integrado por

cinco

capítulos.

En el primero se presentan

(9)

terminología,

principios

básicos,

las

directrices

generales

del diseño

experimental

y

el

análisis

estadístico

de

los

datos

resultantes.

En

el

capítulo

segundo,

se

presenta

el

diseño completamente

al

azar

bajo

el orden

introducción,

modelo

lineal,

notación

matricial, análisis

de

varianza y

un

ejemplo. En el

ejemplo

se ilustra

la

metodología

del

análisis

de varianza

tanto

de

forma

manual

como

mediante

el paquete

SAS.

Posteriormente

aparecen en

forma

secuencial,

en capítulos

diferentes

y

bajo

la

misma

estructura,

el

diseño

de

bloques

al

azar

y el

diseño

en

cuadrado latino. En

el último

capítulo

se

trata

el

arreglo

factorial

con dos

criterios

de clasificación

con

k

observaciones

por

celda, y se

asume

anidado

en

el

diseño

completamente

al

azar.

Cabe hacer

notar

que

este

arreglo puede ser anidado en cualquiera de

los

diseños

experimentales,

pero

este aspecto

ya

no

se

trata

aquí.

Se

anexa un

apéndice

integrado

por:

• Las

tablas

de

distribución

de probabilidad

F,

xl

y

Ua

.

• El programa

y

salida

de

.los

ejemplos

correspondientes

a

cada

uno

de

los

diseños

univariados

y

multivariados.

Cabe

hacer notar

que

en

el

caso

univariado

el programa también

calcula

y

muestra

los

residuos y

valores

predichos,

con

el objeto

de

explorar

gráficamente

los

supuestos

(10)

estadístico

de

Shapiro-Wilk

para

probar

normalidad.

Aunque

este

material

fue

elaborado

pensando

en

estudiantes

de

un

curso

específico,

esperamos

que

sirva

como

material

de

consulta

para investigadores,

técnicos

y

profe

(11)

2 CONCEPTOS GENERALES DE LOS DISEÑOS EXPERIMENTALES

2.1 Antecedentes

El

análisis

de varianza tuvo

su

origen

en el

área

de

la

agricultura, siendo

el

científico

inglés

Sir

Ronald

A. Fisher, aproximadamente

en

1920,

quien

lo

implemento

como

herramienta

para

el

análisis estadístico

de datos

obtenidos

de

los

diseños

experimen

tales. A

partir

del

análisis

de

datos

específicos,

Fisher

inventó

esta

técnica

y

estableció

los

principios

del

diseño

experimental.

La

experimentación ha tenido

un

gran

desar

rollo

en este siglo

y prácticamente

se

utiliza en

todas las áreas

de conocimiento, desde

las ciencias biológicas

hasta las

ciencias

sociales y de la

conducta,

pasando

por

la

ingeniería

industrial

y química.

Aunque

hay

que

señalar

que,

como las

primeras apli

caciones de

los

métodos

del diseño

experimental

se

dieron

en

el

área

de

la agricultura

y

ciencias

biológicas,

gran

parte de

la

terminología

está

asociada

a

éstas.

En la ac

tualidad la experimentación

se incluye

en

muchos programas

de formación

a

nivel de

licenciatura, por ejemplo

en

agronomía, en ingeniería química

e

industrial,

psicología,

biotecnología

y

bionálisis. Mucho

más

imnportante

se

considera

a esta

materia en los

(12)

2.2 Terminología

El

análisis

de

cualquier

conjunto

de

datos está sujeto

por

la

manera

en

la

cual

los

datos

fueron

colectados

y

por

los

objetivos

que

se

persiguen en el estudio.

Cuando

el objetivo

principal

del

estudio

se

traduce

en comparar medias de

tratamiento

o

ver

como

un

conjunto

de

variables

independientes

afectan

a una

o

más

variables

dependientes

la

técnica

adecuada

para

seleccionar

la muestra

puede

ser

el

diseño de

experimentos,

siempre

que

el

investigador

esté

en

posibilidades de

manipular

la

asignación de

los

tratamientos a

las

unidades

experimentales.

El diseño

de

experimentos

es

la

secuencia

completa

de

pasos tomados de

antemano

para asegurar

que

se

obtendrán,

los

datos

apropiados, de

modo

que

sea

posible

un

análisis

que conduzca a deducciones válidas

con

respecto al

problema

establecido.

Diseñar un

experimento

no

es

más que plantearlo

de

modo

que

se

reúna

la

infor

mación que

sea

pertinente al problema

bajo

estudio.

Los

propósitos

fundamentales

de

un

diseño experimental son:

a)

Que

proporcione

la

máxima

información pertinente al problema.

b)

Que

sea

y

eficiente

posible.

Esto quiere decir que se

debe

hacer

el esfuerzo para

ahorrar

tiempo,

dinero,

per

sonal

y

material

experimental.

Entonces el propósito de

cualquier

diseño experimental

(13)

es

un

método

general que

implica

tanto

a

la metodología estadística

como

al

análisis

económico,

donde

el

fin

último

es

lograr eficiencia

estadística

y

economizar

recursos.

Dado

su

importancia

dentro

de

esta

temática

es

necesario

tener

claro

el

significado

de

algunos

términos

clave, que

trataremos

en seguida.

Una

unidad experimental

es la

unidad

básica

mínima sobre

la

que se

va

a

medir,

a la

cual

se

le

aplica

un

sólo tratamiento

(que puede

ser

una

combinación de niveles

de

varios factores)

en

una

reproducción

del experimento

básico.

El error

experimental describe

el

fracaso

de

llegar

a

resultados

idénticos

con dos

unidades experimentales

tratadas

en

condiciones

idénticas. Es

en

sí

una

cantidad

que

representa

la variabilidad

no

explicada.

El

error

experimental

puede

reducirse

normalmente adoptando

una

o

más

técnicas

como

las

siguientes:

1. -Usando material experimental

más

homogéneo cuando esto

sea

posible.

2. -Usando covariables y/o bloques.

3. -Tener

más

cuidado

al

conducir

el

experimento y en

los

instrumentos

de

medición.

El

concepto tratamiento o combinación

de

tratamientos

implica

el

conjunto

par

ticular

de

condiciones experimentales

que

se asignan

a

una unidad

experimental bajo

(14)

Los experimentos

según

Montgomery

(1991) se

clasifican

en unifactoriales y multi

factoriales.

En

los

experimentos

multifactoriales

un tratamiento es el nivel

o

cantidad

de un

sólo

factor. Los

multifactoriales

incluyen

más de

un

factor,

y

un

tratamiento

se

define

como

la combinación

de

niveles

de

los

factores en

estudio.

Estos

experimentos

permiten

él estudio

del

efecto

de

cada

factor

por separado

y

del

efecto

conjunto

de

dos

o más factores llamado ”interacción”

.

La

interacción es

la

respuesta

diferencial

a un

factor en

una

combinación con

niveles

variables

de

un

segundo factor

aplicado

simultáneamente.

Es decir,

la

interacción

es

un efecto

adicional

debido

a

la

influencia

combinada

de

dos

o

más

factores.

2.3 Principios básicos de los diseños experimentales

El

propósito

final

del

diseño

estadístico

de

experimentos

es

obtener

datos apropiados,

que

puedan

ser

análizados

mediante métodos

estadísticos,

con

objeto de

producir

con

clusiones validas

y

objetivas.

La

metodología

estadística

es

el

único

enfoque

objetivo

para

analizar

un

problema que

involucre

datos

sujetos a errores

experimentales.

Existen dos

aspectos

en

cualquier

problema

experimental:

el diseño

del

experi

mento

y

el

análisis estadístico

de

los

datos.

Ambos

temas están

estrechamente

rela

cionados,

ya que el método de

análisis

depende

del

diseño

empleado.

(15)

• a)

La

replicación

es

la repetición del

experimento

básico; las

razones

del

por

qué la

replicación

es

deseable

son:

1 Proporciona

una

estimación

del

error

experimental que actúa como

una "unidad

básica de

medida”

para

indicar la

significancia

de

las

diferencias

observadas, o

para

determinar

la

amplitud

de

un

intervalo

de

confianza.

2 La replicación

produce,

hasta

cierto

nivel

de

incremento, una

esti

mación

más

aproximada del

error experimental.

3 Capacita para obtener

una estimación

más

precisa

del

efecto

medio

de

cualquier

factor,

porque

<r^ —

donde cr

2 es el

error

experimental

verdadero

y

n

es

el

número de repeticiones.

• b)La

aleatorización es

la

piedra

angular

que fundamenta el

uso

de

los

métodos estadísticos en el

diseño

de experimentos. Se entiende

por

aleator

ización

al

echo

de

que

tanto

la

asignación del material

experimental

como

el

orden

en

que

se

realizan

las

pruebas

o

ensayos

se

determinan aleato

riamente.

Los

métodos estadísticos

requieren

que

las

observaciones

(o los

errores)

sean

variables

aleatorias

independientes.

La aleatorización

permite

(16)

• c)El

control

local o análisis

por

bloques,

se

refiere

a la cantidad

de

bal

anceo,

bloqueo

y

agrupamiento

de

las

unidades

que

se

emplean

en

el

diseño

estadístico adoptado; el propósito

de

usar

el

principio de control local

es

hacer

el

diseño

experimental

más

eficiente, incrementando su

precisión

para

reducir

la

magnitud del

error

experimental.

2.4 Directrices para el diseño de experimentos

Para

usar un

enfoque

estadístico

al

diseñar y

analizar

un experimento

se

requiere

que

todos los

participantes

en

él

tengan

de

antemano

una idea clara

de

qué

es exactamente

lo que

se va a

estudiar,

cómo

se van

a

recopilar

los

datos

y,

al

menos,

una idea

general

de

como

se

van

a

analizar. Se

recomienda seguir

los

siguientes pasos.

• 1.-Comprensión

y

planteamiento

del

problema. Este

punto

pudiera parecer

obvio;

sin

embargo, en

la

práctica

no

es

sencillo darse cuenta de

que existe

un

problema

que

requiere experimentación,

ni

diseñar

un

planteamiento

claro

y

aceptable

del

mismo.

Es

necesario

desarrollar

todas

las

ideas so

bre

los

objetivos

del experimento. Un

planteamiento

claro

del

problema

contribuye

a menudo

en

forma

sustancial a un

mejor conocimiento

del

fenómeno

y de

la

solución

final

del

problema.

(17)

los

niveles

específicos

a los cuales se

hará

el experimento. También

debe

considerarse

la

forma

en

que

se

controlarán

estos factores,

para mantener

los en

los

valores deseados,

y

como

se

les

medirá.

Es importante investigar

todos

los

factores

que puedan

ser

de interés,

y

no

depender

demasiado

de

la

experiencia

pasada,

en particular durante

la

primeras

etapas

de

la

experimentación o

cuando

el proceso

no

está

muy

avanzado. Cuando el

objetivo

es

el

escrutinio de

factores

o

la

caracterización

del proceso,

suele

ser

mejor

mantener

en

un

número

bajo los niveles de

los

factores

(lo

más

común

es

a

dos

niveles).

• 3.- Selección

de

la

variable

de

respuesta. Al

seleccionar

las

respuestas

o

variables

dependientes,

el

experimentador

debe estar seguro

de

que

aquello

que

se va

a

medir

realmente

provea información útil

acerca

del

proceso

de

estudio.

• 4.-Elección del diseño

experimental.

Si

los

tres

pasos

anteriores

se

han

seguido

de la

manera

correcta

este

cuarto

es

relativamente

fácil.

Para

ele

gir

el

diseño

es

necesario

considerar

el

tamaño

muestral

(número

de

repeti

ciones),

seleccionar un

orden

adecuado

para

los ensayos

experimentales

y

determinar

si

hay

implicado

bloqueo

u

otras

restricciones

de

aleatorización.

(18)

• 5.-Realización del

experimento.

Cuando

se

realiza el experimento

es

vital

vigilar

el

proceso

cuidadosamente

para

asegurar que

todo

se

haga conforme

a

lo

planeado.

En

esta

fase,

los

errores

en

el procedimiento

suelen

anular

la

validez

experimental.

La planeación

integral

es decisiva

para el

proceso.

• 6.-Análisis de

datos.

Deben

emplearse métodos

estadísticos

para análizar

los

datos

de modo

que

los

resultados

y

conclusiones sean

objetivos

más

que

apreciativos.

Si

el

experimento

se

diseñó

correctamente

y se

ha

real

izado

conforme

a

lo

planteado,

los

métodos

estadísticos

que

se

requieren

no son

complicados. Existen

muchos

excelentes

paquetes de

software

para

en

análisis

de

datos,

y varios métodos

gráficos

sencillos

son importantes

en

la

interpretación

de

tales

datos. El análisis

de

residuos

y la

verificación

de

la idoneidad del

modelo

son

también

técnicas

de

análisis

de

gran

utilidad.

• 7.

-Conclusiones

y

recomendaciones.

Una

vez

que se han

analizado

los

datos,

el experimentador

debe

extraer conclusiones

prácticas

de los resulta

dos

y

recomendar

un

curso

de

acción. En este

punto

el

análisis económico

(19)

3 DISEÑO COMPLETAMENTE AL AZAR

3.1 Caso Univariado

3.1.1 Introducción

Consideremos

en

términos

generales,

que

se

desea

comparar

el

efecto

de

t

tratamientos

o

niveles de un

factor.

La

respuesta

en cada

uno

de

los

tratamientos

aplicado a

una

unidad experimental es una

variable

aleatoria

respuesta,

que tiene

asociada

un

modelo

estadístico.

Sobre

los

parámetros de

este

modelo

se

plantea las

hipótesisi

a contrastar.

El diseño completamente

al azar es

un

diseño

en

el

cual

los tratamientos

son

asignados

al

azar

a

las unidades experimentales,

o

viceversa.

Este

diseño

no impone

restricciones

en

la distribución

de

los

tratamientos

a

las

unidades

experimentales.

Debido

a

su

simplicidad,

el

diseño

completamente

al

azar es

usado

ampliamente.

Sin

embargo,

se tiene

que

ser

cauteloso y

su

uso

debe

limitarse

a

situaciones

en

las

cuales

se

disponen

de

unidades

experimentales

relativamente

homogéneas;

puede

decirse

que

las

unidades

experimentales

deben tener

la

misma

capacidad de

respuesta.

El

esquema general es el

Se

tiene

un

conjunto

de

N

unidades

experimentales

relativamente

homogéneas; se

elige

de

acuerdo a ciertos

criterios

(t)

tratamientos que

pueden

ser

diferentes niveles

(20)

formación de

t

grupos de

unidades

experimentales, lo cual

debe

hacerse

de

forma

aleatoria;

es decir, se eligen

al

azar las

unidades que

recibirán

el tratamiento

í-ésimo.

La

variable

respuesta

asociada

a

la

unidad j-ésima que

recibió

el

tratamiento

í-ésimo

se denota

por

(21)

TABLA

DE

OBSERVACIONES

tratamientos (o

nivele

ís

de

un

factor)

1

2 t

2/n

2/21

■

• yn

yu

2/22

• • yt2

yi

ni

l/2n2

_ytnt

y

i.

yi.

y.*

■ ■

■

yt.

y..

Cabe hacer

notar

que con

el

propósito de simplicidad

en

la

notación

no

distinguire

mos

de

yij

(la variable aleatoria

de

las observaciones

o

datos

correspondientes),

ya

que

esto

no

nos

causará

problema

alguno. El

lector

debe tenerlo en

cuenta por

que

a

veces

deduciremos

estadísticos

y

a

veces

evaluaremos éstos

a

partir

de datos. Estric

tamente hablando

esto

debería

hacerse

con

notación

distinta,

pero

eso

complicaría

la

(22)

3.1.2 Modelo lineal

El

modelo

lineal

correspondiente al diseño

completamente

al

azar

para

una

variable

escalar

observada por unidad

experimental

es:

Uij P

“

b

£

ij

i

= 1,2,

...,t

j

= l,2,...,n¿

(1)

donde:

yij

=observación

correspondiente a

la

unidad

experimental

j-ésima que

recibió

el

i-ésimo

tratamiento.

fi

=media

general.

q

¡

í

=efecto

del tratamiento í-ésimo.

£ij

=

Error

aleatorio.

En este

modelo los

efectos

de los tratamientos se

definen

como desviaciones con

t

respecto

a la

media

general,

por lo

tanto

^2

o¡¿

=

0. Con estas restricciones

se

puede

»=i

estimaraj, £*2,..., a¡t

.

En

el

caso

de

tener

un

diseño

balanceado se

sabe

que

m=n2=...=nt=n

Supuestos:

Los

supuestos

asociados

al modelo

son:

Normalidad,

Independencia

y

Homocedas-ticidad. Su

representación

compacta

es:

(23)

En

relación con

los supuestos

del

Análisis

de Varianza en

el

diseño

estadístico de

experimentos

Cochran en

1947,

referido

por

Cochran

y

Cox

(1974),

menciona

que:

”

La

lógica

del

Análisis

de

Varianza

exige el

cumplimiento

de

los tres

supuestos.

Sin em

bargo,

en

la

práctica,

dichos

supuestos

no

son igualmente críticos. Se demuestra que

aunque

la

distribución dentro

de

cada uno

de

los

subgrupos

sea

bastante

asimétrica,

el

contraste

de

significación

apenas

se afecta

”

.

Es

posible

mencionar

que el

cumplim

iento del

supuesto

de

independencia

se

apoya en gran

medida

de la

planeación

y

conducción

del experimento,

no así la

homocedasticidad

y la

normalidad.

Respecto a

los

supuestos

se recomienda

realizar

una

exploración inicial

de

los

datos

a

través

de

técnicas gráficas y

de

estadísticas descriptivas

para

tener una

idea

de

su

razonabilidad

antes

de

ajustar el modelo.

Posterior al ajuste

se

debe

realizar

un diágnostico

basado

en los

residuos.

3.1.3 Notación matricial

En notación

matricial el

modelo

lineal

correspondiente

al diseño es el siguiente:

Y

=

X/3

+ E

donde:

Y

=

Vector respuesta

(o

de

observaciones

en la

variable

respuesta

Y).

X=Matriz

de

diseño.

(24)

E=Vector de

errores

aleatorios.

La

forma

que

tomaría matricialmente

el

modelo

en

(1)

es:

• ■

yn

1 1 •••

0 _Sil

yn

1 1 •••

0 £12

2/lni

1 1 ...

0 £lr»l

2/21

1 0 ...

0 £21

2/22

1 0 •••

0 CEi

_£22

=

_{: • • •}

;

**_<*2**

+

2/2n2

1 0 •••

0 ot-t

^2n2

ya

1 o ...

1 _£tl

yt2

1 0 •••

1 _St2

i

•

1

________

1 0 •••

1 &tnt

Y(A?xl)

X(jVx<7)

^faxl)

E(wxi)

Donde

q =

t

+

1

(25)

f

Xi

1 si la

unidad

experimental

recibió

el

tratamiento

i-ésimo.

0 en

cualquier

otro caso.

3.1.4 Análisis de varianza

El modelo

(1)

permite probar

la hipótesis

acerca

de

la nulidad

del

efecto

producido

por

los

tratamientos.

Tal

hipótesis

puede

expresarse

como:

H

q

:

Mi

—

M?

—

••• —

Mí

—

0 Vs

Hi

:

m

»

7^

Mí* Para menos

un

par

(z,

i)*

Si

H

q

es verdadera todos los

tratamientos

tienen

la

media

común

M-

Una

forma

equivalentes de

expresar

la

hipótesis

en términos

de

los

efectos de

tratamien

tos,

a^,

i

=

1,2,...,

t

es:

Ho

:

q

¡

i

=

o¡2

=

••• =

ott

=

0 Vs

Hy

:

ai

/

0 para

al

menos

un

i

(26)

Por

tanto

,

es

posible

probar

la

igualdad de las medias

de

tratamientos,

o

bien

probar

que

los

efectos de

tratamientos

(a¡<)

son

cero. El

procedimiento

apropiado

para

probar

la

igualdad

en

el

nivel

medio de

t

tratamientos

es

el

análisis de

varianza.

El

diseño completamente

al

azar

permite particionar

la

variabilidad

total

en

dos

fuentes:

la

atribuida

a

tratamientos

y

la

atribuida

al

error

aleatorio.

Los

cálculos

correspondientes al

diseño

completamente al azar

se

resumen

en

la tabla siguiente:

TABLA ANVA PARA

UN

DCA

Fuente

de

Grados de

Suma

de

Cuadrado

F

o

Variación

Libertad

Cuadrados

Medio

Tratamientos

í-1

SCtroí

—

52 t

^¿

(í/¿

¿=1

.-y..)2

CM

troí =

CMtrat

cme

Error

N-t

SCB

=

52 ¿

(ytj

¿=ij=i

-

yJ

2 CM

E

= g*

í-'Mtrat

CM

e

Total

N-l

_SCtot

_{=52 52}

_(y¿j

-y..)2

Para

fines

prácticos

se

recomiendan las

fórmulas

siguientes

sctot =¿£

¿=1.7=1

SC

lr„,

=¿

¿

¿=1

SC

E

=sctoí

-sc

trot

(27)

N=ív,

F

c = ¿

»=i

n<

t m

í/<.

=E2Z

v

í/..

=EE

í

/

o

j

=

i

»=ij=i

Al

cumplirse

los supuestos

del

modelo

y si

Ho,

resulta

ser

cierta,

entonces

F

q

se

distribuye

como

una

F

con

(t

—

1)

grados

de

libertad

en el

numerador

y

(2V

—

t)

en

el

denominador, lo

cual fundamenta

la

regla

de

decisión,

a

un

nivel

de

significancia

a,

que

consiste

en

rechazar

H

q

;

si Fo >

Fp

y

no

rechazar

en

caso contrario. Aquí

Fp

es

un valor

de

tablas

de

la

distribución

F

buscada

a

un

nivel

a.

3.1.5 Ejemplo

Se

desea

evaluar

si

para

una

zona

dada

existen

diferencias

significativas

en el crec

imiento

en

altura de

cinco

clases de

plantas de

Pinus Montezumae.

Para

el

efecto,

se

plantó

material

de

cada una

de

las

clases en

seis parcelas de

igual

superficie.

Las

mediciones

se hicieron a los diez años

de

efectuada

la

plantación,

observándose

que

para

entonces se

habían

perdido

dos

parcelas

de

la

clase

1 y

una

parcela

de

la

clase

(28)

Clases

(Tratamientos)

1

2

3

4

5 total

8.4

12.3

4.3

8.2

5.1

7.6

15.2

5.9

10.1

7.2

8.2

10.6

4.7

10.4

6.7

10.8

11.7

4.9

12.6

6.5

12.5

6.1

9.8

6.3

15.6

5.2

11.7

34.40

77.9

31.1

62.8

31.8

238 El

modelo

lineal para

este

caso

particular

es:

yij

=

fí

+

ai

+

£

ij

■

<

i

=

1,2,3,4,5

j = l,2,...,ni

donde:

y¿j

=

es

la observación

de

la

parcela

J-ésima en

la

clase

z-ésima.

fj,

=

media general.

(29)

&ij

=

error

aleatorio.

Digamos,

que

según la

notación

del modelo tendríamos que:

8.4 =

Ai

+

a!

+£n

7.6 =

p,

+

Q¡i

+

£12

6.3 = /z

+

a¡5

+

£55

La hipótesis a

probar

es:

Ho

:

Qi

=

a

2 =

...

=

ce

5 = 0

Vs

H\

:

«i

/

0 para

al

menos

un

i

A

continuación

mostramos

los

cálculos que

implica el

análisis

de

varianza:

• Grados

de

libertad:

(30)

• Suma

de

cuadrados:

calculamos

=

2097.926

SC

toí = [(8.4)2

+

(7.6)

2 + ... +

(6.3)2]

-

Fc

=

270.294 SCtrat =

+

... +

Í3L212]

-

F

c

=

230.062 SCe

=

270.294 -

230.062 =

40.232

• Cuadrados

medios:

CM

troí

=

230.062/4

= 57.51

CM

e

= 40.232/22

=

1.828 Finalmente

la

tabla

ANVA

nos

queda:

TABLA ANVA

PARA

UN

DCA

F.V

_gl

SC

CM

Fo

clases

4

230.062

57.51

31.46 error

22

40.232

1.828 total

26

270.294 Regla de decisión:

Dado que

F

q

~

> buscando

en

tablas obtenemos

F? = F^

q

^

= 2.82. Así

(31)

Conclusión:

Por

lo menos

existe

una

clase

de

pino

diferente

a

las

demás, con una

significancia

del

5%.

Con el

propósito

de

probar

el

supuesto

de

homocedasticidad

de

varianzas

de

nue

stro

ejemplo,

se

usa

la

prueba de Bartlett.

La

hipótesis

que

se

prueba es de

que

t

poblaciones

normales

tienen

varianza

común

(cr

2);

es

decir, que

si las varianzas

poblacionales

se

representan por

cr

2,

<72,<r

2 ,

el

juego de

hipótesis

es:

■tlQ

• —

^2

—

•••

—

Vs

Hi

al

menos un cr2

es

diferente

de las

demás

El

estadístico de

prueba

es:

l

ln

S2

-

¿

Z»

ln

S?

t=l

donde:

t

Z

= 52

Z¿

=

son

los grados

de

libertad del

CM

e

t=l

C

=

1 +

3<¿I> (¿

í

- ¡)

Bartlett,

demostró

que

cuando

H

q

es

cierta,

Xo

tiene

una

distribución

que es

aproximadamente

xft-iy

regla de

decisión

para la

prueba

es:

”rechazar

Ho

si

(32)

s?

1.98 li

3 liSf

5.94 InS?

0.683 ZilnS?

2.049 1/li

0.333

3.95

5

19.75

1.373

6.865

0.20

0.49

5

2.45 -0.713

-3.565

0.20

2.35

5

11.75

0.854

4.27

0.20

0.65

4

2.44 -0.494

-1.976

0.25

22

42.33

7.643

1.183 S

2 =

*4

— =

^

= 1.924

Ez*

i=l

c

=1

+

5<¿i>

(1183

-

á)

=

1094

ZlnS

2 =

(22)

ln(1.924) = 14.398

x3

=

T^(14.398-7.643)

=

6.17 Regla de

decisión:

Como

6.17<9.48,

entonces

no

se

rechaza

Ho.

Esto

nos lleva

a

concluir

que:

no

existe

suficiente evidencia

para

decir

que

el

supuesto

de

homo

cedasticidad

de

varianza para

este

juego de

datos no

se

cumple.

(33)

3.2 Caso Múltivariado

3.2.1 Introducción

El

análisis de

varianza

múltivariado se

presenta,

generalizando

los conceptos y las

fórmulas

al caso

en el

que

se observan más

de

una

variable respuesta o

dependiente.

En general,

en

el

análisis

múltivariado

se

miden

p

variables

en

cada individuo o unidad

experimental, obteniéndose

un

vector

de

variables

y

no

una medición

sobre

una sola

variable

como

en

el

caso

del

análisis

univariado.

Si en

el

diseño

completamente al azar (DCA)

univariado

el modelo

estadístico

considera

un

factor

de

clasificación

o

t

tratamientos con una

sola

variable

respuesta

bajo

estudio,

entonces

la

extensión al

caso

múltivariado

consiste

en estudiar más

de una variable

respuesta,

bajo

la

misma situación

en

la

que,

como

dijimos

antes,

interesa

determinar

la

diferencia

entre

tratamientos. Aquí la

diferencia

se

tendría

que

plantear a

través

de

vectores

de

mediáis

correspondientes a varias

variables

medidas

sobre

las

mismas

unidades

experimentales.

En

sí el

diseño

experimental (proceso

de aleatorización)

es

el

mismo, lo que

cambiaría

sería el modelo,

los

supuestos

y

el

análisis

de

los

datos.

Las

observaciones

o

datos multivariados resultantes

de

un

DCA se pueden presen

(34)

TABLA

DE

OBSERVACIONES

tratamientos

1 ₂

• '• •

t

Ki

r2 •••

YP

Y

y2 ...

Yp

• ••

Yi

y2

...

Yp

2/m

1/112 • • •

Vnp

y2n

1/212 - - '

y¡ip

• •

• y

tu

ym

•

• ytip

1/121

1/122 ’ ’ ’

y\2

P

1/221

1/222 ' • ’

y22p

• • •

l/í21

ym '

•

• yt2p

1/131

1/132

yi3P

1/231

1/232

’ ’ '

V23p

• ' •

l/t31

ym

■

• yt3P

1/lnl

yin2

yinp

l/2nl

í/2n2

‘

y2np

ytnl

ytn2

'

’

'

ytnp

2/i.i

yn ■

■

yi.p

1/2.1

1/2.2 • • •

V2.p

■

■ yt.i

yt.2

■

yt.

P

3.2.2 Modelo lineal

El

modelo

asociado

a

este

diseño

es:

Yij

= p +

Qi+Eij

;

i

=

1,2,...,*

j =

l,2,...,ni

\

(2)

(35)

Yij

=

(VijuViji,

=

vector de

p

observaciones

respuesta medidas

sobre la

unidad

j-ésima

que

recibió el

tratamiento

i-ésimo.

¿?=(/

xi

,/22,

=

vector

de las

medias

generales.

eij

—

(£iji,£ij2,

■■■,£ijp)

=

vector

de

errores aleatorios.

ai

—

(o¡ii,

q

¡

í

2)

•••)

Q¡»P

)

= vector

del efecto del

tratamiento

i-ésimo.

Con

la

re-

t

stricción £

<i*

=

0. t=l

Nótese

que

aquí

el

superíndice

t

indica transpuesto;

este

debe

distinguirse

del

índice

t

asociado

al

número de

tratamientos.

Supuestos:

En

relación

con

el

modelo

(2) se supone que, cada componente

del

vector

de

observaciones

(y^)

se

corresponde a un

modelo normal

univariado,

de

manera

como

fue

expresado

en

la ecuación

(1).

Los

vectores

de

errores

son variables independientes

entre sí con

vector

de

medias

media

0 y

matriz de

covarianzas Se supone

para

los

errores

idéntica

distribución

normal

multivariada,

es

decir:

e«~7V

p

/(0,E)

donde:

(36)

z

=

<7li

<Tj2

_•

_{• O'lp}

^22 •

• 1

PP

3.2.3 Notación matricial

El

vector

de observaciones

de

las

p

variables

bajo

estudio

Yi,

Y¿,Y

p

medidas

sobre

la unidad experimental j-ésima

que

recibió

el tratamiento í-ésimo,

se

representa

por:

y

íj

= (yiji

>

yij^

i

•

• • j

yijp)

La

notación

matricial particular

del

modelo general

Y

=

X/3 +

E,

cuando

se

tiene

(37)

yíi

yÍ2

yín,

y«

Y22

yU

y«

1

<

1

______

I 1

o

•••

o

II o

• ■

• o

1

1 o

•••

o

1 O 1

•••

o

1 o

1 •

••

o

1 O

1 •••

o

1OO-1

(N xP)

^(Nxq)

ell

£

12 'lni

Mil

Ml2

’

Mlp

Qll

**<*12**

• **<*lp**

Oítl

**<*t2**

'

**<*tp**

+

^(qxP)

_E,

'21

fc22

'2n2

'ti

'tnt

(NxP)

donde:

7V=¿

m- q=t+l,

E(Y)=X/3 y

V(Y)=I ®

.

i=l

(38)

3.2.4 Análisis de varianza multivariado.

La

descomposición

de

la

suma

de cuadrados

del

total

en

el

análisis

de

varianza multi

variada

es

análoga

al caso

univariado;

sin

embargo, dado

que

se

tienen

p

mediciones

se

debe

calcular

la

suma

de cuadrados

de

cada

una

además

de

los

productos

cruzados,

ya

que

interesa

estimar

las

varianzas

y covarianzas. La base

de todas las

operaciones

f

son¡

los

cuadrados y

productos

cruzados, que

se

presentan

en

una

matriz:

1 yijyfj =

Z/iji

Z/ij2

yiji yij2

y^p

yh

yijí'yiji

**yiji*yij2**

y

2 n2

• yijiyijp

■

yij2yijp

yijp

yijp'Viji

y^p' yij2

■

V-

Urjp

Así:

(2/iji - z/i)

2

•

• (z/iji

-

yi) (y^ -

yP

)

(yo

-

y) (yo

- y)

=

(y^p

z/P

)

(í/iji

2/1)

•

• (y^p

z/p)

donde

y,

como es obvio

pensar, representa

la

media

general;

es

un

vector de

las

p

medias

globales

asociadas a

las

p

respuestas.

Dado que:

(yo- - y)(yij - y)4 = [(yo - y¿) + (y¿ - y)][(yij - y¿) + (yf - y)]4

=

(y^

-

yi)(yij

-

y y

+

(yo

-

yi)(yo -

y)‘

+

.

Algunos diseños experimentales y el análisis de varianza mulivariado

ESPECIALIDAD EN

MÉTODOS

ESTADÍSTICOS

FACULTAD

DE

ESTADÍSTICA E

INFORMÁTICA

UNIVERSIDAD

VERACRUZANA

ALGUNOS

DISEÑOS

EXPERIMENTALES Y

EL

ANÁLISIS

DE

VARIANZA

MULTIVARIADO

Trabajo recepcional que como requisito

parcial para obtener el diploma de esta

Especialidad presenta:

JOSÉ MIGUEL HERNÁNDEZ MORALES.

Tutor Académico

M. en C. Ibrahima Gobhi Sow

DATOS DEL AUTOR: José Miguel Hernández Morales, nació en Xalapa, Veracruz en 1952,

realizó todos sus estudios en su ciudad natal. En 1972 ingreso a la Facultad de Estadística de la

Universidad Veracruzana. Obtuvo el titulo de Licenciado en Estadística en 1979, con la tesis titulada

“Distribución óptima en asignación sistemática de testigos, empleando funciones de tendencia”.

Trabajo en México D.F., en el Instituto Nacional de Investigaciones Agrícolas de enero de 1977 a

abril de 1978. En 1978 se incorporo a la docencia en las Carreras de Biología, Estadística y

Economía de la U.V. En 1980 formó parte del grupo de académicos que fundan el Sistema de

Enseñanza Abierta de la U.V. en donde actualmente labora.

AGRADECIMIENTOS:

Agradezco los apoyos prestados por las autoridades universitarias y sindicales, así como las

facilidades por parte del SEA para realizar estos estudios. Deseo hacer patente mi agradecimiento a

todos los maestros de la Especialidad, y en particular al M. en C. Ibrahima Gobhi Sow por la

dirección de esta monografía y al Dr. Mario Miguel Ojeda R. por la revisión, sugerencias y

recomendaciones. A las futuras licenciadas en Estadística Erika Cervantes C. y Erika Rodríguez V.

por su esmerado apoyo en la edición del trabajo.

El Comité Académico de la Especialidad en Métodos Estadísticos, y el respectivo Tutor Académico

del trabajo recepciones “ALGUNOS DISEÑOS EXPERIMENTALES Y ANÁLISIS DE

VARIANZA MULTIVARIADO”, una vez cubiertos todos los requisitos académicos y

administrativos establecidos, autorizan la impresión y la constitución del jurado para la defensa del

mismo.

9

1

2

3

INTRODUCCION

5

CONCEPTOS GENERALES DE LOS DISEÑOS EXPERIMEN­

TALES

9

2.1 Antecedentes...

9

2.2

Terminología ...

10

2.3

Principios

básicos

de

los

diseños experimentales

...

12

2.4

Directrices

para el

diseño

de

experimentos... 14

DISEÑO COMPLETAMENTE AL AZAR

17

3.1 Caso

Univariado

...

17

3.1.1

Introducción

CONCEPTOS GENERALES DE LOS DISEÑOS EXPERIMEN