For the analysis of experimental data, the Analysis

Texto completo

(1)

Recibido: Diciembre, 2004. Aprobado: Agosto, 2005.

Publicado como ENSAYO en Agrociencia 39: 529-538. 2005.

R

ESUMEN

Se propone la adaptación de un modelo lineal jerárquico con dos niveles para el análisis de una serie de experimentos bajo un dise-ño completamente aleatorizado, seguido de una breve revisión de los modelos clásicos de algunos diseños experimentales. Esta pro-puesta considera como observaciones de primer nivel las obteni-das del experimento en cada localidad. En el segundo nivel se estu-dia la variabilidad entre experimentos utilizando una variable explicatoria medida a nivel de localidad. Este procedimiento per-mite explicar la variabilidad de las medias de tratamientos a tra-vés de las localidades.

Palabras clave: Diseños experimentales, modelos lineales de

coefi-cientes aleatorios, modelos lineales mixtos.

I

NTRODUCCIÓN

P

ara el análisis de datos experimentales

generalmente se aplica el Análisis de Varianza (A de V), debido a la notable simplicidad del al-goritmo para estimar los parámetros de modelos de efec-tos fijos, aleatorios o mixefec-tos. Los modelos lineales aso-ciados al A de V son apropiados cuando se ajustan a conjuntos de datos balanceados (el mismo número de repeticiones por tratamiento), pero presentan dificulta-des al ajustarse a datos no balanceados. Por otra parte, permiten explicar la variación de las observaciones cuan-do se consideran en el modelo variables explicatorias discretas, pero no admiten la incorporación de varia-bles explicatorias continuas (Raudenbush, 1993). Para superar las limitaciones del A de V se ha sugerido ajus-tar un modelo lineal de regresión múltiple, que puede aplicarse a datos balanceados y no balanceados, y per-mite incluir variables explicatorias discretas y continuas, lo que da origen al análisis de covarianza y a modelos de regresión con variables indicadoras. Sin embargo, las ventajas del análisis de regresión sólo son inmedia-tas para modelos de efectos fijos (Kirk, 1982;

A PROPOSAL OF A HIERARCHICAL LINEAR MODEL FOR ANALYZING A SERIES OF EXPERIMENTS

Mario M. Ojeda-Ramírez1 y Gildardo Gutiérrez-Reyes2

1Facultad de Estadística e Informática. Universidad Veracruzana. Apartado Postal 475. Xalapa, Veracruz.

México. (mojeda@uv.mx). 2Facultad de Matemáticas. Universidad Autónoma de Guerrero. Ciudad

Universitaria. 39087. Chilpancingo, Guerrero. México.

A

BSTRACT

An adaptation of a hierarchical linear model with two levels is proposed for the analysis of a series of experiments under a completely randomized design, followed by a brief review of the classical models for some experimental designs. This proposal considers as first level data those obtained from each experiment in each location. In the second level the variability among experiments is reviewed using one explanatory variable measured at the location level. This procedure allows to explain the variability of the treatment means through the locations.

Key words: Experimental designs, random coefficient linear models,

linear mixed models.

I

NTRODUCTION

F

or the analysis of experimental data, the Analysis

of Variance (ANOVA) is generally applied, because of the notable simplicity of the algorithm for estimating the parameters of models of fixed, random or mixed effects. The linear models associated with the ANOVA are appropriate when they adjust to groups of balanced data (the same number of repetitions per treatment), but they present difficulties when adjusted to unbalanced data. On the other hand, they make possible to explain the variation of the observation when discrete explanatory variables are considered in the model, but do not admit the incorporation of continuous explanatory variables (Raudenbush, 1993). To overcome the limitations of the ANOVA, it has been suggested the fit of a multiple linear regression model, that can be applied to balanced and unbalanced data, and allows the inclusion of discrete and continuous explanatory variables, which gives origin to the analysis of covariance and to regression models with indicator variables. However, the advantages of the regression analysis are immediate only for models of fixed effects (Kirk, 1982; Montgomery, 1991), although the generalization to more complex situations, which has existed since the 1950’s, has provided the development of the general mixed linear model (Sahai and Ageel, 2000).

(2)

Montgomery, 1991), aunque la generalización a situa-ciones más complejas, que existe ya desde la década de los años cincuenta, ha propiciado el desarrollo del mo-delo lineal general mixto (Sahai y Ageel, 2000).

Se ha propuesto la formulación de modelos lineales jerárquicos (Raudenbush, 1993; Goldstein, 1995) como alternativa para solucionar los problemas de análisis de datos que no se han resuelto satisfactoriamente todavía. Los modelos jerárquicos proporcionan las ventajas del modelo mixto del A de V y también las del análisis de regresión, que considera variables explicatorias a nivel de grupos de unidades experimentales (Ojeda et al., 1999). Siguiendo este enfoque es posible reformular un modelo del A de V y expresarlo como un modelo lineal jerárqui-co jerárqui-con dos niveles, que permite jerárqui-considerar efectos fijos y aleatorios, incorporar variables explicatorias discretas y continuas, y ajustarse a datos balanceados y no balancea-dos. Bryk y Raudenbush (2002), Longford (1993) y Goldstein (1995) presentan la metodología general del enfoque de modelación lineal jerárquica, también llama-da modelación lineal multinivel (Ojellama-da et al., 1999).

Cuando hay varios experimentos con repeticiones en tiempo y espacio (denominadas series de experimentos), se pretende muestrear más eficientemente la región so-bre la cual se desea hacer las conclusiones del análisis de los resultados. La forma más sencilla para una serie de experimentos implica planear ensayos con los mismos tratamientos y el mismo diseño experimental, lo que pro-duce series balanceadas. Sin embargo, en investigacio-nes agropecuarias es común que se produzcan series no balanceadas con diferentes tratamientos y diversos dise-ños experimentales, que incluso pueden presentar hete-rogeneidad de varianzas de los errores. Para el análisis de una serie de experimentos se ha aplicado un procedimiento particular del A de V para cada tipo de serie, balanceada o desbalanceada (Martínez, 1988).

En este trabajo se reformulan los modelos lineales del A de V para algunos diseños experimentales; en el enfoque jerárquico se propone un modelo lineal jerár-quico con dos niveles para el análisis de una serie de ex-perimentos, considerando un diseño completamente aleatorizado.

A

NTECEDENTES

Raudenbush (1993) presenta, para algunos diseños experimentales, un modelo lineal jerárquico con dos ni-veles, para demostrar cómo el análisis de datos con en-foque jerárquico reproduce los resultados de los mode-los del A de V y permite estudiar mode-los efectos fijos y aleatorios para incluir datos no balanceados. Los dise-ños son con un criterio de clasificación, dos factores cru-zados, dos factores anidados y bloques aleatorizados (me-didas repetidas). A continuación los revisamos, con el

The formulation of hierarchical linear models has been proposed (Raudenbush, 1993; Goldstein, 1995) as an alternative for solving the problems of data analysis that have not yet been satisfactorily resolved. The hierarchical models provide the advantages of the mixed model of the ANOVA and also those of the regression analysis, which considers explanatory variables at the level of groups of experimental units (Ojeda et al., 1999). Following this approach, it is possible to reformulate an ANOVA model and express it as a hierarchical linear model with two levels, which allows to consider fixed and random effects, to incorporate discrete and continuous explanatory variables, and adjust to balanced and unbalanced data. Bryk and Raudenbush (1992), Longford (1993) and Goldstein (1995) present the general methodology of the hierarchical linear modelling approach, also called multilevel linear modelling (Ojeda et al., 1999).

When there are several experiments with repetitions in time and space (known as series of experiments), there exists the intention to sample more efficiently the region over which one wishes to make conclusions on the analysis of the results. The simplest form for a series of experiments implies the planning of assays with the same treatments and the same experimental design, which produces balanced series. However, in agricultural investigations, it is common for unbalanced series to be produced with different treatments and diverse experimental designs, which can even present heteroscedasticity in the errors. For the analysis of a series of experiments, a particular ANOVA procedure has been applied for each type of series, balanced or unbalanced (Martínez, 1988).

In this work, the linear models of the ANOVA are reformulated for some experimental designs; in the hierarchical approach, a hierarchical linear model is proposed with two levels for the analysis of a series of experiments, considering a completely randomized design.

A

NTECEDENTS

Raudenbush (1993) presents, for some experimental designs, a hierarchical linear model with two levels, to demonstrate how the analysis of data with a hierarchical approach reproduces the results of the models of the ANOVA and makes possible to study fixed and random effects including unbalanced data. The designs are one way classification criteria, two crossed factors, two nested factors and randomized blocks (repeated measurements). We will examine them, with the purpose of setting the foundation of the generalization on which the proposal developed here is based.

In the hierarchical model for the design of one way classification criteria, the experimental units are

(3)

propósito de sustentar la generalización en la que se basa la propuesta que aquí se desarrolla.

En el modelo jerárquico para el diseño de un crite-rio de clasificación se considera a las unidades experi-mentales como el primer nivel de jerarquía, y a las me-dias de tratamientos como las unidades de segundo ni-vel. Se asocia a las medias de tratamientos un efecto aleatorio que conduce a postular un modelo lineal jerár-quico equivalente al de efectos aleatorios del A de V, esto es:

yij00+u0iij;

(

i=1 2, ,..., ;g j=1 2, ,...,ni

)

(1) donde yij es la observación en la j-ésima unidad

experi-mental en el i-ésimo tratamiento, γ00 es la media general,

u0i es el efecto aleatorio asociado con la i-ésima media de

tratamiento, y εij es el error aleatorio de las unidades de

primer nivel. En el modelo (1) se supone que

u0i ∼ NID , σ

(

0 2τ

)

y εij ∼ NID 0

(

,σ2

)

, y que u0i y εij son

independientes.

Con respecto al diseño de dos factores cruzados, en el enfoque jerárquico sólo se considera el modelo mixto, en el cual el factor fijo (o contraste de los efectos fijos) se especifica en el modelo del primer nivel de jerarquía, que es un modelo de regresión lineal múltiple con p−1 varia-bles explicatorias. Además, se formula un modelo de se-gundo nivel de jerarquía para la variabilidad de los coefi-cientes del modelo de primer nivel a través de los niveles del factor aleatorio. Considerando dos niveles del factor fijo y los niveles del factor aleatorio, se obtiene el mode-lo lineal jerárquico: y x u u x i g j n ij ij i i ij ij i = + + + + = = γ00 γ10 0 1 ε 1 2 1 2 ; , ,..., , ,..., ⎧ ⎧ ⎨ ⎩ (2) donde yij es la respuesta en la j-ésima unidad

experi-mental en el i-ésimo nivel del factor aleatorio, γ00 es la

media general, γ10 es el valor promedio del tratamiento,

xij=1 para las unidades experimentales que reciben el

nivel 1 del factor fijo y xij=−1 para las que reciben el

nivel 2, u0i es el efecto del i-ésimo nivel del factor

alea-torio sobre el valor medio de la respuesta, u1i es el

efec-to del i-ésimo nivel del facefec-tor aleaefec-torio sobre el contras-te tratamiento, y εij es el error aleatorio intra-celda. En

el modelo (2) se supone εij ∼ NID 0σ 2 ,

(

)

y que los

efec-tos aleatorios u0i y u1i son normales multivariados con varianzas y covarianzas σ2β0

, σ2β1

y σβ β0 1 respectiva-mente.

considered the first level of hierarchy, and the means of treatments as the second level units. A random effect is associated with the means of treatments, which leads to the postulation of a hierarchical linear model equivalent to that of random effects of the ANOVA, that is;

yij00+u0iij;

(

i=1 2, ,..., ;g j=1 2, ,...,ni

)

(1) where yij is the observation in the j-th experimental unit

in the i-th treatment, γ00 is the general mean, u0i is the

random effect associated with the i-th mean of treatment, and εij is the random error of the first level units. In model

(1), it is assumed that u0i ∼ NID , σ

(

0 2τ

)

and εij ∼ NID 0σ

2

, ,

(

)

and u0i and εij are independent.

With respect to the design of two crossed factors, in the hierarchical approach only the mixed model is considered, in which the fixed factor (or contrast of the fixed effects) is specified in the model of the first hierarchy level, which is a model of multiple linear regression with

p−1 explanatory variables. Furthermore, a second level hierarchy model is formulated for the variability of the coefficients of the model of the first level through the levels of the random factor. Considering two levels of the fixed factor and levels of the random factor, the following hierarchical linear model is obtained:

y x u u x i g j n ij ij i i ij ij i = + + + + = = γ00 γ10 0 1 ε 1 2 1 2 ; , ,..., , ,..., ⎧ ⎧ ⎨ ⎩ (2) where yij is the response in the j-th experimental unit in

the i-th level of the random factor, γ00 is the general mean,

γ10 is the average value of the treatment, xij=1 for the

experimental units that receive level 1 of the fixed factor and xij= −1for those with level 2, u0i is the effect of the

i-th level of i-the random factor over i-the mean value of i-the response, u1i is the effect of the i-th level of the random

factor over the treatment contrast, and εij is the intra-cell

random error. In model (2) it is assumed that εij ∼ NID 0σ

2 ,

(

)

and that the random effects u0i and u1i

are multivariate normal with variances and covariances σ2β0

, σ2β1

and σβ β0 1, respectively.

With respect to the design with two nested factors, in the hierarchical modelling only the mixed case is considered, in this case the random factor is nested in the fixed factor. In the model of the first hierarchical level, the mean value of each level of the random factor is

(4)

En relación con el diseño de dos factores anidados, en la modelación jerárquica únicamente se considera el caso mixto, en el cual el factor aleatorio está anidado en el factor fijo. En el modelo del primer nivel de jerarquía se especifica el valor medio de cada nivel del factor alea-torio, en tanto que el modelo del segundo nivel es un modelo de regresión en el cual tales valores medios son las respuestas, y los predictores son los niveles del factor fijo (o contrastes de los efectos fijos). Considerando g niveles del factor aleatorio y dos niveles del factor fijo, se obtiene el modelo lineal jerárquico:

yij0001wi+u0iij;

(

i=1 2, ,..., ;g j=1 2, ,...,ni

)

(3) donde yij es el resultado para la j-ésima unidad

experi-mental en el i-ésimo nivel del factor aleatorio, γ00 es la

media general, γ01 es el coeficiente que indica la

contri-bución del factor fijo al valor medio del i-ésimo nivel del factor aleatorio, wi=1 para el i-ésimo nivel del factor

alea-torio que recibe el nivel 1 del factor fijo y wi=−1 para el

que recibe el nivel 2, u0i es el efecto asociado con el nivel

del factor aleatorio anidado, y εij es el error aleatorio

intra-celda. En el modelo (3) se supone que u0i 2

0

∼ NID 0, σ

(

β

)

y εij ∼ NID 0σ

2 ,

(

)

, y que estos errores son independien-tes para toda i y j.

En el diseño de bloques aleatorizados (medidas repe-tidas), en el contexto jerárquico se considera sólo el caso en que los bloques tienen efectos aleatorios y cruzados con un factor de efectos fijos, donde cada bloque se ob-serva sólo una vez bajo cada tratamiento. El efecto fijo de tratamientos se especifica en el modelo del primer ni-vel de jerarquía (intra-bloques), en el cual el resultado depende de los componentes de tendencia polinomial (li-neal, cuadrático y cúbico), más el error aleatorio intra-celda; en tanto que en el modelo del segundo nivel se considera que sólo las medias de bloques varían debido al efecto aleatorio de bloques, pero los coeficientes li-neal, cuadrático y cúbico, respectivamente, se suponen invariantes a través de los bloques, lo que produce el modelo lineal jerárquico:

yij ij ij ij = + ( ) + ( ′ ) + ( ′ ) + γ γ γ γ 00 01 20 30

Lineal Cuadra tico

Cu bico uu0i+ε ;ij

(

i=1 2, ,..., ;a j=1 2, ,...n

)

(4) donde yij es la respuesta para la unidad experimental que recibió el i-ésimo tratamiento en el j-ésimo bloque; γ00

la media general; γ10, γ20 y γ30 los coeficientes de

regre-sión lineal, cuadrática y cúbica, respectivamente, que se

specified, while the second level model is a regression model in which those mean values are the responses, and the predictors are the levels of the fixed factor (or contrasts of the fixed effects). Considering g levels of the random factor and two levels of the fixed factor, the following hierarchical linear model is obtained:

yij0001wi+u0iij;

(

i=1 2, ,..., ;g j=1 2, ,...,ni

)

(3) where yij is the result for the j-th experimental unit in the i-th level of the random factor, γ00 is the general

mean, γ01 is the coefficient that indicates the

contribution of the fixed factor to the mean value of the

i-th level of the random factor, wi =1 for the i-th level of the random factor that level 1 receives from the fixed factor and wi = −1 for that receiving level 2, u0i is the effect associated with the level of the nested random factor, and εij is the intra-cell random error. In model

(3) it is assumed that u0i

2

0

∼ NID 0, σ

(

β

)

and εij ∼ NID 0

(

,σ2

)

, and that these errors are independent for all i and j.

In the randomized block design (repeated measurements), in the hierarchical context, only the case in which the blocks have random and crossed effects is considered with a factor of fixed effects, where each block is observed only once in each treatment. The fixed effect of treatments is specified in the model of the first hierarchical level (intra-blocks), in which the result depends on the components with a polynomial tendency (linear, quadratic and cubic) plus the intra-cell random error; whereas in the second level model, it is considered that only the means of blocks vary due to the random effect of blocks, but the linear, quadratic and cubic coefficients, respectively, are supposed invariant through the blocks, which produces the hierarchical linear model:

y u ij ij ij ij i i = + ( ) + ( ) + ( ) + + γ γ γ γ ε 00 01 20 30 0 Linear Quadratic Cubic jj;

(

i=1 2, ,..., ;a j=1 2, ,...n

)

(4) where yij is the response for the experimental unit that received the i-th treatment in the j-th block; γ00 is the

general mean; γ10, γ20 and γ30 are the coefficients of the

linear, quadratic and cubic regression, respectively, that are considered invariants through the blocks; u0i is the random effect of the j-th block; and εij is the intra-cell

random error. It is assumed that the variance-covariances matrix of the repeated measurements is composite

(5)

consideran invariantes a través de los bloques; u0i es el

efecto aleatorio del j-ésimo bloque; y εij es el error

alea-torio intra-celda. Se supone que la matriz de varianzas y covarianzas de las medidas repetidas es simétrica com-puesta: Var y

( )

ij =σβ0+σ

2 2

y Cov y y

(

ij, i j

)

= σβ0

2 ;

asi-mismo, se supone que u0i

2 0 0 ∼ NID , σ

(

β

)

y εij ∼ NID 0σ 2 ,

(

)

, y que son independientes, para toda i y j.

U

NAPROPUESTADEUNMODELOJERÁRQUICO PARASERIESDEEXPERIMENTOS

Para experimentos con un diseño completamente aleatorizado (DCA) en diferentes localidades, los valo-res de la valo-respuesta Y pueden depender de los efectos de los tratamientos en cada experimento, y de los factores que caracterizan a cada localidad. Para un análisis com-binado de la serie de experimentos es conveniente consi-derar la estructura jerárquica de los resultados, ya que las observaciones de los experimentos pueden tomarse como unidades del primer nivel de jerarquía, en tanto que las localidades serían unidades del segundo nivel. Por tanto, a continuación se formula un modelo lineal jerárquico en dos niveles para el análisis de la serie de experimentos en un DCA.

Considérese una serie de experimentos con un DCA y un conjunto de a tratamientos en cada una de K locali-dades. El resultado es una serie balanceada de experi-mentos donde la respuesta Y es una función del efecto de tratamientos y las características de las localidades. Por simplicidad, supóngase que puede medirse sólo una ca-racterística W al nivel de localidad, que contribuye a ex-plicar la variabilidad de Y a través de las localidades. En-tonces puede postularse un modelo del primer nivel para describir la variabilidad de Y en términos del efecto de tratamientos, y un modelo del segundo nivel para expli-car las diferencias en la distribución de Y en términos de la variable W. Aplicando la notación del modelo lineal reparametrizado para un DCA, puede formularse un mo-delo del primer nivel como:

y i a j n k K ijk= ik+ ijk i = = = ⎧ ⎨ ⎪ ⎩ ⎪ µ ε ; , ,..., , ,..., , ,..., 1 2 1 2 1 2 (5)

donde yijk es la observación de la j-ésima unidad experi-mental que recibió el i-ésimo tratamiento en la k-ésima localidad, µik es la media del i-ésimo tratamiento en la

k-ésima localidad, y εijk es el error aleatorio que se supone

normalmente distribuido e independiente, con media cero y varianza constante σ2. symmetrical: Var y

( )

ij =σβ0+σ 2 2 and Cov y y

(

ij, i j

)

= σβ0 2

; similarly, it is assumed that

u0i

2 0

0

∼ NID , σ

(

β

)

and εij ∼ NID 0σ 2 ,

(

)

, and that they

are independent, for all i and j.

A

PROPOSALFORAHIERARCHICALMODEL FORSERIESOFEXPERIMENTS

For experiments with a completely randomized design (CRD) in different localities, the values of the response Y may depend on the effects of the treatments in each experiment, and on the factors that characterize each locality. For a combined analysis of the series of experiments, it is convenient to consider the hierarchical structure of the results, given that the observations of the experiments can be taken as units of the first level of hierarchy, while the localities would be second level units. Therefore, a two levels hierarchical linear model is formulated for the analysis of the series of experiments in a CRD.

Consider a series of experiments with a CRD and a group of a treatments in each one of K localities. The result is a balanced series of experiments where the response Y is a function of the effect of treatments and the characteristics of the localities. For the sake of simplicity, suppose that only one characteristic W can be measured at the locality level, which contributes to explain the variability of Y through the localities. Thus, a first level model can be postulated for describing the variability of Y in terms of the effect of treatments, and a second level model to explain the differences in the distribution of Y in terms of the variable W. Applying the notation of the reparametrized linear model for a CRD, a first level model can be formulated as:

y i a j n k K ijk= ik+ ijk i = = = ⎧ ⎨ ⎪ ⎩ ⎪ µ ε ; , ,..., , ,..., , ,..., 1 2 1 2 1 2 (5)

where yijk is the observation of the j-th experimental unit that received the i-th treatment in the k-th locality; µik is

the mean of the i-th treatment in the k-th locality; and εijk

is the random error, assumed to be normally distributed and independent, with zero mean and constant variance σ2.

Since in the in hierarchical approach we allow that the means of treatments, µik, of the first level model,

equation (5), vary among localities, it is possible to formulate the second level model considering the variable

(6)

Puesto que en el enfoque jerárquico se admite que las medias de tratamientos, µik, del modelo del primer nivel,

ecuación (5), varían entre localidades, es posible formu-lar el modelo del segundo nivel considerando la variable

W para explicar esta variabilidad; es decir:

µik γi γiwk uik i a k K = + + = = ⎧ ⎨ ⎩ 0 1 1 2 1 2 ; , ,..., , ,..., , (6)

donde γi0 es el efecto común del i-ésimo tratamiento, γi1

es el coeficiente que indica la contribución de la caracte-rística W a nivel de localidad al efecto del i-ésimo trata-miento, y uik es el error aleatorio del segundo nivel que se supone normalmente distribuido e independiente, con media cero y varianza σ2µ1.

Sustituyendo el modelo del segundo nivel, ecuación (6), en el modelo del primer nivel, ecuación (5), se pro-duce el modelo combinado:

y w u i a j n k K ijk= i + i k+ ik+ ijk i = = = γ0 γ1 ε 1 2 1 2 1 2 ; , ,..., , ,..., , ,..., ,, ⎧ ⎨ ⎪ ⎩ ⎪ (7)

que se propone para el análisis estadístico de una serie de experimentos bajo un DCA.

El modelo (5) puede expresarse en forma matricial como sigue: Yk=Xβk+ek, (8) donde: Yk k k n k k k n k a k a k an k y y y y y y y y y a = 11 12 1 21 22 2 1 2 1 2 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ; =X 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ; =βk ; = k k ak k k k n k e e e e µ µ µ 1 2 11 12 1 21 1 e kk k n k a k a k an k e e e e e a 22 2 1 2 2 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ µik γi γiwk uik i a k K = + + = = ⎧ ⎨ ⎩ 0 1 1 2 1 2 ; , ,..., , ,..., , (6)

where γi0 is the common effect of the i-th treatment, γi1 is

the coefficient that indicates the contribution of the characteristic W at the locality level to the effect of the i-th treatment, and uik is the random error of the second level, which is assumed to be normally distributed and independent, with zero mean and variance σ2µ1.

Substituting the second level model, equation (6), in the first level model, equation (5), the combined model is produced: y w u i a j n k K ijk= i + i k+ ik+ ijk i = = = γ0 γ1 ε 1 2 1 2 1 2 ; , ,..., , ,..., , ,..., ,, ⎧ ⎨ ⎪ ⎩ ⎪ (7)

which is proposed for the statistical analysis of a series of experiments under a CRD.

Model (5) can be expressed in a matricial form as follows: Yk=Xβk+ek, (8) where Yk k k n k k k n k a k a k an k y y y y y y y y y a = 11 12 1 21 22 2 1 2 1 2 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ; =X 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ; =βk ; = k k ak k k k n k e e e e µ µ µ 1 2 11 12 1 21 1 e kk k n k a k a k an k e e e e e a 22 2 1 2 2 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

The assumptions for each one of the K models of the first level are E

{ }

ek = and Var e0

{ }

k =

; this matrix of variances for the vector of errors etk=

(

e1tk,e2tk,...,etak

)

can be expressed as

=σ2

(7)

Los supuestos para cada uno de los K modelos del primer nivel son E

{ }

ek = y Var e0

{ }

k =

; esta ma-triz de varianzas para el vector de errores

ekt =

(

e1tk,e2tk,...,eakt

)

puede expresarse como

=

σ2I

ni (Ferron, 1997).

De manera análoga, el modelo (6) puede escribirse en forma matricial como:

βk=Wγ+uk, (9) donde: βk k k ak k k w w w = ; = µ µ µ 1 2 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ W kk ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ; γ= ; = γ γ γ γ γ γ 10 11 20 21 0 1 1 2 a a k k k ak u u u ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ u ⎡ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ .

La matriz W puede expresarse como W=Iawkt, donde ⊗ indica el producto Kronecker y wk

t

k

w

=

(

1,

)

. Los supuestos para los errores de los K modelos del se-gundo nivel son E

{ }

uk = y Var u0

{ }

k = Ω; esta es la matriz de varianzas y covarianzas para los errores del se-gundo nivel, uk

t

k k ak

u u u

=

(

1 , 2 ,...,

)

, que puede expresar-se como Ω = σ2µ1Ia (Ferron, 1997).

Sustituyendo el modelo (9) en el modelo (8), se ob-tiene el modelo mixto:

yk=XWγ+Xuk+ek, (10)

donde yk es un vector de observaciones de orden

ni i a =

(

1

)

×1, X es una matriz de diseño conocida de

or-den i ni a

a =

(

1

)

× , W es una matriz conocida de orden

a×2a, γγγγγ es un vector de parámetros fijos desconocidos 2a×1, uk es un vector de efectos aleatorios a×1, y ek es un

vector de errores de orden

(

ia=1ni

)

×1 .

Analogously, model (6) can be described in a matricial form as: βk=Wγ+uk, (9) where: βk k k ak k k w w w = ; = µ µ µ 1 2 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ W kk ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ; γ= ; = γ γ γ γ γ γ 10 11 20 21 0 1 1 2 a a k k k ak u u u ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ u ⎡ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ .

The matrix W can be expressed as W=Iawkt,

where ⊗ indicates the Kronecker product and

wk t

k

w

=

(

1,

)

. The assumptions for the errors of the K

models of the second level are E

{ }

uk = and0

Var u

{ }

k = Ω; this is the matrix of variances and covariances for the errors of the second level,

utk=

(

u1k,u2k,...,uak

)

, which can be expressed as

Ω = σ2µ1

Ia (Ferron, 1997).

Substituting model (9) in model (8), the mixed model is obtained:

yk=XWγ+Xuk+ek, (10)

where yk is an observations vector of the order

ni

i a =

(

1

)

×1 , X is a known design matrix of the order

ni a

i a

=

(

1

)

× , W is a known matrix of the order a×2a, γγγγγ is a vector of unknown fixed parameters 2a×1, uk is a vector of random effects a×1, and ek is a vector of errors

of the order i ni

a =

(

1

)

×1.

The linear hierarchical model with two levels can be expressed in matricial notation with the following vectors and matrices:

(8)

El modelo lineal jerárquico con dos niveles puede expresarse en notación matricial con los siguientes vectores y matrices: Y y y y X X W W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = = 1 2 K ; * diag( ); diag* ( ); Γ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ γ γ γ ;u ; u u u e e e e 1 2 1 2 K K⎦⎦ ⎥ ⎥ ⎥ ⎥

donde X*= diag(X) significa la formación de una matriz diagonal por bloques, que tiene en la diagonal a las ma-trices X de todos los K modelos; de manera análoga se define W*= diag(W). Por tanto, el modelo (10) toma la forma general:

Y=X W* * Γ+X u* + =e ZΓ+X u* +e (11) El modelo (11) es un caso particular del denominado modelo lineal general mixto (Bryk y Raudenbush, 2002), en el cual la matriz de varianzas y covarianzas para el vector Y puede expresarse en forma compacta como:

Var

{ }

Y = =V X* diag

(

( )Ω

)

X*t+diag

( )

∑ ,

(12) que se obtiene aplicando propiedades de la matriz de varianzas y covarianzas de una combinación lineal.

Los parámetros que se desea estimar en el modelo (11) son: los de efectos fijos que conforman Γ, y σ2 y los

componentes de varianza y covarianza contenidos en la matriz Ω.

Para resolver el problema de estimación en el modelo lineal jerárquico con dos niveles, recientemente se ha desarrollado diferentes enfoques y algoritmos, basados en la siguiente lógica: se propone una estimación inicial para la matriz V y aplicando la ecuación de mínimos cua-drados generalizados se obtiene un estimador para los parámetros; con los estimadores obtenidos se actualiza la estimación de V y se itera hasta lograr un criterio de convergencia; es decir, hasta que las estimaciones para todos los parámetros no cambian de un ciclo al siguiente (Goldstein, 1995).

Entre los algoritmos disponibles se encuentran los siguientes: 1) el algoritmo EM (Dempster et al., 1977)

Y y y y X X W W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = = 1 2 K ; * diag( ); diag* ( ); Γ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎤ γ γ γ ;u ; u u u e e e e 1 2 1 2 K K⎦⎦ ⎥ ⎥ ⎥ ⎥

where X*= diag(X) means the formation of a diagonal matrix by blocks, which has in the diagonal the X matrices of all the K models; W*= diag(W) is defined analogously. Therefore, model (10) takes the general form:

Y=X W* * Γ+X u* + =e ZΓ+X u* +e (11) Model (11) is a particular case of the denominated mixed linear general model (Bryk and Raudenbush, 1992), in which the matrix of variances and covariances for the vector Y can be expressed in a compact form as:

Var

{ }

Y = =V X* diag

(

( )Ω

)

X*t+diag

( )

∑ ,

(12) which is obtained applying properties of the variances and covariance matrix of a linear combination.

The parameters to be estimated in model (11) are: those of fixed effects that conform Γ, and σ2 and the

variance and covariance components contained in the matrix Ω.

To solve the problem of estimation in the hierarchical linear model with two levels, recently different approaches and algorithms have been developed, based on the following logic: an initial estimation is proposed for the matrix V, and applying the generalized least squares equation, an estimator is obtained for the parameters; with the obtained estimators, the estimation of V is updated and is iterated until a convergence criteria is reached; that is, until the estimations for all of the parameters do not change from one cycle to the next (Goldstein, 1995). Among the available algorithms are the following: 1) the EM algorithm (Dempster et al., 1977) in the approach of restricted maximum likelihood that is used in the program HLM (Bryk et al., 1988), and which provided a conceptual approach that was feasible and applicable for estimating variance components (Bryk and Raudenbush, 1992); 2) the Fisher-scoring algorithm (Longford, 1987) in the approach of complete maximum likelihood, which

(9)

en el enfoque de máxima verosimilitud restringida que se utiliza en el programa HLM (Bryk et al., 1988), y brindó un enfoque conceptual factible y aplicable para estimar componentes de varianza (Bryk y Raudenbush, 2002); 2) el algoritmo Fisher-scoring (Longford, 1987) en el enfoque de máxima verosimilitud completa, que cual usa el procedimiento numérico de Newton-Raphson y este algoritmo se utiliza en el programa VARCL; 3)un algoritmo de mínimos cuadrados gene-ralizados reponderados iterativamente (Goldstein, 1986), mediante el cual se obtienen estimadores equi-valentes a los obtenidos por máxima verosimilitud com-pleta bajo los supuestos de distribución normal, y el programa ML3 (Prosser et al., 1990) utiliza este algo-ritmo. Kreft et al. (1994) presentan una revisión com-parativa de cinco programas de cómputo para análisis jerárquico: BMDP-5V, GENMOD, HLM, ML3 y VARCL. El procedimiento PROCMIXED de SAS (Littell et al., 1996) se ha incorporado para este tipo de modelaciones.

Se pueden realizar pruebas de hipótesis para parámetros simples y para varios parámetros, aplicando la teoría de la hipótesis lineal general bajo resultados asintóticos. Los programas de cómputo disponibles para el análisis de datos con estructura jerárquica producen estimaciones de los errores estándar para los efectos aleatorios. Entonces, es posible realizar pruebas de hipó-tesis sobre la significancia de los efectos fijos, los coefi-cientes aleatorios del primer nivel, y los componentes de varianza y covarianza.

C

ONCLUSIONES

Los modelos lineales asociados a los diseños experi-mentales más conocidos pueden reformularse como mo-delos jerárquicos con dos niveles, los cuales admiten la incorporación de efectos mixtos y permiten el análisis estadístico de datos balanceados y no balanceados. Tal enfoque abre la posibilidad de generalizar los modelos clásicos para incorporar situaciones de experimentos re-petidos, siempre que el número de repeticiones sea rela-tivamente grande.

Es posible el análisis estadístico de los datos de series de experimentos por medio de un modelo lineal jerárqui-co jerárqui-con dos niveles. Esto permite modelar el efecto de los factores que caracterizan a las localidades, además de los factores particulares evaluados en los diseños individua-les; esta formulación admite datos balanceados y no ba-lanceados, y ya está siendo utilizada para evaluar experi-mentos. En esencia este enfoque procura ser más ajusta-do al fenómeno físico y teórico y al mecanismo utilizaajusta-do para obtener los datos.

En la actualidad hay muy poca información sobre la reformulación de los modelos lineales jerárquicos en el

uses the Newton-Raphson numerical procedure, and this algorithm is used in the program VARCL; 3) an algorithm of generalized least squares iteratively weighted (Goldstein, 1986), through which estimators are obtained that are equivalent to those obtained by complete maximum likelihood under the assumptions of normality, and the program ML3 (Prosser et al., 1990) utilizes this algorithm. Kreft et al. (1994) present a comparative revision of five computer programs for hierarchical analysis: BMDP-5V, GENMOD, HLM,ML3 and VARCL. The PROCMIXED procedure of SAS (Littell et al., 1996) has been incorporated for this type of modeling.

Hypothesis tests can be carried out for simple parameters and for various parameters, applying the theory of general linear hypothesis under asymptotic results. The computer programs available for data analysis with hierarchical structure produce estimations of the standard errors for the random effects. Therefore, it is possible to carry out tests of hypotheses for the significance of the fixed effects, the first level random coefficients, and the variance and covariance components.

C

ONCLUSIONS

The linear models associated with the best known experimental designs can be reformulated as hierarchical models with two levels, which admit the incorporation of mixed effects and allow the statistical analysis of balanced and unbalanced data. Such approach opens the possibility of generalizing classical models for incorporating situations of repeated experiments, provided that the number of repetitions is relatively large.

The statistical analysis of the data of series of experiments is possible by means of a hierarchical linear model with two levels. This makes possible to model the effect of factors that characterize the localities, as well as the particular factors evaluated in the individual designs; this formulation admits balanced and unbalanced data, and is already being utilized to evaluate experiments. Essentially, this approach is more suited to the physical and theoretical phenomena and to the mechanism utilized to obtain the data.

Currently there is very little information on the reformulation of the hierarchical linear models in the context of series of experiments, despite the fact that many results of the area of meta-analysis can be directly related, and that some particular formulations of these models have existed since the 1950’s. Thus, we can conclude that this is a methodology that requires a deeper exploration with respect to its feasibility for the data analysis of individual or of series of experiments. This is the general purpose of the research line to which this essay pertains.

(10)

contexto de series de experimentos, a pesar de que mu-chos resultados del área del metaanálisis pueden relacio-narse directamente, y de que algunas formulaciones parti-culares de estos modelos existen desde la década de los años cincuenta del siglo pasado. Así, podemos concluir que esta es una metodología que requiere una exploración más profunda sobre su factibilidad para el análisis de da-tos de experimenda-tos individuales o de series. Este es el propósito general de la línea de investigación en la que se inscribe este ensayo.

L

ITERATURA

C

ITADA

Bryk, A. S., and S. W. Raudenbush, 2002. Hierarchical Linear Models: Applications and Data Analysis Methods. Sage Publications. Newbury Park. 265 p.

Bryk, A. S., S. W. Raudenbush, M. Seltzer, and R. Congdon, 1988. An Introduction to HLM: Computer Program and User’s Guide. (2nd edition). University of Chicago, Department of Education. Chicago. 170 p.

Dempster, A. P., N. M., Laird, and D. B., Rubin. 1977. Maximum likelihood from incomplete data via the EM algorithm. J. Royal Statistical Soc. B 39: 1-38.

Ferron, J. 1997. Moving between hierarchical modeling notations. J. Educational Behavioral Statistics 22: 119-123.

Goldstein, H. 1986. Multilevel mixed linear model analysis using iterative generalized least squares. Biometrika 73: 43-56. Goldstein, H. 1987. Multilevel Models in Educational and Social

Research. Griffin, London. 98 p.

Goldstein, H. 1995. Multilevel Statistical Models. 2nd ed. Halsted Press. New York. 178 p.

Kirk, R. E. 1982. Experimental Design: Procedures for the Behavioral Sciences (2nd edition) Brooks Cole Publishing Company. California. 911 p.

Kreft, I. G., J. de Leeuw, and R. Van der Leeden, 1994. Review of five multilevel analysis programs: BMDP-5V, GENMOD, HLM, ML3, VARCL. The American Statistician 48: 324-335.

Littell, R. C., G. A. Milliken, W. W. Stroup and R. D. Wolfinger, 1996. SAS System for Mixed Models. SAS Institute, Cary, North Caro-lina, USA. 656 p.

Longford, N. T. 1987. A fast scoring algorithm for maximum likelihood estimation in unbalanced mixed models with nested random effects. Biometrika 74: 817-827.

Longford, N. T. 1993. Random Coefficient Models. Oxford University Press. New York. 270 p.

Martínez, G. A. 1988. Diseños Experimentales. Métodos y Elementos de Teoría. Editorial Trillas. México. 756 p.

Montgomery, D. C. 1991. Diseño y Análisis de Experimentos. Grupo Editorial Iberoamérica. México. 686 p.

Ojeda, M. M., H. Sahai, and S. F. Juárez-Cerrillo, 1999. Multilevel data analysis with hierarchical linear models. Statistica Applicata 11(4): 577-590.

Prosser, R., Rasbash, J., and Goldstein, H. 1990. ML3 Software for Three-Level Analysis. University of London, Institute of Education. London. 134 p.

Raudenbush, S. W. 1993. Hierarchical linear models and experi-mental design. In: Edwards, L. K. (ed.). Applied Analysis of Variance in the Behavioral Sciences, Marcel Dekker, New York. pp: 459-496.

Sahai, H., and Ageel, M. 2000. The Analysis of Variance: Fixed, Random and Mixed Models. Birkhäuser, Boston, USA. 742 p.

Figure

Actualización...

Referencias

Actualización...

Related subjects :