Els models de regressió multinivell en la recerca educativa: el cas de les Proves d Accés a la Universitat (PAU)

(1)

Els models de regressió multinivell en la recerca educativa: el cas de les Proves d’Accés a la Universitat (PAU)

Seminari del Servei d'Estadística de la UAB 27 de maig del 2004

Anna Cuxart Jardí Universitat Pompeu Fabra

Són molts els àmbits de recerca en què les dades a analitzar mostren una clara estructura jeràrquica: en investigació educativa, on els estudiants comparteixen classes i aquestes, a la vegada, s'agrupen en escoles; en la recerca biomèdica on es prenen dades dels mateixos individus en vàries ocasions. Tan en un cas com en l'altre les observacions d'un mateix grup acostumem a compartir característiques que invaliden el supòsit d'independència dels models de regressió clàssics (d'un sol nivell). Cap als anys 80, la recerca en avaluació educativa va impulsar la formulació dels anomenats models multinivell que ofereixen un tractament més adequat de les dades amb estructura jeràrquica. Actualment el seu camp d’aplicació s’ha ampliat a molts altres àmbits de recerca.

Són millorables les PAU de Catalunya? Es pot parlar de diferències entre centres de secundària? Quins aspectes demanen un seguiment estadístic? Anna Cuxart ha aplicat modelització estadística1, en particular models multinivell, per intentar respondre a algunes d’aquestes preguntes. Aquest cas pràctic servirà de fil conductor per la presentació dels models multinivell: motivació, formulació, eines d'anàlisi que ofereixen i estimació.

1_{Cuxart Jardí, A. and Longford, N.T. (1998) Monitoring the university admissions process}

in Spain . Higher education in Europe. UNESCO.Vol XXIII, No. 3, pp 385-396.

(2)

Notes d’introducció a l’Anàlisi Multinivell

Model d’anàlisi de la variància d’efectes aleatoris,

RANOVA

(

null model, empty model

)

Formulació:

ij j

ij

u

e

Y

=

µ

+

Observació = mitjana global + efecte grup + efecte individu

L’observació

Y

ij corresponent a l’individu i que pertany al grup j

és igual a la mitjana global de tota la població més l’efecte degut a pertànyer al grup j més l’efecte específic de l’individu ij

uj i eij representen, doncs, desviacions respecte de mitjanes

µ és la “verdadera” mitjana poblacional (la que obtindriem a partir de tots els individus i tots els grups)

µ + uj és la “verdadera” mitjana del grup j

Hipòtesis del model:

Les variables aleatòries eij i uj són mutuament independents amb

mitjana 0 i variància σ2 i σu2 , respectivament.

Interpretació:

σ2_{és la variància dins dels grups, entre els individus respecte de}

les mitjanes verdaderes de grup (Within-group variance)

2

u

σ és la variància entre la població de grups, variància entre les verdaderes mitjanes de grup (Between-group variance)

(3)

Paràmetres del model RANOVA: µ, σ2 i σu2

La importància d’aquest model (RANOVA) es troba en què ofereix una descomposició bàsica de la variació de la resposta (variable en estudi) en els dos nivells de variació possibles: entre els grups i dins dels grups entre els individus.

Conseqüències 2 2 ) var( ) var( ) var(Y_ij = u_j + e_ij =

σ

_u +

σ

La covariància entre dues observacions del mateix grup (i i i’ sent

i≠ i’ ) és igual a la variància de l’efecte grup (segon nivell):

(

)

(

)

( )

2

'

cov

,

var

,

cov

Y

_ij

Y

_i _j

=

u

_j

+

e

_ij

u

_j

+

e

_i _j

=

u

_j

=

σ

_u

La correlació entre dues observacions diferents del mateix grup serà el quocient

(

)

₂ 2 ₂ ' '

)

var(

)

,

cov(

,

σ

ρ

+

=

u u ij j i ij j i ij

Y

Aquest coeficient conegut com a coeficient de correlació

intragrups (intra-class correlation en anglès)es pot interpretar com:

• La correlació entre dues observacions escollides a l’atzar d’un mateix grup escollit també a l’atzar

• La proporció de variació total que correspon a variabilitat entre grups

• una mesura del grau d’homogeneïtat dels grups, de la dependència dins (intra) dels grups

(4)

Valors de ρ

ρ sempre és positiu i varia entre 0 i 1

Interpretació dels valors de ρ

Com més diferents són entre sí els grups (mitjanes diferents) i més similars són els individus dins dels grups, més gran serà ρ .

Com més gran és ρ menys fiables són els resultats derivats d’una anàlisi d’un sol nivell. Valors de ρ superiors a 0.10 ja fan aconsellable una anàlisi multinivell.

L’existència de correlació intra-grups viola la hipòtesi d’independència entre les observacions dels models lineals tradicionals.

Estructura de la matriu V de variàncies i covariàncies de

Y

ij

(

nj u nj

)

G I J

I

V = ⊗ σ 2 +σ2

Es tracta d’una matriu bloc-diagonal. Ordenats els alumnes per centres, cada centre dóna lloc a un bloc. La matriu de variàncies i covariàncies de cada centre té en la diagonal la suma i en la resta de caselles . El nombre de centres (grups) és G i n

2 2 _σ σ_u + 2 u σ j és el

nombre d’estudiants del centre j.

Estimació del models multinivell: mètodes, algorismes i software

Els mètodes d’estimació utilitzats en l’anàlisi multinivell solen ser el de la màxima versemblança o el de mínims quadrats generalitzats. L’aplicació concreta d’aquests principis dóna lloc a diverses tècniques conegudes com màxima versemblança amb informació completa (FIML) quan s’aplica a la variable resposta, màxima versemblança restringida o residual (REML) quan s’aplica als residus. En quant als algorismes de resolució són moltes les possibilitats actuals. Per exemple, entre els software comercial HLM (Bryk et al.,1996) utilitza l’algorisme EM per calcular els estimadors REML. Mlwin (Rasbash, J. et al.2000) utilitza els algorismes IGLS (mínims quadrats generalitzats

(5)

Model de dos nivells amb pendent fix i ordenada a

l’origen aleatòria

(

The Random Intercept Model)

Estudiarem els Models de dos nivells amb variable explicativa a nivell individu.

Entre aquests considerarem els de pendent fix (comú a tots els centres) i ordenada a l’origen aleatòria (que varia entre centres segons una distribució de probabilitat)

Equació(notació més general) i hipòtesis:

j j ij ij oj ij

u

e

x

y

0 0 0 1

+

=

+

=

β

( )

2 0j NI 0, u u ≈

σ

( )

₀_,

σ

2 NI e_ij ≈

suposant també independència entre els residus (efectes) de nivells diferents

Idea:

Sovint té sentit pensar que no solament hi ha una variabilitat no explicada dintre dels grups (entre els individus, variació within) sino que també hi ha una variació no explicada entre els grups (variació between).

Paràmetres d’aquest model:

2 2 1

0,

β

,

σ

,

σ

u

β

El primer coeficient és una mitjana de les ordenades a l’origen, el segon és el pendent comú a tots els grupsi la seva interpretació és la mateixa que en regressió clássica.

ij j

ij

x

u

e

(6)

Conseqüències de les hipòtesis del model sobre la variància no explicada, variància residual, o variància condicionada pels valors de X: 2 2 0 ) var( ) var( ) | var(Y_ij x_ij = u _j + e_ij =

σ

_u +

σ

(

)

( )

2 0 ' '

|

,

var

,

cov

Y

_ij

Y

_i _j

x

_ij

x

_i _j

=

u

_j

=

σ

_u

El coeficient de correlació (residual) intragrups és

(

|

)

₂ 2 ₂ σ σ σ ρ ρ + = = u u X Y

Model de dos nivells amb pendent i ordenada a

l’origen aleatoris

(

The Hierchical Linear Model)

j j j j ij ij j oj ij

u

e

x

y

1 1 1 0 0 0 1

+

=

+

=

+

=

β

Les hipòtesis són que els coeficients, tant l’ordenada a l’origen com el pendent, varien d’un grup a un altre.

Descomposem cada coeficient (aleatori) en un valor promig i una desviació que depén del grup. Aquestes desviacions també

anomenades residus o efectes aleatoris tenen una distribució de probabilitat. Suposem que són normals, amb mitjana 0 i matriu de variàncies /covariàncies Ωu

(

)

j

N

u

Ω

≈









,

0

0     = Ω 10 2 0 u u σ σ

(7)

En quant a l’efecte individu

e

ij suposem que és independent dels

efectes de nivell superior i es distribueix segons

( )

₀_,

σ

2

NI e_ij ≈

També en aquest model es pot distingir una part fixa d’una aleatòria ij ij j j ij ij

x

u

x

e

y

=

β

₀

+

β

₁

+

₀

+

₁

+

Novetats:

• el terme s’interpreta com una interacció (aleatòria) entre grup i variable explicativa

ij jx

u₁

• com a conseqüència de les hipòtesis del model, la variància de la resposta no és constant, depén de la variable X

(heterocedasticitat en la literarura clàssica, modelització de la variància en ML) 2 2 2 1 10 2 0 2 ) | var(Y_ij x_ij =

σ

_u +

σ

_u x_ij +

σ

_u x_ij +

σ

• el coeficient de correlació residual intragrups no és constant

• la matriu té un paper molt rellevant en la interpretació de resultats i en la predicció

u

Ω

• la modelització dels coeficients beta pot anar més enllà incloent variables explicatives de nivell grup, els coeficients com

variables dependents en un model de regressió per la població de grups

(8)

j j j j j j

u

z

u

z

1 11 10 1 0 01 00 0

+

=

+

=

β

• El model anterior contempla la interacció entre variables de dos nivells (cross-level interactions)

ij ij j j ij j ij j ij

z

x

z

x

u

x

e

y

=

β

₀₀

+

β

₀₁

+

β

₁₀

+

β

₁₁

+

₀

+

₁

+

Referències bibliogràfiques Educació

Statistical Modelling Issues in School Effectiveness Studies. M Aitkin and N. Longford, J. R. Statistical Society A (1986), 149.

Sociologia-politologia

People, Places and Regions: Exploring the use of Multilevel Modelling in the analysis of electoral data. K. Jones, R.J. Johnston and C.J. Pattie. B. J. Political Science (1992), 22: 343-380

Salut

Multilevel Modelling of Health Statistics.(2001). Edited by A.H.Leyland and H. Goldstein. John Wiley and Sons

Generals

Bryk, A. S., and Raudenbush, S. W. (1992). Hierarchical Linear Models. Newbury Park, Sage.

Dempster, A.P., Laird, N. and Rubin, D.B. (1977) Maximum likelihood from incomplete data via the EM algorithm. J.R.Statist.S. A,143, 303-320.

Goldstein, H. (1995). Multilevel Statistical Models (3rd Edition). London, Edward Arnold: New York, Halstead Press.

Harville, D.A. (1977). Maximum likelihood approaches to variance component estimation and related problems. J.A.Statist.A. vol. 72 N. 358: 320-340.

Hox, J., J. (1995). Applied Multilevel Analysis. Amsterdam, T-T Publikaties

Kreft, I and De Leeuw, J.(1998). Introducing Multilevel Modelling. London, Sage. Longford, N. T. (1993). Random Coefficient Models. Oxford, Clarendon Press.

Rasbash, J., Browne, W., Goldstein., H., Yang, M., et al. (2000). A user's guide to MLwiN

(Second Edition). London, Institute of Education.

Snijders, T. A. B., and Bosker, R. J. (1999). Multilevel Analysis. An Introduction to Basic and Advanced Multilevel Modelling. London, Sage.

Singer, J. (1998). Using SAS proc MIXED to fit Multilevel Models, Hierarchical Models and Individual Growth Models. J. of Educational and Behavioral Statistics, 24, pp. 323-355.