• No se han encontrado resultados

Els models de regressió multinivell en la recerca educativa: el cas de les Proves d Accés a la Universitat (PAU)

N/A
N/A
Protected

Academic year: 2021

Share "Els models de regressió multinivell en la recerca educativa: el cas de les Proves d Accés a la Universitat (PAU)"

Copied!
8
0
0

Texto completo

(1)

Els models de regressió multinivell en la recerca educativa: el cas de les Proves d’Accés a la Universitat (PAU)

Seminari del Servei d'Estadística de la UAB 27 de maig del 2004

Anna Cuxart Jardí Universitat Pompeu Fabra

Són molts els àmbits de recerca en què les dades a analitzar mostren una clara estructura jeràrquica: en investigació educativa, on els estudiants comparteixen classes i aquestes, a la vegada, s'agrupen en escoles; en la recerca biomèdica on es prenen dades dels mateixos individus en vàries ocasions. Tan en un cas com en l'altre les observacions d'un mateix grup acostumem a compartir característiques que invaliden el supòsit d'independència dels models de regressió clàssics (d'un sol nivell). Cap als anys 80, la recerca en avaluació educativa va impulsar la formulació dels anomenats models multinivell que ofereixen un tractament més adequat de les dades amb estructura jeràrquica. Actualment el seu camp d’aplicació s’ha ampliat a molts altres àmbits de recerca.

Són millorables les PAU de Catalunya? Es pot parlar de diferències entre centres de secundària? Quins aspectes demanen un seguiment estadístic? Anna Cuxart ha aplicat modelització estadística1, en particular models multinivell, per intentar respondre a algunes d’aquestes preguntes. Aquest cas pràctic servirà de fil conductor per la presentació dels models multinivell: motivació, formulació, eines d'anàlisi que ofereixen i estimació.

1Cuxart Jardí, A. and Longford, N.T. (1998) Monitoring the university admissions process

in Spain . Higher education in Europe. UNESCO.Vol XXIII, No. 3, pp 385-396.

(2)

Notes d’introducció a l’Anàlisi Multinivell

Model d’anàlisi de la variància d’efectes aleatoris,

RANOVA

(

null model, empty model

)

Formulació:

ij j

ij

u

e

Y

=

µ

+

+

Observació = mitjana global + efecte grup + efecte individu

L’observació

Y

ij corresponent a l’individu i que pertany al grup j

és igual a la mitjana global de tota la població més l’efecte degut a pertànyer al grup j més l’efecte específic de l’individu ij

uj i eij representen, doncs, desviacions respecte de mitjanes

µ és la “verdadera” mitjana poblacional (la que obtindriem a partir de tots els individus i tots els grups)

µ + uj és la “verdadera” mitjana del grup j

Hipòtesis del model:

Les variables aleatòries eij i uj són mutuament independents amb

mitjana 0 i variància σ2 i σu2 , respectivament.

Interpretació:

σ2 és la variància dins dels grups, entre els individus respecte de

les mitjanes verdaderes de grup (Within-group variance)

2

u

σ és la variància entre la població de grups, variància entre les verdaderes mitjanes de grup (Between-group variance)

(3)

Paràmetres del model RANOVA: µ, σ2 i σu2

La importància d’aquest model (RANOVA) es troba en què ofereix una descomposició bàsica de la variació de la resposta (variable en estudi) en els dos nivells de variació possibles: entre els grups i dins dels grups entre els individus.

Conseqüències 2 2 ) var( ) var( ) var(Yij = uj + eij =

σ

u +

σ

La covariància entre dues observacions del mateix grup (i i i’ sent

i≠ i’ ) és igual a la variància de l’efecte grup (segon nivell):

(

)

(

)

( )

2

'

'

cov

,

var

,

cov

Y

ij

Y

i j

=

u

j

+

e

ij

u

j

+

e

i j

=

u

j

=

σ

u

La correlació entre dues observacions diferents del mateix grup serà el quocient

(

)

2 2 2 ' '

)

var(

)

,

cov(

,

σ

σ

σ

ρ

ρ

+

=

=

=

u u ij j i ij j i ij

Y

Y

Y

Y

Y

Aquest coeficient conegut com a coeficient de correlació

intragrups (intra-class correlation en anglès)es pot interpretar com:

• La correlació entre dues observacions escollides a l’atzar d’un mateix grup escollit també a l’atzar

• La proporció de variació total que correspon a variabilitat entre grups

• una mesura del grau d’homogeneïtat dels grups, de la dependència dins (intra) dels grups

(4)

Valors de ρ

ρ sempre és positiu i varia entre 0 i 1

Interpretació dels valors de ρ

Com més diferents són entre sí els grups (mitjanes diferents) i més similars són els individus dins dels grups, més gran serà ρ .

Com més gran és ρ menys fiables són els resultats derivats d’una anàlisi d’un sol nivell. Valors de ρ superiors a 0.10 ja fan aconsellable una anàlisi multinivell.

L’existència de correlació intra-grups viola la hipòtesi d’independència entre les observacions dels models lineals tradicionals.

Estructura de la matriu V de variàncies i covariàncies de

Y

ij

(

nj u nj

)

G I J

I

V = ⊗ σ 2 +σ2

Es tracta d’una matriu bloc-diagonal. Ordenats els alumnes per centres, cada centre dóna lloc a un bloc. La matriu de variàncies i covariàncies de cada centre té en la diagonal la suma i en la resta de caselles . El nombre de centres (grups) és G i n

2 2 σ σu + 2 u σ j és el

nombre d’estudiants del centre j.

Estimació del models multinivell: mètodes, algorismes i software

Els mètodes d’estimació utilitzats en l’anàlisi multinivell solen ser el de la màxima versemblança o el de mínims quadrats generalitzats. L’aplicació concreta d’aquests principis dóna lloc a diverses tècniques conegudes com màxima versemblança amb informació completa (FIML) quan s’aplica a la variable resposta, màxima versemblança restringida o residual (REML) quan s’aplica als residus. En quant als algorismes de resolució són moltes les possibilitats actuals. Per exemple, entre els software comercial HLM (Bryk et al.,1996) utilitza l’algorisme EM per calcular els estimadors REML. Mlwin (Rasbash, J. et al.2000) utilitza els algorismes IGLS (mínims quadrats generalitzats

(5)

Model de dos nivells amb pendent fix i ordenada a

l’origen aleatòria

(

The Random Intercept Model)

Estudiarem els Models de dos nivells amb variable explicativa a nivell individu.

Entre aquests considerarem els de pendent fix (comú a tots els centres) i ordenada a l’origen aleatòria (que varia entre centres segons una distribució de probabilitat)

Equació(notació més general) i hipòtesis:

j j ij ij oj ij

u

e

x

y

0 0 0 1

+

=

+

+

=

β

β

β

β

( )

2 0j NI 0, u u

σ

( )

0,

σ

2 NI eij

suposant també independència entre els residus (efectes) de nivells diferents

Idea:

Sovint té sentit pensar que no solament hi ha una variabilitat no explicada dintre dels grups (entre els individus, variació within) sino que també hi ha una variació no explicada entre els grups (variació between).

Paràmetres d’aquest model:

2 2 1

0,

β

,

σ

,

σ

u

β

El primer coeficient és una mitjana de les ordenades a l’origen, el segon és el pendent comú a tots els grupsi la seva interpretació és la mateixa que en regressió clássica.

ij j

ij

ij

x

u

e

(6)

Conseqüències de les hipòtesis del model sobre la variància no explicada, variància residual, o variància condicionada pels valors de X: 2 2 0 ) var( ) var( ) | var(Yij xij = u j + eij =

σ

u +

σ

(

)

( )

2 0 ' '

|

,

var

,

cov

Y

ij

Y

i j

x

ij

x

i j

=

u

j

=

σ

u

El coeficient de correlació (residual) intragrups és

(

|

)

2 2 2 σ σ σ ρ ρ + = = u u X Y

Model de dos nivells amb pendent i ordenada a

l’origen aleatoris

(

The Hierchical Linear Model)

j j j j ij ij j oj ij

u

u

e

x

y

1 1 1 0 0 0 1

+

=

+

=

+

+

=

β

β

β

β

β

β

Les hipòtesis són que els coeficients, tant l’ordenada a l’origen com el pendent, varien d’un grup a un altre.

Descomposem cada coeficient (aleatori) en un valor promig i una desviació que depén del grup. Aquestes desviacions també

anomenades residus o efectes aleatoris tenen una distribució de probabilitat. Suposem que són normals, amb mitjana 0 i matriu de variàncies /covariàncies Ωu

(

)

j

N

u

,

0

0     = Ω 10 2 0 u u σ σ

(7)

En quant a l’efecte individu

e

ij suposem que és independent dels

efectes de nivell superior i es distribueix segons

( )

0,

σ

2

NI eij

També en aquest model es pot distingir una part fixa d’una aleatòria ij ij j j ij ij

x

u

u

x

e

y

=

β

0

+

β

1

+

0

+

1

+

Novetats:

• el terme s’interpreta com una interacció (aleatòria) entre grup i variable explicativa

ij jx

u1

• com a conseqüència de les hipòtesis del model, la variància de la resposta no és constant, depén de la variable X

(heterocedasticitat en la literarura clàssica, modelització de la variància en ML) 2 2 2 1 10 2 0 2 ) | var(Yij xij =

σ

u +

σ

u xij +

σ

u xij +

σ

• el coeficient de correlació residual intragrups no és constant

• la matriu té un paper molt rellevant en la interpretació de resultats i en la predicció

u

• la modelització dels coeficients beta pot anar més enllà incloent variables explicatives de nivell grup, els coeficients com

variables dependents en un model de regressió per la població de grups

(8)

j j j j j j

u

z

u

z

1 11 10 1 0 01 00 0

+

+

=

+

+

=

β

β

β

β

β

β

• El model anterior contempla la interacció entre variables de dos nivells (cross-level interactions)

ij ij j j ij j ij j ij

z

x

z

x

u

u

x

e

y

=

β

00

+

β

01

+

β

10

+

β

11

+

0

+

1

+

Referències bibliogràfiques Educació

Statistical Modelling Issues in School Effectiveness Studies. M Aitkin and N. Longford, J. R. Statistical Society A (1986), 149.

Sociologia-politologia

People, Places and Regions: Exploring the use of Multilevel Modelling in the analysis of electoral data. K. Jones, R.J. Johnston and C.J. Pattie. B. J. Political Science (1992), 22: 343-380

Salut

Multilevel Modelling of Health Statistics.(2001). Edited by A.H.Leyland and H. Goldstein. John Wiley and Sons

Generals

Bryk, A. S., and Raudenbush, S. W. (1992). Hierarchical Linear Models. Newbury Park, Sage.

Dempster, A.P., Laird, N. and Rubin, D.B. (1977) Maximum likelihood from incomplete data via the EM algorithm. J.R.Statist.S. A,143, 303-320.

Goldstein, H. (1995). Multilevel Statistical Models (3rd Edition). London, Edward Arnold: New York, Halstead Press.

Harville, D.A. (1977). Maximum likelihood approaches to variance component estimation and related problems. J.A.Statist.A. vol. 72 N. 358: 320-340.

Hox, J., J. (1995). Applied Multilevel Analysis. Amsterdam, T-T Publikaties

Kreft, I and De Leeuw, J.(1998). Introducing Multilevel Modelling. London, Sage. Longford, N. T. (1993). Random Coefficient Models. Oxford, Clarendon Press.

Rasbash, J., Browne, W., Goldstein., H., Yang, M., et al. (2000). A user's guide to MLwiN

(Second Edition). London, Institute of Education.

Snijders, T. A. B., and Bosker, R. J. (1999). Multilevel Analysis. An Introduction to Basic and Advanced Multilevel Modelling. London, Sage.

Singer, J. (1998). Using SAS proc MIXED to fit Multilevel Models, Hierarchical Models and Individual Growth Models. J. of Educational and Behavioral Statistics, 24, pp. 323-355.

Referencias

Documento similar

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

La siguiente y última ampliación en la Sala de Millones fue a finales de los años sesenta cuando Carlos III habilitó la sexta plaza para las ciudades con voto en Cortes de

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

En este trabajo estudiamos la obra poética en español del escritor y profesor argelino Salah Négaoui, a través de la recuperación textual y análisis de Poemas la voz, texto pu-

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

A ello cabría afladir las intensas precipitaciones, generalizadas en todo el antiguo reino valenciano, del año 1756 que provocaron notables inundaciones y, como guinda final,

En la parte central de la línea, entre los planes de gobierno o dirección política, en el extremo izquierdo, y los planes reguladores del uso del suelo (urbanísticos y