5. Regresi´ on Lineal Multivariante
5.6. Regresi´on con variables ficticias Mancova
Como hemos visto, los problema de comparaci´on de medias y de regresi´on lineal pueden formalizarse mediante un mismo modelo: el modelo lineal. En el caso de la regresi´on, esto se consigue considerando el par´ametro µ =
X
β, que, seg´un se deduce de (5.2), debe recorrer el subespacio V = X
. Rec´ıprocamente, un problema decomparaci´on de medias (manova), puede transformarse en otro de regresi´on respecto
10Arnold, Asymptotic Validity of F Test for the Ordinary Linear Model and Multiple Correlation
análisis Multivariante
Manu
ales
uex
135
5.6. REGRESI ´ON CON VARIABLES FICTICIAS. MANCOVA 135
a ciertas variables explicativas creadas al efecto, junto con un t´ermino independiente. Veremos ´unicamente c´omo se hace en el manova con un factor. En el cap´ıtulo 6 del volumen 1 dedicado a los Modelos Lineales se consideran dise˜nos con m´as factores aunque, eso s´ı, equilibrados.
As´ı pues, asumiendo las notaciones y condiciones de la secci´on 4.3, se trata de contrastar la hip´otesis inicial de igualdad de medias H0 : ν1 = . . . = νr, partiendo
de sendas muestras independientes de distribuciones p-normales con matriz de cova- rianzas com´un. En ese caso, el par´ametro media µ recorres el subespacio V generado por los vectores vi, definidos en (4.14). Dado que 1n ⊂ V, el problema se reduce a
considerar una base
X
de V que contenga el t´ermino independiente. De esta forma, siX
= (1n|Z
) es una base de V , nuestro problema puede entenderse como una re-gresi´on lineal multivariate respecto a
Z
, y la hip´otesis H0 : β = 0 equivaldr´a a laigualdad de medias. A la hora de elegir
Z
y si las muestras son de tama˜no id´entico n´umero de datos de cada muestra es el mismo , puede resultar natural considerar la descomposici´on ortogonalV =1n ⊕ V |1n
y considerar, precisamente, una base de V|1n. En ese caso, el coeficiente del t´ermino
independiente coincidir´a con la media aritm´etica de las r medias, ν, mientras que los coeficientes de las variables explicativas z[j], j = 1, . . . , r− 1, equivaldr´an, respecti- vamente, a las diferencias νi− ν, i = 1, . . . , r − 1.
Tambi´en puede considerarse, y as´ı lo hace el programa SPSS, la matriz
Z
compues- ta por las columnas (v1, . . . ,vr−1). En ese caso, el t´ermino independiente equivaldr´a ala media νr, mientras que que el coeficiente de z[j] ser´a igual a νj−νr, j = 1, . . . , r−1.
En todo caso, el contraste de igualdad de medias se convierte en una contraste tipo (b) respecto a ciertas variables z[1], . . . z[r− 1], denominadas ficticias, que indican
en definitiva el grupo al que pertenece cada individuo. Por ello, el estad´ıstico de contraste, que depende exclusivamente de los autovalores t1, . . . , tb puede expresarse
en funci´on de los coeficientes de correlaci´on can´onica entre las variables observadas y las ficticias, r2
1, . . . , r2b . La relaci´on entre ambos es la expresada en (5.12). En el caso
univariante, es decir, cuando p = 1, el contraste se resolver´a a trav´es del coeficiente de correlaci´on m´ultiple al cuadrado.
´
Esta es, realmente, la forma de proceder del programa SPSS para resolver una comparaci´on de media, es decir, en el momento que introducimos un factor de va- riabilidad, se generan tantas variables ficticias como niveles tenga el factor menos 1 y se realiza una regresi´on lineal respecto a las mismas. El an´alisis de la covarianza (ancova en el caso univariante y mancova en el multivariante) combina los m´eto- dos de regresi´on y comparaci´on de medias pues, dadas q variables explicativas y un
jesús Montanero fernández
Manu
ales
uex
136
1ª prueba136 CAP´ITULO 5. REGRESI ´ON LINEAL MULTIVARIANTE
factor cualitativo, realiza una regresi´on lineal diferente para cada nivel del factor. Esto se consigue mediante una regresi´on respecto a las variables ficticias asociadas al factor, las variables explicativas consideradas y los productos (interacciones) en- tre ambos tipos de variables. Si no se consideran las interacciones, las ecuaciones de regresi´on de los distintos niveles del factor podr´an diferir ´unicamente en el coeficien- te del t´ermino independiente. Todo lo dicho no es sino una generalizaci´on del caso univariante (p = 1), que se estudia, insistimos, en el cap´ıtulo 6 del volumen 1.
Cuestiones propuestas
1. Comparar (1.5) con (5.6).
2. Hemos visto en la teor´ıa que bajo la hip´otesis de normalidad matricial se veri- fican los supuestos del modelo de correlaci´on lineal. Demostrar la implicaci´on rec´ıproca, es decir, que si Y y X son dos matrices aleatorias en las condiciones del modelo de correlaci´on lineal, entonces la matriz (Y X) es normal matricial. 3. Demostrar que el elipsoide siguiente es una regi´on de confianza al nivel 1− α
para el par´ametro β[j], j = 1, . . . , p : Eα(Y ) = x∈ Rq+1: (q + 1)−1Σˆ−1 jj x− ˆβ[j]
X
X
x− ˆβ[j]≤ Fα q+1,n−q−1 (5.17) 4. Demostrar que el elipsoide siguiente es una regi´on de confianza al nivel 1− αpara el par´ametro βj, j = 0, . . . , q : Eα(Y ) = x∈ Rp: 1 (
X
X
)−1 jj x− ˆβjˆΣ−1 x− ˆβj)≤ Tp,αn−q−1 (5.18) 5. Demostrar que test UMP invariante a nivel α y de raz´on de verosimilitudes para el contraste parcial de una ´unica variable explicativa es consistente con el elipsoide de confianza (5.18), en el sentido de que el test rechaza la hip´otesis inicial si, y s´olo si, el vector 0 queda fuera del elipsoide.Indicaci´on: considerar el teorema 5.2 junto con el lema 2.6. 6. Demostrar (4.16).
7. Demostrar que, en el estad´ıstico de contraste de la hip´otesis inicial H0: β = 0,
se verifica
Manu
ales
uex
137
Cap´ıtulo 6
An´alisis de correlaci´on can´onica
Los coeficientes de correlaci´on can´onica constituyen la generalizaci´on natural del coeficiente de correlaci´on m´ultiple R al caso multivariante. En el presente cap´ıtulo veremos en qu´e sentido podemos afirmar esto. Ya hemos hecho referencia a estos coeficientes en dos ocasiones: en el contraste de independencia y en contraste de la hip´otesis H0: β = 0. Realmente, se trata de un mismo problema, s´olo que el primer
contraste se realiza en el modelo de correlaci´on mientras que el segundo se efect´ua en el de regresi´on, que se obtiene a a partir del anterior, recordemos, condicionando en las variables explicativas.
Aqu´ı aparece por primera una vez una t´ecnica t´ıpica, quiz´as la m´as caracter´ıstica, del an´alisis multivariante, consistente en el c´alculo de lo que algunos autores denomi- nan valores te´oricos, que son combinaciones en lineales (es decir, sumas ponderadas) de las variables consideradas originalmente. Desde un punto de vista geom´etrico po- demos interpretar los valores te´oricos como proyecciones de las observaciones origi- nales sobre determinados ejes, que var´ıan seg´un la finalidad del estudio (correlaci´on can´onica, componentes principales, an´alisis discriminante). Esta forma de proceder est´a orientada a estructurar los datos de manera can´onica o natural, dependiendo del prop´osito perseguido, y puede dar pie a una profunda reducci´on en la dimensi´on verdadera del problema.
6.1.
Definici´on
Empezaremos recordando los coeficientes de correlaci´on simple y m´ultiple. Dadas dos variables aleatorias reales Y y Z con varianzas finitas σ2
yy σ2zy covarianza σzy,se
jesús Montanero fernández