Regresi´on con variables ﬁcticias Mancova

5. Regresi´ on Lineal Multivariante

5.6. Regresi´on con variables ﬁcticias Mancova

Como hemos visto, los problema de comparación de medias y de regresión lineal pueden formalizarse mediante un mismo modelo: el modelo lineal. En el caso de la regresión, esto se consigue considerando el parámetro µ =

X

β, que, seg´un se deduce de (5.2), debe recorrer el subespacio V = _

X

. Rec´ıprocamente, un problema de

comparaci´on de medias (manova), puede transformarse en otro de regresi´on respecto

10_{Arnold, Asymptotic Validity of F Test for the Ordinary Linear Model and Multiple Correlation}

análisis Multivariante

Manu

ales

uex

135

5.6. REGRESI ´ON CON VARIABLES FICTICIAS. MANCOVA 135

a ciertas variables explicativas creadas al efecto, junto con un término independiente. Veremos únicamente cómo se hace en el manova con un factor. En el cap´ıtulo 6 del volumen 1 dedicado a los Modelos Lineales se consideran diseños con más factores aunque, eso s´ı, equilibrados.

As´ı pues, asumiendo las notaciones y condiciones de la secci´on 4.3, se trata de contrastar la hip´otesis inicial de igualdad de medias H0 : ν1 = . . . = νr, partiendo

de sendas muestras independientes de distribuciones p-normales con matriz de cova- rianzas com´un. En ese caso, el par´ametro media µ recorres el subespacio V generado por los vectores vi, deﬁnidos en (4.14). Dado que 1n ⊂ V, el problema se reduce a

considerar una base

X

de V que contenga el t´ermino independiente. De esta forma, si

X

= (1n|

Z

) es una base de V , nuestro problema puede entenderse como una re-

gresi´on lineal multivariate respecto a

Z

, y la hip´otesis H0 : β = 0 equivaldr´a a la

igualdad de medias. A la hora de elegir

Z

y si las muestras son de tamaño idéntico número de datos de cada muestra es el mismo , puede resultar natural considerar la descomposición ortogonal

V =_1n ⊕ V |1n

y considerar, precisamente, una base de V_|1n. En ese caso, el coeﬁciente del t´ermino

independiente coincidirá con la media aritmética de las r medias, ν, mientras que los coeficientes de las variables explicativas z[j], j = 1, . . . , r_{− 1, equivaldrán, respecti-} vamente, a las diferencias νi− ν, i = 1, . . . , r − 1.

Tambi´en puede considerarse, y as´ı lo hace el programa SPSS, la matriz

Z

compues- ta por las columnas (v1, . . . ,vr−1). En ese caso, el t´ermino independiente equivaldr´a a

la media νr, mientras que que el coeﬁciente de z[j] ser´a igual a νj−νr, j = 1, . . . , r−1.

En todo caso, el contraste de igualdad de medias se convierte en una contraste tipo (b) respecto a ciertas variables z[1], . . . z[r− 1], denominadas ﬁcticias, que indican

en deﬁnitiva el grupo al que pertenece cada individuo. Por ello, el estad´ıstico de contraste, que depende exclusivamente de los autovalores t1, . . . , tb puede expresarse

en función de los coeficientes de correlación canónica entre las variables observadas y las ficticias, r2

1, . . . , r2b . La relaci´on entre ambos es la expresada en (5.12). En el caso

univariante, es decir, cuando p = 1, el contraste se resolverá a través del coeficiente de correlación múltiple al cuadrado.

Esta es, realmente, la forma de proceder del programa SPSS para resolver una comparación de media, es decir, en el momento que introducimos un factor de va- riabilidad, se generan tantas variables ficticias como niveles tenga el factor menos 1 y se realiza una regresión lineal respecto a las mismas. El análisis de la covarianza (ancova en el caso univariante y mancova en el multivariante) combina los méto- dos de regresión y comparación de medias pues, dadas q variables explicativas y un

jesús Montanero fernández

Manu

ales

uex

136

1ª prueba

136 CAP´ITULO 5. REGRESI ´ON LINEAL MULTIVARIANTE

factor cualitativo, realiza una regresión lineal diferente para cada nivel del factor. Esto se consigue mediante una regresión respecto a las variables ficticias asociadas al factor, las variables explicativas consideradas y los productos (interacciones) entre ambos tipos de variables. Si no se consideran las interacciones, las ecuaciones de regresión de los distintos niveles del factor podrán diferir únicamente en el coeficiente del término independiente. Todo lo dicho no es sino una generalización del caso univariante (p = 1), que se estudia, insistimos, en el cap´ıtulo 6 del volumen 1.

Cuestiones propuestas

1. Comparar (1.5) con (5.6).

2. Hemos visto en la teor´ıa que bajo la hipótesis de normalidad matricial se veri- fican los supuestos del modelo de correlación lineal. Demostrar la implicación rec´ıproca, es decir, que si Y y X son dos matrices aleatorias en las condiciones del modelo de correlación lineal, entonces la matriz (Y X) es normal matricial. 3. Demostrar que el elipsoide siguiente es una región de confianza al nivel 1_{− α}

para el par´ametro β[j], j = 1, . . . , p : Eα(Y ) =  x_{∈ R}q+1_{: (q + 1)}−1_Σˆ−1 jj  x_{− ˆ}β[j]

X



_X

_x_{− ˆ}_β[j]_{≤ F}α q+1,n−q−1  (5.17) 4. Demostrar que el elipsoide siguiente es una regi´on de conﬁanza al nivel 1_{− α}

para el par´ametro βj, j = 0, . . . , q : Eα(Y ) =  x∈ Rp_: _ 1 (

X



_X

₎−1 jj  x− ˆβjˆΣ−1  x− ˆβj)≤ Tp,αn−q−1  (5.18) 5. Demostrar que test UMP invariante a nivel α y de razón de verosimilitudes para el contraste parcial de una única variable explicativa es consistente con el elipsoide de confianza (5.18), en el sentido de que el test rechaza la hipótesis inicial si, y sólo si, el vector 0 queda fuera del elipsoide.

Indicaci´on: considerar el teorema 5.2 junto con el lema 2.6. 6. Demostrar (4.16).

7. Demostrar que, en el estad´ıstico de contraste de la hip´otesis inicial H0: β = 0,

se veriﬁca

Manu

ales

uex

137 Cap´ıtulo 6

Análisis de correlación canónica

Los coeficientes de correlación canónica constituyen la generalización natural del coeficiente de correlación m´ultiple R al caso multivariante. En el presente cap´ıtulo veremos en qué sentido podemos afirmar esto. Ya hemos hecho referencia a estos coeficientes en dos ocasiones: en el contraste de independencia y en contraste de la hipótesis H0: β = 0. Realmente, se trata de un mismo problema, sólo que el primer

contraste se realiza en el modelo de correlación mientras que el segundo se efectúa en el de regresión, que se obtiene a a partir del anterior, recordemos, condicionando en las variables explicativas.

Aqu´ı aparece por primera una vez una técnica t´ıpica, quizás la más caracter´ıstica, del análisis multivariante, consistente en el cálculo de lo que algunos autores denomi- nan valores teóricos, que son combinaciones en lineales (es decir, sumas ponderadas) de las variables consideradas originalmente. Desde un punto de vista geométrico podemos interpretar los valores teóricos como proyecciones de las observaciones origi- nales sobre determinados ejes, que var´ıan según la finalidad del estudio (correlación canónica, componentes principales, análisis discriminante). Esta forma de proceder está orientada a estructurar los datos de manera canónica o natural, dependiendo del propósito perseguido, y puede dar pie a una profunda reducción en la dimensión verdadera del problema.

6.1. Deﬁnici´on

Empezaremos recordando los coeficientes de correlación simple y múltiple. Dadas dos variables aleatorias reales Y y Z con varianzas finitas σ2

yy σ2zy covarianza σzy,se

jesús Montanero fernández

Manu

ales

uex

In document Análisis multivariente (página 134-138)