• No se han encontrado resultados

Regresi´on con variables ficticias Mancova

In document Análisis multivariente (página 134-138)

5. Regresi´ on Lineal Multivariante

5.6. Regresi´on con variables ficticias Mancova

Como hemos visto, los problema de comparaci´on de medias y de regresi´on lineal pueden formalizarse mediante un mismo modelo: el modelo lineal. En el caso de la regresi´on, esto se consigue considerando el par´ametro µ =

X

β, que, seg´un se deduce de (5.2), debe recorrer el subespacio V =

X

. Rec´ıprocamente, un problema de

comparaci´on de medias (manova), puede transformarse en otro de regresi´on respecto

10Arnold, Asymptotic Validity of F Test for the Ordinary Linear Model and Multiple Correlation

análisis Multivariante

Manu

ales

uex

135

5.6. REGRESI ´ON CON VARIABLES FICTICIAS. MANCOVA 135

a ciertas variables explicativas creadas al efecto, junto con un t´ermino independiente. Veremos ´unicamente c´omo se hace en el manova con un factor. En el cap´ıtulo 6 del volumen 1 dedicado a los Modelos Lineales se consideran dise˜nos con m´as factores aunque, eso s´ı, equilibrados.

As´ı pues, asumiendo las notaciones y condiciones de la secci´on 4.3, se trata de contrastar la hip´otesis inicial de igualdad de medias H0 : ν1 = . . . = νr, partiendo

de sendas muestras independientes de distribuciones p-normales con matriz de cova- rianzas com´un. En ese caso, el par´ametro media µ recorres el subespacio V generado por los vectores vi, definidos en (4.14). Dado que 1n ⊂ V, el problema se reduce a

considerar una base

X

de V que contenga el t´ermino independiente. De esta forma, si

X

= (1n|

Z

) es una base de V , nuestro problema puede entenderse como una re-

gresi´on lineal multivariate respecto a

Z

, y la hip´otesis H0 : β = 0 equivaldr´a a la

igualdad de medias. A la hora de elegir

Z

y si las muestras son de tama˜no id´entico n´umero de datos de cada muestra es el mismo , puede resultar natural considerar la descomposici´on ortogonal

V =1n ⊕ V |1n

y considerar, precisamente, una base de V|1n. En ese caso, el coeficiente del t´ermino

independiente coincidir´a con la media aritm´etica de las r medias, ν, mientras que los coeficientes de las variables explicativas z[j], j = 1, . . . , r− 1, equivaldr´an, respecti- vamente, a las diferencias νi− ν, i = 1, . . . , r − 1.

Tambi´en puede considerarse, y as´ı lo hace el programa SPSS, la matriz

Z

compues- ta por las columnas (v1, . . . ,vr−1). En ese caso, el t´ermino independiente equivaldr´a a

la media νr, mientras que que el coeficiente de z[j] ser´a igual a νj−νr, j = 1, . . . , r−1.

En todo caso, el contraste de igualdad de medias se convierte en una contraste tipo (b) respecto a ciertas variables z[1], . . . z[r− 1], denominadas ficticias, que indican

en definitiva el grupo al que pertenece cada individuo. Por ello, el estad´ıstico de contraste, que depende exclusivamente de los autovalores t1, . . . , tb puede expresarse

en funci´on de los coeficientes de correlaci´on can´onica entre las variables observadas y las ficticias, r2

1, . . . , r2b . La relaci´on entre ambos es la expresada en (5.12). En el caso

univariante, es decir, cuando p = 1, el contraste se resolver´a a trav´es del coeficiente de correlaci´on m´ultiple al cuadrado.

´

Esta es, realmente, la forma de proceder del programa SPSS para resolver una comparaci´on de media, es decir, en el momento que introducimos un factor de va- riabilidad, se generan tantas variables ficticias como niveles tenga el factor menos 1 y se realiza una regresi´on lineal respecto a las mismas. El an´alisis de la covarianza (ancova en el caso univariante y mancova en el multivariante) combina los m´eto- dos de regresi´on y comparaci´on de medias pues, dadas q variables explicativas y un

jesús Montanero fernández

Manu

ales

uex

136

1ª prueba

136 CAP´ITULO 5. REGRESI ´ON LINEAL MULTIVARIANTE

factor cualitativo, realiza una regresi´on lineal diferente para cada nivel del factor. Esto se consigue mediante una regresi´on respecto a las variables ficticias asociadas al factor, las variables explicativas consideradas y los productos (interacciones) en- tre ambos tipos de variables. Si no se consideran las interacciones, las ecuaciones de regresi´on de los distintos niveles del factor podr´an diferir ´unicamente en el coeficien- te del t´ermino independiente. Todo lo dicho no es sino una generalizaci´on del caso univariante (p = 1), que se estudia, insistimos, en el cap´ıtulo 6 del volumen 1.

Cuestiones propuestas

1. Comparar (1.5) con (5.6).

2. Hemos visto en la teor´ıa que bajo la hip´otesis de normalidad matricial se veri- fican los supuestos del modelo de correlaci´on lineal. Demostrar la implicaci´on rec´ıproca, es decir, que si Y y X son dos matrices aleatorias en las condiciones del modelo de correlaci´on lineal, entonces la matriz (Y X) es normal matricial. 3. Demostrar que el elipsoide siguiente es una regi´on de confianza al nivel 1− α

para el par´ametro β[j], j = 1, . . . , p : Eα(Y ) =x∈ Rq+1: (q + 1)−1Σˆ−1 jjx− ˆβ[j]

X

X

x− ˆβ[j]≤ Fα q+1,n−q−1  (5.17) 4. Demostrar que el elipsoide siguiente es una regi´on de confianza al nivel 1− α

para el par´ametro βj, j = 0, . . . , q : Eα(Y ) =x∈ Rp: 1 (

X

X

)−1jjx− ˆβjˆΣ−1x− ˆβj)≤ Tp,αn−q−1  (5.18) 5. Demostrar que test UMP invariante a nivel α y de raz´on de verosimilitudes para el contraste parcial de una ´unica variable explicativa es consistente con el elipsoide de confianza (5.18), en el sentido de que el test rechaza la hip´otesis inicial si, y s´olo si, el vector 0 queda fuera del elipsoide.

Indicaci´on: considerar el teorema 5.2 junto con el lema 2.6. 6. Demostrar (4.16).

7. Demostrar que, en el estad´ıstico de contraste de la hip´otesis inicial H0: β = 0,

se verifica

Manu

ales

uex

137

Cap´ıtulo 6

An´alisis de correlaci´on can´onica

Los coeficientes de correlaci´on can´onica constituyen la generalizaci´on natural del coeficiente de correlaci´on m´ultiple R al caso multivariante. En el presente cap´ıtulo veremos en qu´e sentido podemos afirmar esto. Ya hemos hecho referencia a estos coeficientes en dos ocasiones: en el contraste de independencia y en contraste de la hip´otesis H0: β = 0. Realmente, se trata de un mismo problema, s´olo que el primer

contraste se realiza en el modelo de correlaci´on mientras que el segundo se efect´ua en el de regresi´on, que se obtiene a a partir del anterior, recordemos, condicionando en las variables explicativas.

Aqu´ı aparece por primera una vez una t´ecnica t´ıpica, quiz´as la m´as caracter´ıstica, del an´alisis multivariante, consistente en el c´alculo de lo que algunos autores denomi- nan valores te´oricos, que son combinaciones en lineales (es decir, sumas ponderadas) de las variables consideradas originalmente. Desde un punto de vista geom´etrico po- demos interpretar los valores te´oricos como proyecciones de las observaciones origi- nales sobre determinados ejes, que var´ıan seg´un la finalidad del estudio (correlaci´on can´onica, componentes principales, an´alisis discriminante). Esta forma de proceder est´a orientada a estructurar los datos de manera can´onica o natural, dependiendo del prop´osito perseguido, y puede dar pie a una profunda reducci´on en la dimensi´on verdadera del problema.

6.1.

Definici´on

Empezaremos recordando los coeficientes de correlaci´on simple y m´ultiple. Dadas dos variables aleatorias reales Y y Z con varianzas finitas σ2

yy σ2zy covarianza σzy,se

jesús Montanero fernández

Manu

ales

uex

In document Análisis multivariente (página 134-138)

Documento similar