Representaci´
on de datos multivariantes
en dimensi´
on reducida
Francesc Carmona, Carles M. Cuadras y Josep Maria Oller Departamento de Estad´ıstica
Universidad de Barcelona
[email protected], [email protected], [email protected] 15-12-2000
Un conjunto de m´etodos multivariantes resuelven el problema de representar geom´ etrica-mente los individuos, objetos o subpoblaciones ω1, ω2, . . . , ωnde una poblaci´on Ω, respecto
a unas variables observables X1, X2, . . . , Xk que pueden ser cuantitativas, cualitativas o
una combinaci´on de ambos tipos.
En algunos m´etodos de representaci´on de datos, la informaci´on de entrada es una tabla de datos X, en la que xij = Xj(ωi) representa el valor observado de la variable Xj sobre
el individuo ωi. X1 X2 . . . Xk ω1 x11 x12 . . . x1k ω2 x21 x22 . . . x2k .. . ... ... ... ωn xn1 xn2 . . . xnk
En otros m´etodos la informaci´on de entrada es una matriz de disimilaridades.
La informaci´on de salida es una representaci´on geom´etrica de los individuos en dimensi´on reducida (en el plano o en el espacio), que exprese sus diferencias y analog´ıas de la mejor forma posible.
En l´ıneas generales deben distinguirse tres casos:
1) Los individuos constituyen una muestra de tama˜no n de la poblaci´on Ω. Normal-mente la representaci´on de los datos se suele completar con ciertas conclusiones de tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra de especies de un mismo g´enero, utilizando un individuo por especie.
2) Los n individuos constituyen toda la poblaci´on Ω = {ω1, . . . , ωn}
Ejemplo: representaci´on de las 41 comarcas de Catalunya respecto a variables so-cioecon´omicas.
3) La poblaci´on Ω es la reuni´on de p subpoblaciones excluyentes Ω = Ω1+ · · · + Ωp
Se dispone de una muestra de tama˜no ni de la subpoblaci´on Ωi. Se trata entonces
de representar las p subpoblaciones. Ejemplo: representaci´on de p especies distintas disponiendo de ni individuos por especie.
Una descripci´on breve de los principales m´etodos de an´alisis de datos se expone a conti-nuaci´on:
An´alisis de componentes principales. Utiliza variables cuantitativas y cualitativas y una distancia eucl´ıdea entre los individuos.
An´alisis de coordenadas principales. Utiliza variables cualitativas y una distancia relacionada con la similaridad entre los individuos. Est´a relacionado con el m´etodo anterior.
An´alisis de correspondencias. Es apropiado para representar datos cualitativos orga-nizados en una tabla de contingencia. Utiliza la distancia ji-cuadrado.
An´alisis can´onico de poblaciones. Es apropiado para representar poblaciones, utili-zando generalmente variables cuantitativas. Utiliza la distancia de Mahalanobis. An´alisis de proximidades. Es el m´etodo m´as general de representaci´on de datos. El
an´alisis se realiza sobre una matriz de disimilaridades.
El objetivo de este art´ıculo es explicar los conceptos y propiedades te´oricas sobre las que se desarrollan los diversos m´etodos. Seguidamente desarrollaremos el An´alisis de compo-nentes principales, el An´alisis can´onico de poblaciones y el An´alisis de correspondencias como consecuencia de estas propiedades.
1.
Distancias estad´ısticas
Una cuesti´on b´asica que debe plantearse para la representaci´on de datos es una adecuada elecci´on de la distancia entre los individuos a representar.
Asignemos a cada individuo ωi el vector de coordenadas
xi = (xi1, xi2, . . . , xik)0 i = 1, . . . , n
con las observaciones sobre las variables X1, X2, . . . , Xk. Se puede interpretar xi como un
punto del espacio eucl´ıdeo Rk. Nuestro problema es representar los n puntos de Rk en un espacio de dimensi´on menor, generalmente en el plano.
1.1.
Distancia eucl´ıdea
Una definici´on simple de distancia es
d(ωi, ωj) = v u u t k X h=1 (xih− xjh)2
que es la distancia eucl´ıdea entre los puntos xi y xj de Rk. Observemos que el cuadrado
de la distancia en notaci´on matricial es
d2(ωi, ωj) = (xi− xj)0(xi− xj) (1)
Esta distancia, aunque es invariante por transformaciones ortogonales, tiene el inconve-niente de ser sensible a cambios de escala de las variables. Es recomendable utilizarla en caso de homogeneidad entre la naturaleza f´ısica de las variables y desconocer la matriz de covarianzas.
1.2.
Distancia de Mahalanobis
Introducimos a continuaci´on una distancia estad´ıstica general perfectamente adecuada para diferenciar individuos o poblaciones mediante k variables aleatorias.
1.2.1. Caso k = 1
Sea X una variable de valor medio µ y desviaci´on t´ıpica σ. La distancia estad´ıstica entre ωi y ωj, siendo X(ωi) = xi y X(ωj) = xj, es por definici´on
d(ωi, ωj) =
|xi− xj|
σ Son propiedades de esta distancia:
1) Es invariante por cambios de escala.
2) Es una distancia normalizada expresada en unidades de desviaci´on t´ıpica. Para una variable con distribuci´on normal, el campo de variabilidad de esta distancia estar´a pr´acticamente comprendido entre 0 y 4.
1.2.2. Caso k > 1
Sean X1, X2, . . . , Xkvariables aleatorias de matriz de covarianzas Σ y ωi, ωj dos individuos
de coordenadas
xi = (xi1, xi2, . . . , xik)0 xj = (xj1, xj2, . . . , xjk)0
Supongamos que Σ es no singular. Definimos la distancia (al cuadrado) entre ωi y ωj por
Si Ωi, Ωj son dos poblaciones representadas por sus vectores de medias µi, µj y con matriz
de covarianzas com´un Σ, el cuadrado de la distancia entre ambas poblaciones es D2(Ωi, Ωj) = (µi− µj)
0
Σ−1(µi − µj)
Si ω es un individuo de coordenadas x = (x1, . . . , xk)0y el vector de medias de la poblaci´on
es µ, el cuadrado de la distancia estad´ıstica de ω al individuo medio de la poblaci´on es D2(ω, Ω) = (x − µ)0Σ−1(x − µ)
Esta distancia estad´ıstica general fue introducida por Mahalanobis (1936). Aunque en las aplicaciones se utiliza la distancia D, trabajaremos normalmente con D2 para disponer de una mayor comodidad de notaci´on.
La distancia de Mahalanobis tiene las siguientes propiedades: 1) D2(ω
i, ωj) = D2(ωj, ωi)
2) D2(ω
i, ωj) ≥ 0
3) D2(ωi, ωi) = 0
(estas tres primeras propiedades definen el concepto general de distancia) 4) D2(ω
i, ωj) = 0 si y s´olo si xi = xj
5) D2(ωi, ωj) ≤ D2(ωi, ωh) + D2(ωh, ωj)
(con las cinco propiedades anteriores, la distancia se llama m´etrica)
6) Es invariante por transformaciones lineales no singulares de las variables. En parti-cular es invariante por cambios de escala.
7) Est´a expresada en unidades de desviaci´on t´ıpica y tiene en cuenta las correlaciones entre las variables (redundancia).
8) Si indicamos por D2
ka la distancia al cuadrado expresada en funci´on de k variables,
entonces
D2k≤ D2 k+h
9) Si las variables X1, . . . , Xk son estoc´asticamente independientes de las variables
Xk+1, . . . , Xk+h, entonces
D2k+h = D2k+ D2h
Aumentando el n´umero de variables se incrementa el poder de discriminaci´on entre los individuos o poblaciones, pero las distancias disminuyen a medida que aumenta la corre-laci´on entre las variables.
La distancia de Mahalanobis juega un papel fundamental en muchos de los m´etodos multivariantes principalmente por sus buenas propiedades estad´ısticas. Por ejemplo, si la distribuci´on de las variables es normal multivariante Nk(µ, Σ), entonces D2(ω, Ω) =
(x − µ)0Σ−1(x − µ) como variable aleatoria sigue la distribuci´on χ2 k.
Esta distancia puede tambi´en generalizarse al caso en que existan relaciones lineales entre las variables X1, . . . , Xk, entonces Σ es singular. La distancia se define sustituyendo la
matriz inversa de Σ por una g-inversa Σ−, es decir, tal que ΣΣ−Σ = Σ. Esta distancia tiene b´asicamente las mismas propiedades que en el caso no singular, verific´andose adem´as
a) D2 no depende de la g-inversa Σ−
.
b) D2 es invariante por transformaciones lineales que conserven el rango de Σ.
Tambi´en se puede justificar la utilizaci´on de la matriz inversa Σ−1 en la distancia entre individuos de una manera mucho m´as formal. En el espacio vectorial E generado por las variables X1, . . . , Xk podemos considerar el producto escalar definido por la matriz Σ.
Cada elemento de la poblaci´on Ω se puede identificar con un elemento de E∗, dual de E , mediante la aplicaci´on h definida de la siguiente manera:
h : Ω −→ E∗ tal que
h(ω) = Y∗ con
Y∗(X) = X(ω) ∀X ∈ E
El producto escalar definido en el espacio E por la matriz Σ, induce en el espacio dual E∗ una forma bilineal asociada a la matriz Σ−1 que define un producto escalar en E∗ y por consiguiente una distancia. Como asociamos mediante la aplicaci´on h a cada elemento de Ω un elemento de E∗, tendremos de forma natural una distancia entre individuos
dΩ(ωi, ωj) = dE∗(h(ωi), h(ωj))
En la pr´actica, sin embargo, las medias poblacionales y la matriz de covarianzas son desconocidas. As´ı pues, deberemos realizar las estimaciones m´as adecuadas a partir de las observaciones de las variables X1, . . . , Xk sobre los individuos de Ω.
2.
Reducci´
on de la dimensi´
on
2.1.
El problema
Supongamos que disponemos de n puntos o vectores de un espacio eucl´ıdeo de dimensi´on k, cuyas coordenadas o componentes forman las filas de la matriz X.
Vamos a construir una variedad lineal que se ajuste perfectamente a la nube de puntos xi, es decir, debemos hallar una variedad lineal tal que la suma de los cuadrados de las
distancias de los puntos a la variedad sea m´ınima. Con dimensi´on q < k, la ecuaci´on de la variedad afin es
y = β1v1+ β2v2+ · · · + βqvq+ a (3)
donde v1, v2, . . . , vqes una base del subespacio director asociado a la variedad, que adem´as
elegiremos ortonormal, verific´andose pues hvi, vji = v0iΣ
−1
vj = δij ∀i, j (4)
Los vectores
zi = xi− a i = 1, . . . , k
pueden descomponerse de forma ´unica como
zi = pi+ p⊥i i = 1, . . . , k
donde pi es un elemento del subespacio director de la variedad y p⊥i es un vector ortogonal
a dicho subespacio. La proyecci´on de zi en la variedad es pi = q X j=1 pjvj = q X j=1 hzi, vjivj = q X j=1 hxi− a, vjivj (5)
La distancia al cuadrado del punto xi a la variedad es
kp⊥i k2 = kz ik2− kpik2 donde kpik2 = hpi, pii = q X j=1 hxi− a, vji2
resultado al que se llega ya que pi =Pqj=1hxi− a, vjivj.
As´ı pues, para lograr el objetivo propuesto debemos minimizar la funci´on Φ(a, v1, . . . , vq) = n X i=1 kp⊥i k2 = n X i=1 kzik2− kpik2 (6) = n X i=1 hxi− a, xi− ai − q X j=1 hxi− a, vji2 ! con la condici´on hvi, vji = v0iΣ −1 vj = δij ∀i, j
Si desarrollamos la funci´on Φ tenemos Φ = n X i=1 hxi− a, xi − ai − q X j=1 n X i=1 hxi− a, vji2
que matricialmente podemos escribir como
Φ = traza(X − 1a0)Σ−1(X − 1a0)0 −
q
X
j=1
v0jΣ−1(X − 1a0)0(X − 1a0)Σ−1vj
donde 1 = (1, . . . , 1)0 y la matriz X − 1a0 consiste en restar el vector a0 a cada una de las filas de X.
2.2.
La soluci´
on
En primer lugar veremos que para minimizar Φ debemos considerar el vector a = ¯x donde ¯ x = (¯x1, . . . , ¯xk)0 = 1 n n X i=1 xi = 1 nX 0 1 (7) con ¯ xi = 1 n n X h=1 xhi i = 1, . . . , k
En efecto, supongamos que el vector a que minimiza la funci´on Φ es de la forma a = ¯x+c, entonces Φ = n X i=1 hxi− ¯x − c, xi− ¯x − ci − q X j=1 n X i=1 hxi− ¯x − c, vji2 = n X i=1 kxi− ¯xk2− 2 n X i=1 hxi− ¯x, ci + nkck2 − q X j=1 n X i=1 hxi− ¯x − c, vji2 = n X i=1 kxi− ¯xk2+ nkck2− q X j=1 n X i=1 hxi− ¯x − c, vji2 ya que n¯x =Pn i=1xi.
Si desarrollamos de forma similar el ´ultimo sumando de Φ llegaremos a la expresi´on
Φ = n X i=1 kxi− ¯xk2+ nkck2 − q X j=1 n X i=1 hxi, vji2+ nhc, vji2 − nh¯x, vji2 !
de modo que debemos hallar el vector c que minimice
nkck2− q X j=1 nhc, vji2 = n kck2− q X j=1 hc, vji2 !
Como la proyecci´on de c sobre la variedad es
q X j=1 hc, vjivj su norma al cuadrado es q X j=1 hc, vji2 ≤ kck2
y la igualdad se verifica si c pertenece al subespacio director asociado a la variedad lineal. Por todo ello, la funci´on Φ ser´a m´ınima si tomamos c = 0, ya que el vector nulo pertenece al subespacio director.
As´ı pues, podemos tomar como vector a el vector de medias ¯x y la expresi´on de Φ a minimizar es Φ(v1, . . . , vk) = traza(X − 1¯x0)Σ−1(X − 1¯x0)0 − q X j=1 v0jΣ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj = n X i=1 kxi− ¯xk2− q X j=1 v0jΣ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj
Seguidamente, procederemos a calcular los vectores v1, . . . , vq que minimizan la expresi´on
anterior, con las restricciones se˜naladas. De manera que debemos maximizar
q
X
j=1
vj0Σ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj (8)
con las restricciones
viΣ−1vj = δij ∀i, j
Consideremos la matriz de centrado H = In − n1110 que es sim´etrica e idempotente.
Entonces
X − 1¯x0 = HX (9)
y por tanto
(X − 1¯x0)0(X − 1¯x0) = X0HX = nS (10)
donde S es la matriz de varianzas y covarianzas muestrales.
Por todo ello y con las restricciones viΣ−1vj = δij, nos proponemos maximizar la
expre-si´on q X j=1 v0jAvj (11) donde A = Σ−1SΣ−1.
Para conseguirlo, vamos a maximizar cada uno de los sumandos, es decir, vamos a hallar los vectores que maximizan
φ(v) = v0Av sujeto a
v0Σ−1v = 1
La soluci´on se obtiene por medio de la llamada diagonalizaci´on sim´etrica generalizada, es decir, sean w1, . . . , wk los vectores tales que
Awi = λiΣ−1wi i = 1, . . . , k (12)
con
λ1 ≥ λ2 ≥ . . . ≥ λk
y sujetos a la condici´on wi0Σ−1wj = δij, es decir, w1, . . . , wk es una base de vectores
Entonces, para cualquier vector v =Pk i=1αiwi se tiene φ(v) = X i,j αiαjw0iAwj = k X i=1 α2iλi ≤ λ1 q X i=1 α2i
y como la base w1, . . . , wk es ortonormal
1 = v0Σ−1v =X i,j αiαjw0iΣ −1 wj = q X i=1 α2i
por consiguiente φ(v) ≤ λ1, es decir, la funci´on φ est´a acotada por λ1. Adem´as
φ(w1) = w10Aw1 = λ1w01Σ −1
w1 = λ1
se tiene que el vector w1 hace m´aximo el primer sumando de (11). Los vectores que hacen
m´aximo el resto de los sumandos son los vectores propios correspondientes a los q − 1 siguientes valores propios λ2, . . . , λq.
En el caso que alg´un valor propio sea m´ultiple, se eligen tantos vectores del subespacio propio correspondiente como orden de multiplicidad tenga el valor propio y que sean ortonormales con el producto escalar definido por Σ−1.
Por otra parte, la igualdad
Awi = λiΣ−1wi
al ser A = Σ−1SΣ−1, se puede escribir
SΣ−1wi = λiwi (13)
En consecuencia, la variedad lineal tal que la suma de los cuadrados de las distancias de los puntos xi a dicha variedad es m´ınima, viene definida por
y = ¯x + β1w1+ · · · + βqwq (14)
donde ¯x es el vector de medias y donde w1, . . . , wq son los vectores propios de SΣ−1,
correspondientes a los q primeros valores propios en orden decreciente en caso de ser distintos y ortonormales respecto a Σ−1. Si la multiplicidad de un valor propio es s entonces se eligen s vectores propios ortonormales del subespacio propio correspondiente. En la pr´actica, podemos calcular primero la descomposici´on espectral de la matriz sim´ etri-ca definida positiva Σ
Σ = ΓΛΓ0
donde todos los valores propios de la matriz, en la diagonal Λ, son positivos y no nulos y la matriz de los vectores propios Γ es ortogonal.
En este caso, se puede definir la matriz
y calcular la descomposici´on espectral de la matriz sim´etrica Σ−1/2SΣ−1/2
Esta descomposici´on proporciona unos valores propios que coinciden con los de SΣ−1 y unos vectores propios bi = Σ−1/2wi que se pueden transformar en
wi = Σ1/2bi
donde Σ1/2 = ΓΛ1/2Γ0.
2.3.
M´
axima dispersi´
on
La variedad (14) hallada goza de una importante propiedad: la suma de los cuadrados de las interdistancias de las proyecciones de los puntos xi sobre la variedad es m´axima.
Sea F la variedad lineal q-dimensional (14). Las proyecciones en F de dos puntos xi y xj
de coordenadas xi = (xi1, . . . , xik)0 y xj = (xj1, . . . , xjk)0 vienen dadas por
yi = ¯x + pi
yj = ¯x + pj
donde pi =
Pq
h=1hxi − ¯x, whiwh para cualquier i = 1, . . . , n.
Entonces, la distancia entre los dos puntos proyectados es
D2(yi, yj) = kpi− pjk2 = k q X h=1 hxi− xj, whiwhk2 = q X h=1 (hxi, whi − hxj, whi)2
Luego, si consideramos en la variedad F un sistema de referencia con origen en ¯x y ejes definidos por la base w1, . . . , wq, las proyecciones de los puntos xi y xj son
qi = αi1w1+ · · · + αiqwq qj = αj1w1+ · · · + αjqwq donde αih= hxi, whi = x0iΣ −1 wh = w0hΣ −1 xi para cualquier i = 1, . . . , n y h = 1, . . . , q.
As´ı el cuadrado de la distancia en F de ambas proyecciones es equivalente a la distancia eucl´ıdea al cuadrado entre las componentes de los puntos proyecci´on qi y qj.
D2(yi, yj) = q X h=1 (αih− αjh)2 = (αi− αj)0(αi− αj) = d2(αi, αj) donde αi = (αi1, . . . , αiq)0 = W0Σ−1xi
y W(k × q) es la matriz cuyas columnas son las componentes de los vectores propios w1, . . . , wq.
De manera que
D2(yi, yj) = (W0Σ−1(xi− xj))0(W0Σ−1(xi− xj))
La suma de los cuadrados de las interdistancias en F vendr´a dada por la expresi´on: SCD = n X i=1 n X j=1 (xi− xj)0Σ−1WW0Σ−1(xi− xj) (15) Si se desarrolla SCD se llega a D = 2n n X i=1 (xi− ¯x)0Σ−1WW0Σ−1(xi− ¯x)
que podemos poner de la siguiente forma
SCD = 2n traza(X − 1¯x0)0Σ−1WW0Σ−1(X − 1¯x0) = 2n trazaW0Σ−1
(X − 1¯x0)(X − 1¯x0)0Σ−1W
= 2n trazaW0Σ−1X0HXΣ−1W = 2n2traza [W0AW] = 2n2(w01Aw1+ · · · + wq0Awq) = 2n2(λ1w10Σ −1 w1+ · · · + λqw0qΣ −1 wq) = 2n2(λ1+ · · · + λq) Es decir SCD = 2n2(λ1+ · · · + λq) (16)
Como anteriormente hemos visto que los sumandos de la forma v0Av con la restricci´on v0Σ−1v = 1 est´an acotados por λ1, . . . , λq, queda demostrada la propiedad, pues cualquier
otra base que no sea la de los vectores propios w1, . . . , wq, lleva a una variedad en la cual
la suma de los cuadrados de las interdistancias de las proyecciones de los puntos originales xi es menor.
2.4.
Coordenadas y variables can´
onicas
Las coordenadas de las proyecciones de los puntos originales xi en el nuevo subespacio F
de dimensi´on reducida q, referidas a los vectores propios w1, . . . , wq, son
yi = q
X
h=1
hxi − ¯x, whiwh
si tomamos como origen del sistema de referencia el punto ¯x. Luego, en notaci´on matricial podemos escribir
Yc = (X − 1¯x0)Σ−1W = HXΣ−1W (17)
donde Yc(n×q) es la matriz cuyas filas son las coordenadas de los puntos proyectados en la
variedad y la matriz W tiene como columnas las componentes de los vectores w1, . . . , wq.
Tambi´en podemos calcular la matriz Y de datos sin centrar
de forma que Yc = HY.
Las filas de la matriz Yc, o si se prefiere Y, constituyen las llamadas coordenadas can´onicas
de los puntos proyectados.
Una propiedad importante de la nueva matriz Y, tambi´en de Yc, que resume nuestros
logros es SY = 1 nY 0 HY = 1 nW 0 Σ−1X0HXΣ−1W = W0Σ−1SΣ−1W = W0AW = diag(λ1, . . . , λq)
Desde otro punto de vista, podemos considerar en Σ−1SΣ−1wi = λiΣ−1wi
con las restricciones w0iΣ−1wj = δij, la sustituci´on
Σ−1wi = ui i = 1, . . . , q
de manera que nos queda
Σ−1Sui = λiui ⇐⇒ Sui = λiΣui
con las condiciones u0iΣuj = δij.
La matriz U(k × q) definida por
U = Σ−1W (18)
contiene las componentes de las llamadas variables can´onicas. Dichas “variables” son las combinaciones lineales de la matriz de datos X que proporcionan las coordenadas can´onicas de los puntos proyecci´on ya que
Y = XU
Adem´as, respecto al producto escalar definido por Σ se verifica U0ΣU = Iq
mientras que para un producto escalar definido para la otra matriz de covarianzas S U0SU = W0Σ−1SΣ−1W = diag(λ1, . . . , λq)
2.5.
An´
alisis de la dimensi´
on
Cuando realizamos una representaci´on can´onica sobre un espacio de dimensi´on q, esta dimensi´on ha de verificar
q ≤ m´ın{n − 1, k} = m El porcentaje de la dispersi´on explicada por los q ejes es
P = 100 · λ1+ · · · + λq λ1+ · · · + λm
(19) donde λi son los valores propios obtenidos de la ecuaci´on 12 o equivalentes.
Si queremos que la representaci´on can´onica recoja el 100 % de la dispersi´on, debemos construir la variedad con dimensi´on igual al m´ınimo entre el n´umero de valores propios distintos de cero y n − 1. Como dichos valores propios son funci´on de una muestra, el an´alisis de cuantos valores propios son no nulos es un problema de inferencia estad´ıstica que se resuelve mediante test apropiados.
3.
An´
alisis de componentes principales
El An´alisis de las componentes principales (ACP) proporciona un conjunto de variables Y , combinaci´on lineal de las variables observables X1, X2, . . . , Xk, con la propiedad de
tener varianza m´axima. Para definirlas, utilizaremos la terminolog´ıa estudiada.
Supongamos definidas dos “covarianzas” sobre las variables o los datos. La primera es la verdadera covarianza entre las variables observadas y su matriz asociada es la matriz de covarianzas S, que supondremos de rango k. La segunda es la que corresponde a la m´etrica experimental y la matriz asociada es la identidad Σ = I.
En este caso, las componentes principales se obtienen diagonalizando la matriz de cova-rianzas S
S = GΛG0 (20)
donde Λ = diag(λ1, . . . , λk) contiene los valores propios de S y G es ortogonal, de manera
que GG0 = G0G = I. Las componentes principales son las variables can´onicas, es decir, las combinaciones lineales cuyos coeficientes son las columnas de la matriz G. Por todo ello, la representaci´on de datos se hace con los elementos de la matriz Y(n × k)
Y = XG
o con las q primeras coordenadas para una representaci´on en dimensi´on q. Adem´as, como ya sabemos, se verifica que
SY = Λ = diag(λ1, . . . , λk)
En resumen, a partir de una matriz de datos X(n × k) con las observaciones sobre n individuos de k variables, se considera la configuraci´on de los n puntos en Rk separados por la distancia eucl´ıdea ordinaria. La representaci´on de los individuos en dimensi´on reducida se consigue con la matriz Y = XG, donde la dispersi´on de las columnas va disminuyendo de izquierda a derecha. Adem´as, si m = m´ın{k, n − 1} es inferior a k, a partir de la columna m + 1, los elementos de las columnas son exactamente iguales. Para determinar el n´umero necesario de componentes principales se utiliza el c´alculo de la variabilidad explicada. ´Este es el m´etodo m´as simple, aunque se puede ampliar con otros sistemas estad´ısticos m´as elaborados como la prueba de Anderson (1963), la prueba de Lebart y Fenelon (1973), etc.
Las componentes principales se pueden obtener tambi´en partiendo de la matriz de corre-laciones R. Sin embargo, las componentes principales obtenidas son distintas y la elecci´on entre diagonalizar S o R es un tema controvertido. Si las unidades de medida de las va-riables son distintas (a˜nos, kilos, metros, etc.), es preferible el uso de R, porque equivale a utilizar variables reducidas y, por tanto, sin dimensi´on f´ısica. Pero si las unidades de medida son las mismas o razonablemente conmensurables, es preferible realizar el an´ ali-sis sobre S, que es menos artificial. Tambi´en se considera recomendable utilizar ambas matrices y comparar las interpretaciones de las dos clases de componentes obtenidas.
3.1.
An´
alisis del tama˜
no y la forma
Una de las primeras aplicaciones del ACP a la morfometr´ıa (estudio de la morfolog´ıa de los individuos y especies por m´etodos cuantitativos) se remontan a los primeros intentos
La idea de tama˜no se considera equivalente a la de crecimiento. Podemos idealizar el creci-miento de un individuo, representado por k medidas de otros tantos caracteres biom´etricos (x1, . . . , xk), como el movimiento a lo largo de una l´ınea recta de ecuaci´on
x1− a1 α1 = x2− a2 α2 = · · · = xk− ak αk (21) donde (α1, α2, . . . , αk)0 representa el vector posici´on del crecimiento (vector director de la
recta) y (a1, a2, . . . , ak) es un punto fijo sobre la recta, que se puede interpretar como el
tama˜no de un individuo adulto que ha alcanzado la madurez (Burnaby, 1966).
La relaci´on (21) es tan s´olo ideal, v´alida si todos los individuos de la poblaci´on pueden alinearse de menor a mayor tama˜no. Cuando los caracteres est´an representados por k variables aleatorias X1, . . . , Xk, no ligadas por una relaci´on lineal perfecta, parece
razo-nable definir (21) como la direcci´on de m´axima variabilidad, es decir, como la primera componente principal.
Por otra parte, una variable biom´etrica, cuanto m´as variabilidad tiene, mejor expresa el concepto de tama˜no. Por ejemplo, consideremos un grupo de hombres de pr´acticamente el mismo peso pero con notable variaci´on de altura; entonces, para ordenarlos de menor a mayor tama˜no, los ordenaremos de menor a mayor altura. La variable con mayor varianza ser´a la que mejor expresar´a este concepto. Si esta variable puede ser una combinaci´on lineal de X1, . . . , Xk, esta variable debe ser la primera componente principal, que se
identifica, pues, con el tama˜no.
¿Y la forma? La forma es un concepto independiente del tama˜no. Dos individuos pueden tener el mismo tama˜no pero distinta forma y rec´ıprocamente. Como la segunda, terce-ra, etc. componentes principales, est´an incorrelacionadas con la primera, parece tambi´en razonable interpretarlas como variables que expresen la forma de los individuos. Las dis-tintas maneras de representar la forma, tambi´en incorrelacionadas entre s´ı, se interpretan en funci´on de la saturaci´on que tengan las variables iniciales sobre estas componentes. Estos son los argumentos principales del trabajo cl´asico de Jolicoeur y Mosimann (1960), que es un intento de clasificar tortugas atendiendo al peso, longitud y anchura de sus caparazones. Ambos autores toman logaritmos sobre las variables originales, para eliminar los efectos de las relaciones de alometr´ıa entre los caracteres (relaci´on del tipo y = bxa, que se transforma en lineal: log y = log b + a log x).
Sin embargo, para que las componentes principales representen adecuadamente tama˜no y forma, deben cumplirse las siguientes condiciones (Rao, 1971):
1) Todos los coeficientes de la primera componente principal deben ser positivos, es decir, la primera columna de G debe tener todos sus elementos positivos para que se ´esta se pueda identificar como tama˜no. En efecto, todo incremento positivo de las medidas biom´etricas X1, . . . , Xk redundar´a en un incremento positivo de Y1
(aumentando las medidas, aumenta el tama˜no). Si esta condici´on no se verifica, no se puede hablar estrictamente de tama˜no.
2) Para que una componente se identifique como forma no debe tener todos los coefi-cientes positivos, sino que algunos deben ser positivos y otros negativos. Un factor de forma debe ser tal que un incremento del factor, o lo que es lo mismo, una forma m´as acusada, resulta de un incremento de unas medidas y un decremento de otras.
3) Si las componentes de forma se extraen de la matriz de covarianzas S, es aconsejable considerar s´olo aquellas cuyas varianzas superen a la menor de las varianzas de las variables X1, . . . , Xk, es decir,
λ2 ≥ λ3 ≥ · · · ≥ λm ≥ m´ın{s11, . . . , skk}
de esta manera no hay ninguna componente que tenga menos variabilidad que cual-quiera de las variables observadas.
3.2.
Interpretaci´
on geom´
etrica
Supongamos que los datos son centrados. Representamos la muestra de tama˜no n con los puntos o filas de la matriz X tomando X1, . . . , Xk como ejes ortogonales y unitarios, es
decir, referimos la muestra a la llamada m´etrica experimental. La nube de puntos adopta entonces la forma del elipsoide de concentraci´on
x0S−1x ≤ c (22)
donde c se puede elegir de manera que un elevado porcentaje de la poblaci´on est´e contenido en este elipsoide.
Consideremos el problema de maximizar v0v con la condici´on v0S−1v = 1. El vector v soluci´on se encuentra sobre el elipsoide de concentraci´on correspondiente a c = 1 y v0v m´aximo significa que v representa una direcci´on de m´axima variabilidad respecto a la m´etrica experimental, que se interpreta geom´etricamente como el eje principal del elipsoide. Ahora bien, v se obtiene de la diagonalizaci´on Iv = λS−1v y por lo tanto
Sv = λv
Luego v es vector propio de S y proporcional al vector que define la primera componente principal Y1. An´alogamente se interpretan las dem´as componentes principales.
Existe pues una correspondencia entre las direcciones ortogonales de m´axima variabili-dad del elipsoide de concentraci´on, o ejes principales del elipsoide, y las componentes principales obtenidas por diagonalizaci´on de la matriz de covarianzas S de las variables observables.
4.
An´
alisis can´
onico de poblaciones
4.1.
Introducci´
on
El an´alisis can´onico de poblaciones (ACPL) es un m´etodo de representaci´on de grupos o poblaciones, a lo largo de ejes con m´aximo poder de discriminaci´on, en relaci´on a la distancia de Mahalanobis.
Supongamos que una poblaci´on general Ω es reuni´on de p poblaciones o grupos (especies de un mismo g´enero, grupos humanos de diferente comportamiento, etc.)
Sean X1, . . . , Xk variables observables sobre Ω. Si sobre la poblaci´on Ωi i = 1, . . . , p
obtenemos ni observaciones de las k variables, nuestros datos formar´an una matriz X(n ×
k) siendo n =Pp i=1ni X = X1 .. . Xp
Parece razonable identificar cada poblaci´on Ωi con el “individuo” medio de Ωi
represen-tado por el punto que tiene por coordenadas las medias muestrales de las variables en esa poblaci´on
¯
xi(k × 1) = (¯xi1, . . . , ¯xik)0 i = 1, . . . , p
La matriz de datos a representar en dimensi´on reducida es
B = ¯ x01 .. . ¯ x0p
donde las filas de B(p × k) son las medias de cada poblaci´on Ωi.
Por otra parte, vamos a considerar la distancia de Mahalanobis entre los puntos obser-vados de la poblaci´on Ω. Dicha distancia (ver 2) viene determinada por la matriz de covarianzas Σ que, en este caso, debemos estimar. Cuando las covarianzas en las distintas poblaciones se suponen iguales, la estimaci´on m´as apropiada de Σ es
ˆ Σ = 1 n − p p X i=1 niSi
es decir, una combinaci´on lineal ponderada de las matrices de covarianzas muestrales Si(k × k) para cada poblaci´on por separado.
4.2.
Obtenci´
on de las coordenadas can´
onicas
Como sabemos, la representaci´on en dimensi´on reducida se obtiene a partir de dos ma-trices de covarianzas. La primera se calcula con el centrado de la matriz de datos B
HB = ¯ x01− ˜x0 .. . ¯ x0p− ˜x0 donde ˜x = (1/p)Pp
i=1x¯i, de forma que la matriz de covarianzas “entre” las poblaciones
es A = 1 pB 0 HB = 1 p(¯x1− ˜x, . . . , ¯xp− ˜x) ¯ x01− ˜x0 .. . ¯ x0p− ˜x0 (23) = 1 p p X i=1 (¯xi− ˜x)(¯xi− ˜x)0
La otra matriz es la matriz de covarianzas “dentro” de la poblaci´on, es decir, la matriz ˆ
Σ.
El algoritmo para obtener las variables y coordenadas can´onicas, se resume en las siguien-tes f´ormulas
Aui = λiΣuˆ i ⇐⇒ ˆΣ −1
Aui = λiui
U(k × k) = (u1, . . . , uk) λ1 ≥ . . . ≥ λk ≥ 0
Yc = HBU coordenadas can´onicas centradas
5.
An´
alisis de correspondencias
5.1.
Distancia ji-cuadrado
El An´alisis de correspondencias (AC) es apropiado para representar tablas de frecuencias. Supongamos que los datos corresponden a dos criterios de clasificaci´on, a los que llama-remos “caracteres” y “poblaciones”, los cuales se disponen en una tabla de contingencia:
Caracteres A1 A2 . . . As H1 n11 n12 . . . n1s n1· Poblaciones H2 n21 n22 . . . n2s n2· .. . ... ... ... ... Hr nr1 nr2 . . . nrs nr· n·1 n·2 . . . n·s n donde ni· = s X h=1 nih n·j = r X h=1 nhj
nij es la frecuencia de aparici´on de la poblaci´on Hi y el car´acter Aj, ni· es la frecuencia
de la poblaci´on Hi, n·j es la frecuencia de Aj y n es el n´umero total de individuos.
La distribuci´on de frecuencias de los caracteres en la poblaci´on Hi viene dada por el
vector de coordenadas hi = ni1 ni· ,ni2 ni· , . . . ,nis ni· 0 (24) que se puede entender como la densidad de probabilidad discreta de Hi i = 1, . . . , r.
Uno de los objetivos del AC es obtener una representaci´on geom´etrica de las poblaciones H1, H2, . . . , Hr en relaci´on a la distribuci´on de frecuencias relativas de los caracteres. Sin
embargo, la distancia utilizada es la distancia ji-cuadrado, que es diferente de la distancia basada en la m´etrica experimental.
La distancia ji-cuadrado entre las poblaciones Hi y Hj en relaci´on a los caracteres
A1, A2, . . . , As es d2(Hi, Hj) = s X h=1 1 n·h nih ni· −njh nj· 2 (25) = s X nih √ − √njh 2
De acuerdo con esta distancia, las poblaciones H1, H2, . . . , Hr est´an representadas por
una configuraci´on de r puntos en un espacio eucl´ıdeo Rs de coordenadas pi = ni1 √ n·1ni· ,√ni2 n·2ni· , . . . ,√nis n·sni· 0 (26) separados por la distancia eucl´ıdea ordinaria. Se comprueba f´acilmente que tal configu-raci´on est´a contenida en el hiperplano de ecuaci´on
s
X
h=1
√
n·hxh = 1
5.2.
Representaci´
on de las poblaciones
La representaci´on de las poblaciones en dimensi´on reducida, determinadas por las coor-denadas (26) con referencia a los caracteres, se puede interpretar como un problema de representaci´on de datos mediante An´alisis de componentes principales.
Sea Z(r × s) la matriz cuyas filas son las coordenadas (26)
Z = p01 p02 .. . p0r
Debemos diagonalizar la matriz de “covarianzas” que resulta de Z y representar las po-blaciones en dimensi´on q tomando las q primeras coordenadas de la matriz
Y = ZG
Veamos las caracter´ısticas de esta diagonalizaci´on. Para lo que sigue nos ser´a ´util trabajar con las frecuencias relativas fij = nij/n en lugar de nij. Este cambio de escala no afecta a
la representaci´on gr´afica de los datos. Las coordenadas (24) son exactamente las mismas, pero las coordenadas (26) quedan multiplicadas por el factor n. Supongamos pues
X i X j fij = X i fi· = X j f·j = 1
Las siguientes propiedades nos llevan a la soluci´on:
1. El vector de medias de los caracteres calculadas sobre la matriz Z, ponderadas por las frecuencias relativas f1·, . . . , fr·, es
m = (pf·1, . . . ,
p f·s)0
2. La matriz de covarianzas entre los caracteres, tambi´en ponderando por las frecuen-cias relativas, es
Ss = Z0DrZ − mm0
3. m es vector propio de Ss de valor propio λ = 0.
4. Los vectores propios de Ss son tambi´en vectores propios de Z0DrZ.
5. m es vector propio de Z0DrZ de valor propio λ = 1.
Como consecuencia de estas propiedades, bastar´a diagonalizar Z0DrZ y considerar s´olo
los vectores propios de valor propio distinto de 1. Como el valor propio 1 corresponde al valor propio 0 de Ss, es f´acil ver que los dem´as valores propios de Z0DrZ son menores que
1:
1 > λ2 ≥ · · · ≥ λs
Si la diagonalizaci´on es
Z0DrZ = TDλT0
donde T es ortogonal y Dλ = diag(1, λ2, . . . , λs). Las coordenadas de las poblaciones
vendr´an dadas por la 2a, 3a,. . . columnas de la matriz Y = ZT
Para determinar el porcentaje de variabilidad explicada por una representaci´on en di-mensi´on q, dividiremos la variabilidad explicada por los ejes por la variabilidad total V T V T = traza Ss = s X j=1 r X i=1 fij2 f·jfi· ! − f·j ! = traza (Z0DrZ) − 1
y el porcentaje de varianza explicada por el 2o, 3o,. . . ejes es Pq = 100 · λ2+ · · · + λq traza(Z0D rZ) − 1 = 100 · λ2+ · · · + λq λ2+ · · · + λs
La representaci´on en dimensi´on q (habitualmente q = 2) nos proporciona una repre-sentaci´on de las poblaciones separadas por la distancia ji-cuadrado, salvo la p´erdida de informaci´on producida al reducir la dimensi´on.
5.3.
Representaci´
on de los caracteres
Hasta aqu´ı, lo que hemos hecho es representar r poblaciones con referencia a s caracteres mediante el An´alisis de componentes principales, salvo que hemos utilizado la distancia ji-cuadrado en lugar de la distancia eucl´ıdea. La principal ventaja del AC es que posibilita representar tambi´en los s caracteres en relaci´on a las r poblaciones y, sobre todo, realizar una representaci´on simult´anea de poblaciones y caracteres.
La distribuci´on de frecuencias de las r poblaciones condicionadas al car´acter Aj viene
dada por el vector de coordenadas aj = n1j n·j ,n2j n·j , . . . ,nrj n·j 0 (27) para todo j = 1, . . . , s.
Para diferenciar dos caracteres Ai, Aj, en relaci´on a las poblaciones H1, . . . , Hr se define la distancia ji-cuadrado d2(Ai, Aj) = r X h=1 1 nh· nhi n·i − nhj n·j 2 (28) = r X h=1 nhi √ nh·n·i −√nhj nh·n·j 2
As´ı los caracteres A1, . . . , As est´an representados por una configuraci´on de s puntos, en
un espacio eucl´ıdeo Rr, de coordenadas
qj = n1j √ n1·n·j ,√n2j n2·n·j , . . . ,√nrj nr·n·j 0 (29) separados por la distancia eucl´ıdea ordinaria. Los puntos q1, . . . , qs est´an contenidos en
el hiperplano de ecuaci´on r X h=1 √ nh·xh = 1
Las coordenadas (29) constituyen una matriz de datos eZ0(s × r) siendo e
Z = (q1, q2, . . . , qs)
Podemos representar la matriz de datos eZ0 tambi´en mediante an´alisis de componentes principales, diagonalizando la matriz de covarianzas Sr. Dada la dualidad existente entre
la representaci´on de caracteres y la de poblaciones, nos limitaremos ahora a dar las principales f´ormulas y propiedades:
e m = (√f1·, . . . , √ fr·)0 vector de medias Sr = eZDsZe0 − e mme0 matriz de covarianzas Ds = diag(f·1, . . . , f·s)
1. m es vector propio de Se r de valor propio eλ = 0.
2. Los vectores propios de Sr son tambi´en vectores propios de eZDsZe0. 3. m es vector propio de ee ZDsZe0 de valor propio eλ = 1.
Deberemos, pues, diagonalizar eZDsZe0 e ZDsZe0 = eTD e λTe 0 siendo eT ortogonal y D e
λ = diag(1, eλ2, . . . , eλr) la matriz diagonal con los valores propios
1 ≥ eλ2 ≥ . . . ≥ eλr de eZDsZe0.
La representaci´on de los s caracteres se consigue utilizando la 2a, 3a,. . . columnas de la
matriz
e
Y = eZ0Te
El porcentaje de variabilidad explicada por los q primeros ejes es Pq= 100 ·
e
λ2+ · · · + eλq
e
5.4.
Representaci´
on simult´
anea
El problema de representar las r poblaciones y los s caracteres se resuelve mediante la diagonalizaci´on de las matrices Z0DrZ y eZDsZe0 respectivamente. Sin embargo, ambas representaciones est´an estrechamente relacionadas entre s´ı. En efecto, definamos la matriz de orden r × s
B = D−1/2r FD−1/2s
donde F = (fij) es la matriz de frecuencias relativas original, Dr = diag(f1·, . . . , fr·) y
Ds = diag(f·1, . . . , f·s). De manera que los elementos de B son
bij = fij √ fi·pf·j = √ nij ni· √ n·j
La matriz B verifica las siguientes propiedades: 1. Z0DrZ = B0B ZDe sZe0 = BB0
2. B0B tiene los mismos valores propios que BB0.
3. Si v es vector propio de B0B de valor propio λ, entonces w = Bv es vector propio de BB0 de valor propio λ.
As´ı pues, los valores propios verifican
1 ≥ λ2 = eλ2 ≥ · · · ≥ λt= eλt
donde t = m´ın{r, s} = rango(B0B) = rango(BB0). Los dem´as valores propios son nulos. Concluimos tambi´en que bastar´a diagonalizar B0B
B0B = TDλT0
Los vectores propios de valor propio no nulo (suponiendo r ≥ s) de BB0 son las columnas de la matriz W(r × s)
W = BT
que debe ser normalizada por columnas, para lo cual bastar´a multiplicar por D−1/2λ para obtener
e
T = WD−1/2λ = BTD−1/2λ Te0T = Ie r
Las coordenadas de las poblaciones Hi son las filas de Y = ZT y las coordenadas de los
caracteres Aj son las filas de eY = eZ0T, recordando que en ambos casos se prescinde dee la primera columna.
Como
Z = D−1r FD−1/2s Z = De −1/2r FD−1s podemos relacionar Y con eY
e Y = Ze0T = ee Z0BTD −1/2 λ = D −1 s F 0 D−1/2r D−1/2r FD−1/2s TD−1/2λ = D−1s F0YD−1/2λ (30)
De esta forma, la h-´esima coordenada (coordenada en el eje h) del car´acter Aj se expresa
en funci´on de las h-´esimas coordenadas de las r poblaciones
e yjh = 1 √ λh f1j f·j y1h+ · · · + frj f·j yrh
An´alogamente se puede ver que
Y = D−1r F eYD−1/2λ (31)
y la h-´esima coordenada de la poblaci´on Hi se expresa en funci´on de las h-´esimas
coor-denadas de los s caracteres seg´un yih= 1 √ λh fi1 fi·e y1h+ · · · + fis fi·e ysh
En vista de estas relaciones, podemos representar las coordenadas de las poblaciones y de los caracteres, contenidas en Y y eY, con referencia a unos mismos ejes factoriales. De la representaci´on simult´anea de poblaciones y caracteres deben distinguirse tres as-pectos:
1) La representaci´on de poblaciones diferenciadas por la distancia ji-cuadrado.
2) La representaci´on de caracteres diferenciados por la distancia ji-cuadrado (corres-pondiente a los caracteres).
3) La correspondencia que existe entre una poblaci´on Hi y los s caracteres expresada
por (31); an´alogamente, la correspondencia que existe entre un car´acter Aj y las r
poblaciones expresada por (30).
Esta correspondencia proviene del hecho de que el punto cuyas coordenadas representan la poblaci´on Hi es el baricentro (salvo el factor λ
−1/2
h ) de los s puntos que representan
los caracteres, asignando a cada punto la masa fij/fi·, que es la frecuencia relativa de
presencia del car´acter Aj en la poblaci´on Hi. La proximidad de Hi a un determinado
grupo de caracteres indica que tienen una presencia importante en Hi. An´alogamente, la
proximidad de un car´acter Aj a un determinado grupo de poblaciones indica una mayor
presencia de este car´acter en tales poblaciones. Esta propiedad es v´alida cualquiera que sean los ejes utilizados, en particular si tomamos los dos primeros ejes no triviales y las coordenadas de las poblaciones y de los caracteres son la segunda y tercera columna de Y y eY.