Representación de datos multivariantes en dimensión reducida

(1)

Representaci´

on de datos multivariantes

en dimensi´

on reducida

Francesc Carmona, Carles M. Cuadras y Josep Maria Oller Departamento de Estad´ıstica

Universidad de Barcelona

[email protected], [email protected], [email protected] 15-12-2000

Un conjunto de m´etodos multivariantes resuelven el problema de representar geom´ etrica-mente los individuos, objetos o subpoblaciones ω1, ω2, . . . , ωnde una poblaci´on Ω, respecto

a unas variables observables X1, X2, . . . , Xk que pueden ser cuantitativas, cualitativas o

una combinaci´on de ambos tipos.

En algunos métodos de representación de datos, la información de entrada es una tabla de datos X, en la que xij = Xj(ωi) representa el valor observado de la variable Xj sobre

el individuo ωi. X1 X2 . . . Xk ω1 x11 x12 . . . x1k ω2 x21 x22 . . . x2k .. . ... ... ... ωn xn1 xn2 . . . xnk

En otros m´etodos la informaci´on de entrada es una matriz de disimilaridades.

La información de salida es una representación geométrica de los individuos en dimensión reducida (en el plano o en el espacio), que exprese sus diferencias y analog´ıas de la mejor forma posible.

En l´ıneas generales deben distinguirse tres casos:

1) Los individuos constituyen una muestra de tamaño n de la población Ω. Normal-mente la representación de los datos se suele completar con ciertas conclusiones de tipo estad´ıstico, como la significación de la dimensión empleada. Ejemplo: repre-sentación de una muestra de especies de un mismo género, utilizando un individuo por especie.

2) Los n individuos constituyen toda la poblaci´on Ω = {ω1, . . . , ωn}

Ejemplo: representaci´on de las 41 comarcas de Catalunya respecto a variables so-cioecon´omicas.

(2)

3) La poblaci´on Ω es la reuni´on de p subpoblaciones excluyentes Ω = Ω1+ · · · + Ωp

Se dispone de una muestra de tama˜no ni de la subpoblaci´on Ωi. Se trata entonces

de representar las p subpoblaciones. Ejemplo: representaci´on de p especies distintas disponiendo de ni individuos por especie.

Una descripción breve de los principales métodos de análisis de datos se expone a conti-nuación:

An´alisis de componentes principales. Utiliza variables cuantitativas y cualitativas y una distancia eucl´ıdea entre los individuos.

Análisis de coordenadas principales. Utiliza variables cualitativas y una distancia relacionada con la similaridad entre los individuos. Está relacionado con el método anterior.

An´alisis de correspondencias. Es apropiado para representar datos cualitativos orga-nizados en una tabla de contingencia. Utiliza la distancia ji-cuadrado.

Análisis canónico de poblaciones. Es apropiado para representar poblaciones, utili-zando generalmente variables cuantitativas. Utiliza la distancia de Mahalanobis. Análisis de proximidades. Es el método más general de representación de datos. El

an´alisis se realiza sobre una matriz de disimilaridades.

El objetivo de este art´ıculo es explicar los conceptos y propiedades teóricas sobre las que se desarrollan los diversos métodos. Seguidamente desarrollaremos el Análisis de compo-nentes principales, el Análisis canónico de poblaciones y el Análisis de correspondencias como consecuencia de estas propiedades.

1. Distancias estad´ısticas

Una cuestión básica que debe plantearse para la representación de datos es una adecuada elección de la distancia entre los individuos a representar.

Asignemos a cada individuo ωi el vector de coordenadas

xi = (xi1, xi2, . . . , xik)0 i = 1, . . . , n

con las observaciones sobre las variables X1, X2, . . . , Xk. Se puede interpretar xi como un

punto del espacio eucl´ıdeo Rk. Nuestro problema es representar los n puntos de Rk en un espacio de dimensi´on menor, generalmente en el plano.

(3)

1.1. Distancia eucl´ıdea

Una definici´on simple de distancia es

d(ωi, ωj) = v u u t k X h=1 (xih− xjh)2

que es la distancia eucl´ıdea entre los puntos xi y xj de Rk. Observemos que el cuadrado

de la distancia en notaci´on matricial es

d2(ωi, ωj) = (xi− xj)0(xi− xj) (1)

Esta distancia, aunque es invariante por transformaciones ortogonales, tiene el inconve-niente de ser sensible a cambios de escala de las variables. Es recomendable utilizarla en caso de homogeneidad entre la naturaleza f´ısica de las variables y desconocer la matriz de covarianzas.

1.2. Distancia de Mahalanobis

Introducimos a continuaci´on una distancia estad´ıstica general perfectamente adecuada para diferenciar individuos o poblaciones mediante k variables aleatorias.

1.2.1. Caso k = 1

Sea X una variable de valor medio µ y desviaci´on t´ıpica σ. La distancia estad´ıstica entre ωi y ωj, siendo X(ωi) = xi y X(ωj) = xj, es por definici´on

d(ωi, ωj) =

|xi− xj|

σ Son propiedades de esta distancia:

1) Es invariante por cambios de escala.

2) Es una distancia normalizada expresada en unidades de desviación t´ıpica. Para una variable con distribución normal, el campo de variabilidad de esta distancia estará prácticamente comprendido entre 0 y 4.

1.2.2. Caso k > 1

Sean X1, X2, . . . , Xkvariables aleatorias de matriz de covarianzas Σ y ωi, ωj dos individuos

de coordenadas

xi = (xi1, xi2, . . . , xik)0 xj = (xj1, xj2, . . . , xjk)0

Supongamos que Σ es no singular. Definimos la distancia (al cuadrado) entre ωi y ωj por

(4)

Si Ωi, Ωj son dos poblaciones representadas por sus vectores de medias µi, µj y con matriz

de covarianzas com´un Σ, el cuadrado de la distancia entre ambas poblaciones es D2(Ωi, Ωj) = (µi− µj)

0

Σ−1(µ_i − µ_j)

Si ω es un individuo de coordenadas x = (x1, . . . , xk)0y el vector de medias de la poblaci´on

es µ, el cuadrado de la distancia estad´ıstica de ω al individuo medio de la poblaci´on es D2(ω, Ω) = (x − µ)0Σ−1(x − µ)

Esta distancia estad´ıstica general fue introducida por Mahalanobis (1936). Aunque en las aplicaciones se utiliza la distancia D, trabajaremos normalmente con D2 para disponer de una mayor comodidad de notaci´on.

La distancia de Mahalanobis tiene las siguientes propiedades: 1) D2_(ω

i, ωj) = D2(ωj, ωi)

2) D2_(ω

i, ωj) ≥ 0

3) D2(ωi, ωi) = 0

(estas tres primeras propiedades definen el concepto general de distancia) 4) D2_(ω

i, ωj) = 0 si y s´olo si xi = xj

5) D2(ωi, ωj) ≤ D2(ωi, ωh) + D2(ωh, ωj)

(con las cinco propiedades anteriores, la distancia se llama m´etrica)

6) Es invariante por transformaciones lineales no singulares de las variables. En parti-cular es invariante por cambios de escala.

7) Est´a expresada en unidades de desviaci´on t´ıpica y tiene en cuenta las correlaciones entre las variables (redundancia).

8) Si indicamos por D2

ka la distancia al cuadrado expresada en funci´on de k variables,

entonces

D2_k≤ D2 k+h

9) Si las variables X1, . . . , Xk son estoc´asticamente independientes de las variables

Xk+1, . . . , Xk+h, entonces

D2_k+h = D2_k+ D2_h

Aumentando el número de variables se incrementa el poder de discriminación entre los individuos o poblaciones, pero las distancias disminuyen a medida que aumenta la corre-lación entre las variables.

La distancia de Mahalanobis juega un papel fundamental en muchos de los m´etodos multivariantes principalmente por sus buenas propiedades estad´ısticas. Por ejemplo, si la distribuci´on de las variables es normal multivariante Nk(µ, Σ), entonces D2(ω, Ω) =

(x − µ)0Σ−1(x − µ) como variable aleatoria sigue la distribuci´on χ2 k.

Esta distancia puede tambi´en generalizarse al caso en que existan relaciones lineales entre las variables X1, . . . , Xk, entonces Σ es singular. La distancia se define sustituyendo la

matriz inversa de Σ por una g-inversa Σ−, es decir, tal que ΣΣ−Σ = Σ. Esta distancia tiene básicamente las mismas propiedades que en el caso no singular, verificándose además

(5)

a) D2 _{no depende de la g-inversa Σ}−

.

b) D2 _{es invariante por transformaciones lineales que conserven el rango de Σ.}

También se puede justificar la utilización de la matriz inversa Σ−1 en la distancia entre individuos de una manera mucho más formal. En el espacio vectorial E generado por las variables X1, . . . , Xk podemos considerar el producto escalar definido por la matriz Σ.

Cada elemento de la poblaci´on Ω se puede identificar con un elemento de E∗, dual de E , mediante la aplicaci´on h definida de la siguiente manera:

h : Ω −→ E∗ tal que

h(ω) = Y∗ con

Y∗(X) = X(ω) ∀X ∈ E

El producto escalar definido en el espacio E por la matriz Σ, induce en el espacio dual E∗ una forma bilineal asociada a la matriz Σ−1 que define un producto escalar en E∗ y por consiguiente una distancia. Como asociamos mediante la aplicaci´on h a cada elemento de Ω un elemento de E∗, tendremos de forma natural una distancia entre individuos

dΩ(ωi, ωj) = dE∗(h(ω_i), h(ω_j))

En la pr´actica, sin embargo, las medias poblacionales y la matriz de covarianzas son desconocidas. As´ı pues, deberemos realizar las estimaciones m´as adecuadas a partir de las observaciones de las variables X1, . . . , Xk sobre los individuos de Ω.

2. Reducci´

on de la dimensi´

on

2.1. El problema

Supongamos que disponemos de n puntos o vectores de un espacio eucl´ıdeo de dimensi´on k, cuyas coordenadas o componentes forman las filas de la matriz X.

Vamos a construir una variedad lineal que se ajuste perfectamente a la nube de puntos xi, es decir, debemos hallar una variedad lineal tal que la suma de los cuadrados de las

distancias de los puntos a la variedad sea m´ınima. Con dimensi´on q < k, la ecuaci´on de la variedad afin es

y = β1v1+ β2v2+ · · · + βqvq+ a (3)

donde v1, v2, . . . , vqes una base del subespacio director asociado a la variedad, que adem´as

elegiremos ortonormal, verific´andose pues hvi, vji = v0iΣ

−1

vj = δij ∀i, j (4)

(6)

Los vectores

zi = xi− a i = 1, . . . , k

pueden descomponerse de forma ´unica como

zi = pi+ p⊥i i = 1, . . . , k

donde pi es un elemento del subespacio director de la variedad y p⊥i es un vector ortogonal

a dicho subespacio. La proyecci´on de zi en la variedad es pi = q X j=1 pjvj = q X j=1 hzi, vjivj = q X j=1 hxi− a, vjivj (5)

La distancia al cuadrado del punto xi a la variedad es

kp⊥_i k2 _{= kz} ik2− kpik2 donde kpik2 = hpi, pii = q X j=1 hxi− a, vji2

resultado al que se llega ya que pi =Pq_j=1hxi− a, vjivj.

As´ı pues, para lograr el objetivo propuesto debemos minimizar la funci´on Φ(a, v1, . . . , vq) = n X i=1 kp⊥_i k2 ₌ n X i=1 kzik2− kpik2 (6) = n X i=1 hxi− a, xi− ai − q X j=1 hxi− a, vji2 ! con la condici´on hvi, vji = v0iΣ −1 vj = δij ∀i, j

Si desarrollamos la funci´on Φ tenemos Φ = n X i=1 hxi− a, xi − ai − q X j=1 n X i=1 hxi− a, vji2

que matricialmente podemos escribir como

Φ = traza(X − 1a0)Σ−1(X − 1a0)0 −

q

X

j=1

v0_jΣ−1(X − 1a0)0(X − 1a0)Σ−1vj

donde 1 = (1, . . . , 1)0 y la matriz X − 1a0 consiste en restar el vector a0 a cada una de las filas de X.

(7)

2.2. La soluci´

on

En primer lugar veremos que para minimizar Φ debemos considerar el vector a = ¯x donde ¯ x = (¯x1, . . . , ¯xk)0 = 1 n n X i=1 xi = 1 nX 0 1 (7) con ¯ xi = 1 n n X h=1 xhi i = 1, . . . , k

En efecto, supongamos que el vector a que minimiza la funci´on Φ es de la forma a = ¯x+c, entonces Φ = n X i=1 hxi− ¯x − c, xi− ¯x − ci − q X j=1 n X i=1 hxi− ¯x − c, vji2 = n X i=1 kxi− ¯xk2− 2 n X i=1 hxi− ¯x, ci + nkck2 − q X j=1 n X i=1 hxi− ¯x − c, vji2 = n X i=1 kxi− ¯xk2+ nkck2− q X j=1 n X i=1 hxi− ¯x − c, vji2 ya que n¯x =Pn i=1xi.

Si desarrollamos de forma similar el ´ultimo sumando de Φ llegaremos a la expresi´on

Φ = n X i=1 kxi− ¯xk2+ nkck2 − q X j=1 n X i=1 hxi, vji2+ nhc, vji2 − nh¯x, vji2 !

de modo que debemos hallar el vector c que minimice

nkck2− q X j=1 nhc, vji2 = n kck2− q X j=1 hc, vji2 !

Como la proyecci´on de c sobre la variedad es

q X j=1 hc, vjivj su norma al cuadrado es q X j=1 hc, vji2 ≤ kck2

y la igualdad se verifica si c pertenece al subespacio director asociado a la variedad lineal. Por todo ello, la funci´on Φ ser´a m´ınima si tomamos c = 0, ya que el vector nulo pertenece al subespacio director.

(8)

As´ı pues, podemos tomar como vector a el vector de medias ¯x y la expresi´on de Φ a minimizar es Φ(v1, . . . , vk) = traza(X − 1¯x0)Σ−1(X − 1¯x0)0 − q X j=1 v0_jΣ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj = n X i=1 kxi− ¯xk2− q X j=1 v0_jΣ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj

Seguidamente, procederemos a calcular los vectores v1, . . . , vq que minimizan la expresi´on

anterior, con las restricciones se˜naladas. De manera que debemos maximizar

q

X

j=1

v_j0Σ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj (8)

con las restricciones

viΣ−1vj = δij ∀i, j

Consideremos la matriz de centrado H = In − _n1110 que es sim´etrica e idempotente.

Entonces

X − 1¯x0 = HX (9)

y por tanto

(X − 1¯x0)0(X − 1¯x0) = X0HX = nS (10)

donde S es la matriz de varianzas y covarianzas muestrales.

Por todo ello y con las restricciones viΣ−1vj = δij, nos proponemos maximizar la

expre-si´on q X j=1 v0_jAvj (11) donde A = Σ−1SΣ−1.

Para conseguirlo, vamos a maximizar cada uno de los sumandos, es decir, vamos a hallar los vectores que maximizan

φ(v) = v0Av sujeto a

v0Σ−1v = 1

La solución se obtiene por medio de la llamada diagonalización simétrica generalizada, es decir, sean w1, . . . , wk los vectores tales que

Awi = λiΣ−1wi i = 1, . . . , k (12)

con

λ1 ≥ λ2 ≥ . . . ≥ λk

y sujetos a la condici´on w_i0Σ−1wj = δij, es decir, w1, . . . , wk es una base de vectores

(9)

Entonces, para cualquier vector v =Pk i=1αiwi se tiene φ(v) = X i,j αiαjw0iAwj = k X i=1 α2_iλi ≤ λ1 q X i=1 α2_i

y como la base w1, . . . , wk es ortonormal

1 = v0Σ−1v =X i,j αiαjw0iΣ −1 wj = q X i=1 α2_i

por consiguiente φ(v) ≤ λ1, es decir, la función φ está acotada por λ1. Además

φ(w1) = w10Aw1 = λ1w01Σ −1

w1 = λ1

se tiene que el vector w1 hace m´aximo el primer sumando de (11). Los vectores que hacen

m´aximo el resto de los sumandos son los vectores propios correspondientes a los q − 1 siguientes valores propios λ2, . . . , λq.

En el caso que alg´un valor propio sea m´ultiple, se eligen tantos vectores del subespacio propio correspondiente como orden de multiplicidad tenga el valor propio y que sean ortonormales con el producto escalar definido por Σ−1.

Por otra parte, la igualdad

Awi = λiΣ−1wi

al ser A = Σ−1SΣ−1, se puede escribir

SΣ−1wi = λiwi (13)

En consecuencia, la variedad lineal tal que la suma de los cuadrados de las distancias de los puntos xi a dicha variedad es m´ınima, viene definida por

y = ¯x + β1w1+ · · · + βqwq (14)

donde ¯x es el vector de medias y donde w1, . . . , wq son los vectores propios de SΣ−1,

correspondientes a los q primeros valores propios en orden decreciente en caso de ser distintos y ortonormales respecto a Σ−1. Si la multiplicidad de un valor propio es s entonces se eligen s vectores propios ortonormales del subespacio propio correspondiente. En la pr´actica, podemos calcular primero la descomposici´on espectral de la matriz sim´ etri-ca definida positiva Σ

Σ = ΓΛΓ0

donde todos los valores propios de la matriz, en la diagonal Λ, son positivos y no nulos y la matriz de los vectores propios Γ es ortogonal.

En este caso, se puede definir la matriz

(10)

y calcular la descomposici´on espectral de la matriz sim´etrica Σ−1/2SΣ−1/2

Esta descomposici´on proporciona unos valores propios que coinciden con los de SΣ−1 y unos vectores propios bi = Σ−1/2wi que se pueden transformar en

wi = Σ1/2bi

donde Σ1/2 = ΓΛ1/2Γ0.

2.3. M´

axima dispersi´

on

La variedad (14) hallada goza de una importante propiedad: la suma de los cuadrados de las interdistancias de las proyecciones de los puntos xi sobre la variedad es m´axima.

Sea F la variedad lineal q-dimensional (14). Las proyecciones en F de dos puntos xi y xj

de coordenadas xi = (xi1, . . . , xik)0 y xj = (xj1, . . . , xjk)0 vienen dadas por

yi = ¯x + pi

yj = ¯x + pj

donde pi =

Pq

h=1hxi − ¯x, whiwh para cualquier i = 1, . . . , n.

Entonces, la distancia entre los dos puntos proyectados es

D2(yi, yj) = kpi− pjk2 = k q X h=1 hxi− xj, whiwhk2 = q X h=1 (hxi, whi − hxj, whi)2

Luego, si consideramos en la variedad F un sistema de referencia con origen en ¯x y ejes definidos por la base w1, . . . , wq, las proyecciones de los puntos xi y xj son

qi = αi1w1+ · · · + αiqwq qj = αj1w1+ · · · + αjqwq donde αih= hxi, whi = x0iΣ −1 wh = w0hΣ −1 xi para cualquier i = 1, . . . , n y h = 1, . . . , q.

As´ı el cuadrado de la distancia en F de ambas proyecciones es equivalente a la distancia eucl´ıdea al cuadrado entre las componentes de los puntos proyecci´on qi y qj.

D2(yi, yj) = q X h=1 (αih− αjh)2 = (αi− αj)0(αi− αj) = d2(αi, αj) donde αi = (αi1, . . . , αiq)0 = W0Σ−1xi

y W(k × q) es la matriz cuyas columnas son las componentes de los vectores propios w1, . . . , wq.

(11)

De manera que

D2(yi, yj) = (W0Σ−1(xi− xj))0(W0Σ−1(xi− xj))

La suma de los cuadrados de las interdistancias en F vendr´a dada por la expresi´on: SCD = n X i=1 n X j=1 (xi− xj)0Σ−1WW0Σ−1(xi− xj) (15) Si se desarrolla SCD se llega a D = 2n n X i=1 (xi− ¯x)0Σ−1WW0Σ−1(xi− ¯x)

que podemos poner de la siguiente forma

SCD = 2n traza(X − 1¯x0)0Σ−1WW0Σ−1(X − 1¯x0) = 2n trazaW0_Σ−1

(X − 1¯x0)(X − 1¯x0)0Σ−1W

= 2n trazaW0Σ−1X0HXΣ−1W = 2n2traza [W0AW] = 2n2(w0₁Aw1+ · · · + wq0Awq) = 2n2(λ1w10Σ −1 w1+ · · · + λqw0qΣ −1 wq) = 2n2(λ1+ · · · + λq) Es decir SCD = 2n2(λ1+ · · · + λq) (16)

Como anteriormente hemos visto que los sumandos de la forma v0Av con la restricci´on v0Σ−1v = 1 est´an acotados por λ1, . . . , λq, queda demostrada la propiedad, pues cualquier

otra base que no sea la de los vectores propios w1, . . . , wq, lleva a una variedad en la cual

la suma de los cuadrados de las interdistancias de las proyecciones de los puntos originales xi es menor.

2.4. Coordenadas y variables can´

onicas

Las coordenadas de las proyecciones de los puntos originales xi en el nuevo subespacio F

de dimensi´on reducida q, referidas a los vectores propios w1, . . . , wq, son

yi = q

X

h=1

hxi − ¯x, whiwh

si tomamos como origen del sistema de referencia el punto ¯x. Luego, en notaci´on matricial podemos escribir

Yc = (X − 1¯x0)Σ−1W = HXΣ−1W (17)

donde Yc(n×q) es la matriz cuyas filas son las coordenadas de los puntos proyectados en la

variedad y la matriz W tiene como columnas las componentes de los vectores w1, . . . , wq.

Tambi´en podemos calcular la matriz Y de datos sin centrar

(12)

de forma que Yc = HY.

Las filas de la matriz Yc, o si se prefiere Y, constituyen las llamadas coordenadas can´onicas

de los puntos proyectados.

Una propiedad importante de la nueva matriz Y, tambi´en de Yc, que resume nuestros

logros es SY = 1 nY 0 HY = 1 nW 0 Σ−1X0HXΣ−1W = W0Σ−1SΣ−1W = W0AW = diag(λ1, . . . , λq)

Desde otro punto de vista, podemos considerar en Σ−1SΣ−1wi = λiΣ−1wi

con las restricciones w0_iΣ−1wj = δij, la sustituci´on

Σ−1wi = ui i = 1, . . . , q

de manera que nos queda

Σ−1Sui = λiui ⇐⇒ Sui = λiΣui

con las condiciones u0_iΣuj = δij.

La matriz U(k × q) definida por

U = Σ−1W (18)

contiene las componentes de las llamadas variables canónicas. Dichas “variables” son las combinaciones lineales de la matriz de datos X que proporcionan las coordenadas canónicas de los puntos proyección ya que

Y = XU

Adem´as, respecto al producto escalar definido por Σ se verifica U0ΣU = Iq

mientras que para un producto escalar definido para la otra matriz de covarianzas S U0SU = W0Σ−1SΣ−1W = diag(λ1, . . . , λq)

2.5. An´

alisis de la dimensi´

on

Cuando realizamos una representación canónica sobre un espacio de dimensión q, esta dimensión ha de verificar

q ≤ m´ın{n − 1, k} = m El porcentaje de la dispersi´on explicada por los q ejes es

P = 100 · λ1+ · · · + λq λ1+ · · · + λm

(19) donde λi son los valores propios obtenidos de la ecuaci´on 12 o equivalentes.

Si queremos que la representación canónica recoja el 100 % de la dispersión, debemos construir la variedad con dimensión igual al m´ınimo entre el número de valores propios distintos de cero y n − 1. Como dichos valores propios son función de una muestra, el análisis de cuantos valores propios son no nulos es un problema de inferencia estad´ıstica que se resuelve mediante test apropiados.

(13)

3. An´

alisis de componentes principales

El An´alisis de las componentes principales (ACP) proporciona un conjunto de variables Y , combinaci´on lineal de las variables observables X1, X2, . . . , Xk, con la propiedad de

tener varianza m´axima. Para definirlas, utilizaremos la terminolog´ıa estudiada.

Supongamos definidas dos “covarianzas” sobre las variables o los datos. La primera es la verdadera covarianza entre las variables observadas y su matriz asociada es la matriz de covarianzas S, que supondremos de rango k. La segunda es la que corresponde a la m´etrica experimental y la matriz asociada es la identidad Σ = I.

En este caso, las componentes principales se obtienen diagonalizando la matriz de cova-rianzas S

S = GΛG0 (20)

donde Λ = diag(λ1, . . . , λk) contiene los valores propios de S y G es ortogonal, de manera

que GG0 = G0G = I. Las componentes principales son las variables can´onicas, es decir, las combinaciones lineales cuyos coeficientes son las columnas de la matriz G. Por todo ello, la representaci´on de datos se hace con los elementos de la matriz Y(n × k)

Y = XG

o con las q primeras coordenadas para una representación en dimensión q. Además, como ya sabemos, se verifica que

SY = Λ = diag(λ1, . . . , λk)

En resumen, a partir de una matriz de datos X(n × k) con las observaciones sobre n individuos de k variables, se considera la configuraci´_{on de los n puntos en R}k separados por la distancia eucl´ıdea ordinaria. La representación de los individuos en dimensión reducida se consigue con la matriz Y = XG, donde la dispersión de las columnas va disminuyendo de izquierda a derecha. Además, si m = m´ın{k, n − 1} es inferior a k, a partir de la columna m + 1, los elementos de las columnas son exactamente iguales. Para determinar el número necesario de componentes principales se utiliza el cálculo de la variabilidad explicada. Éste es el método más simple, aunque se puede ampliar con otros sistemas estad´ısticos más elaborados como la prueba de Anderson (1963), la prueba de Lebart y Fenelon (1973), etc.

Las componentes principales se pueden obtener también partiendo de la matriz de corre-laciones R. Sin embargo, las componentes principales obtenidas son distintas y la elección entre diagonalizar S o R es un tema controvertido. Si las unidades de medida de las va-riables son distintas (años, kilos, metros, etc.), es preferible el uso de R, porque equivale a utilizar variables reducidas y, por tanto, sin dimensión f´ısica. Pero si las unidades de medida son las mismas o razonablemente conmensurables, es preferible realizar el an´ ali-sis sobre S, que es menos artificial. También se considera recomendable utilizar ambas matrices y comparar las interpretaciones de las dos clases de componentes obtenidas.

3.1. An´

alisis del tama˜

no y la forma

Una de las primeras aplicaciones del ACP a la morfometr´ıa (estudio de la morfolog´ıa de los individuos y especies por m´etodos cuantitativos) se remontan a los primeros intentos

(14)

La idea de tamaño se considera equivalente a la de crecimiento. Podemos idealizar el creci-miento de un individuo, representado por k medidas de otros tantos caracteres biométricos (x1, . . . , xk), como el movimiento a lo largo de una l´ınea recta de ecuación

x1− a1 α1 = x2− a2 α2 = · · · = xk− ak αk (21) donde (α1, α2, . . . , αk)0 representa el vector posici´on del crecimiento (vector director de la

recta) y (a1, a2, . . . , ak) es un punto fijo sobre la recta, que se puede interpretar como el

tama˜no de un individuo adulto que ha alcanzado la madurez (Burnaby, 1966).

La relación (21) es tan sólo ideal, válida si todos los individuos de la población pueden alinearse de menor a mayor tamaño. Cuando los caracteres están representados por k variables aleatorias X1, . . . , Xk, no ligadas por una relación lineal perfecta, parece

razo-nable definir (21) como la direcci´on de m´axima variabilidad, es decir, como la primera componente principal.

Por otra parte, una variable biométrica, cuanto más variabilidad tiene, mejor expresa el concepto de tamaño. Por ejemplo, consideremos un grupo de hombres de prácticamente el mismo peso pero con notable variación de altura; entonces, para ordenarlos de menor a mayor tamaño, los ordenaremos de menor a mayor altura. La variable con mayor varianza será la que mejor expresará este concepto. Si esta variable puede ser una combinación lineal de X1, . . . , Xk, esta variable debe ser la primera componente principal, que se

identifica, pues, con el tama˜no.

¿Y la forma? La forma es un concepto independiente del tamaño. Dos individuos pueden tener el mismo tamaño pero distinta forma y rec´ıprocamente. Como la segunda, terce-ra, etc. componentes principales, están incorrelacionadas con la primera, parece también razonable interpretarlas como variables que expresen la forma de los individuos. Las dis-tintas maneras de representar la forma, también incorrelacionadas entre s´ı, se interpretan en función de la saturación que tengan las variables iniciales sobre estas componentes. Estos son los argumentos principales del trabajo clásico de Jolicoeur y Mosimann (1960), que es un intento de clasificar tortugas atendiendo al peso, longitud y anchura de sus caparazones. Ambos autores toman logaritmos sobre las variables originales, para eliminar los efectos de las relaciones de alometr´ıa entre los caracteres (relación del tipo y = bxa, que se transforma en lineal: log y = log b + a log x).

Sin embargo, para que las componentes principales representen adecuadamente tama˜no y forma, deben cumplirse las siguientes condiciones (Rao, 1971):

1) Todos los coeficientes de la primera componente principal deben ser positivos, es decir, la primera columna de G debe tener todos sus elementos positivos para que se ésta se pueda identificar como tamaño. En efecto, todo incremento positivo de las medidas biométricas X1, . . . , Xk redundará en un incremento positivo de Y1

(aumentando las medidas, aumenta el tamaño). Si esta condición no se verifica, no se puede hablar estrictamente de tamaño.

2) Para que una componente se identifique como forma no debe tener todos los coefi-cientes positivos, sino que algunos deben ser positivos y otros negativos. Un factor de forma debe ser tal que un incremento del factor, o lo que es lo mismo, una forma m´as acusada, resulta de un incremento de unas medidas y un decremento de otras.

(15)

3) Si las componentes de forma se extraen de la matriz de covarianzas S, es aconsejable considerar s´olo aquellas cuyas varianzas superen a la menor de las varianzas de las variables X1, . . . , Xk, es decir,

λ2 ≥ λ3 ≥ · · · ≥ λm ≥ m´ın{s11, . . . , skk}

de esta manera no hay ninguna componente que tenga menos variabilidad que cual-quiera de las variables observadas.

3.2. Interpretaci´

on geom´

etrica

Supongamos que los datos son centrados. Representamos la muestra de tama˜no n con los puntos o filas de la matriz X tomando X1, . . . , Xk como ejes ortogonales y unitarios, es

decir, referimos la muestra a la llamada m´etrica experimental. La nube de puntos adopta entonces la forma del elipsoide de concentraci´on

x0S−1x ≤ c (22)

donde c se puede elegir de manera que un elevado porcentaje de la poblaci´on est´e contenido en este elipsoide.

Consideremos el problema de maximizar v0v con la condición v0S−1v = 1. El vector v solución se encuentra sobre el elipsoide de concentración correspondiente a c = 1 y v0v máximo significa que v representa una dirección de máxima variabilidad respecto a la métrica experimental, que se interpreta geométricamente como el eje principal del elipsoide. Ahora bien, v se obtiene de la diagonalización Iv = λS−1v y por lo tanto

Sv = λv

Luego v es vector propio de S y proporcional al vector que define la primera componente principal Y1. An´alogamente se interpretan las dem´as componentes principales.

Existe pues una correspondencia entre las direcciones ortogonales de máxima variabili-dad del elipsoide de concentración, o ejes principales del elipsoide, y las componentes principales obtenidas por diagonalización de la matriz de covarianzas S de las variables observables.

4. An´

alisis can´

onico de poblaciones

4.1. Introducci´

on

El análisis canónico de poblaciones (ACPL) es un método de representación de grupos o poblaciones, a lo largo de ejes con máximo poder de discriminación, en relación a la distancia de Mahalanobis.

Supongamos que una población general Ω es reunión de p poblaciones o grupos (especies de un mismo género, grupos humanos de diferente comportamiento, etc.)

(16)

Sean X1, . . . , Xk variables observables sobre Ω. Si sobre la poblaci´on Ωi i = 1, . . . , p

obtenemos ni observaciones de las k variables, nuestros datos formar´an una matriz X(n ×

k) siendo n =Pp i=1ni X =    X1 .. . Xp   

Parece razonable identificar cada poblaci´on Ωi con el “individuo” medio de Ωi

represen-tado por el punto que tiene por coordenadas las medias muestrales de las variables en esa poblaci´on

¯

xi(k × 1) = (¯xi1, . . . , ¯xik)0 i = 1, . . . , p

La matriz de datos a representar en dimensi´on reducida es

B =    ¯ x0₁ .. . ¯ x0_p   

donde las filas de B(p × k) son las medias de cada poblaci´on Ωi.

Por otra parte, vamos a considerar la distancia de Mahalanobis entre los puntos obser-vados de la población Ω. Dicha distancia (ver 2) viene determinada por la matriz de covarianzas Σ que, en este caso, debemos estimar. Cuando las covarianzas en las distintas poblaciones se suponen iguales, la estimación más apropiada de Σ es

ˆ Σ = 1 n − p p X i=1 niSi

es decir, una combinaci´on lineal ponderada de las matrices de covarianzas muestrales Si(k × k) para cada poblaci´on por separado.

4.2. Obtenci´

on de las coordenadas can´

onicas

Como sabemos, la representaci´on en dimensi´on reducida se obtiene a partir de dos ma-trices de covarianzas. La primera se calcula con el centrado de la matriz de datos B

HB =    ¯ x0₁− ˜x0 .. . ¯ x0_p− ˜x0    donde ˜x = (1/p)Pp

i=1x¯i, de forma que la matriz de covarianzas “entre” las poblaciones

es A = 1 pB 0 HB = 1 p(¯x1− ˜x, . . . , ¯xp− ˜x)    ¯ x0₁− ˜x0 .. . ¯ x0_p− ˜x0    (23) = 1 p p X i=1 (¯xi− ˜x)(¯xi− ˜x)0

(17)

La otra matriz es la matriz de covarianzas “dentro” de la poblaci´on, es decir, la matriz ˆ

Σ.

El algoritmo para obtener las variables y coordenadas can´onicas, se resume en las siguien-tes f´ormulas

Aui = λiΣuˆ i ⇐⇒ ˆΣ −1

Aui = λiui

U(k × k) = (u1, . . . , uk) λ1 ≥ . . . ≥ λk ≥ 0

Yc = HBU coordenadas can´onicas centradas

5. An´

alisis de correspondencias

5.1. Distancia ji-cuadrado

El An´alisis de correspondencias (AC) es apropiado para representar tablas de frecuencias. Supongamos que los datos corresponden a dos criterios de clasificaci´on, a los que llama-remos “caracteres” y “poblaciones”, los cuales se disponen en una tabla de contingencia:

Caracteres A1 A2 . . . As H1 n11 n12 . . . n1s n1· Poblaciones H2 n21 n22 . . . n2s n2· .. . ... ... ... ... Hr nr1 nr2 . . . nrs nr· n·1 n·2 . . . n·s n donde ni· = s X h=1 nih n·j = r X h=1 nhj

nij es la frecuencia de aparición de la población Hi y el carácter Aj, ni· es la frecuencia

de la poblaci´on Hi, n·j es la frecuencia de Aj y n es el n´umero total de individuos.

La distribuci´on de frecuencias de los caracteres en la poblaci´on Hi viene dada por el

vector de coordenadas hi = ni1 ni· ,ni2 ni· , . . . ,nis ni· 0 (24) que se puede entender como la densidad de probabilidad discreta de Hi i = 1, . . . , r.

Uno de los objetivos del AC es obtener una representación geométrica de las poblaciones H1, H2, . . . , Hr en relación a la distribución de frecuencias relativas de los caracteres. Sin

embargo, la distancia utilizada es la distancia ji-cuadrado, que es diferente de la distancia basada en la m´etrica experimental.

La distancia ji-cuadrado entre las poblaciones Hi y Hj en relaci´on a los caracteres

A1, A2, . . . , As es d2(Hi, Hj) = s X h=1 1 n·h nih ni· −njh nj· 2 (25) = s X n_ih √ − √njh 2

(18)

De acuerdo con esta distancia, las poblaciones H1, H2, . . . , Hr est´an representadas por

una configuraci´_{on de r puntos en un espacio eucl´ıdeo R}s de coordenadas pi = ni1 √ n·1ni· ,√ni2 n·2ni· , . . . ,√nis n·sni· 0 (26) separados por la distancia eucl´ıdea ordinaria. Se comprueba fácilmente que tal configu-ración está contenida en el hiperplano de ecuación

s

X

h=1

√

n·hxh = 1

5.2. Representaci´

on de las poblaciones

La representación de las poblaciones en dimensión reducida, determinadas por las coor-denadas (26) con referencia a los caracteres, se puede interpretar como un problema de representación de datos mediante Análisis de componentes principales.

Sea Z(r × s) la matriz cuyas filas son las coordenadas (26)

Z =      p0₁ p0₂ .. . p0_r     

Debemos diagonalizar la matriz de “covarianzas” que resulta de Z y representar las po-blaciones en dimensi´on q tomando las q primeras coordenadas de la matriz

Y = ZG

Veamos las caracter´ısticas de esta diagonalización. Para lo que sigue nos será útil trabajar con las frecuencias relativas fij = nij/n en lugar de nij. Este cambio de escala no afecta a

la representaci´on gr´afica de los datos. Las coordenadas (24) son exactamente las mismas, pero las coordenadas (26) quedan multiplicadas por el factor n. Supongamos pues

X i X j fij = X i fi· = X j f·j = 1

Las siguientes propiedades nos llevan a la soluci´on:

1. El vector de medias de los caracteres calculadas sobre la matriz Z, ponderadas por las frecuencias relativas f1·, . . . , fr·, es

m = (pf·1, . . . ,

p f·s)0

2. La matriz de covarianzas entre los caracteres, tambi´en ponderando por las frecuen-cias relativas, es

Ss = Z0DrZ − mm0

(19)

3. m es vector propio de Ss de valor propio λ = 0.

4. Los vectores propios de Ss son tambi´en vectores propios de Z0DrZ.

5. m es vector propio de Z0DrZ de valor propio λ = 1.

Como consecuencia de estas propiedades, bastar´a diagonalizar Z0DrZ y considerar s´olo

los vectores propios de valor propio distinto de 1. Como el valor propio 1 corresponde al valor propio 0 de Ss, es f´acil ver que los dem´as valores propios de Z0DrZ son menores que

1:

1 > λ2 ≥ · · · ≥ λs

Si la diagonalizaci´on es

Z0DrZ = TDλT0

donde T es ortogonal y Dλ = diag(1, λ2, . . . , λs). Las coordenadas de las poblaciones

vendr´an dadas por la 2a, 3a,. . . columnas de la matriz Y = ZT

Para determinar el porcentaje de variabilidad explicada por una representaci´on en di-mensi´on q, dividiremos la variabilidad explicada por los ejes por la variabilidad total V T V T = traza Ss = s X j=1 _r X i=1 f_ij2 f·jfi· ! − f·j ! = traza (Z0DrZ) − 1

y el porcentaje de varianza explicada por el 2o, 3o,. . . ejes es Pq = 100 · λ2+ · · · + λq traza(Z0_D rZ) − 1 = 100 · λ2+ · · · + λq λ2+ · · · + λs

La representación en dimensión q (habitualmente q = 2) nos proporciona una repre-sentación de las poblaciones separadas por la distancia ji-cuadrado, salvo la pérdida de información producida al reducir la dimensión.

5.3. Representaci´

on de los caracteres

Hasta aqu´ı, lo que hemos hecho es representar r poblaciones con referencia a s caracteres mediante el Análisis de componentes principales, salvo que hemos utilizado la distancia ji-cuadrado en lugar de la distancia eucl´ıdea. La principal ventaja del AC es que posibilita representar también los s caracteres en relación a las r poblaciones y, sobre todo, realizar una representación simultánea de poblaciones y caracteres.

La distribuci´on de frecuencias de las r poblaciones condicionadas al car´acter Aj viene

dada por el vector de coordenadas aj = n1j n·j ,n2j n·j , . . . ,nrj n·j 0 (27) para todo j = 1, . . . , s.

(20)

Para diferenciar dos caracteres Ai, Aj, en relaci´on a las poblaciones H1, . . . , Hr se define la distancia ji-cuadrado d2(Ai, Aj) = r X h=1 1 nh· nhi n·i − nhj n·j 2 (28) = r X h=1 nhi √ nh·n·i −√nhj nh·n·j 2

As´ı los caracteres A1, . . . , As est´an representados por una configuraci´on de s puntos, en

un espacio eucl´ıdeo Rr_{, de coordenadas}

qj = n1j √ n1·n·j ,√n2j n2·n·j , . . . ,√nrj nr·n·j 0 (29) separados por la distancia eucl´ıdea ordinaria. Los puntos q1, . . . , qs est´an contenidos en

el hiperplano de ecuaci´on r X h=1 √ nh·xh = 1

Las coordenadas (29) constituyen una matriz de datos eZ0(s × r) siendo e

Z = (q1, q2, . . . , qs)

Podemos representar la matriz de datos eZ0 tambi´en mediante an´alisis de componentes principales, diagonalizando la matriz de covarianzas Sr. Dada la dualidad existente entre

la representaci´on de caracteres y la de poblaciones, nos limitaremos ahora a dar las principales f´ormulas y propiedades:

e m = (√f1·, . . . , √ fr·)0 vector de medias Sr = eZDsZe0 − e mm_e0 matriz de covarianzas Ds = diag(f·1, . . . , f·s)

1. m es vector propio de S_e r de valor propio eλ = 0.

2. Los vectores propios de Sr son tambi´en vectores propios de eZDsZe0. 3. m es vector propio de e_e ZDsZe0 de valor propio eλ = 1.

Deberemos, pues, diagonalizar eZDsZe0 e ZDsZe0 = eTD e λTe 0 siendo eT ortogonal y D e

λ = diag(1, eλ2, . . . , eλr) la matriz diagonal con los valores propios

1 ≥ eλ2 ≥ . . . ≥ eλr de eZDsZe0.

La representaci´on de los s caracteres se consigue utilizando la 2a_{, 3}a_{,. . . columnas de la}

matriz

e

Y = eZ0Te

El porcentaje de variabilidad explicada por los q primeros ejes es Pq= 100 ·

e

λ2+ · · · + eλq

e

(21)

5.4. Representaci´

on simult´

anea

El problema de representar las r poblaciones y los s caracteres se resuelve mediante la diagonalizaci´on de las matrices Z0DrZ y eZDsZe0 respectivamente. Sin embargo, ambas representaciones est´an estrechamente relacionadas entre s´ı. En efecto, definamos la matriz de orden r × s

B = D−1/2_r FD−1/2_s

donde F = (fij) es la matriz de frecuencias relativas original, Dr = diag(f1·, . . . , fr·) y

Ds = diag(f·1, . . . , f·s). De manera que los elementos de B son

bij = fij √ fi·pf·j = √ nij ni· √ n·j

La matriz B verifica las siguientes propiedades: 1. Z0DrZ = B0B ZDe _sZe0 = BB0

2. B0B tiene los mismos valores propios que BB0.

3. Si v es vector propio de B0B de valor propio λ, entonces w = Bv es vector propio de BB0 de valor propio λ.

As´ı pues, los valores propios verifican

1 ≥ λ2 = eλ2 ≥ · · · ≥ λt= eλt

donde t = m´ın{r, s} = rango(B0B) = rango(BB0). Los demás valores propios son nulos. Concluimos también que bastará diagonalizar B0B

B0B = TDλT0

Los vectores propios de valor propio no nulo (suponiendo r ≥ s) de BB0 son las columnas de la matriz W(r × s)

W = BT

que debe ser normalizada por columnas, para lo cual bastar´a multiplicar por D−1/2_λ para obtener

e

T = WD−1/2_λ = BTD−1/2_λ Te0T = Ie _r

Las coordenadas de las poblaciones Hi son las filas de Y = ZT y las coordenadas de los

caracteres Aj son las filas de eY = eZ0T, recordando que en ambos casos se prescinde dee la primera columna.

Como

Z = D−1_r FD−1/2_s Z = De −1/2_r FD−1_s podemos relacionar Y con eY

e Y = Ze0T = ee Z0BTD −1/2 λ = D −1 s F 0 D−1/2_r D−1/2_r FD−1/2_s TD−1/2_λ = D−1_s F0YD−1/2_λ (30)

(22)

De esta forma, la h-´esima coordenada (coordenada en el eje h) del car´acter Aj se expresa

en funci´on de las h-´esimas coordenadas de las r poblaciones

e yjh = 1 √ λh f1j f·j y1h+ · · · + frj f·j yrh

An´alogamente se puede ver que

Y = D−1_r F eYD−1/2_λ (31)

y la h-ésima coordenada de la población Hi se expresa en función de las h-ésimas

coor-denadas de los s caracteres seg´un yih= 1 √ λh fi1 fi·e y1h+ · · · + fis fi·e ysh

En vista de estas relaciones, podemos representar las coordenadas de las poblaciones y de los caracteres, contenidas en Y y eY, con referencia a unos mismos ejes factoriales. De la representaci´on simult´anea de poblaciones y caracteres deben distinguirse tres as-pectos:

1) La representaci´on de poblaciones diferenciadas por la distancia ji-cuadrado.

2) La representaci´on de caracteres diferenciados por la distancia ji-cuadrado (corres-pondiente a los caracteres).

3) La correspondencia que existe entre una poblaci´on Hi y los s caracteres expresada

por (31); an´alogamente, la correspondencia que existe entre un car´acter Aj y las r

poblaciones expresada por (30).

Esta correspondencia proviene del hecho de que el punto cuyas coordenadas representan la poblaci´on Hi es el baricentro (salvo el factor λ

−1/2

h ) de los s puntos que representan

los caracteres, asignando a cada punto la masa fij/fi·, que es la frecuencia relativa de

presencia del car´acter Aj en la poblaci´on Hi. La proximidad de Hi a un determinado

grupo de caracteres indica que tienen una presencia importante en Hi. An´alogamente, la

proximidad de un car´acter Aj a un determinado grupo de poblaciones indica una mayor

presencia de este car´acter en tales poblaciones. Esta propiedad es v´alida cualquiera que sean los ejes utilizados, en particular si tomamos los dos primeros ejes no triviales y las coordenadas de las poblaciones y de los caracteres son la segunda y tercera columna de Y y eY.