• No se han encontrado resultados

Representación de datos multivariantes en dimensión reducida

N/A
N/A
Protected

Academic year: 2021

Share "Representación de datos multivariantes en dimensión reducida"

Copied!
22
0
0

Texto completo

(1)

Representaci´

on de datos multivariantes

en dimensi´

on reducida

Francesc Carmona, Carles M. Cuadras y Josep Maria Oller Departamento de Estad´ıstica

Universidad de Barcelona

[email protected], [email protected], [email protected] 15-12-2000

Un conjunto de m´etodos multivariantes resuelven el problema de representar geom´ etrica-mente los individuos, objetos o subpoblaciones ω1, ω2, . . . , ωnde una poblaci´on Ω, respecto

a unas variables observables X1, X2, . . . , Xk que pueden ser cuantitativas, cualitativas o

una combinaci´on de ambos tipos.

En algunos m´etodos de representaci´on de datos, la informaci´on de entrada es una tabla de datos X, en la que xij = Xj(ωi) representa el valor observado de la variable Xj sobre

el individuo ωi. X1 X2 . . . Xk ω1 x11 x12 . . . x1k ω2 x21 x22 . . . x2k .. . ... ... ... ωn xn1 xn2 . . . xnk

En otros m´etodos la informaci´on de entrada es una matriz de disimilaridades.

La informaci´on de salida es una representaci´on geom´etrica de los individuos en dimensi´on reducida (en el plano o en el espacio), que exprese sus diferencias y analog´ıas de la mejor forma posible.

En l´ıneas generales deben distinguirse tres casos:

1) Los individuos constituyen una muestra de tama˜no n de la poblaci´on Ω. Normal-mente la representaci´on de los datos se suele completar con ciertas conclusiones de tipo estad´ıstico, como la significaci´on de la dimensi´on empleada. Ejemplo: repre-sentaci´on de una muestra de especies de un mismo g´enero, utilizando un individuo por especie.

2) Los n individuos constituyen toda la poblaci´on Ω = {ω1, . . . , ωn}

Ejemplo: representaci´on de las 41 comarcas de Catalunya respecto a variables so-cioecon´omicas.

(2)

3) La poblaci´on Ω es la reuni´on de p subpoblaciones excluyentes Ω = Ω1+ · · · + Ωp

Se dispone de una muestra de tama˜no ni de la subpoblaci´on Ωi. Se trata entonces

de representar las p subpoblaciones. Ejemplo: representaci´on de p especies distintas disponiendo de ni individuos por especie.

Una descripci´on breve de los principales m´etodos de an´alisis de datos se expone a conti-nuaci´on:

An´alisis de componentes principales. Utiliza variables cuantitativas y cualitativas y una distancia eucl´ıdea entre los individuos.

An´alisis de coordenadas principales. Utiliza variables cualitativas y una distancia relacionada con la similaridad entre los individuos. Est´a relacionado con el m´etodo anterior.

An´alisis de correspondencias. Es apropiado para representar datos cualitativos orga-nizados en una tabla de contingencia. Utiliza la distancia ji-cuadrado.

An´alisis can´onico de poblaciones. Es apropiado para representar poblaciones, utili-zando generalmente variables cuantitativas. Utiliza la distancia de Mahalanobis. An´alisis de proximidades. Es el m´etodo m´as general de representaci´on de datos. El

an´alisis se realiza sobre una matriz de disimilaridades.

El objetivo de este art´ıculo es explicar los conceptos y propiedades te´oricas sobre las que se desarrollan los diversos m´etodos. Seguidamente desarrollaremos el An´alisis de compo-nentes principales, el An´alisis can´onico de poblaciones y el An´alisis de correspondencias como consecuencia de estas propiedades.

1.

Distancias estad´ısticas

Una cuesti´on b´asica que debe plantearse para la representaci´on de datos es una adecuada elecci´on de la distancia entre los individuos a representar.

Asignemos a cada individuo ωi el vector de coordenadas

xi = (xi1, xi2, . . . , xik)0 i = 1, . . . , n

con las observaciones sobre las variables X1, X2, . . . , Xk. Se puede interpretar xi como un

punto del espacio eucl´ıdeo Rk. Nuestro problema es representar los n puntos de Rk en un espacio de dimensi´on menor, generalmente en el plano.

(3)

1.1.

Distancia eucl´ıdea

Una definici´on simple de distancia es

d(ωi, ωj) = v u u t k X h=1 (xih− xjh)2

que es la distancia eucl´ıdea entre los puntos xi y xj de Rk. Observemos que el cuadrado

de la distancia en notaci´on matricial es

d2(ωi, ωj) = (xi− xj)0(xi− xj) (1)

Esta distancia, aunque es invariante por transformaciones ortogonales, tiene el inconve-niente de ser sensible a cambios de escala de las variables. Es recomendable utilizarla en caso de homogeneidad entre la naturaleza f´ısica de las variables y desconocer la matriz de covarianzas.

1.2.

Distancia de Mahalanobis

Introducimos a continuaci´on una distancia estad´ıstica general perfectamente adecuada para diferenciar individuos o poblaciones mediante k variables aleatorias.

1.2.1. Caso k = 1

Sea X una variable de valor medio µ y desviaci´on t´ıpica σ. La distancia estad´ıstica entre ωi y ωj, siendo X(ωi) = xi y X(ωj) = xj, es por definici´on

d(ωi, ωj) =

|xi− xj|

σ Son propiedades de esta distancia:

1) Es invariante por cambios de escala.

2) Es una distancia normalizada expresada en unidades de desviaci´on t´ıpica. Para una variable con distribuci´on normal, el campo de variabilidad de esta distancia estar´a pr´acticamente comprendido entre 0 y 4.

1.2.2. Caso k > 1

Sean X1, X2, . . . , Xkvariables aleatorias de matriz de covarianzas Σ y ωi, ωj dos individuos

de coordenadas

xi = (xi1, xi2, . . . , xik)0 xj = (xj1, xj2, . . . , xjk)0

Supongamos que Σ es no singular. Definimos la distancia (al cuadrado) entre ωi y ωj por

(4)

Si Ωi, Ωj son dos poblaciones representadas por sus vectores de medias µi, µj y con matriz

de covarianzas com´un Σ, el cuadrado de la distancia entre ambas poblaciones es D2(Ωi, Ωj) = (µi− µj)

0

Σ−1(µi − µj)

Si ω es un individuo de coordenadas x = (x1, . . . , xk)0y el vector de medias de la poblaci´on

es µ, el cuadrado de la distancia estad´ıstica de ω al individuo medio de la poblaci´on es D2(ω, Ω) = (x − µ)0Σ−1(x − µ)

Esta distancia estad´ıstica general fue introducida por Mahalanobis (1936). Aunque en las aplicaciones se utiliza la distancia D, trabajaremos normalmente con D2 para disponer de una mayor comodidad de notaci´on.

La distancia de Mahalanobis tiene las siguientes propiedades: 1) D2

i, ωj) = D2(ωj, ωi)

2) D2

i, ωj) ≥ 0

3) D2(ωi, ωi) = 0

(estas tres primeras propiedades definen el concepto general de distancia) 4) D2

i, ωj) = 0 si y s´olo si xi = xj

5) D2(ωi, ωj) ≤ D2(ωi, ωh) + D2(ωh, ωj)

(con las cinco propiedades anteriores, la distancia se llama m´etrica)

6) Es invariante por transformaciones lineales no singulares de las variables. En parti-cular es invariante por cambios de escala.

7) Est´a expresada en unidades de desviaci´on t´ıpica y tiene en cuenta las correlaciones entre las variables (redundancia).

8) Si indicamos por D2

ka la distancia al cuadrado expresada en funci´on de k variables,

entonces

D2k≤ D2 k+h

9) Si las variables X1, . . . , Xk son estoc´asticamente independientes de las variables

Xk+1, . . . , Xk+h, entonces

D2k+h = D2k+ D2h

Aumentando el n´umero de variables se incrementa el poder de discriminaci´on entre los individuos o poblaciones, pero las distancias disminuyen a medida que aumenta la corre-laci´on entre las variables.

La distancia de Mahalanobis juega un papel fundamental en muchos de los m´etodos multivariantes principalmente por sus buenas propiedades estad´ısticas. Por ejemplo, si la distribuci´on de las variables es normal multivariante Nk(µ, Σ), entonces D2(ω, Ω) =

(x − µ)0Σ−1(x − µ) como variable aleatoria sigue la distribuci´on χ2 k.

Esta distancia puede tambi´en generalizarse al caso en que existan relaciones lineales entre las variables X1, . . . , Xk, entonces Σ es singular. La distancia se define sustituyendo la

matriz inversa de Σ por una g-inversa Σ−, es decir, tal que ΣΣ−Σ = Σ. Esta distancia tiene b´asicamente las mismas propiedades que en el caso no singular, verific´andose adem´as

(5)

a) D2 no depende de la g-inversa Σ

.

b) D2 es invariante por transformaciones lineales que conserven el rango de Σ.

Tambi´en se puede justificar la utilizaci´on de la matriz inversa Σ−1 en la distancia entre individuos de una manera mucho m´as formal. En el espacio vectorial E generado por las variables X1, . . . , Xk podemos considerar el producto escalar definido por la matriz Σ.

Cada elemento de la poblaci´on Ω se puede identificar con un elemento de E∗, dual de E , mediante la aplicaci´on h definida de la siguiente manera:

h : Ω −→ E∗ tal que

h(ω) = Y∗ con

Y∗(X) = X(ω) ∀X ∈ E

El producto escalar definido en el espacio E por la matriz Σ, induce en el espacio dual E∗ una forma bilineal asociada a la matriz Σ−1 que define un producto escalar en E∗ y por consiguiente una distancia. Como asociamos mediante la aplicaci´on h a cada elemento de Ω un elemento de E∗, tendremos de forma natural una distancia entre individuos

dΩ(ωi, ωj) = dE∗(h(ωi), h(ωj))

En la pr´actica, sin embargo, las medias poblacionales y la matriz de covarianzas son desconocidas. As´ı pues, deberemos realizar las estimaciones m´as adecuadas a partir de las observaciones de las variables X1, . . . , Xk sobre los individuos de Ω.

2.

Reducci´

on de la dimensi´

on

2.1.

El problema

Supongamos que disponemos de n puntos o vectores de un espacio eucl´ıdeo de dimensi´on k, cuyas coordenadas o componentes forman las filas de la matriz X.

Vamos a construir una variedad lineal que se ajuste perfectamente a la nube de puntos xi, es decir, debemos hallar una variedad lineal tal que la suma de los cuadrados de las

distancias de los puntos a la variedad sea m´ınima. Con dimensi´on q < k, la ecuaci´on de la variedad afin es

y = β1v1+ β2v2+ · · · + βqvq+ a (3)

donde v1, v2, . . . , vqes una base del subespacio director asociado a la variedad, que adem´as

elegiremos ortonormal, verific´andose pues hvi, vji = v0iΣ

−1

vj = δij ∀i, j (4)

(6)

Los vectores

zi = xi− a i = 1, . . . , k

pueden descomponerse de forma ´unica como

zi = pi+ p⊥i i = 1, . . . , k

donde pi es un elemento del subespacio director de la variedad y p⊥i es un vector ortogonal

a dicho subespacio. La proyecci´on de zi en la variedad es pi = q X j=1 pjvj = q X j=1 hzi, vjivj = q X j=1 hxi− a, vjivj (5)

La distancia al cuadrado del punto xi a la variedad es

kp⊥i k2 = kz ik2− kpik2 donde kpik2 = hpi, pii = q X j=1 hxi− a, vji2

resultado al que se llega ya que pi =Pqj=1hxi− a, vjivj.

As´ı pues, para lograr el objetivo propuesto debemos minimizar la funci´on Φ(a, v1, . . . , vq) = n X i=1 kp⊥i k2 = n X i=1 kzik2− kpik2  (6) = n X i=1 hxi− a, xi− ai − q X j=1 hxi− a, vji2 ! con la condici´on hvi, vji = v0iΣ −1 vj = δij ∀i, j

Si desarrollamos la funci´on Φ tenemos Φ = n X i=1 hxi− a, xi − ai − q X j=1 n X i=1 hxi− a, vji2

que matricialmente podemos escribir como

Φ = traza(X − 1a0)Σ−1(X − 1a0)0 −

q

X

j=1

v0jΣ−1(X − 1a0)0(X − 1a0)Σ−1vj

donde 1 = (1, . . . , 1)0 y la matriz X − 1a0 consiste en restar el vector a0 a cada una de las filas de X.

(7)

2.2.

La soluci´

on

En primer lugar veremos que para minimizar Φ debemos considerar el vector a = ¯x donde ¯ x = (¯x1, . . . , ¯xk)0 = 1 n n X i=1 xi = 1 nX 0 1 (7) con ¯ xi = 1 n n X h=1 xhi i = 1, . . . , k

En efecto, supongamos que el vector a que minimiza la funci´on Φ es de la forma a = ¯x+c, entonces Φ = n X i=1 hxi− ¯x − c, xi− ¯x − ci − q X j=1 n X i=1 hxi− ¯x − c, vji2 = n X i=1 kxi− ¯xk2− 2 n X i=1 hxi− ¯x, ci + nkck2 − q X j=1 n X i=1 hxi− ¯x − c, vji2 = n X i=1 kxi− ¯xk2+ nkck2− q X j=1 n X i=1 hxi− ¯x − c, vji2 ya que n¯x =Pn i=1xi.

Si desarrollamos de forma similar el ´ultimo sumando de Φ llegaremos a la expresi´on

Φ = n X i=1 kxi− ¯xk2+ nkck2 − q X j=1 n X i=1 hxi, vji2+ nhc, vji2 − nh¯x, vji2 !

de modo que debemos hallar el vector c que minimice

nkck2− q X j=1 nhc, vji2 = n kck2− q X j=1 hc, vji2 !

Como la proyecci´on de c sobre la variedad es

q X j=1 hc, vjivj su norma al cuadrado es q X j=1 hc, vji2 ≤ kck2

y la igualdad se verifica si c pertenece al subespacio director asociado a la variedad lineal. Por todo ello, la funci´on Φ ser´a m´ınima si tomamos c = 0, ya que el vector nulo pertenece al subespacio director.

(8)

As´ı pues, podemos tomar como vector a el vector de medias ¯x y la expresi´on de Φ a minimizar es Φ(v1, . . . , vk) = traza(X − 1¯x0)Σ−1(X − 1¯x0)0  − q X j=1 v0jΣ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj = n X i=1 kxi− ¯xk2− q X j=1 v0jΣ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj

Seguidamente, procederemos a calcular los vectores v1, . . . , vq que minimizan la expresi´on

anterior, con las restricciones se˜naladas. De manera que debemos maximizar

q

X

j=1

vj0Σ−1(X − 1¯x0)0(X − 1¯x0)Σ−1vj (8)

con las restricciones

viΣ−1vj = δij ∀i, j

Consideremos la matriz de centrado H = In − n1110 que es sim´etrica e idempotente.

Entonces

X − 1¯x0 = HX (9)

y por tanto

(X − 1¯x0)0(X − 1¯x0) = X0HX = nS (10)

donde S es la matriz de varianzas y covarianzas muestrales.

Por todo ello y con las restricciones viΣ−1vj = δij, nos proponemos maximizar la

expre-si´on q X j=1 v0jAvj (11) donde A = Σ−1SΣ−1.

Para conseguirlo, vamos a maximizar cada uno de los sumandos, es decir, vamos a hallar los vectores que maximizan

φ(v) = v0Av sujeto a

v0Σ−1v = 1

La soluci´on se obtiene por medio de la llamada diagonalizaci´on sim´etrica generalizada, es decir, sean w1, . . . , wk los vectores tales que

Awi = λiΣ−1wi i = 1, . . . , k (12)

con

λ1 ≥ λ2 ≥ . . . ≥ λk

y sujetos a la condici´on wi0Σ−1wj = δij, es decir, w1, . . . , wk es una base de vectores

(9)

Entonces, para cualquier vector v =Pk i=1αiwi se tiene φ(v) = X i,j αiαjw0iAwj = k X i=1 α2iλi ≤ λ1 q X i=1 α2i

y como la base w1, . . . , wk es ortonormal

1 = v0Σ−1v =X i,j αiαjw0iΣ −1 wj = q X i=1 α2i

por consiguiente φ(v) ≤ λ1, es decir, la funci´on φ est´a acotada por λ1. Adem´as

φ(w1) = w10Aw1 = λ1w01Σ −1

w1 = λ1

se tiene que el vector w1 hace m´aximo el primer sumando de (11). Los vectores que hacen

m´aximo el resto de los sumandos son los vectores propios correspondientes a los q − 1 siguientes valores propios λ2, . . . , λq.

En el caso que alg´un valor propio sea m´ultiple, se eligen tantos vectores del subespacio propio correspondiente como orden de multiplicidad tenga el valor propio y que sean ortonormales con el producto escalar definido por Σ−1.

Por otra parte, la igualdad

Awi = λiΣ−1wi

al ser A = Σ−1SΣ−1, se puede escribir

SΣ−1wi = λiwi (13)

En consecuencia, la variedad lineal tal que la suma de los cuadrados de las distancias de los puntos xi a dicha variedad es m´ınima, viene definida por

y = ¯x + β1w1+ · · · + βqwq (14)

donde ¯x es el vector de medias y donde w1, . . . , wq son los vectores propios de SΣ−1,

correspondientes a los q primeros valores propios en orden decreciente en caso de ser distintos y ortonormales respecto a Σ−1. Si la multiplicidad de un valor propio es s entonces se eligen s vectores propios ortonormales del subespacio propio correspondiente. En la pr´actica, podemos calcular primero la descomposici´on espectral de la matriz sim´ etri-ca definida positiva Σ

Σ = ΓΛΓ0

donde todos los valores propios de la matriz, en la diagonal Λ, son positivos y no nulos y la matriz de los vectores propios Γ es ortogonal.

En este caso, se puede definir la matriz

(10)

y calcular la descomposici´on espectral de la matriz sim´etrica Σ−1/2SΣ−1/2

Esta descomposici´on proporciona unos valores propios que coinciden con los de SΣ−1 y unos vectores propios bi = Σ−1/2wi que se pueden transformar en

wi = Σ1/2bi

donde Σ1/2 = ΓΛ1/2Γ0.

2.3.

axima dispersi´

on

La variedad (14) hallada goza de una importante propiedad: la suma de los cuadrados de las interdistancias de las proyecciones de los puntos xi sobre la variedad es m´axima.

Sea F la variedad lineal q-dimensional (14). Las proyecciones en F de dos puntos xi y xj

de coordenadas xi = (xi1, . . . , xik)0 y xj = (xj1, . . . , xjk)0 vienen dadas por

yi = ¯x + pi

yj = ¯x + pj

donde pi =

Pq

h=1hxi − ¯x, whiwh para cualquier i = 1, . . . , n.

Entonces, la distancia entre los dos puntos proyectados es

D2(yi, yj) = kpi− pjk2 = k q X h=1 hxi− xj, whiwhk2 = q X h=1 (hxi, whi − hxj, whi)2

Luego, si consideramos en la variedad F un sistema de referencia con origen en ¯x y ejes definidos por la base w1, . . . , wq, las proyecciones de los puntos xi y xj son

qi = αi1w1+ · · · + αiqwq qj = αj1w1+ · · · + αjqwq donde αih= hxi, whi = x0iΣ −1 wh = w0hΣ −1 xi para cualquier i = 1, . . . , n y h = 1, . . . , q.

As´ı el cuadrado de la distancia en F de ambas proyecciones es equivalente a la distancia eucl´ıdea al cuadrado entre las componentes de los puntos proyecci´on qi y qj.

D2(yi, yj) = q X h=1 (αih− αjh)2 = (αi− αj)0(αi− αj) = d2(αi, αj) donde αi = (αi1, . . . , αiq)0 = W0Σ−1xi

y W(k × q) es la matriz cuyas columnas son las componentes de los vectores propios w1, . . . , wq.

(11)

De manera que

D2(yi, yj) = (W0Σ−1(xi− xj))0(W0Σ−1(xi− xj))

La suma de los cuadrados de las interdistancias en F vendr´a dada por la expresi´on: SCD = n X i=1 n X j=1 (xi− xj)0Σ−1WW0Σ−1(xi− xj) (15) Si se desarrolla SCD se llega a D = 2n n X i=1 (xi− ¯x)0Σ−1WW0Σ−1(xi− ¯x)

que podemos poner de la siguiente forma

SCD = 2n traza(X − 1¯x0)0Σ−1WW0Σ−1(X − 1¯x0) = 2n trazaW0Σ−1

(X − 1¯x0)(X − 1¯x0)0Σ−1W

= 2n trazaW0Σ−1X0HXΣ−1W = 2n2traza [W0AW] = 2n2(w01Aw1+ · · · + wq0Awq) = 2n2(λ1w10Σ −1 w1+ · · · + λqw0qΣ −1 wq) = 2n2(λ1+ · · · + λq) Es decir SCD = 2n2(λ1+ · · · + λq) (16)

Como anteriormente hemos visto que los sumandos de la forma v0Av con la restricci´on v0Σ−1v = 1 est´an acotados por λ1, . . . , λq, queda demostrada la propiedad, pues cualquier

otra base que no sea la de los vectores propios w1, . . . , wq, lleva a una variedad en la cual

la suma de los cuadrados de las interdistancias de las proyecciones de los puntos originales xi es menor.

2.4.

Coordenadas y variables can´

onicas

Las coordenadas de las proyecciones de los puntos originales xi en el nuevo subespacio F

de dimensi´on reducida q, referidas a los vectores propios w1, . . . , wq, son

yi = q

X

h=1

hxi − ¯x, whiwh

si tomamos como origen del sistema de referencia el punto ¯x. Luego, en notaci´on matricial podemos escribir

Yc = (X − 1¯x0)Σ−1W = HXΣ−1W (17)

donde Yc(n×q) es la matriz cuyas filas son las coordenadas de los puntos proyectados en la

variedad y la matriz W tiene como columnas las componentes de los vectores w1, . . . , wq.

Tambi´en podemos calcular la matriz Y de datos sin centrar

(12)

de forma que Yc = HY.

Las filas de la matriz Yc, o si se prefiere Y, constituyen las llamadas coordenadas can´onicas

de los puntos proyectados.

Una propiedad importante de la nueva matriz Y, tambi´en de Yc, que resume nuestros

logros es SY = 1 nY 0 HY = 1 nW 0 Σ−1X0HXΣ−1W = W0Σ−1SΣ−1W = W0AW = diag(λ1, . . . , λq)

Desde otro punto de vista, podemos considerar en Σ−1SΣ−1wi = λiΣ−1wi

con las restricciones w0iΣ−1wj = δij, la sustituci´on

Σ−1wi = ui i = 1, . . . , q

de manera que nos queda

Σ−1Sui = λiui ⇐⇒ Sui = λiΣui

con las condiciones u0iΣuj = δij.

La matriz U(k × q) definida por

U = Σ−1W (18)

contiene las componentes de las llamadas variables can´onicas. Dichas “variables” son las combinaciones lineales de la matriz de datos X que proporcionan las coordenadas can´onicas de los puntos proyecci´on ya que

Y = XU

Adem´as, respecto al producto escalar definido por Σ se verifica U0ΣU = Iq

mientras que para un producto escalar definido para la otra matriz de covarianzas S U0SU = W0Σ−1SΣ−1W = diag(λ1, . . . , λq)

2.5.

An´

alisis de la dimensi´

on

Cuando realizamos una representaci´on can´onica sobre un espacio de dimensi´on q, esta dimensi´on ha de verificar

q ≤ m´ın{n − 1, k} = m El porcentaje de la dispersi´on explicada por los q ejes es

P = 100 · λ1+ · · · + λq λ1+ · · · + λm

(19) donde λi son los valores propios obtenidos de la ecuaci´on 12 o equivalentes.

Si queremos que la representaci´on can´onica recoja el 100 % de la dispersi´on, debemos construir la variedad con dimensi´on igual al m´ınimo entre el n´umero de valores propios distintos de cero y n − 1. Como dichos valores propios son funci´on de una muestra, el an´alisis de cuantos valores propios son no nulos es un problema de inferencia estad´ıstica que se resuelve mediante test apropiados.

(13)

3.

An´

alisis de componentes principales

El An´alisis de las componentes principales (ACP) proporciona un conjunto de variables Y , combinaci´on lineal de las variables observables X1, X2, . . . , Xk, con la propiedad de

tener varianza m´axima. Para definirlas, utilizaremos la terminolog´ıa estudiada.

Supongamos definidas dos “covarianzas” sobre las variables o los datos. La primera es la verdadera covarianza entre las variables observadas y su matriz asociada es la matriz de covarianzas S, que supondremos de rango k. La segunda es la que corresponde a la m´etrica experimental y la matriz asociada es la identidad Σ = I.

En este caso, las componentes principales se obtienen diagonalizando la matriz de cova-rianzas S

S = GΛG0 (20)

donde Λ = diag(λ1, . . . , λk) contiene los valores propios de S y G es ortogonal, de manera

que GG0 = G0G = I. Las componentes principales son las variables can´onicas, es decir, las combinaciones lineales cuyos coeficientes son las columnas de la matriz G. Por todo ello, la representaci´on de datos se hace con los elementos de la matriz Y(n × k)

Y = XG

o con las q primeras coordenadas para una representaci´on en dimensi´on q. Adem´as, como ya sabemos, se verifica que

SY = Λ = diag(λ1, . . . , λk)

En resumen, a partir de una matriz de datos X(n × k) con las observaciones sobre n individuos de k variables, se considera la configuraci´on de los n puntos en Rk separados por la distancia eucl´ıdea ordinaria. La representaci´on de los individuos en dimensi´on reducida se consigue con la matriz Y = XG, donde la dispersi´on de las columnas va disminuyendo de izquierda a derecha. Adem´as, si m = m´ın{k, n − 1} es inferior a k, a partir de la columna m + 1, los elementos de las columnas son exactamente iguales. Para determinar el n´umero necesario de componentes principales se utiliza el c´alculo de la variabilidad explicada. ´Este es el m´etodo m´as simple, aunque se puede ampliar con otros sistemas estad´ısticos m´as elaborados como la prueba de Anderson (1963), la prueba de Lebart y Fenelon (1973), etc.

Las componentes principales se pueden obtener tambi´en partiendo de la matriz de corre-laciones R. Sin embargo, las componentes principales obtenidas son distintas y la elecci´on entre diagonalizar S o R es un tema controvertido. Si las unidades de medida de las va-riables son distintas (a˜nos, kilos, metros, etc.), es preferible el uso de R, porque equivale a utilizar variables reducidas y, por tanto, sin dimensi´on f´ısica. Pero si las unidades de medida son las mismas o razonablemente conmensurables, es preferible realizar el an´ ali-sis sobre S, que es menos artificial. Tambi´en se considera recomendable utilizar ambas matrices y comparar las interpretaciones de las dos clases de componentes obtenidas.

3.1.

An´

alisis del tama˜

no y la forma

Una de las primeras aplicaciones del ACP a la morfometr´ıa (estudio de la morfolog´ıa de los individuos y especies por m´etodos cuantitativos) se remontan a los primeros intentos

(14)

La idea de tama˜no se considera equivalente a la de crecimiento. Podemos idealizar el creci-miento de un individuo, representado por k medidas de otros tantos caracteres biom´etricos (x1, . . . , xk), como el movimiento a lo largo de una l´ınea recta de ecuaci´on

x1− a1 α1 = x2− a2 α2 = · · · = xk− ak αk (21) donde (α1, α2, . . . , αk)0 representa el vector posici´on del crecimiento (vector director de la

recta) y (a1, a2, . . . , ak) es un punto fijo sobre la recta, que se puede interpretar como el

tama˜no de un individuo adulto que ha alcanzado la madurez (Burnaby, 1966).

La relaci´on (21) es tan s´olo ideal, v´alida si todos los individuos de la poblaci´on pueden alinearse de menor a mayor tama˜no. Cuando los caracteres est´an representados por k variables aleatorias X1, . . . , Xk, no ligadas por una relaci´on lineal perfecta, parece

razo-nable definir (21) como la direcci´on de m´axima variabilidad, es decir, como la primera componente principal.

Por otra parte, una variable biom´etrica, cuanto m´as variabilidad tiene, mejor expresa el concepto de tama˜no. Por ejemplo, consideremos un grupo de hombres de pr´acticamente el mismo peso pero con notable variaci´on de altura; entonces, para ordenarlos de menor a mayor tama˜no, los ordenaremos de menor a mayor altura. La variable con mayor varianza ser´a la que mejor expresar´a este concepto. Si esta variable puede ser una combinaci´on lineal de X1, . . . , Xk, esta variable debe ser la primera componente principal, que se

identifica, pues, con el tama˜no.

¿Y la forma? La forma es un concepto independiente del tama˜no. Dos individuos pueden tener el mismo tama˜no pero distinta forma y rec´ıprocamente. Como la segunda, terce-ra, etc. componentes principales, est´an incorrelacionadas con la primera, parece tambi´en razonable interpretarlas como variables que expresen la forma de los individuos. Las dis-tintas maneras de representar la forma, tambi´en incorrelacionadas entre s´ı, se interpretan en funci´on de la saturaci´on que tengan las variables iniciales sobre estas componentes. Estos son los argumentos principales del trabajo cl´asico de Jolicoeur y Mosimann (1960), que es un intento de clasificar tortugas atendiendo al peso, longitud y anchura de sus caparazones. Ambos autores toman logaritmos sobre las variables originales, para eliminar los efectos de las relaciones de alometr´ıa entre los caracteres (relaci´on del tipo y = bxa, que se transforma en lineal: log y = log b + a log x).

Sin embargo, para que las componentes principales representen adecuadamente tama˜no y forma, deben cumplirse las siguientes condiciones (Rao, 1971):

1) Todos los coeficientes de la primera componente principal deben ser positivos, es decir, la primera columna de G debe tener todos sus elementos positivos para que se ´esta se pueda identificar como tama˜no. En efecto, todo incremento positivo de las medidas biom´etricas X1, . . . , Xk redundar´a en un incremento positivo de Y1

(aumentando las medidas, aumenta el tama˜no). Si esta condici´on no se verifica, no se puede hablar estrictamente de tama˜no.

2) Para que una componente se identifique como forma no debe tener todos los coefi-cientes positivos, sino que algunos deben ser positivos y otros negativos. Un factor de forma debe ser tal que un incremento del factor, o lo que es lo mismo, una forma m´as acusada, resulta de un incremento de unas medidas y un decremento de otras.

(15)

3) Si las componentes de forma se extraen de la matriz de covarianzas S, es aconsejable considerar s´olo aquellas cuyas varianzas superen a la menor de las varianzas de las variables X1, . . . , Xk, es decir,

λ2 ≥ λ3 ≥ · · · ≥ λm ≥ m´ın{s11, . . . , skk}

de esta manera no hay ninguna componente que tenga menos variabilidad que cual-quiera de las variables observadas.

3.2.

Interpretaci´

on geom´

etrica

Supongamos que los datos son centrados. Representamos la muestra de tama˜no n con los puntos o filas de la matriz X tomando X1, . . . , Xk como ejes ortogonales y unitarios, es

decir, referimos la muestra a la llamada m´etrica experimental. La nube de puntos adopta entonces la forma del elipsoide de concentraci´on

x0S−1x ≤ c (22)

donde c se puede elegir de manera que un elevado porcentaje de la poblaci´on est´e contenido en este elipsoide.

Consideremos el problema de maximizar v0v con la condici´on v0S−1v = 1. El vector v soluci´on se encuentra sobre el elipsoide de concentraci´on correspondiente a c = 1 y v0v m´aximo significa que v representa una direcci´on de m´axima variabilidad respecto a la m´etrica experimental, que se interpreta geom´etricamente como el eje principal del elipsoide. Ahora bien, v se obtiene de la diagonalizaci´on Iv = λS−1v y por lo tanto

Sv = λv

Luego v es vector propio de S y proporcional al vector que define la primera componente principal Y1. An´alogamente se interpretan las dem´as componentes principales.

Existe pues una correspondencia entre las direcciones ortogonales de m´axima variabili-dad del elipsoide de concentraci´on, o ejes principales del elipsoide, y las componentes principales obtenidas por diagonalizaci´on de la matriz de covarianzas S de las variables observables.

4.

An´

alisis can´

onico de poblaciones

4.1.

Introducci´

on

El an´alisis can´onico de poblaciones (ACPL) es un m´etodo de representaci´on de grupos o poblaciones, a lo largo de ejes con m´aximo poder de discriminaci´on, en relaci´on a la distancia de Mahalanobis.

Supongamos que una poblaci´on general Ω es reuni´on de p poblaciones o grupos (especies de un mismo g´enero, grupos humanos de diferente comportamiento, etc.)

(16)

Sean X1, . . . , Xk variables observables sobre Ω. Si sobre la poblaci´on Ωi i = 1, . . . , p

obtenemos ni observaciones de las k variables, nuestros datos formar´an una matriz X(n ×

k) siendo n =Pp i=1ni X =    X1 .. . Xp   

Parece razonable identificar cada poblaci´on Ωi con el “individuo” medio de Ωi

represen-tado por el punto que tiene por coordenadas las medias muestrales de las variables en esa poblaci´on

¯

xi(k × 1) = (¯xi1, . . . , ¯xik)0 i = 1, . . . , p

La matriz de datos a representar en dimensi´on reducida es

B =    ¯ x01 .. . ¯ x0p   

donde las filas de B(p × k) son las medias de cada poblaci´on Ωi.

Por otra parte, vamos a considerar la distancia de Mahalanobis entre los puntos obser-vados de la poblaci´on Ω. Dicha distancia (ver 2) viene determinada por la matriz de covarianzas Σ que, en este caso, debemos estimar. Cuando las covarianzas en las distintas poblaciones se suponen iguales, la estimaci´on m´as apropiada de Σ es

ˆ Σ = 1 n − p p X i=1 niSi

es decir, una combinaci´on lineal ponderada de las matrices de covarianzas muestrales Si(k × k) para cada poblaci´on por separado.

4.2.

Obtenci´

on de las coordenadas can´

onicas

Como sabemos, la representaci´on en dimensi´on reducida se obtiene a partir de dos ma-trices de covarianzas. La primera se calcula con el centrado de la matriz de datos B

HB =    ¯ x01− ˜x0 .. . ¯ x0p− ˜x0    donde ˜x = (1/p)Pp

i=1x¯i, de forma que la matriz de covarianzas “entre” las poblaciones

es A = 1 pB 0 HB = 1 p(¯x1− ˜x, . . . , ¯xp− ˜x)    ¯ x01− ˜x0 .. . ¯ x0p− ˜x0    (23) = 1 p p X i=1 (¯xi− ˜x)(¯xi− ˜x)0

(17)

La otra matriz es la matriz de covarianzas “dentro” de la poblaci´on, es decir, la matriz ˆ

Σ.

El algoritmo para obtener las variables y coordenadas can´onicas, se resume en las siguien-tes f´ormulas

Aui = λiΣuˆ i ⇐⇒ ˆΣ −1

Aui = λiui

U(k × k) = (u1, . . . , uk) λ1 ≥ . . . ≥ λk ≥ 0

Yc = HBU coordenadas can´onicas centradas

5.

An´

alisis de correspondencias

5.1.

Distancia ji-cuadrado

El An´alisis de correspondencias (AC) es apropiado para representar tablas de frecuencias. Supongamos que los datos corresponden a dos criterios de clasificaci´on, a los que llama-remos “caracteres” y “poblaciones”, los cuales se disponen en una tabla de contingencia:

Caracteres A1 A2 . . . As H1 n11 n12 . . . n1s n1· Poblaciones H2 n21 n22 . . . n2s n2· .. . ... ... ... ... Hr nr1 nr2 . . . nrs nr· n·1 n·2 . . . n·s n donde ni· = s X h=1 nih n·j = r X h=1 nhj

nij es la frecuencia de aparici´on de la poblaci´on Hi y el car´acter Aj, ni· es la frecuencia

de la poblaci´on Hi, n·j es la frecuencia de Aj y n es el n´umero total de individuos.

La distribuci´on de frecuencias de los caracteres en la poblaci´on Hi viene dada por el

vector de coordenadas hi =  ni1 ni· ,ni2 ni· , . . . ,nis ni· 0 (24) que se puede entender como la densidad de probabilidad discreta de Hi i = 1, . . . , r.

Uno de los objetivos del AC es obtener una representaci´on geom´etrica de las poblaciones H1, H2, . . . , Hr en relaci´on a la distribuci´on de frecuencias relativas de los caracteres. Sin

embargo, la distancia utilizada es la distancia ji-cuadrado, que es diferente de la distancia basada en la m´etrica experimental.

La distancia ji-cuadrado entre las poblaciones Hi y Hj en relaci´on a los caracteres

A1, A2, . . . , As es d2(Hi, Hj) = s X h=1 1 n·h  nih ni· −njh nj· 2 (25) = s X nih √ − √njh 2

(18)

De acuerdo con esta distancia, las poblaciones H1, H2, . . . , Hr est´an representadas por

una configuraci´on de r puntos en un espacio eucl´ıdeo Rs de coordenadas pi =  ni1 √ n·1ni· ,√ni2 n·2ni· , . . . ,√nis n·sni· 0 (26) separados por la distancia eucl´ıdea ordinaria. Se comprueba f´acilmente que tal configu-raci´on est´a contenida en el hiperplano de ecuaci´on

s

X

h=1

n·hxh = 1

5.2.

Representaci´

on de las poblaciones

La representaci´on de las poblaciones en dimensi´on reducida, determinadas por las coor-denadas (26) con referencia a los caracteres, se puede interpretar como un problema de representaci´on de datos mediante An´alisis de componentes principales.

Sea Z(r × s) la matriz cuyas filas son las coordenadas (26)

Z =      p01 p02 .. . p0r     

Debemos diagonalizar la matriz de “covarianzas” que resulta de Z y representar las po-blaciones en dimensi´on q tomando las q primeras coordenadas de la matriz

Y = ZG

Veamos las caracter´ısticas de esta diagonalizaci´on. Para lo que sigue nos ser´a ´util trabajar con las frecuencias relativas fij = nij/n en lugar de nij. Este cambio de escala no afecta a

la representaci´on gr´afica de los datos. Las coordenadas (24) son exactamente las mismas, pero las coordenadas (26) quedan multiplicadas por el factor n. Supongamos pues

X i X j fij = X i fi· = X j f·j = 1

Las siguientes propiedades nos llevan a la soluci´on:

1. El vector de medias de los caracteres calculadas sobre la matriz Z, ponderadas por las frecuencias relativas f1·, . . . , fr·, es

m = (pf·1, . . . ,

p f·s)0

2. La matriz de covarianzas entre los caracteres, tambi´en ponderando por las frecuen-cias relativas, es

Ss = Z0DrZ − mm0

(19)

3. m es vector propio de Ss de valor propio λ = 0.

4. Los vectores propios de Ss son tambi´en vectores propios de Z0DrZ.

5. m es vector propio de Z0DrZ de valor propio λ = 1.

Como consecuencia de estas propiedades, bastar´a diagonalizar Z0DrZ y considerar s´olo

los vectores propios de valor propio distinto de 1. Como el valor propio 1 corresponde al valor propio 0 de Ss, es f´acil ver que los dem´as valores propios de Z0DrZ son menores que

1:

1 > λ2 ≥ · · · ≥ λs

Si la diagonalizaci´on es

Z0DrZ = TDλT0

donde T es ortogonal y Dλ = diag(1, λ2, . . . , λs). Las coordenadas de las poblaciones

vendr´an dadas por la 2a, 3a,. . . columnas de la matriz Y = ZT

Para determinar el porcentaje de variabilidad explicada por una representaci´on en di-mensi´on q, dividiremos la variabilidad explicada por los ejes por la variabilidad total V T V T = traza Ss = s X j=1 r X i=1 fij2 f·jfi· ! − f·j ! = traza (Z0DrZ) − 1

y el porcentaje de varianza explicada por el 2o, 3o,. . . ejes es Pq = 100 · λ2+ · · · + λq traza(Z0D rZ) − 1 = 100 · λ2+ · · · + λq λ2+ · · · + λs

La representaci´on en dimensi´on q (habitualmente q = 2) nos proporciona una repre-sentaci´on de las poblaciones separadas por la distancia ji-cuadrado, salvo la p´erdida de informaci´on producida al reducir la dimensi´on.

5.3.

Representaci´

on de los caracteres

Hasta aqu´ı, lo que hemos hecho es representar r poblaciones con referencia a s caracteres mediante el An´alisis de componentes principales, salvo que hemos utilizado la distancia ji-cuadrado en lugar de la distancia eucl´ıdea. La principal ventaja del AC es que posibilita representar tambi´en los s caracteres en relaci´on a las r poblaciones y, sobre todo, realizar una representaci´on simult´anea de poblaciones y caracteres.

La distribuci´on de frecuencias de las r poblaciones condicionadas al car´acter Aj viene

dada por el vector de coordenadas aj =  n1j n·j ,n2j n·j , . . . ,nrj n·j 0 (27) para todo j = 1, . . . , s.

(20)

Para diferenciar dos caracteres Ai, Aj, en relaci´on a las poblaciones H1, . . . , Hr se define la distancia ji-cuadrado d2(Ai, Aj) = r X h=1 1 nh·  nhi n·i − nhj n·j 2 (28) = r X h=1  nhi √ nh·n·i −√nhj nh·n·j 2

As´ı los caracteres A1, . . . , As est´an representados por una configuraci´on de s puntos, en

un espacio eucl´ıdeo Rr, de coordenadas

qj =  n1j √ n1·n·j ,√n2j n2·n·j , . . . ,√nrj nr·n·j 0 (29) separados por la distancia eucl´ıdea ordinaria. Los puntos q1, . . . , qs est´an contenidos en

el hiperplano de ecuaci´on r X h=1 √ nh·xh = 1

Las coordenadas (29) constituyen una matriz de datos eZ0(s × r) siendo e

Z = (q1, q2, . . . , qs)

Podemos representar la matriz de datos eZ0 tambi´en mediante an´alisis de componentes principales, diagonalizando la matriz de covarianzas Sr. Dada la dualidad existente entre

la representaci´on de caracteres y la de poblaciones, nos limitaremos ahora a dar las principales f´ormulas y propiedades:

e m = (√f1·, . . . , √ fr·)0 vector de medias Sr = eZDsZe0 − e mme0 matriz de covarianzas Ds = diag(f·1, . . . , f·s)

1. m es vector propio de Se r de valor propio eλ = 0.

2. Los vectores propios de Sr son tambi´en vectores propios de eZDsZe0. 3. m es vector propio de ee ZDsZe0 de valor propio eλ = 1.

Deberemos, pues, diagonalizar eZDsZe0 e ZDsZe0 = eTD e λTe 0 siendo eT ortogonal y D e

λ = diag(1, eλ2, . . . , eλr) la matriz diagonal con los valores propios

1 ≥ eλ2 ≥ . . . ≥ eλr de eZDsZe0.

La representaci´on de los s caracteres se consigue utilizando la 2a, 3a,. . . columnas de la

matriz

e

Y = eZ0Te

El porcentaje de variabilidad explicada por los q primeros ejes es Pq= 100 ·

e

λ2+ · · · + eλq

e

(21)

5.4.

Representaci´

on simult´

anea

El problema de representar las r poblaciones y los s caracteres se resuelve mediante la diagonalizaci´on de las matrices Z0DrZ y eZDsZe0 respectivamente. Sin embargo, ambas representaciones est´an estrechamente relacionadas entre s´ı. En efecto, definamos la matriz de orden r × s

B = D−1/2r FD−1/2s

donde F = (fij) es la matriz de frecuencias relativas original, Dr = diag(f1·, . . . , fr·) y

Ds = diag(f·1, . . . , f·s). De manera que los elementos de B son

bij = fij √ fi·pf·j = √ nij ni· √ n·j

La matriz B verifica las siguientes propiedades: 1. Z0DrZ = B0B ZDe sZe0 = BB0

2. B0B tiene los mismos valores propios que BB0.

3. Si v es vector propio de B0B de valor propio λ, entonces w = Bv es vector propio de BB0 de valor propio λ.

As´ı pues, los valores propios verifican

1 ≥ λ2 = eλ2 ≥ · · · ≥ λt= eλt

donde t = m´ın{r, s} = rango(B0B) = rango(BB0). Los dem´as valores propios son nulos. Concluimos tambi´en que bastar´a diagonalizar B0B

B0B = TDλT0

Los vectores propios de valor propio no nulo (suponiendo r ≥ s) de BB0 son las columnas de la matriz W(r × s)

W = BT

que debe ser normalizada por columnas, para lo cual bastar´a multiplicar por D−1/2λ para obtener

e

T = WD−1/2λ = BTD−1/2λ Te0T = Ie r

Las coordenadas de las poblaciones Hi son las filas de Y = ZT y las coordenadas de los

caracteres Aj son las filas de eY = eZ0T, recordando que en ambos casos se prescinde dee la primera columna.

Como

Z = D−1r FD−1/2s Z = De −1/2r FD−1s podemos relacionar Y con eY

e Y = Ze0T = ee Z0BTD −1/2 λ = D −1 s F 0 D−1/2r D−1/2r FD−1/2s TD−1/2λ = D−1s F0YD−1/2λ (30)

(22)

De esta forma, la h-´esima coordenada (coordenada en el eje h) del car´acter Aj se expresa

en funci´on de las h-´esimas coordenadas de las r poblaciones

e yjh = 1 √ λh  f1j f·j y1h+ · · · + frj f·j yrh 

An´alogamente se puede ver que

Y = D−1r F eYD−1/2λ (31)

y la h-´esima coordenada de la poblaci´on Hi se expresa en funci´on de las h-´esimas

coor-denadas de los s caracteres seg´un yih= 1 √ λh  fi1 fi·e y1h+ · · · + fis fi·e ysh 

En vista de estas relaciones, podemos representar las coordenadas de las poblaciones y de los caracteres, contenidas en Y y eY, con referencia a unos mismos ejes factoriales. De la representaci´on simult´anea de poblaciones y caracteres deben distinguirse tres as-pectos:

1) La representaci´on de poblaciones diferenciadas por la distancia ji-cuadrado.

2) La representaci´on de caracteres diferenciados por la distancia ji-cuadrado (corres-pondiente a los caracteres).

3) La correspondencia que existe entre una poblaci´on Hi y los s caracteres expresada

por (31); an´alogamente, la correspondencia que existe entre un car´acter Aj y las r

poblaciones expresada por (30).

Esta correspondencia proviene del hecho de que el punto cuyas coordenadas representan la poblaci´on Hi es el baricentro (salvo el factor λ

−1/2

h ) de los s puntos que representan

los caracteres, asignando a cada punto la masa fij/fi·, que es la frecuencia relativa de

presencia del car´acter Aj en la poblaci´on Hi. La proximidad de Hi a un determinado

grupo de caracteres indica que tienen una presencia importante en Hi. An´alogamente, la

proximidad de un car´acter Aj a un determinado grupo de poblaciones indica una mayor

presencia de este car´acter en tales poblaciones. Esta propiedad es v´alida cualquiera que sean los ejes utilizados, en particular si tomamos los dos primeros ejes no triviales y las coordenadas de las poblaciones y de los caracteres son la segunda y tercera columna de Y y eY.

Referencias

Documento similar

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados

Este parón o bloqueo de las ventas españolas al resto de la Comunidad contrasta sin em- bargo con la evolución interior de ese mismo mercado en cuan- to a la demanda de hortalizas.

D) El equipamiento constitucional para la recepción de las Comisiones Reguladoras: a) La estructura de la administración nacional, b) La su- prema autoridad administrativa

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación

pues aixó es lo pichOi', Qni hacha vist á Pepa Lluesma y á tats així el 'apaüatsL .. Podrá dir qne disfras,ats mas ha vist en

Pero un estar entre que entendido según la geometría tradicional puede ser un indeterminado, pero en la vida, desde ese sumatorio imposible que plantea Simmel, y que

Tanto el nuevo modelo propuesto para el An´alisis de Datos Acoplados T 3-P CA como los mencionados anteriormente utilizan distintos modelos para el An´alisis de la Interac- ci´on

Para ello, las Tecnolog´ıas del Lenguaje Humano juegan un papel fundamental, ya que se utilizan para extraer meta-datos sobre comentarios de las redes sociales y representar