Descomposició en valors singulars: introducció i aplicacions

(1)

Descomposició en valors singulars: introducció i aplicacions

Anàlisi de components principals (PCA) i descomposició en valors singulars (SVD)

PID_00262386

Francesc Pozo Montero

Núria Parés Mariné

(2)

Francesc Pozo Montero Núria Parés Mariné Llicenciat en Matemàtiques per la

Universitat de Barcelona (2000) i doctor en Matemàtica Aplicada per la Universitat Politècnica de Catalu- nya (2005). Ha estat professor associat a la Universitat Autònoma de Barcelona i professor associat, col·laborador i actualment professor agregat a la Universitat Politècnica de Catalunya. A més, és cofundador del Grup d’Innovació Matemàtica E-learning (GIMEL), responsable de diversos projectes d’innovació docent i autor de diverses publicacions. Com a membre del grup de recerca consolidat CoDAlab, centra la recerca en la teoria de control i les aplicacions en enginyeria mecànica i civil, com també en l’ús de la cièn- cia de dades per al monitoratge de la integritat estructural i per al monitoratge de la condició, sobretot en turbines eòliques.

Llicenciada en Matemàtiques per la Universitat Politècnica de Catalu- nya (1999) i doctora en Matemàti- ca Aplicada per la Universitat Poli- tècnica de Catalunya (2005). És professora de la Universitat Politècnica de Catalunya des del 2000 —actualment, com a professora agregada—, cofunfadora del Grup d’Innovació Matemàtica E-learning (GIMEL), responsable de diversos projectes d’innovació docent i autora de diverses publicacions i llibres docents.

Com a membre del grup de recerca consolidat LaCàN (UPC), centra la investigació en el desenvolupament de tècniques eficients per a la reso- lució numèrica d’equacions en de- rivades parcials i en l’estimació de l’error associat a aquestes simulaci- ons numèriques.

La revisió d'aquest recurs d'aprenentatge UOC ha estat coordinada per la professora: Cristina Cano Bastidas

Segona edició: setembre 2020

Autoria: Francesc Pozo Montero, Núria Parés Mariné Producció: FUOC

Tots els drets reservats

Cap part d'aquesta publicació, incloent-hi el disseny general i la coberta, no pot ser copiada, reproduïda, emmagatzemada o transmesa de cap manera ni per cap mitjà, tant si és elèctric com mecànic, òptic, de gravació, de fotocòpia o per altres mètodes, sense l'autorització prèvia per escrit del titular dels drets.

(3)

Índex

1. La maledicció de la dimensió . . . . 5

1.1. Exemple introductori: la interpolació polinòmica pura . . . 5

1.2. Un altre exemple: l’enquesta de pressupostos familiars . . . 7

2. Anàlisi de components principals . . . . 10

2.1. Preprocessament: l’escalat de les dades . . . 12

2.2. Matriu de covariàncies . . . 15

2.3. Diagonalització de la matriu de covariàncies . . . 17

2.4. La matriu de covariàncies de les dades transformades . . . 18

2.4.1. Com hem d’interpretar, per exemple, la primera component principal? . . . 19

2.4.2. Quin és el pes de la primera component principal? . . . 21

2.5. Reducció de la dimensió . . . 24

2.5.1. L’error residual . . . 25

2.6. Exemple d’aplicació: enquesta de pressupostos familiars . . . 25

3. Descomposició en valors singulars . . . . 29

3.1. Exemple introductori . . . 29

3.2. Descomposició en valors singulars reduïda . . . 30

3.2.1. Càlcul dels valors singulars i dels vectors singulars . . . 31

3.3. Descomposició en valors singulars completa . . . 35

3.3.1. Propietats interessants de la descomposició en valors singulars . . . 39

3.4. Aplicació de la descomposició en valors singulars: compressió d’imatges . . . 39

Resum . . . . 48

Exercicis d’autoavaluació . . . . 50

Solucionari . . . . 52

Glossari . . . . 60

Bibliograﬁa . . . . 61

(4)

(5)

1. La maledicció de la dimensió .

1.1. Exemple introductori: la interpolació polinòmica pura

Un problema d’interpolació clàssic és trobar, per exemple, la paràbola que s’ajusta millor a tres punts donats, com ara:

(x₀,y₀), (x₁,y₁) i (x₂,y₂).

L’equació d’una paràbola és

y = ax²+ bx + c,

en què a,b i c són nombres reals. Es tracta, doncs, de trobar el valor de tres paràmetres. Per fer-ho, imposem que els tres punts donats estiguin sobre la paràbola. És a dir, els tres punts han de satisfer l’equació de la paràbola. Això equival al sistema d’equacions lineals següent:

y0= ax²0+ bx0+ c

y₁= ax²₁+ bx₁+ c

y₂= ax²₂+ bx₂+ c

que es pot expressar en forma matricial:

Matriu de Vandermonde Per la forma de la matriu M, en què a cada ﬁla hi ha els termes d’una progressió geomètrica, direm que la matriu és de Vandermonde.

El nom prové del matemàtic francès Alexandre-Théophile Vandermonde.







x²₀ x₀ 1 x²₁ x1 1 x²₂ x2 1







| {z }

M





 a b c







=





 y₀ y1

y2







(6)

Per tant, la solució del sistema —suposant que el determinant de la matriuM no és zero— es pot calcular així:





 a b c







=M^–1





 y₀ y1

y2







En aquest cas, el càlcul de la inversa de la matriu M —amb tres ﬁles i tres columnes— és assequible i el podríem fer fàcilment. Però imagineu què passaria si, en comptes de buscar la paràbola que s’ajusta millor a tres punts donats, busquéssim el polinomi p(x) = anxⁿ+an–1x^n–1+· · ·+a1x+a0de grau n que s’ajusta millor a n + 1 punts donats, com ara:

(x0,y0),(x1,y1),. . .,(xn,yn)

En aquest cas, el sistema d’equacions que hauríem de resoldre, en forma matricial, seria:







xⁿ₀ · · · x0 1 xⁿ₁ · · · x1 1 ... . .. ... ...

xⁿn · · · xn 1







| {z }

M_n+1





 an

an–1

...

a0







=





 y0

y1

...

yn







També en aquest cas, la solució del sistema —suposant que el determinant de la matriuM_n+1no és zero— es pot calcular així:





 an

a_n–1 ...

a0







=M^–1_n+1





 y0

y₁ ...

yn







Condicionament d’una matriu

El nombre de condició d’una matriu indica, per exemple, com el determinant de la matriu pot ésser afectat per petits canvis en els elements que la formen. Si la matriu està mal condicionada, el sistema d’equacions lineals també ho estarà.

Ara bé, el càlcul de la inversa de la matriuM_n+1ja no resulta senzill si n és gran.

Es pot recórrer, per descomptat, a mètodes numèrics, però es pot demostrar que la matriu de Vandermonde, com ara M_n+1, està mal condicionada. Per tant, els petits errors numèrics que es puguin produir en el procés de càlcul de la matriu inversa poden afectar molt negativament la solució del sistema.

De fet, la solució ﬁnal proposada pel mètode numèric pot quedar lluny de la solució real.

(7)

.

En matemàtiques, i més concretament en el camp de la interpolació polinòmica pura, el problema exposat anteriorment es resol, per exemple, amb el mètode de les diferències dividides de Newton o amb els polinomis de Lagrange. Per mitjà d’aquests dos mètodes, els coeﬁcients dels polinomis interpoladors es calculen sense necessitat de resoldre un sistema d’equacions lineals, la qual cosa evita el problema del mal condicionament i, per tant, la maledicció de la dimensionalitat.

1.2. Un altre exemple: l’enquesta de pressupostos familiars

Enquesta de pressupostos familiars

L’Institut Nacional d’Estadística (www.ine.es) publica anualment l’enquesta de pressupostos familiars (EPF).

L’enquesta de pressupostos familiars (EPF) subministra informació anual sobre la naturalesa i el destí de les despeses de consum, a més de diverses caracterís- tiques relatives a les condicions de vida de les llars. Les despeses de consum es refereixen tant al ﬂux monetari que destina la llar a pagar determinats béns i serveis de consum ﬁnal, com al valor dels béns percebuts en concepte d’auto- consum, autosubministrament, salari en espècie, etc. La mida de mostra és de 24.000 llars per any, aproximadament.

La informació de l’enquesta es presenta de diverses maneres. Per exemple, pot estar agrupada per comunitats autònomes —incloent-hi les ciutats autònomes de Ceuta i Melilla:

1) Andalusia 2) Aragó 3) Astúries 4) Balears 5) Canàries 6) Cantàbria 7) Castella i Lleó 8) Castella-la Manxa 9) Catalunya

10) Comunitat Valenciana 11) Extremadura

12) Galícia

13) Comunitat de Madrid 14) Múrcia

15) Navarra

(8)

16) País Basc 17) La Rioja 18) Ceuta 19) Melilla

Es mesuren un total de dotze variables:

1) Aliments i begudes no alcohòliques 2) Begudes alcohòliques i tabac 3) Vestit i calçat

4) Habitatge, aigua, electricitat, gas i altres combustibles

5) Mobles, articles de la llar i articles per al manteniment corrent de la llar 6) Sanitat

7) Transport 8) Comunicacions 9) Oci i cultura 10) Ensenyament 11) Restaurants i hotels 12) Altres béns i serveis

Per exemple, la taula 1 mostra la despesa mitjana per persona (en euros) en cadascuna de les disset comunitats autònomes i les dues ciutats autònomes espanyoles, en relació amb els aliments i les begudes no alcohòliques. Amb aquesta taula de doble entrada és fàcil extreure alguna conclusió. Per exemple, al País Basc la despesa mitjana per persona —d’aliments i begudes no alcohòliques— és superior; en canvi, a Ceuta és on aquesta despesa mitjana és inferior. Si afegim més columnes a la taula 1, és a dir, si hi incloem la in- formació de més variables, possiblement les conclusions que es podran treure seran més interessants. Amb tot, també és més difícil veure o inferir alguna conclusió, ja que tindrem una matriu de dades amb 12×19 = 228 despeses mitjanes.

Províncies

Hem considerat cinquanta províncies espanyoles, és a dir, no hem tingut en compte les dues ciutats autònomes de Ceuta i Melilla.

I si en lloc de tenir la informació agrupada per comunitats autònomes la tin- guéssim per províncies? Aleshores disposaríem de 50×12 = 600 despeses mitjanes. Imagineu la diﬁcultat d’obtenir alguna conclusió només observant aquesta informació.

(9)

Com es pot veure, és fàcil que en augmentar el nombre d’informació disponi- ble la informació resultant sigui difícil d’interpretar i de visualitzar i, també, que sigui difícil extreure’n alguna conclusió.

.

Aquest efecte és el que anomenem maledicció de la dimensionalitat. De forma més precisa, si augmentem la dimensió de la informació que tenim, aquesta esdevé més rica. Alhora, però, es fa més difícil d’interpretar. En aquest mòdul veurem dues tècniques per reduir la dimensionalitat, tot mantenint la riquesa de la informació, i aprendrem com podem expressar les nostres dades de manera que sigui més fàcil extreure’n ca- racterístiques.

Taula 1. Despesa mitjana per persona (en euros)

Comunitat autònoma Aliments i begudes no alcohòliques

Andalusia 1.533,39

Aragó 1.755,21

Astúries 1.777,14

Balears 1.697,69

Canàries 1.460,25

Cantàbria 1.793,89

Castella i Lleó 1.780,34

Castella-la Manxa 1.432,40

Catalunya 1.833,10

Comunitat Valenciana 1.513,25

Extremadura 1.317,60

Galícia 1.678,53

Comunitat de Madrid 1.639,72

Múrcia 1.662,63

Navarra 1.853,64

País Basc 1.959,03

La Rioja 1.679,08

Ceuta 1.327,42

Melilla 1.473,79

Font: Enquesta de pressupostos familiars 2017 (Institut Nacional d’Estadística)

(10)

2. Anàlisi de components principals .

L’anàlisi de components principals (PCA, de l’anglès principal component analy- sis) és un mètode simple i no paramètric per extreure informació rellevant de conjunts de dades que poden ser confusos. A més, pot servir per donar argu- ments o indicacions sobre com reduir la dimensió d’un conjunt complex de dades i així revelar possibles estructures amagades o característiques interessants. Les aplicacions són diverses.

Iris

Les dades van ser recollides per Edgar Anderson l’any 1935 i publicades en l’article

“The irises of the Gaspe Peninsula”, Bulletin of the American Iris Society, 59, p. 2-5.

Considerem un primer exemple senzill per il.lustrar com funciona aquesta tèc- nica. Es tracta d’un famós conjunt de dades, l’anomenat Iris, que proporciona les mesures en centímetres de les variables de longitud i amplada del sèpal i de longitud i amplada del pètal, respectivament, per a cinquanta flors de ca- dascuna de les espècies Iris setosa, Iris versicolor i Iris virginica. D’entrada, per simplificar l’estudi de la tècnica, veurem una mostra de quinze flors, cinc de cada tipus, com mostra la taula 2.

Taula 2. Longitud i amplada del sèpal i longitud i amplada del pètal (en centímetres) ﬂor long. sèpal ampl. sèpal long. pètal ampl. pètal tipus

1 5.1 3.5 1.4 0.2 setosa

2 4.9 3.0 1.4 0.2 setosa

3 4.7 3.2 1.3 0.2 setosa

4 4.6 3.1 1.5 0.2 setosa

5 5.0 3.6 1.4 0.2 setosa

6 7.0 3.2 4.7 1.4 versicolor

7 6.4 3.2 4.5 1.5 versicolor

8 6.9 3.1 4.9 1.5 versicolor

9 5.5 2.3 4.0 1.3 versicolor

10 6.5 2.8 4.6 1.5 versicolor

11 6.3 3.3 6.0 2.5 virginica

12 5.8 2.7 5.1 1.9 virginica

13 7.1 3.0 5.9 2.1 virginica

14 6.3 2.9 5.6 1.8 virginica

15 6.5 3.0 5.8 2.2 virginica

Font: Edgar Anderson (1935). “The irises of the Gaspe Peninsula”

En aquest cas, hem considerat una mostra de quinze ﬂors, de les quals hem mesurat quatre variables:

1) longitud del sèpal 2) amplada del sèpal 3) longitud del pètal 4) amplada del pètal

(11)

.

En un cas general, podem considerar que cal mesurar m variables d’un total de n elements o experiments i organitzar tota aquesta informació en una matriuXde n ﬁles i m columnes:

X=







x11 x12 · · · x_1j · · · x1m

... ... . .. ... ... ... xi1 xi2 · · · xij · · · xim

... ... . .. ... ... ... x_n1 x_n2 · · · x_nj · · · xnm







∈ Mn×m(R)

Fixeu-vos queMn×^m(R) representa l’espai vectorial de les matrius de dimensió n×m amb coeﬁcients reals.

De la matriu anterior, l’i-èssim vector ﬁla

x^T_i =

xi1 xi2 · · · xij · · · xim

representa els valors de totes les variables per a un dels elements de la mostra, mentre que el j-èssim vector columna

vj=





 x1j

...

xij

...

x_nj







representa el valor de la j-èssima variable per a tots els elements de la mostra.

En el cas del nostre exemple,

x^T₂ =

4.9 3.0 1.4 0.2

mentre que

(12)

v3=





 1.4 1.4 1.3 1.5 1.4 4.7 4.5 4.9 4.0 4.6 6.0 5.1 5.9 5.6 5.8







2.1. Preprocessament: l’escalat de les dades

Atès que les variables poden tenir diferents escales i magnituds, cal aplicar a la matriu de dades un preprocés per escalar-ne les variables, de manera que totes tinguin de mitjana 0 i de desviació tipus 1.

.

Anomenemµjla mitjana aritmètica de la variable j-èssima, que es deﬁ- neix així:

µj= 1 n

Xn i=1

x_ij=x_1j+ x_2j+· · ·+ x_nj n

De la mateixa manera, anomenem _σ²_j la variància de la variable j- èssima, que es deﬁneix així:

σ²j = 1 n – 1

Xn i=1

(x_ij–_µ_j)²= (x_1j–µj)²+ (x_2j–µj)²+· · ·+ (x_nj–µj)² n – 1

Finalment, cada element de la matriuX es normalitza de la manera següent:

ˇx_ij:=x_ij–_µ_j σj

, i = 1,. . .,n, j = 1,. . .,m

Una matriu on les columnes tenen mitjana zero s’anomena matriu cen- trada.

(13)

Desviació tipus

La desviació tipus es deﬁneix com l’arrel quadrada de la variància.

En el cas del nostre exemple, la mitjana i la desviació tipus de la primera variable són:

µ1= 5.1 + 4.9 +· · ·+ 6.3 + 6.5

15 = 88.6

15 = 5.906667

σ1= r

(5.1 –_µ₁)²+· · ·+ (6.5 –_µ₁)²

14 = 0.8737985

La resta de les mitjanes i desviacions tipus són:

µ2= 3.06

σ2= 0.3180296

µ3= 3.873333

σ3= 1.891887

µ4= 1.246667

σ4= 0.8296873

Per tant, la taula 2, en normalitzar les seves dades, esdevé la taula 3.

Taula 3. Longitud i amplada del sèpal i longitud i amplada del pètal (dades normalitzades) ﬂor long. sèpal ampl. sèpal long. pètal ampl. pètal tipus

1 -0.923172415 1.383518809 -1.307336408 -1.261519508 setosa 2 -1.152058138 -0.188661656 -1.307336408 -1.261519508 setosa 3 -1.38094386 0.44021053 -1.360193675 -1.261519508 setosa 4 -1.495386722 0.125774437 -1.254479141 -1.261519508 setosa 5 -1.037615276 1.697954901 -1.307336408 -1.261519508 setosa 6 1.251241951 0.44021053 0.436953409 0.18480859 versicolor 7 0.564584783 0.44021053 0.331238874 0.305335932 versicolor 8 1.13679909 0.125774437 0.542667943 0.305335932 versicolor 9 -0.46540097 -2.389714306 0.066952538 0.064281249 versicolor 10 0.679027644 -0.817533841 0.384096141 0.305335932 versicolor 11 0.450141921 0.754646623 1.124097882 1.510609348 virginica 12 -0.122072385 -1.131969934 0.648382477 0.787445298 virginica 13 1.365684812 -0.188661656 1.071240615 1.028499981 virginica 14 0.450141921 -0.503097749 0.912668813 0.666917957 virginica 15 0.679027644 -0.188661656 1.018383347 1.149027323 virginica

Font: Edgar Anderson (1935). “The irises of the Gaspe Peninsula”

(14)

Les dades de la taula 3 també es poden expressar en forma matricial:

Xˇ =







–0.923172415 1.383518809 –1.307336408 –1.261519508 –1.152058138 –0.188661656 –1.307336408 –1.261519508 –1.38094386 0.44021053 –1.360193675 –1.261519508 –1.495386722 0.125774437 –1.254479141 –1.261519508 –1.037615276 1.697954901 –1.307336408 –1.261519508 1.251241951 0.44021053 0.436953409 0.18480859 0.564584783 0.44021053 0.331238874 0.305335932

1.13679909 0.125774437 0.542667943 0.305335932 –0.46540097 –2.389714306 0.066952538 0.064281249 0.679027644 –0.817533841 0.384096141 0.305335932 0.450141921 0.754646623 1.124097882 1.510609348 –0.122072385 –1.131969934 0.648382477 0.787445298 1.365684812 –0.188661656 1.071240615 1.028499981 0.450141921 –0.503097749 0.912668813 0.666917957 0.679027644 –0.188661656 1.018383347 1.149027323







.

Per simpliﬁcar la notació, tot i que ˇX representa la matriu de dades normalitzada, continuarem parlant de la matriuXi entendrem, en la resta del mòdul, que està normalitzada.

Les dades de la taula 3 es poden representar gràﬁcament de forma senzilla si generem diagrames de dispersió bidimensionals, per cada parell de variables.

En aquest cas, això voldria dir que podem generar un total de

4 2

!

= 4·3 2 = 6

diagrames de dispersió. Aquesta quantitat sembla raonable. Però què passaria amb una mostra en què hem mesurat deu variables? En aquest cas, hauríem de representar gràﬁcament ¹⁰₂

= 45 diagrames de dispersió, i ningú no ens podria garantir que algun d’aquests quaranta-cinc diagrames marqués alguna tendència o mostrés alguna particularitat.

Diagrama de dispersió

Un diagrama de dispersió (en anglès, scatter plot) mostra gràﬁcament la relació entre dues variables quantitatives.

Com a mostra d’aquests diagrames de dispersió, la ﬁgura 1 recull les variables de longitud del sèpal i amplitud del sèpal, per a les quinze ﬂors. En el cas de la

(15)

figura 2, es mostren les variables d’amplitud del sèpal i amplitud del pètal. Els colors representen el tipus o espècie de flor: setosa (vermell), versicolor (blau) i virginica (verd). En totes dues figures es pot veure com els punts blaus es confonen amb els punts verds, al mateix temps que els punts vermells queden agrupats de manera ben diferenciada.

Figura 1. Diagrama de dispersió de les variables relatives a la longitud del sèpal (eix horitzontal) i l’amplitud del sèpal (eix vertical).

−2 −1 0 1 2

−1012

−2 −1 0 1 2

−1012

−2 −1 0 1 2

−1012

Els colors representen el tipus o espècie de ﬂor: setosa (vermell), versicolor (blau) i virginica (verd). Font: elaboració pròpia

Figura 2. Diagrama de dispersió de les variables relatives a l’amplitud del sèpal (eix horitzontal) i l’amplitud del pètal (eix vertical).

−2 −1 0 1 2

−1012

−2 −1 0 1 2

−1012

−2 −1 0 1 2

−1012

Els colors representen el tipus o espècie de ﬂor: setosa (vermell), versicolor (blau) i virginica (verd). Font: elaboració pròpia

2.2. Matriu de covariàncies

Donada la matriu (normalitzada)

X=







x₁₁ x₁₂ · · · x_1j · · · x_1m ... ... . .. ... ... ... xi1 xi2 · · · xij · · · xim

... ... . .. ... ... ... xn1 xn2 · · · xnj · · · xnm







∈ Mn×^m(R)

=

v₁ v₂ · · · v_j · · · vm

(16)

la matriu de covariàncies es deﬁneix així:

C_X= 1 n – 1^X

TX= 1

n – 1







v^T₁v1 v₁^Tv2 · · · v₁^Tv_j · · · v^T₁vm

... ... . .. ... . .. ... v^T_jv1 v_j^Tv2 · · · v_j^Tvj · · · v^T_jvm

... ... . .. ... . .. ... vm^Tv1 v^Tmv2 · · · v^Tmvj · · · v^Tmvm







∈ Mm×m(R)

Fixeu-vos que la matriu de covariàncies és una matriu quadrada de tantes ﬁles i columnes com columnes té la matriuX.

.

La matriu de covariànciesC_X

C_X= 1 n – 1^X

TX= 1

n – 1







v₁^Tv₁ v^T₁v₂ · · · v^T₁v_j · · · v^T₁vm

... ... . .. ... . .. ... v_j^Tv1 v^T_jv2 · · · v^T_jv_j · · · v^T_jvm

... ... . .. ... . .. ... v^Tmv1 v^Tmv2 · · · vm^Tvj · · · v^Tmvm







mesura el grau de relació lineal del conjunt de dades entre cada un dels parells de variables. Els termes de la diagonal principal corresponen a la variància de cadascuna de les variables:

σ²j = 1

n – 1v^T_jv_j= 1 n – 1

Xn i=1

x²_ij

Com que les nostres dades estan normalitzades, tots els termes de la diagonal principal són 1. El termes que no són de la diagonal principal representen la covariància entre cada parell de variables:

σ²jk= 1

n – 1v^T_jv_k= 1 n – 1

Xn i=1

x_ijx_ik

(17)

En el nostre exemple, la matriu de covariàncies és

C_X=







1.0000000 –0.1609042 0.8854496 0.8251793 –0.1609042 1.0000000 –0.3817905 –0.3578668

0.8854496 –0.3817905 1.0000000 0.9860398 0.8251793 –0.3578668 0.9860398 1.0000000







Es pot observar:

1) Els elements de la diagonal principal són tots igual a 1. Això és així perquè les nostres dades han estat normalitzades i, per tant, la variància de totes és 1.

2) La matriu de covariàncies és una matriu simètrica. Això succeeix perquè la covariància és simètrica, és a dir,

σ²jk=σ²kj.

3) Les variables 3 i 4, corresponents a la longitud i amplitud del pètal, estan altament relacionades, ja que la seva covariància és 0.9860398 (molt propera a 1). Les variables 1 i 3 —longitud del sèpal i del pètal, respectivament— també estan signiﬁcativament relacionades, tot i que en menor proporció, ja que la seva covariància és 0.8854496.

4) Contràriament, les variables 1 i 2 —longitud i amplitud del sèpal, res- pectivament— no estan gaire relacionades. En efecte, la seva covariància és –0.1609042.

2.3. Diagonalització de la matriu de covariàncies

.

L’objectiu de l’anàlisi de components principals és trobar una transfor- mació (aplicació) lineal:

P∈ Mm×^m(R)

tal que les dades originals recollides aXes transformin o es projectin en un nou espai mitjançant el producte:

T=XP∈ Mn×m(R)

de manera que la matriu de covariànciesCTde les noves dadesTsigui diagonal.

(18)

Vectors ortonormals

Diem que dos vectors p_ii p_j són ortonormals si p^T_ipj= 0 i, a més, p^T_ip_i= 1 i p^T_jp_j= 1.

Com queCXés una matriu quadrada i simètrica de dimensió m×m, sabem pel mòdul “Aplicacions lineals, diagonalització i vectors propis” que existeixen m valors propisλireals i m vectors propis (ortonormals) pique formen una base a l’espai vectorial euclidiàRⁿtal que

C_X=PDP^T,

en què

Sobre la matriu P Es pot demostrar fàcilment que la transposada de la matriu P és, alhora, la seva inversa. És a dir, P^T= P^–1. P=

p₁ p₂ · · · pm

D= diag (λ1,λ2,. . .,λm)

.

Donada la matriuXque conté les dades originals (normalitzades), les dades de la nova matriu transformadaTes calculen així:

T=XP∈ Mn×m(R),

en quèPés la matriu on les columnes són els vectors propis de la matriu de covariànciesCX.

2.4. La matriu de covariàncies de les dades transformades

Quina és la matriu de covariàncies de les dades transformades? Calculem-la:

C_T= 1 n – 1^T

TT= 1

n – 1^P

TX^TXP=P^TC_XP

=P^TPDP^TP=D= diag(λ1,. . .,λm)

Això signiﬁca que la matriu de covariàncies de les dades transformades és diagonal. Per tant, les noves variables estan incorrelacionades. És habitual ordenar els vectors propis en funció del valor propi associat, de major a menor.

És a dir, si els valors propis són:

λ1≥λ2≥ · · · ≥λm,

(19)

els vectors propis els ubicarem a la matriuPen aquest ordre:

p₁,p₂,. . .,pm.

Tornant a l’exemple del conjunt de dades Iris, els valors propis i els vectors propis de la matriu de covariànciesC_Xsón:

λ1= 2.941490992, p^T₁ =

0.5260194 –0.2616562 0.5786532 0.5656856

λ2= 0.891699528 p^T2 =

–0.31992346 –0.94247968 –0.06660176 –0.07032238

λ3= 0.162361649 p^T₃ =

0.7635779 –0.2005818 –0.2275748 –0.5700223

λ4= 0.004447831 p^T4 =

0.1946827 –0.0550912 –0.7803425 0.5917171

.

El vector propi associat al valor propi més gran s’anomena primera com- ponent principal. El vector propi associat al segon valor propi més gran s’anomena segona component principal. I així successivament.

2.4.1. Com hem d’interpretar, per exemple, la primera component principal?

Denotem les quatre variables que hem considerat en l’exemple de les ﬂors com a u1,u2,u3i u4, en què

1) u1és la longitud del sèpal;

2) u2és l’amplada del sèpal;

3) u3és la longitud del pètal; i 4) u₄és l’amplada del pètal.

Les components de la primera component principal p1indiquen que

p₁= 0.5260194u₁– 0.2616562u₂+ 0.5786532u₃+ 0.5656856u₄.

En altres paraules, p₁representa una nova variable, que és combinació lineal de les quatre variables originals. Fixeu-vos que en la deﬁnició d’aquesta nova

(20)

variable, no totes les variables originals tenen el mateix pes. En efecte, la varia- ble que té més pes és u₃(longitud del pètal), seguida de la variable u₄(amplada del pètal). Clarament, la que té menys inﬂuència en la primera component és la variable u₂(amplada del sèpal).

Quin és el valor de la nova variable p1per al cas de la primera ﬂor de la taula 3? Recordeu que les variables normalitzades en el cas de la primera ﬂor són:

u1= –0.923772415 u₂= 1.383518809 u3= –1.307336408 u4= –1.261519508

Per tant, per a la primera ﬂor

p1= 0.5260194u1– 0.2616562u2+ 0.5786532u3+ 0.5656856u4= –2.3177306

Si fem el mateix amb les altres components principals, obtenim

p₂= –0.8328099 p3= 0.03418822 p₄= 0.017762021

.

En el cas general, les mesures en les noves variables s’obtenen de mul- tiplicar les dades originals de la matriuXper la matriuPde les components principals:

T=XP=







t11 t12 · · · t1j · · · t1m

... ... . .. ... ... ...

t_i1 t_i2 · · · t_ij · · · t_im ... ... . .. ... ... ...

t_n1 t_n2 · · · t_nj · · · tnm







∈ Mn×m(R)

Fixeu-vos que les matriusXiTtenen la mateixa dimensió.

(21)

La matriu T per a l’exemple de les ﬂors seria:

T=







–2.31773055645763 –0.832809881637843 0.0341882231504618 0.0177620212434633 –2.02675817141067 0.722164171113012 0.174766954611649 0.0598152395437477 –2.34229080476915 0.206211215432147 –0.114116476558486 0.021856594229762 –2.25904377241743 0.53213302544293 –0.162490314930362 –0.0655943343449898 –2.46020386002701 –1.09254655308811 –0.116267982265906 –0.0218406874991054 0.900381739958164 –0.857289184578846 0.662337916991262 –0.0122754574068039 0.546195294147313 –0.639046440726892 0.0933763504900945 0.00785590242460743 1.05180934990985 –0.539843144155038 0.545260806182149 –0.0284082915673973 0.455578827059034 2.39217029459659 0.0720848822574889 0.0268371163600159 0.966077049158865 0.506218727354301 0.4210140657984 0.0581798257612053 1.54431815987357 –1.03634661634201 –0.924547274237649 0.0627325552563454 1.05260949959829 1.00735403635774 –0.462576054699356 –0.00141932059541922 1.96942554310489 –0.402777918923283 0.250593622580613 0.0489153084361122 1.27380657875815 0.222463831446303 –0.143227795787201 –0.202216367937914 1.64582512351377 –0.188055562291003 –0.330396923583155 0.0277998960963719







2.4.2. Quin és el pes de la primera component principal?

Per les característiques de la matriu de covariànciesC_X —simètrica i deﬁnida positiva—, tots els valors propis són positius. A més, podem observar que en l’exemple de les ﬂors

λ1+λ2+λ3+λ4= 4,

és a dir,

Traça d’una matriu

Recordeu que la traça d’una matriu quadrada, que denotem tr(A), és la suma dels elements de la diagonal principal.

Xm i=1

λi= tr(CX)

Ja hem vist que els elements de la diagonal principal de la matriu de covari- ànciesCX representen el valor de la variància de cadascuna de les variables originals. En el cas de les noves variables, els elements de la diagonal principal de la matriu de covariànciesC_T—que són els valors propis_λ_i— també representen aquesta variància. Si el total de la variància, és a dir, la suma dels valors propis, és m, l’aportació de la primera component és

(22)

λ1

λ1+λ2+λ3+λ4×100%

Per al nostre exemple, la primera component principal és capaç de retenir un percentatge de variabilitat igual a:

λ1

λ1+_λ₂+_λ₃+_λ₄^×100% = 2.941490992

4 ^×100% = 73.53727480%

De la mateixa manera, la resta de les components principals són capaces de retenir el percentatge de variabilitat següent:

λ2

λ1+λ2+λ3+λ4×100% = 0.891699528

4 ^×100% = 22.29248820%

λ3

λ1+_λ₂+_λ₃+_λ₄^×100% = 0.162361649

4 ^×100% = 4.059041225%

λ4

λ1+_λ₂+_λ₃+_λ₄^×100% = 0.004447831

4 ^×100% = 0.1111957750%

Variabilitat

Hem d’entendre la variabilitat com la quantitat

d’informació. Com més variabilitat hi ha, més informació tenim.

.

Cadascuna de les quatre variables originals u1,u2,u3 i u4 reté un 25%

de la variabilitat. En canvi, les noves variables p1,p2,p3i p4—les quatre components principals— retenen un 73.5%,22.3%,4.1% i 0.1%, respectivament. És a dir, calen tres variables originals per obtenir la mateixa quantitat d’informació que s’aconseguiria amb una única variable nova, la primera component principal.

Taula 4. Variabilitat acumulada per les quatre variables originals i les quatre variables noves (components principals).

variables variabilitat acumulada

(variables originals) variabilitat acumulada (components principals)

1 25% 73.5%

2 50% 95.8%

3 75% 99.9%

4 100% 100%

Font: elaboració pròpia

Observem ara les ﬁgures 3 i 4, que contenen informació interessant:

1) Totes dues figures contenen la projecció de les quinze flors sobre les du- es primeres components principals. En aquest cas, el codi de colors és: setosa (vermell), versicolor (verd) i virginica (blau). El grup setosa (vermell) continua clarament diferenciat. Al mateix temps, la separació entre el grup de flors ver- sicolor (verd) i virginica (blau) ara és més clara.

(23)

2) La ﬁgura 4 conté, a més, la contribució de cadascuna de les quatre variables originals a les dues primeres components principals. Si mirem, per exemple, la primera component principal (la direcció horitzontal), les variables que més intervenen són la longitud del sèpal (Sepal.Length) i la longitud i amplitud del pètal (Petal.Length, Petal.Width). En el cas de la segona component prin- cipal (la direcció vertical), la variable que té més pes és l’amplitud del sèpal (Sepal.Width).

3) A la ﬁgura 4 també es pot veure com les ﬂetxes que indiquen les direccions de les variables longitud i amplitud del pètal (Petal.Length, Petal.Width) estan pràcticament superposades. Recordem que, en aquest cas, la covariància entre aquestes dues variables és 0.9860398, que representa un valor molt proper a 1. És a dir, ja havíem dit que les variables 3 i 4 estan altament relacionades.

Figura 3

−1 0 1 2

−2 −1 0 1 2

PC1 (73.54%)

PC2 (22.29%)

Species setosa versicolor virginica

Figura 4

Sepal.Length

Sepal.Width

Petal.Length Petal.Width

−2

−1 0 1 2

−2 −1 0 1 2

PC1 (73.54%)

PC2 (22.29%)

Species setosa versicolor virginica

(24)

2.5. Reducció de la dimensió

A la taula 4 hem vist que, en l’exemple de les flors, amb dues components principals podem retenir el 95.8% de la variabilitat o la informació. Això sig- nifica que podem passar d’una mostra de quinze flors en què hem mesurat quatre variables diferents a una mostra de quinze flors en què només mesu- rem dues variables. Vegem-ho amb més detall en el cas general.

Si considerem totes les components principals, l’ortonormalitat de les components principals implica que

PP^T =I_m,

en quèI_més la matriu identitat de dimensió m. Aleshores, la projecció:

T=XP

es pot invertir per recuperar les dades originals, a partir de les dades projecta- des:

X=TP^T,

ja que

T=XP ⇔ TP^T=XPP^T ⇔ TP^T=XI_m ⇔ TP^T =X.

No obstant això, un dels objectius de l’anàlisi de components principals és la reducció de la dimensió. Per això, considerem ara un nombre inferior de components principals,ℓ <m, és a dir, només considerem els vectors propis associats alsℓvalors propis més grans. Aleshores, si deﬁnim la matriu reduïda:

P = (pˆ 1|p2| · · · |pℓ)∈ Mm×ℓ(R)

la matriu de les projeccions es deﬁneix així: Sobre la dimensió de ˆT T és una matriu que continuaˆ tenint tantes ﬁles com la matriu X original. De tota manera, el nombre de columnes de la matriu ˆT passa de tenir m columnes a tenir ℓ columnes.

T = X ˆˆ P∈ Mn×ℓ(R)

(25)

2.5.1. L’error residual

Nota

La matriu ˆP ja no és invertible. De fet, la matriu ˆP no és, ni tan sols, quadrada.

Una de les conseqüències d’haver reduït la dimensionalitat és que la matriu P ja no és invertible. Per tant, les dades originals contingudes a X no es po-ˆ den recuperar completament mitjançant la matriu ˆT. No obstant això, es pot invertir la projecció de la manera següent:

X = ˆˆ T ˆP^T ∈ Mn×m(R)

per obtenir les dades originals amb pèrdua d’informació. La diferència entre les dades originals recollides a la matriu X i les dades originals amb pèrdua d’informació de la matriu ˆX s’anomena error residual i es representa amb la matriuE. En efecte:

E = X – ˆX∈ Mn×^m(R)

2.6. Exemple d’aplicació: enquesta de pressupostos familiars

Dades completes

Les dades completes de l’enquesta de pressupostos familiars 2017 es poden obtenir en aquest enllaç de l’Institut Nacional d’Estadística:

https://www.ine.es/

jaxiT3/Tabla.htm?

t=25143&L=0.

Continuem amb l’exemple del subapartat 1.2., en el qual es presenten les dades de l’enquesta de pressupostos familiars (EPF) per comunitats autònomes i les variables que es mesuren. Com que no hi ha informació de la variable En- senyament per a Ceuta i Melilla, eliminem aquestes dues ciutats autònomes de l’anàlisi. Volem veure si, gràcies a l’anàlisi de components principals, podem extreure alguna conclusió o destacar algun patró que hagi quedat ocult en la quantitat de dades.

R

Rés un entorn de programació lliure especialitzat en estadística i representació gràﬁca.

Amb l’ajuda del llenguatge de programació R, les dades han estat emmagatze- mades a la matriu INE, que conté disset ﬁles —una per comunitat autònoma—

i dotze columnes —una per variable. Procedim de la manera següent, tal com es pot veure a la ﬁgura 5:

1) Amb la instrucció prcomp, calculem l’anàlisi de components principals, que emmagatzemem a la variable ine.pca. És important afegir les opcions centre = TRUEi scale = TRUE per garantir que les dades han estat escala- des i centrades.

2) La primera component principal s’obté amb ine.pca$rotation[,1]. Es pot observar que la primera component és una combinació lineal de les dotze variables originals. En particular:

p1= 0.30u1+ 0.12u2+ 0.28u3+ 0.33u4+ 0.33u5+ 0.31u6

+ 0.18u7+ 0.25u8+ 0.31u9+ 0.30u10+ 0.33u11+ 0.33u12

(26)

Figura 5. Instruccions de R per al càlcul de les dues primeres components principals, així com els valors de les variables originals projectats sobre aquestes dues primeres components.

La primera component principal representa una nova variable on totes les va- riables originals sumen en més o menys proporció. En particular, les variables que tenen més pes són: la u₄(habitatge, aigua, electricitat, gas i altres com- bustibles), la u5(mobles, articles de la llar i articles per al manteniment de la llar), la u11(restaurants i hotels) i la u12(altres béns i serveis). És especialment rellevant el poc pes que tenen les variables u2(begudes alcohòliques i tabac) i u7(transport). La variable u2serà, en canvi, la més important en la segona component principal, com es veurà a continuació. La variable u7 continuarà tenint poca inﬂuència. Com es pot veure a la ﬁgura 6, la informació o variabilitat explicada per la primera component principal és del 65.1%.

3) Si projectem les dades originals de les disset comunitats autònomes sobre la primera component principal, que podem fer amb l’ordre ine.pca$x[,1], obtindrem els resultats que es poden veure a la ﬁgura 5. Si ordenem de grans a petits aquests valors, obtindrem una primera ordenació interessant, que es pot veure a la taula 5. Podríem dir que la primera component principal ha estat capaç d’ordenar les comunitats autònomes en funció de la renda.

4) La segona component principal s’obté amb ine.pca$rotation[,2]. Es pot observar que la segona component és també una combinació lineal de les dotze variables originals. En particular:

p2= –0.01u1– 0.72u2– 0.36u3+ 0.18u4– 0.14u5– 0.08u6

+ 0.08u7+ 0.45u8– 0.13u9+ 0.23u10– 0.02u11+ 0.15u12

(27)

Taula 5. Projecció de les dades originals sobre la primera component principal (de gran a petita)

Comunitat autònoma PC1

País Basc 4.3414574

Comunitat de Madrid 3.7092028

Navarra 3.6507548

Catalunya 2.4422616

Balears 1.8834382

Cantàbria 1.4096488

Aragó 0.5230432

La Rioja 0.2758919

Astúries 0.1936867

Castella i Lleó –0.6333325

Galícia –0.8830605

Múrcia –0.8849228

Comunitat Valenciana –0.8963849

Andalusia –1.5284356

Castella-la Manxa –4.0799862

Canàries –4.5577019

Extremadura –4.9655611

En aquest cas, algunes de les variables originals sumen, mentre que d’altres resten, en la seva contribució a la nova variable que representa la segona com- ponent principal. Les variables amb més pes (en valor absolut) són: u₂ (be- gudes alcohòliques i tabac), u₈ (comunicacions) i u₃ (vestit i calçat). També en aquesta segona component principal, el pes de la variable u7 (transport) és molt petit. Això signiﬁca que la variable que mesura les despeses en transport no marca una diferència entre les comunitats autònomes (podríem obtenir un resultat diferent si estudiéssim l’enquesta de pressupostos familiars per províncies i no per comunitats autònomes). Com es pot veure a la ﬁgura 6, la informació o variabilitat explicada per la segona component principal és del 9.83%. Per tant, la variabilitat explicada per les dues primeres components principals és del 74.93%.

5) Si projectem les dades originals de les disset comunitats autònomes sobre la segona component principal, que podem fer amb l’ordre ine.pca$x[,2], aconseguirem els resultats que es poden veure a la ﬁgura 5. Si ordenem de grans a petits aquests valors, obtindrem una segona ordenació interessant, que es pot veure a la taula 6. En aquest cas, però, és més difícil explicar de manera qualitativa quina és la interpretació d’aquesta segona variable.

6) A la ﬁgura 6 es pot veure la projecció de les dades originals de les disset comunitats autònomes sobre les dues primeres components principals, que són capaces de retenir quasi el 75% de la informació.

(28)

Taula 6. Projecció de les dades originals sobre la segona component principal (de gran a petita)

Comunitat autònoma PC2

Canàries 2.85476875

País Basc 1.29743154

Catalunya 1.14629871

Comunitat de Madrid 0.47571073

Extremadura 0.41923006

La Rioja 0.02383759

Balears –0.01118605

Cantàbria –0.01202456

Comunitat Valenciana –0.07641837

Castella i Lleó –0.13105989

Astúries –0.20352852

Aragó –0.42984445

Navarra –0.45566480

Castella-la Manxa –0.46300999

Galícia –1.32859163

Andalusia –1.38763977

Múrcia –1.71830933

Figura 6. Projecció de les dades originals de les disset comunitats autònomes sobre les dues primeres components principals, que són capaces de retenir quasi el 75% de la informació.

1

2

3 4

5

7 6 8

9

10 11

12

13

14

15 16

17

−1 0 1 2 3

−5.0 −2.5 0.0 2.5

PC1 (65.1%)

PC2 (9.83%)