Descomposició en valors singulars: introducció i aplicacions
Anàlisi de components principals (PCA) i descomposició en valors singulars (SVD)
PID_00262386
Francesc Pozo Montero
Núria Parés Mariné
Francesc Pozo Montero Núria Parés Mariné Llicenciat en Matemàtiques per la
Universitat de Barcelona (2000) i doctor en Matemàtica Aplicada per la Universitat Politècnica de Catalu- nya (2005). Ha estat professor as- sociat a la Universitat Autònoma de Barcelona i professor associat, col·laborador i actualment professor agregat a la Universitat Politècnica de Catalunya. A més, és cofundador del Grup d’Innovació Matemàtica E-learning (GIMEL), responsable de diversos projectes d’innovació do- cent i autor de diverses publicaci- ons. Com a membre del grup de re- cerca consolidat CoDAlab, centra la recerca en la teoria de control i les aplicacions en enginyeria mecànica i civil, com també en l’ús de la cièn- cia de dades per al monitoratge de la integritat estructural i per al mo- nitoratge de la condició, sobretot en turbines eòliques.
Llicenciada en Matemàtiques per la Universitat Politècnica de Catalu- nya (1999) i doctora en Matemàti- ca Aplicada per la Universitat Poli- tècnica de Catalunya (2005). És pro- fessora de la Universitat Politècnica de Catalunya des del 2000 —actual- ment, com a professora agregada—, cofunfadora del Grup d’Innovació Matemàtica E-learning (GIMEL), responsable de diversos projectes d’innovació docent i autora de di- verses publicacions i llibres docents.
Com a membre del grup de recerca consolidat LaCàN (UPC), centra la investigació en el desenvolupament de tècniques eficients per a la reso- lució numèrica d’equacions en de- rivades parcials i en l’estimació de l’error associat a aquestes simulaci- ons numèriques.
La revisió d'aquest recurs d'aprenentatge UOC ha estat coordinada per la professora: Cristina Cano Bastidas
Segona edició: setembre 2020
© d’aquesta edició, Fundació Universitat Oberta de Catalunya (FUOC) Av. Tibidabo, 39-43, 08035 Barcelona
Autoria: Francesc Pozo Montero, Núria Parés Mariné Producció: FUOC
Tots els drets reservats
Cap part d'aquesta publicació, incloent-hi el disseny general i la coberta, no pot ser copiada, reproduïda, emmagatzemada o transmesa de cap manera ni per cap mitjà, tant si és elèctric com mecànic, òptic, de gravació, de fotocòpia o per altres mètodes, sense l'autorització prèvia per escrit del titular dels drets.
Índex
1. La maledicció de la dimensió . . . . 5
1.1. Exemple introductori: la interpolació polinòmica pura . . . 5
1.2. Un altre exemple: l’enquesta de pressupostos familiars . . . 7
2. Anàlisi de components principals . . . . 10
2.1. Preprocessament: l’escalat de les dades . . . 12
2.2. Matriu de covariàncies . . . 15
2.3. Diagonalització de la matriu de covariàncies . . . 17
2.4. La matriu de covariàncies de les dades transformades . . . 18
2.4.1. Com hem d’interpretar, per exemple, la primera component principal? . . . 19
2.4.2. Quin és el pes de la primera component principal? . . . 21
2.5. Reducció de la dimensió . . . 24
2.5.1. L’error residual . . . 25
2.6. Exemple d’aplicació: enquesta de pressupostos familiars . . . 25
3. Descomposició en valors singulars . . . . 29
3.1. Exemple introductori . . . 29
3.2. Descomposició en valors singulars reduïda . . . 30
3.2.1. Càlcul dels valors singulars i dels vectors singulars . . . 31
3.3. Descomposició en valors singulars completa . . . 35
3.3.1. Propietats interessants de la descomposició en valors singulars . . . 39
3.4. Aplicació de la descomposició en valors singulars: compressió d’imatges . . . 39
Resum . . . . 48
Exercicis d’autoavaluació . . . . 50
Solucionari . . . . 52
Glossari . . . . 60
Bibliografia . . . . 61
1. La maledicció de la dimensió .
1.1. Exemple introductori: la interpolació polinòmica pura
Un problema d’interpolació clàssic és trobar, per exemple, la paràbola que s’ajusta millor a tres punts donats, com ara:
(x0,y0), (x1,y1) i (x2,y2).
L’equació d’una paràbola és
y = ax2+ bx + c,
en què a,b i c són nombres reals. Es tracta, doncs, de trobar el valor de tres paràmetres. Per fer-ho, imposem que els tres punts donats estiguin sobre la paràbola. És a dir, els tres punts han de satisfer l’equació de la paràbola. Això equival al sistema d’equacions lineals següent:
y0= ax20+ bx0+ c
y1= ax21+ bx1+ c
y2= ax22+ bx2+ c
que es pot expressar en forma matricial:
Matriu de Vandermonde Per la forma de la matriu M, en què a cada fila hi ha els termes d’una progressió geomètrica, direm que la matriu és de Vandermonde.
El nom prové del matemàtic francès Alexandre-Théophile Vandermonde.
x20 x0 1 x21 x1 1 x22 x2 1
| {z }
M
a b c
=
y0 y1
y2
Per tant, la solució del sistema —suposant que el determinant de la matriuM no és zero— es pot calcular així:
a b c
=M–1
y0 y1
y2
En aquest cas, el càlcul de la inversa de la matriu M —amb tres files i tres columnes— és assequible i el podríem fer fàcilment. Però imagineu què passa- ria si, en comptes de buscar la paràbola que s’ajusta millor a tres punts donats, busquéssim el polinomi p(x) = anxn+an–1xn–1+· · ·+a1x+a0de grau n que s’ajusta millor a n + 1 punts donats, com ara:
(x0,y0),(x1,y1),. . .,(xn,yn)
En aquest cas, el sistema d’equacions que hauríem de resoldre, en forma ma- tricial, seria:
xn0 · · · x0 1 xn1 · · · x1 1 ... . .. ... ...
xnn · · · xn 1
| {z }
Mn+1
an
an–1
...
a0
=
y0
y1
...
yn
També en aquest cas, la solució del sistema —suposant que el determinant de la matriuMn+1no és zero— es pot calcular així:
an
an–1 ...
a0
=M–1n+1
y0
y1 ...
yn
Condicionament d’una matriu
El nombre de condició d’una matriu indica, per exemple, com el determinant de la matriu pot ésser afectat per petits canvis en els elements que la formen. Si la matriu està mal condicionada, el sistema d’equacions lineals també ho estarà.
Ara bé, el càlcul de la inversa de la matriuMn+1ja no resulta senzill si n és gran.
Es pot recórrer, per descomptat, a mètodes numèrics, però es pot demostrar que la matriu de Vandermonde, com ara Mn+1, està mal condicionada. Per tant, els petits errors numèrics que es puguin produir en el procés de càlcul de la matriu inversa poden afectar molt negativament la solució del sistema.
De fet, la solució final proposada pel mètode numèric pot quedar lluny de la solució real.
.
En matemàtiques, i més concretament en el camp de la interpolació polinòmica pura, el problema exposat anteriorment es resol, per exem- ple, amb el mètode de les diferències dividides de Newton o amb els polinomis de Lagrange. Per mitjà d’aquests dos mètodes, els coeficients dels polinomis interpoladors es calculen sense necessitat de resoldre un sistema d’equacions lineals, la qual cosa evita el problema del mal con- dicionament i, per tant, la maledicció de la dimensionalitat.
1.2. Un altre exemple: l’enquesta de pressupostos familiars
Enquesta de pressupostos familiars
L’Institut Nacional d’Estadística (www.ine.es) publica anualment l’enquesta de pressupostos familiars (EPF).
L’enquesta de pressupostos familiars (EPF) subministra informació anual sobre la naturalesa i el destí de les despeses de consum, a més de diverses caracterís- tiques relatives a les condicions de vida de les llars. Les despeses de consum es refereixen tant al flux monetari que destina la llar a pagar determinats béns i serveis de consum final, com al valor dels béns percebuts en concepte d’auto- consum, autosubministrament, salari en espècie, etc. La mida de mostra és de 24.000 llars per any, aproximadament.
La informació de l’enquesta es presenta de diverses maneres. Per exemple, pot estar agrupada per comunitats autònomes —incloent-hi les ciutats autònomes de Ceuta i Melilla:
1) Andalusia 2) Aragó 3) Astúries 4) Balears 5) Canàries 6) Cantàbria 7) Castella i Lleó 8) Castella-la Manxa 9) Catalunya
10) Comunitat Valenciana 11) Extremadura
12) Galícia
13) Comunitat de Madrid 14) Múrcia
15) Navarra
16) País Basc 17) La Rioja 18) Ceuta 19) Melilla
Es mesuren un total de dotze variables:
1) Aliments i begudes no alcohòliques 2) Begudes alcohòliques i tabac 3) Vestit i calçat
4) Habitatge, aigua, electricitat, gas i altres combustibles
5) Mobles, articles de la llar i articles per al manteniment corrent de la llar 6) Sanitat
7) Transport 8) Comunicacions 9) Oci i cultura 10) Ensenyament 11) Restaurants i hotels 12) Altres béns i serveis
Per exemple, la taula 1 mostra la despesa mitjana per persona (en euros) en cadascuna de les disset comunitats autònomes i les dues ciutats autònomes espanyoles, en relació amb els aliments i les begudes no alcohòliques. Amb aquesta taula de doble entrada és fàcil extreure alguna conclusió. Per exem- ple, al País Basc la despesa mitjana per persona —d’aliments i begudes no alcohòliques— és superior; en canvi, a Ceuta és on aquesta despesa mitjana és inferior. Si afegim més columnes a la taula 1, és a dir, si hi incloem la in- formació de més variables, possiblement les conclusions que es podran treure seran més interessants. Amb tot, també és més difícil veure o inferir alguna conclusió, ja que tindrem una matriu de dades amb 12×19 = 228 despeses mitjanes.
Províncies
Hem considerat cinquanta províncies espanyoles, és a dir, no hem tingut en compte les dues ciutats autònomes de Ceuta i Melilla.
I si en lloc de tenir la informació agrupada per comunitats autònomes la tin- guéssim per províncies? Aleshores disposaríem de 50×12 = 600 despeses mitjanes. Imagineu la dificultat d’obtenir alguna conclusió només observant aquesta informació.
Com es pot veure, és fàcil que en augmentar el nombre d’informació disponi- ble la informació resultant sigui difícil d’interpretar i de visualitzar i, també, que sigui difícil extreure’n alguna conclusió.
.
Aquest efecte és el que anomenem maledicció de la dimensionalitat. De forma més precisa, si augmentem la dimensió de la informació que te- nim, aquesta esdevé més rica. Alhora, però, es fa més difícil d’interpre- tar. En aquest mòdul veurem dues tècniques per reduir la dimensionali- tat, tot mantenint la riquesa de la informació, i aprendrem com podem expressar les nostres dades de manera que sigui més fàcil extreure’n ca- racterístiques.
Taula 1. Despesa mitjana per persona (en euros)
Comunitat autònoma Aliments i begudes no alcohòliques
Andalusia 1.533,39
Aragó 1.755,21
Astúries 1.777,14
Balears 1.697,69
Canàries 1.460,25
Cantàbria 1.793,89
Castella i Lleó 1.780,34
Castella-la Manxa 1.432,40
Catalunya 1.833,10
Comunitat Valenciana 1.513,25
Extremadura 1.317,60
Galícia 1.678,53
Comunitat de Madrid 1.639,72
Múrcia 1.662,63
Navarra 1.853,64
País Basc 1.959,03
La Rioja 1.679,08
Ceuta 1.327,42
Melilla 1.473,79
Font: Enquesta de pressupostos familiars 2017 (Institut Nacional d’Estadística)
2. Anàlisi de components principals .
L’anàlisi de components principals (PCA, de l’anglès principal component analy- sis) és un mètode simple i no paramètric per extreure informació rellevant de conjunts de dades que poden ser confusos. A més, pot servir per donar argu- ments o indicacions sobre com reduir la dimensió d’un conjunt complex de dades i així revelar possibles estructures amagades o característiques interes- sants. Les aplicacions són diverses.
Iris
Les dades van ser recollides per Edgar Anderson l’any 1935 i publicades en l’article
“The irises of the Gaspe Peninsula”, Bulletin of the American Iris Society, 59, p. 2-5.
Considerem un primer exemple senzill per il.lustrar com funciona aquesta tèc- nica. Es tracta d’un famós conjunt de dades, l’anomenat Iris, que proporciona les mesures en centímetres de les variables de longitud i amplada del sèpal i de longitud i amplada del pètal, respectivament, per a cinquanta flors de ca- dascuna de les espècies Iris setosa, Iris versicolor i Iris virginica. D’entrada, per simplificar l’estudi de la tècnica, veurem una mostra de quinze flors, cinc de cada tipus, com mostra la taula 2.
Taula 2. Longitud i amplada del sèpal i longitud i amplada del pètal (en centímetres) flor long. sèpal ampl. sèpal long. pètal ampl. pètal tipus
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 7.0 3.2 4.7 1.4 versicolor
7 6.4 3.2 4.5 1.5 versicolor
8 6.9 3.1 4.9 1.5 versicolor
9 5.5 2.3 4.0 1.3 versicolor
10 6.5 2.8 4.6 1.5 versicolor
11 6.3 3.3 6.0 2.5 virginica
12 5.8 2.7 5.1 1.9 virginica
13 7.1 3.0 5.9 2.1 virginica
14 6.3 2.9 5.6 1.8 virginica
15 6.5 3.0 5.8 2.2 virginica
Font: Edgar Anderson (1935). “The irises of the Gaspe Peninsula”
En aquest cas, hem considerat una mostra de quinze flors, de les quals hem mesurat quatre variables:
1) longitud del sèpal 2) amplada del sèpal 3) longitud del pètal 4) amplada del pètal
.
En un cas general, podem considerar que cal mesurar m variables d’un total de n elements o experiments i organitzar tota aquesta informació en una matriuXde n files i m columnes:
X=
x11 x12 · · · x1j · · · x1m
... ... . .. ... ... ... xi1 xi2 · · · xij · · · xim
... ... . .. ... ... ... xn1 xn2 · · · xnj · · · xnm
∈ Mn×m(R)
Fixeu-vos queMn×m(R) representa l’espai vectorial de les matrius de dimensió n×m amb coeficients reals.
De la matriu anterior, l’i-èssim vector fila
xTi =
xi1 xi2 · · · xij · · · xim
representa els valors de totes les variables per a un dels elements de la mostra, mentre que el j-èssim vector columna
vj=
x1j
...
xij
...
xnj
representa el valor de la j-èssima variable per a tots els elements de la mostra.
En el cas del nostre exemple,
xT2 =
4.9 3.0 1.4 0.2
mentre que
v3=
1.4 1.4 1.3 1.5 1.4 4.7 4.5 4.9 4.0 4.6 6.0 5.1 5.9 5.6 5.8
2.1. Preprocessament: l’escalat de les dades
Atès que les variables poden tenir diferents escales i magnituds, cal aplicar a la matriu de dades un preprocés per escalar-ne les variables, de manera que totes tinguin de mitjana 0 i de desviació tipus 1.
.
Anomenemµjla mitjana aritmètica de la variable j-èssima, que es defi- neix així:
µj= 1 n
Xn i=1
xij=x1j+ x2j+· · ·+ xnj n
De la mateixa manera, anomenem σ2j la variància de la variable j- èssima, que es defineix així:
σ2j = 1 n – 1
Xn i=1
(xij–µj)2= (x1j–µj)2+ (x2j–µj)2+· · ·+ (xnj–µj)2 n – 1
Finalment, cada element de la matriuX es normalitza de la manera següent:
ˇxij:=xij–µj σj
, i = 1,. . .,n, j = 1,. . .,m
Una matriu on les columnes tenen mitjana zero s’anomena matriu cen- trada.
Desviació tipus
La desviació tipus es defineix com l’arrel quadrada de la variància.
En el cas del nostre exemple, la mitjana i la desviació tipus de la primera variable són:
µ1= 5.1 + 4.9 +· · ·+ 6.3 + 6.5
15 = 88.6
15 = 5.906667
σ1= r
(5.1 –µ1)2+· · ·+ (6.5 –µ1)2
14 = 0.8737985
La resta de les mitjanes i desviacions tipus són:
µ2= 3.06
σ2= 0.3180296
µ3= 3.873333
σ3= 1.891887
µ4= 1.246667
σ4= 0.8296873
Per tant, la taula 2, en normalitzar les seves dades, esdevé la taula 3.
Taula 3. Longitud i amplada del sèpal i longitud i amplada del pètal (dades normalitzades) flor long. sèpal ampl. sèpal long. pètal ampl. pètal tipus
1 -0.923172415 1.383518809 -1.307336408 -1.261519508 setosa 2 -1.152058138 -0.188661656 -1.307336408 -1.261519508 setosa 3 -1.38094386 0.44021053 -1.360193675 -1.261519508 setosa 4 -1.495386722 0.125774437 -1.254479141 -1.261519508 setosa 5 -1.037615276 1.697954901 -1.307336408 -1.261519508 setosa 6 1.251241951 0.44021053 0.436953409 0.18480859 versicolor 7 0.564584783 0.44021053 0.331238874 0.305335932 versicolor 8 1.13679909 0.125774437 0.542667943 0.305335932 versicolor 9 -0.46540097 -2.389714306 0.066952538 0.064281249 versicolor 10 0.679027644 -0.817533841 0.384096141 0.305335932 versicolor 11 0.450141921 0.754646623 1.124097882 1.510609348 virginica 12 -0.122072385 -1.131969934 0.648382477 0.787445298 virginica 13 1.365684812 -0.188661656 1.071240615 1.028499981 virginica 14 0.450141921 -0.503097749 0.912668813 0.666917957 virginica 15 0.679027644 -0.188661656 1.018383347 1.149027323 virginica
Font: Edgar Anderson (1935). “The irises of the Gaspe Peninsula”
Les dades de la taula 3 també es poden expressar en forma matricial:
Xˇ =
–0.923172415 1.383518809 –1.307336408 –1.261519508 –1.152058138 –0.188661656 –1.307336408 –1.261519508 –1.38094386 0.44021053 –1.360193675 –1.261519508 –1.495386722 0.125774437 –1.254479141 –1.261519508 –1.037615276 1.697954901 –1.307336408 –1.261519508 1.251241951 0.44021053 0.436953409 0.18480859 0.564584783 0.44021053 0.331238874 0.305335932
1.13679909 0.125774437 0.542667943 0.305335932 –0.46540097 –2.389714306 0.066952538 0.064281249 0.679027644 –0.817533841 0.384096141 0.305335932 0.450141921 0.754646623 1.124097882 1.510609348 –0.122072385 –1.131969934 0.648382477 0.787445298 1.365684812 –0.188661656 1.071240615 1.028499981 0.450141921 –0.503097749 0.912668813 0.666917957 0.679027644 –0.188661656 1.018383347 1.149027323
.
Per simplificar la notació, tot i que ˇX representa la matriu de dades normalitzada, continuarem parlant de la matriuXi entendrem, en la resta del mòdul, que està normalitzada.
Les dades de la taula 3 es poden representar gràficament de forma senzilla si generem diagrames de dispersió bidimensionals, per cada parell de variables.
En aquest cas, això voldria dir que podem generar un total de
4 2
!
= 4·3 2 = 6
diagrames de dispersió. Aquesta quantitat sembla raonable. Però què passaria amb una mostra en què hem mesurat deu variables? En aquest cas, hauríem de representar gràficament 102
= 45 diagrames de dispersió, i ningú no ens podria garantir que algun d’aquests quaranta-cinc diagrames marqués alguna tendència o mostrés alguna particularitat.
Diagrama de dispersió
Un diagrama de dispersió (en anglès, scatter plot) mostra gràficament la relació entre dues variables quantitatives.
Com a mostra d’aquests diagrames de dispersió, la figura 1 recull les variables de longitud del sèpal i amplitud del sèpal, per a les quinze flors. En el cas de la
figura 2, es mostren les variables d’amplitud del sèpal i amplitud del pètal. Els colors representen el tipus o espècie de flor: setosa (vermell), versicolor (blau) i virginica (verd). En totes dues figures es pot veure com els punts blaus es confonen amb els punts verds, al mateix temps que els punts vermells queden agrupats de manera ben diferenciada.
Figura 1. Diagrama de dispersió de les variables relatives a la longitud del sèpal (eix horitzontal) i l’amplitud del sèpal (eix vertical).
−2 −1 0 1 2
−1012
−2 −1 0 1 2
−1012
−2 −1 0 1 2
−1012
Els colors representen el tipus o espècie de flor: setosa (vermell), versicolor (blau) i virginica (verd). Font: elaboració pròpia
Figura 2. Diagrama de dispersió de les variables relatives a l’amplitud del sèpal (eix horitzontal) i l’amplitud del pètal (eix vertical).
−2 −1 0 1 2
−1012
−2 −1 0 1 2
−1012
−2 −1 0 1 2
−1012
Els colors representen el tipus o espècie de flor: setosa (vermell), versicolor (blau) i virginica (verd). Font: elaboració pròpia
2.2. Matriu de covariàncies
Donada la matriu (normalitzada)
X=
x11 x12 · · · x1j · · · x1m ... ... . .. ... ... ... xi1 xi2 · · · xij · · · xim
... ... . .. ... ... ... xn1 xn2 · · · xnj · · · xnm
∈ Mn×m(R)
=
v1 v2 · · · vj · · · vm
la matriu de covariàncies es defineix així:
CX= 1 n – 1X
TX= 1
n – 1
vT1v1 v1Tv2 · · · v1Tvj · · · vT1vm
... ... . .. ... . .. ... vTjv1 vjTv2 · · · vjTvj · · · vTjvm
... ... . .. ... . .. ... vmTv1 vTmv2 · · · vTmvj · · · vTmvm
∈ Mm×m(R)
Fixeu-vos que la matriu de covariàncies és una matriu quadrada de tantes files i columnes com columnes té la matriuX.
.
La matriu de covariànciesCX
CX= 1 n – 1X
TX= 1
n – 1
v1Tv1 vT1v2 · · · vT1vj · · · vT1vm
... ... . .. ... . .. ... vjTv1 vTjv2 · · · vTjvj · · · vTjvm
... ... . .. ... . .. ... vTmv1 vTmv2 · · · vmTvj · · · vTmvm
mesura el grau de relació lineal del conjunt de dades entre cada un dels parells de variables. Els termes de la diagonal principal corresponen a la variància de cadascuna de les variables:
σ2j = 1
n – 1vTjvj= 1 n – 1
Xn i=1
x2ij
Com que les nostres dades estan normalitzades, tots els termes de la diagonal principal són 1. El termes que no són de la diagonal principal representen la covariància entre cada parell de variables:
σ2jk= 1
n – 1vTjvk= 1 n – 1
Xn i=1
xijxik
En el nostre exemple, la matriu de covariàncies és
CX=
1.0000000 –0.1609042 0.8854496 0.8251793 –0.1609042 1.0000000 –0.3817905 –0.3578668
0.8854496 –0.3817905 1.0000000 0.9860398 0.8251793 –0.3578668 0.9860398 1.0000000
Es pot observar:
1) Els elements de la diagonal principal són tots igual a 1. Això és així perquè les nostres dades han estat normalitzades i, per tant, la variància de totes és 1.
2) La matriu de covariàncies és una matriu simètrica. Això succeeix perquè la covariància és simètrica, és a dir,
σ2jk=σ2kj.
3) Les variables 3 i 4, corresponents a la longitud i amplitud del pètal, estan altament relacionades, ja que la seva covariància és 0.9860398 (molt propera a 1). Les variables 1 i 3 —longitud del sèpal i del pètal, respectivament— també estan significativament relacionades, tot i que en menor proporció, ja que la seva covariància és 0.8854496.
4) Contràriament, les variables 1 i 2 —longitud i amplitud del sèpal, res- pectivament— no estan gaire relacionades. En efecte, la seva covariància és –0.1609042.
2.3. Diagonalització de la matriu de covariàncies
.
L’objectiu de l’anàlisi de components principals és trobar una transfor- mació (aplicació) lineal:
P∈ Mm×m(R)
tal que les dades originals recollides aXes transformin o es projectin en un nou espai mitjançant el producte:
T=XP∈ Mn×m(R)
de manera que la matriu de covariànciesCTde les noves dadesTsigui diagonal.
Vectors ortonormals
Diem que dos vectors pii pj són ortonormals si pTipj= 0 i, a més, pTipi= 1 i pTjpj= 1.
Com queCXés una matriu quadrada i simètrica de dimensió m×m, sabem pel mòdul “Aplicacions lineals, diagonalització i vectors propis” que existeixen m valors propisλireals i m vectors propis (ortonormals) pique formen una base a l’espai vectorial euclidiàRntal que
CX=PDPT,
en què
Sobre la matriu P Es pot demostrar fàcilment que la transposada de la matriu P és, alhora, la seva inversa. És a dir, PT= P–1. P=
p1 p2 · · · pm
D= diag (λ1,λ2,. . .,λm)
.
Donada la matriuXque conté les dades originals (normalitzades), les dades de la nova matriu transformadaTes calculen així:
T=XP∈ Mn×m(R),
en quèPés la matriu on les columnes són els vectors propis de la matriu de covariànciesCX.
2.4. La matriu de covariàncies de les dades transformades
Quina és la matriu de covariàncies de les dades transformades? Calculem-la:
CT= 1 n – 1T
TT= 1
n – 1P
TXTXP=PTCXP
=PTPDPTP=D= diag(λ1,. . .,λm)
Això significa que la matriu de covariàncies de les dades transformades és diagonal. Per tant, les noves variables estan incorrelacionades. És habitual or- denar els vectors propis en funció del valor propi associat, de major a menor.
És a dir, si els valors propis són:
λ1≥λ2≥ · · · ≥λm,
els vectors propis els ubicarem a la matriuPen aquest ordre:
p1,p2,. . .,pm.
Tornant a l’exemple del conjunt de dades Iris, els valors propis i els vectors propis de la matriu de covariànciesCXsón:
λ1= 2.941490992, pT1 =
0.5260194 –0.2616562 0.5786532 0.5656856
λ2= 0.891699528 pT2 =
–0.31992346 –0.94247968 –0.06660176 –0.07032238
λ3= 0.162361649 pT3 =
0.7635779 –0.2005818 –0.2275748 –0.5700223
λ4= 0.004447831 pT4 =
0.1946827 –0.0550912 –0.7803425 0.5917171
.
El vector propi associat al valor propi més gran s’anomena primera com- ponent principal. El vector propi associat al segon valor propi més gran s’anomena segona component principal. I així successivament.
2.4.1. Com hem d’interpretar, per exemple, la primera component principal?
Denotem les quatre variables que hem considerat en l’exemple de les flors com a u1,u2,u3i u4, en què
1) u1és la longitud del sèpal;
2) u2és l’amplada del sèpal;
3) u3és la longitud del pètal; i 4) u4és l’amplada del pètal.
Les components de la primera component principal p1indiquen que
p1= 0.5260194u1– 0.2616562u2+ 0.5786532u3+ 0.5656856u4.
En altres paraules, p1representa una nova variable, que és combinació lineal de les quatre variables originals. Fixeu-vos que en la definició d’aquesta nova
variable, no totes les variables originals tenen el mateix pes. En efecte, la varia- ble que té més pes és u3(longitud del pètal), seguida de la variable u4(amplada del pètal). Clarament, la que té menys influència en la primera component és la variable u2(amplada del sèpal).
Quin és el valor de la nova variable p1per al cas de la primera flor de la taula 3? Recordeu que les variables normalitzades en el cas de la primera flor són:
u1= –0.923772415 u2= 1.383518809 u3= –1.307336408 u4= –1.261519508
Per tant, per a la primera flor
p1= 0.5260194u1– 0.2616562u2+ 0.5786532u3+ 0.5656856u4= –2.3177306
Si fem el mateix amb les altres components principals, obtenim
p2= –0.8328099 p3= 0.03418822 p4= 0.017762021
.
En el cas general, les mesures en les noves variables s’obtenen de mul- tiplicar les dades originals de la matriuXper la matriuPde les compo- nents principals:
T=XP=
t11 t12 · · · t1j · · · t1m
... ... . .. ... ... ...
ti1 ti2 · · · tij · · · tim ... ... . .. ... ... ...
tn1 tn2 · · · tnj · · · tnm
∈ Mn×m(R)
Fixeu-vos que les matriusXiTtenen la mateixa dimensió.
La matriu T per a l’exemple de les flors seria:
T=
–2.31773055645763 –0.832809881637843 0.0341882231504618 0.0177620212434633 –2.02675817141067 0.722164171113012 0.174766954611649 0.0598152395437477 –2.34229080476915 0.206211215432147 –0.114116476558486 0.021856594229762 –2.25904377241743 0.53213302544293 –0.162490314930362 –0.0655943343449898 –2.46020386002701 –1.09254655308811 –0.116267982265906 –0.0218406874991054 0.900381739958164 –0.857289184578846 0.662337916991262 –0.0122754574068039 0.546195294147313 –0.639046440726892 0.0933763504900945 0.00785590242460743 1.05180934990985 –0.539843144155038 0.545260806182149 –0.0284082915673973 0.455578827059034 2.39217029459659 0.0720848822574889 0.0268371163600159 0.966077049158865 0.506218727354301 0.4210140657984 0.0581798257612053 1.54431815987357 –1.03634661634201 –0.924547274237649 0.0627325552563454 1.05260949959829 1.00735403635774 –0.462576054699356 –0.00141932059541922 1.96942554310489 –0.402777918923283 0.250593622580613 0.0489153084361122 1.27380657875815 0.222463831446303 –0.143227795787201 –0.202216367937914 1.64582512351377 –0.188055562291003 –0.330396923583155 0.0277998960963719
2.4.2. Quin és el pes de la primera component principal?
Per les característiques de la matriu de covariànciesCX —simètrica i definida positiva—, tots els valors propis són positius. A més, podem observar que en l’exemple de les flors
λ1+λ2+λ3+λ4= 4,
és a dir,
Traça d’una matriu
Recordeu que la traça d’una matriu quadrada, que denotem tr(A), és la suma dels elements de la diagonal principal.
Xm i=1
λi= tr(CX)
Ja hem vist que els elements de la diagonal principal de la matriu de covari- ànciesCX representen el valor de la variància de cadascuna de les variables originals. En el cas de les noves variables, els elements de la diagonal principal de la matriu de covariànciesCT—que són els valors propisλi— també repre- senten aquesta variància. Si el total de la variància, és a dir, la suma dels valors propis, és m, l’aportació de la primera component és
λ1
λ1+λ2+λ3+λ4×100%
Per al nostre exemple, la primera component principal és capaç de retenir un percentatge de variabilitat igual a:
λ1
λ1+λ2+λ3+λ4×100% = 2.941490992
4 ×100% = 73.53727480%
De la mateixa manera, la resta de les components principals són capaces de retenir el percentatge de variabilitat següent:
λ2
λ1+λ2+λ3+λ4×100% = 0.891699528
4 ×100% = 22.29248820%
λ3
λ1+λ2+λ3+λ4×100% = 0.162361649
4 ×100% = 4.059041225%
λ4
λ1+λ2+λ3+λ4×100% = 0.004447831
4 ×100% = 0.1111957750%
Variabilitat
Hem d’entendre la variabilitat com la quantitat
d’informació. Com més variabilitat hi ha, més informació tenim.
.
Cadascuna de les quatre variables originals u1,u2,u3 i u4 reté un 25%
de la variabilitat. En canvi, les noves variables p1,p2,p3i p4—les quatre components principals— retenen un 73.5%,22.3%,4.1% i 0.1%, respec- tivament. És a dir, calen tres variables originals per obtenir la mateixa quantitat d’informació que s’aconseguiria amb una única variable no- va, la primera component principal.
Taula 4. Variabilitat acumulada per les quatre variables originals i les quatre variables noves (components principals).
variables variabilitat acumulada
(variables originals) variabilitat acumulada (components principals)
1 25% 73.5%
2 50% 95.8%
3 75% 99.9%
4 100% 100%
Font: elaboració pròpia
Observem ara les figures 3 i 4, que contenen informació interessant:
1) Totes dues figures contenen la projecció de les quinze flors sobre les du- es primeres components principals. En aquest cas, el codi de colors és: setosa (vermell), versicolor (verd) i virginica (blau). El grup setosa (vermell) continua clarament diferenciat. Al mateix temps, la separació entre el grup de flors ver- sicolor (verd) i virginica (blau) ara és més clara.
2) La figura 4 conté, a més, la contribució de cadascuna de les quatre variables originals a les dues primeres components principals. Si mirem, per exemple, la primera component principal (la direcció horitzontal), les variables que més intervenen són la longitud del sèpal (Sepal.Length) i la longitud i amplitud del pètal (Petal.Length, Petal.Width). En el cas de la segona component prin- cipal (la direcció vertical), la variable que té més pes és l’amplitud del sèpal (Sepal.Width).
3) A la figura 4 també es pot veure com les fletxes que indiquen les direccions de les variables longitud i amplitud del pètal (Petal.Length, Petal.Width) estan pràcticament superposades. Recordem que, en aquest cas, la covariància entre aquestes dues variables és 0.9860398, que representa un valor molt proper a 1. És a dir, ja havíem dit que les variables 3 i 4 estan altament relacionades.
Figura 3
−1 0 1 2
−2 −1 0 1 2
PC1 (73.54%)
PC2 (22.29%)
Species setosa versicolor virginica
Font: elaboració pròpia
Figura 4
Sepal.Length
Sepal.Width
Petal.Length Petal.Width
−2
−1 0 1 2
−2 −1 0 1 2
PC1 (73.54%)
PC2 (22.29%)
Species setosa versicolor virginica
Font: elaboració pròpia
2.5. Reducció de la dimensió
A la taula 4 hem vist que, en l’exemple de les flors, amb dues components principals podem retenir el 95.8% de la variabilitat o la informació. Això sig- nifica que podem passar d’una mostra de quinze flors en què hem mesurat quatre variables diferents a una mostra de quinze flors en què només mesu- rem dues variables. Vegem-ho amb més detall en el cas general.
Si considerem totes les components principals, l’ortonormalitat de les compo- nents principals implica que
PPT =Im,
en quèImés la matriu identitat de dimensió m. Aleshores, la projecció:
T=XP
es pot invertir per recuperar les dades originals, a partir de les dades projecta- des:
X=TPT,
ja que
T=XP ⇔ TPT=XPPT ⇔ TPT=XIm ⇔ TPT =X.
No obstant això, un dels objectius de l’anàlisi de components principals és la reducció de la dimensió. Per això, considerem ara un nombre inferior de components principals,ℓ <m, és a dir, només considerem els vectors propis associats alsℓvalors propis més grans. Aleshores, si definim la matriu reduïda:
P = (pˆ 1|p2| · · · |pℓ)∈ Mm×ℓ(R)
la matriu de les projeccions es defineix així: Sobre la dimensió de ˆT T és una matriu que continuaˆ tenint tantes files com la matriu X original. De tota manera, el nombre de columnes de la matriu ˆT passa de tenir m columnes a tenir ℓ columnes.
T = X ˆˆ P∈ Mn×ℓ(R)
2.5.1. L’error residual
Nota
La matriu ˆP ja no és invertible. De fet, la matriu ˆP no és, ni tan sols, quadrada.
Una de les conseqüències d’haver reduït la dimensionalitat és que la matriu P ja no és invertible. Per tant, les dades originals contingudes a X no es po-ˆ den recuperar completament mitjançant la matriu ˆT. No obstant això, es pot invertir la projecció de la manera següent:
X = ˆˆ T ˆPT ∈ Mn×m(R)
per obtenir les dades originals amb pèrdua d’informació. La diferència entre les dades originals recollides a la matriu X i les dades originals amb pèrdua d’informació de la matriu ˆX s’anomena error residual i es representa amb la matriuE. En efecte:
E = X – ˆX∈ Mn×m(R)
2.6. Exemple d’aplicació: enquesta de pressupostos familiars
Dades completes
Les dades completes de l’enquesta de pressupostos familiars 2017 es poden obtenir en aquest enllaç de l’Institut Nacional d’Estadística:
https://www.ine.es/
jaxiT3/Tabla.htm?
t=25143&L=0.
Continuem amb l’exemple del subapartat 1.2., en el qual es presenten les da- des de l’enquesta de pressupostos familiars (EPF) per comunitats autònomes i les variables que es mesuren. Com que no hi ha informació de la variable En- senyament per a Ceuta i Melilla, eliminem aquestes dues ciutats autònomes de l’anàlisi. Volem veure si, gràcies a l’anàlisi de components principals, podem extreure alguna conclusió o destacar algun patró que hagi quedat ocult en la quantitat de dades.
R
Rés un entorn de programació lliure especialitzat en estadística i representació gràfica.
Amb l’ajuda del llenguatge de programació R, les dades han estat emmagatze- mades a la matriu INE, que conté disset files —una per comunitat autònoma—
i dotze columnes —una per variable. Procedim de la manera següent, tal com es pot veure a la figura 5:
1) Amb la instrucció prcomp, calculem l’anàlisi de components principals, que emmagatzemem a la variable ine.pca. És important afegir les opcions centre = TRUEi scale = TRUE per garantir que les dades han estat escala- des i centrades.
2) La primera component principal s’obté amb ine.pca$rotation[,1]. Es pot observar que la primera component és una combinació lineal de les dotze variables originals. En particular:
p1= 0.30u1+ 0.12u2+ 0.28u3+ 0.33u4+ 0.33u5+ 0.31u6
+ 0.18u7+ 0.25u8+ 0.31u9+ 0.30u10+ 0.33u11+ 0.33u12
Figura 5. Instruccions de R per al càlcul de les dues primeres components principals, així com els valors de les variables originals projectats sobre aquestes dues primeres components.
Font: elaboració pròpia
La primera component principal representa una nova variable on totes les va- riables originals sumen en més o menys proporció. En particular, les variables que tenen més pes són: la u4(habitatge, aigua, electricitat, gas i altres com- bustibles), la u5(mobles, articles de la llar i articles per al manteniment de la llar), la u11(restaurants i hotels) i la u12(altres béns i serveis). És especialment rellevant el poc pes que tenen les variables u2(begudes alcohòliques i tabac) i u7(transport). La variable u2serà, en canvi, la més important en la segona component principal, com es veurà a continuació. La variable u7 continuarà tenint poca influència. Com es pot veure a la figura 6, la informació o variabi- litat explicada per la primera component principal és del 65.1%.
3) Si projectem les dades originals de les disset comunitats autònomes sobre la primera component principal, que podem fer amb l’ordre ine.pca$x[,1], obtindrem els resultats que es poden veure a la figura 5. Si ordenem de grans a petits aquests valors, obtindrem una primera ordenació interessant, que es pot veure a la taula 5. Podríem dir que la primera component principal ha estat capaç d’ordenar les comunitats autònomes en funció de la renda.
4) La segona component principal s’obté amb ine.pca$rotation[,2]. Es pot observar que la segona component és també una combinació lineal de les dotze variables originals. En particular:
p2= –0.01u1– 0.72u2– 0.36u3+ 0.18u4– 0.14u5– 0.08u6
+ 0.08u7+ 0.45u8– 0.13u9+ 0.23u10– 0.02u11+ 0.15u12
Taula 5. Projecció de les dades originals sobre la primera component principal (de gran a petita)
Comunitat autònoma PC1
País Basc 4.3414574
Comunitat de Madrid 3.7092028
Navarra 3.6507548
Catalunya 2.4422616
Balears 1.8834382
Cantàbria 1.4096488
Aragó 0.5230432
La Rioja 0.2758919
Astúries 0.1936867
Castella i Lleó –0.6333325
Galícia –0.8830605
Múrcia –0.8849228
Comunitat Valenciana –0.8963849
Andalusia –1.5284356
Castella-la Manxa –4.0799862
Canàries –4.5577019
Extremadura –4.9655611
Font: Enquesta de pressupostos familiars 2017 (Institut Nacional d’Estadística)
En aquest cas, algunes de les variables originals sumen, mentre que d’altres resten, en la seva contribució a la nova variable que representa la segona com- ponent principal. Les variables amb més pes (en valor absolut) són: u2 (be- gudes alcohòliques i tabac), u8 (comunicacions) i u3 (vestit i calçat). També en aquesta segona component principal, el pes de la variable u7 (transport) és molt petit. Això significa que la variable que mesura les despeses en trans- port no marca una diferència entre les comunitats autònomes (podríem ob- tenir un resultat diferent si estudiéssim l’enquesta de pressupostos familiars per províncies i no per comunitats autònomes). Com es pot veure a la figura 6, la informació o variabilitat explicada per la segona component principal és del 9.83%. Per tant, la variabilitat explicada per les dues primeres components principals és del 74.93%.
5) Si projectem les dades originals de les disset comunitats autònomes sobre la segona component principal, que podem fer amb l’ordre ine.pca$x[,2], aconseguirem els resultats que es poden veure a la figura 5. Si ordenem de grans a petits aquests valors, obtindrem una segona ordenació interessant, que es pot veure a la taula 6. En aquest cas, però, és més difícil explicar de manera qualitativa quina és la interpretació d’aquesta segona variable.
6) A la figura 6 es pot veure la projecció de les dades originals de les disset comunitats autònomes sobre les dues primeres components principals, que són capaces de retenir quasi el 75% de la informació.
Taula 6. Projecció de les dades originals sobre la segona component principal (de gran a petita)
Comunitat autònoma PC2
Canàries 2.85476875
País Basc 1.29743154
Catalunya 1.14629871
Comunitat de Madrid 0.47571073
Extremadura 0.41923006
La Rioja 0.02383759
Balears –0.01118605
Cantàbria –0.01202456
Comunitat Valenciana –0.07641837
Castella i Lleó –0.13105989
Astúries –0.20352852
Aragó –0.42984445
Navarra –0.45566480
Castella-la Manxa –0.46300999
Galícia –1.32859163
Andalusia –1.38763977
Múrcia –1.71830933
Font: Enquesta de pressupostos familiars 2017 (Institut Nacional d’Estadística)
Figura 6. Projecció de les dades originals de les disset comunitats autònomes sobre les dues primeres components principals, que són capaces de retenir quasi el 75% de la informació.
1
2
3 4
5
7 6 8
9
10 11
12
13
14
15 16
17
−1 0 1 2 3
−5.0 −2.5 0.0 2.5
PC1 (65.1%)
PC2 (9.83%)
Font: elaboració pròpia