• No se han encontrado resultados

1- Preguntes breus (resposta correcta del apartat són 0.5 punts. Total de punts, 5 sobre 10).

N/A
N/A
Protected

Academic year: 2021

Share "1- Preguntes breus (resposta correcta del apartat són 0.5 punts. Total de punts, 5 sobre 10)."

Copied!
7
0
0

Texto completo

(1)

UPF, Anàlisi Multivariant, Examen Final,

11 de desembre de 2012, De 15.00 a 17.00,Aula

40.152

Professor: Albert Satorra

Instruccions: Aquest examen consta de tres apartats.

El primer són 10 preguntes breus sobre temes diversos. El

segon i el tercer són dos exercicis. Sigueu concisos en

la resposta.

1- Preguntes breus (resposta correcta del apartat

són 0.5 punts. Total de punts, 5 sobre 10).

Feu un comentari breu (de màxim 4 ratlles de text) dels següents punts. Alerta que en alguns dels punts hi han afirmacions errònies. 1− En una anàlisi de Components Principals, la suma dels valors

propis és sempre igual al nombre de variables implicades en l’anàlisi.

2- Els valors propis d’una matriu de correlacions sempre són més petits o igual que 1.

3- En una análisi de components principals normat, totes les components principals tenen variància igual a 1 de manera que no cal estandarditzarles.

4- Suposeu tres variables incorrelaciondes (totes les correlacions són zero) X1, X2 i X3. Suposeu que X2 té variància doble de les altres dues que tenen la mateixa variància. En aquest cas, X2 coincideix amb la primera component principal.

5- En una Anàlisi de Coordenades Principals (MDS mètric) on no hi ha cap valor propi negatiu, no cal fer una anàlisi MDS no-mètrica.

6- Suposeu la matriu A següent A=

[,1] [,2] [1,] 4 1 [2,] 1 4

Els valors i vector propis d’aquesta matriu són > eigen(A) $values [1] 5 3 $vectors [,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068

Considereu l’arrel quadrada B de la matriu A (producte de matrius); és a dir, BB = A. La matriu B és

eigen(A)$vectors %*%diag(eigen(A)$values)%*% t( eigen(A)$vectors) 7- En el biplot de les variables, les coordenades dels punts del

gràfic són les dues primeres components principals sense estandarditzar. En el biplot dels individus, les coordenades

(2)

dels punts del gràfic són les dues components principals estandarditzades.

8- Un economista mostra el següent gràfic, que diu és la grepresentació dels individus en les dues primeres components principals. Comenta’l

9- Suposem X és una matriu de dades i Y és la corresponent matriu de components principals. Aleshores, la suma de tots els elements de la matriu Y és igual a zero.

10- Suposeu X és una matriu de dades. Aleshores la matriu de variàncies i covariances de les dades estandarditzades scale(X) és la matriu de correlacions de X.

Exercici 1 (2.5 punts /10)

En un congres de cata de vins, es considera una matriu de dades X de dimensions 178 per 5 (les variables V7,V8,V9,V10, V13 de la matriu de dades inicial). La matriu X correspon a 5 atributs (de percepció) observats en 178 vins diferents. A fi i efecte d’investigar aquests vins, fem una anàlisi de components principals. Les instruccions en programari R amb els corresponents resultats són les següents: Lectura de dades: d = read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", sep=",") Component Principal 1 C omp on en t Pri nci pa l 2

(3)

> lambda=eigen(cov(scale(X)))$values > V=eigen(cov(scale(X)))$vectors *> round(lambda,2) [1] 3.44 0.67 0.48 0.29 0.11 **> round(V[,1:3],2) [,1] [,2] [,3] [1,] -0.48 -0.22 0.24 [2,] -0.51 -0.10 0.19 [3,] 0.36 -0.87 0.31 [4,] -0.41 -0.43 -0.77 [5,] -0.46 0.04 0.46

Valors estandarditzats dels primers 3 vins **> round(head(scale(X)),2) V7 V8 V9 V10 V13 [1,] 0.81 1.03 -0.66 1.22 1.84 [2,] 0.57 0.73 -0.82 -0.54 1.11 [3,] 0.81 1.21 -0.50 2.13 0.79 ----**+ biplot(princomp(scale(X)), cex=c(0.6,1)) Es demana: -0.2 -0.1 0.0 0.1 0.2 -0 .2 -0 .1 0.0 0.1 0.2 Comp.1 C omp .2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 8182 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 -10 -5 0 5 10 -1 0 -5 0 5 10 V7 V8 V9 V10 V13

(4)

1. Percentatge de variació explicada per cada una de les dues primeres components principals.

2. Equació que expressa la primera component principal en funció dels valors estandarditzats de les variables

3. Puntuació del vi 3 en la primera component principal. Els valors estandarditzats del vi 3 en les 5 variables són els es mostren en (-***)

4. Mirant el biplot, quines són les variables que defineixen la primera component principal?. En el biplot que presentem, la representació dels individus s’ha efectuat emprant les components principals estandarditzades?

5. Calculem les distancies de Manhattan (Eixample) entre els tres primers vins, i obtenim els següents valors emprant la funció dist de R

dist(scale(X)[1:3,], method="manhattan", diag=T, upper=T, p=1) 1 2 3

1 0.00 xxx 2.31 2 xxx 0.00 4.04 3 2.31 4.04 0.00

Malhauradament, la distància corresponent als vins 2 i 3 l’hem perduda (en la matriu és el xxx). Calculeu aquesta número xxx que falta. Empreu els valors de les dades estandarditzades que es mostren en **>

Exercici 2 (2.5 punts /10)

En relació a la matriu de dades X de l’exercici anterior, efectuem una anàlisi d’agrupaments, i obtenim els següents resultats emprant les funcions dist i també la funció hclust.

plot(hclust(dist(scale(X), method="minkowski", diag=T, upper=T, p=5), method="average"), cex=0.6

(5)

Es demana

1. Descriu el mètode emprat en aquesta anàlisi d’agrupaments. Comenta sobre el tipus de distància així com el tipus de criteri de distància entre grups.

2. Podem dir que hi ha dos tipus de vins? Quins són els més atípics en el primer i en el segon tipus?

3. Continuem l’ anàlisi d’agrupaments, i definim la variable cluster cluster = cutree(hc,2) Fem > table(cluster) cluster 1 2 110 68

i veiem que tenim la classificació en el cluster 1: 110 vins, i en cluster 2: 68 vins.

Ens asomen que la base dades conté la variable V1 que classifica els vins en tres grups:

> table(V1) V1 1 2 3 122 111 51 15 125 14 100 79 96 70 75 95 64 59 99 4 53 1 85 52 82 22 947 30 43 36 20 55 32 72 56 74 10 21 40 45 47 57 48 11 67 41 506 19 31 49 3 110 18 127 554 26 8029 121 91712444 13 98 37 16 58 66 123109 33 129 68 24 23 25 27 126 246 8 10388 90105 117 107 118 120 77 28 112 38 39 81 86 35 42 12 101 34 115 116 128 104 114 87 89 83 130 154 113 84 93 92 91 108169 173 146 176 149 167 175 166 157 155 177 137 172 147 171 165 164 168 119 65 78 141 143 144 174 148 162 156 135 178136 138 158 139 163 62 161 61 69 140 76 170 102 63 73 60 142 132 133 151 152 131 134 150 71 145 97 153 106 159 160 0.0 0.5 1.0 1.5 2.0 2.5

Cluster Dendrogram

hclust (*, "average")

dist(scale(X), method = "minkowski", diag = T, upper = T, p = 5)

(6)

59 71 48

Aquesta classificació segons V1 la veiem en el gràfic de vins en les dues primeres components principals.

plot(princomp(scale(X))$scores[,1:2], col=V1, xlim=c(mi,ma),ylim=c(mi,ma), cex=0.5, main="Vins en les dues primeres CP (nombre indica group segons V1)", type ="n", axes=F) axis(1); axis(2)

text(princomp(scale(X))$scores[,1:2], as.character(V1), cex=0.8, col=V1 )

abline(v=0, lty=3, col="blue"); abline(h=0, lty=3, col="blue")

Creuant la classificació de V1 i la nova de cluster, obtenim la taula següent:

> table(cluster, V1)

Vins en les dues primeres CP (nombre indica group segons V1)

Comp.1 C omp .2 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

(7)

Atenent al gràfic i a la taula de classificació, comenteu la relació entre les dues classificacions dels vins, la antiga de V1 i la nova de cluster.

4. Comenteu breument quin paper podria jugar en aquest context de problema l’anàlisi discriminant.

Referencias

Documento similar

Que en la reumon de la Comisión de Gestión Interna, Delegada del Consejo Social, celebrada el día 17 de marzo de 2011 , con quórum bastante para deliberar y

scheme with correction has been proven as accurate as the second order scheme, a double simulation with the standard anisotropic model with

The idea of associating a vector bundle on the complex projective plane P 2 C to the three ltrations which form a mixed Hodge structure has a a dou- ble origin: Simpson's

Lo más característico es la aparición de feldespatos alcalinos y alcalino térreos de tamaño centimétrico y cristales alotriomorfos de cuarzo, a menudo en agregados policristalinos,

La Federación de Gremios de Editores de España realiza anualmente el informe de Comercio Interior del Libro de las empresas editoriales privadas y agremiadas en España y que en

the sequence represented by levels 2-5 probably belongs to a local Iron IA-B horizon with the diagnostic painted pottery and provides evidence of continuity of

Las personas solicitantes deberán incluir en la solicitud a un investigador tutor, que deberá formar parte de un grupo de investigación. Se entiende por investigador tutor la

A) Preguntes sobre la comprensió del text: 6 punts Pregunta I: dos preguntes de comprensió global. Per a cada pregunta es valorarà la comprensió amb un màxim de 0,5 punts i