• No se han encontrado resultados

Componentes principales y dimensionalidad

N/A
N/A
Protected

Academic year: 2021

Share "Componentes principales y dimensionalidad"

Copied!
18
0
0

Texto completo

(1)

Componentes principales y dimensionalidad

Walter Sosa-Escudero

(2)

Dos problemas

Bienestar

19 dimensiones del bienestar en Argentina

Ingreso, educacion, tipo de trabajo, paga en cuotas, etc. Realmente el bienestar tiene 19 dimensiones?

En el otro extremo, existe una unica dimension y en realidad cada variable es una medicion distinta de esta dimension?

(3)

Examen

Cinco preguntas: 1) Conceptual, 2)Teorica, 3) Practica (conceptual), 4) Empirica

Estamos preguntando cinco veces lo mismo?

Las preguntas extraen informacion de distintas ‘dimensiones’ de lo evaluado?

(4)

Componentes Principales

x1, x2, . . . , xK, K vectores de variables, con n observaciones cada uno.

Objetivo: combinar linealmente las variables de modo de resumir las K variables en una sola. Indice.

Problema: cual es la ‘mejor’ combinacion lineal de x1, . . . , xK? Mejor? Maxima varianza. Lo hicimos en MCO! (en forma supervisada).

(5)

X = [x1, . . . , xK]n×K, Σ = V (X). δ ∈ <K.

Xδ una combinacion lineal, con V (Xδ) = δ0Σδ.

Problema: m´axδ δ0Σδ. Es obvio que la solucion pasa por llevar δ a infinito. Debemos normalizar δ.

Problema: m´axδ δ0Σδ, sujeto a δ0δ = 1. Llamemos δ∗ a la solucion a este problema.

Entonces Xδ∗ es la ‘mejor’ combinacion lineal de X. Es el

primer componente principal.

Metodo no supervisado: no hay ‘Y0 que nos guie, la estamos construyendo: Y = Xδ.

(6)

Un poquito de algebra

Am×m. Escalar λ tal que Ax = λx para un vector m × 1, x 6= 0 es un autovalor de A. x es un autovector de A correspondiente al autovalor λ.

Si λ es un autovalor de A, entonces |A − λI| = 0.

La ecuacion caracteristica |A − λI| = 0 es una ecuacion de grado m. Entonces, Am×m tiene m autovalores.

Am×m con autovalores λ1, λ2, . . . , λm, entonces: (a) tr(A) =Pm

i=1λi (b) |A| =Qm

(7)

Si Am×m tiene m autovalores diferentes, entonces los

autovectores asociados son todos linealmente independientes. Descomposicion espectral: A = P ΛP0, en donde

Λ = diag(λ1, . . . , λ2) y P es la matriz cuyas columnas son los autovectores correspondientes.

(8)

Solucion al problema de componente principal

Problema: m´ax δ δ 0 Σδ, sujeto a δ0δ = 1 Lagrange: L(δ, λ) = δ0Σδ + λ 1 − δ0δ Las CPO para un punto estacionario requieren

Σ δ = λ δ

(9)

Σδ = λδ

En el optimo, δ es el autovector correspondiente al autovalor λ de Σ. Premultiplicando por δ0:

δ0Σδ = λ

(porque?).

A fines de maximizar δ0Σδ debemos elegir λ igual al maximo autovalor de Σ y δ igual al autovalor correspondiente.

(10)

Resultado:la combinacion lineal normalizada Y = Xδ que tiene varianza maxima es aquella en donde δ es el autovector

correspondiente al mayor autovalor de Σ = V (X).

Y = Xδ optimo es el primer componente principal de X.

Intuicion:X tiene K columnas y Y = Xδ tiene una sola. El primer componente principal es la mejor forma de representar X usando una sola variable sola.

(11)

K componentes principales

Elprimer PC? Hay otros?

Consideremos el siguiente problema: m´ax δ2 δ02Σδ2 sujeto a: 1) δ20δ2= 1, 2) Cov(δ02X, δ ∗0 X) = 0 La solucion a este problema es elsegundo componente principal: la mejor combinacion lineal que es ortogonal a la mejor inicial.

Recursivamente, utilizando esta logica se pueden formar K componentes principales.

(12)

Sean λ1, . . . , λK los autovalores de Σ = V (X), ordenados de mayor a menor, y p1, . . . , pK los autovectores

correspondientes. Llamemos P a la matriz de autovectores. Resultado: δj = pj, j = 1, . . . K (coeficientes de los componentes principales = autovectores ordenados de Σ). Sea Yj = Xδj, j = 1, . . . K el j−esimo componente principal. Es facil ver que

V (Yj) = δ0jΣδj = p0jP ΛP 0p

j = λj

(la varianza del j− esimo componente principal es el j− esimo autovalor ordenado de Σ).

(13)

Importancia relativa de los CP’s

Definicion: la varianza totalde X es la suma de las varianzas de xj, j = 1, . . . , K, o sea tr Σ. Es facil mostrar que

tr Σ = tr P ΛP0 = tr ΛP P0 = K X j=1 λj = K X j=1 V (yj) Entonces: λk PK j=1λj

(14)

Resultados Utiles

Sean yj = Xδj, j = 1, . . . , K los componentes principales de X, cuya varianza es Σ. Entonces:

ρyi,xk = δki

s λi σkk

Intuicion:los coeficientes de las combinaciones lineales optimas (componentes principales) se relacionan con la correlacion entre cada variable y el componente principal.

(15)

PC para Variables Estandarizadas

Estandarizacion: zj = xj − µj σjj En terminos matriciales: Z = (V1/2)−1(X − µ) con V ≡ diag √σ11· · · √ σKK  Entonces: V (Z) = (V1/2)−1Σ (V1/2)−1 = ρ En donde ρ es lamatriz de correlaciones.

(16)

Denotemos con y∗i a los componentes principales de las variables estandarizadas Z. Es facil verificar: K X i=1 V (yi∗) = K X i=1 V (zi) = K

de modo que λk/K mide la proporcion de la varianza total explicada por el k-esimo componente principal.

Ademas:

ρy∗,z k = δki

p λi

(17)

Tips

Mirar la importancia de los primeros componentes principales. Si el primero explica mucho, hay realmente una dimension sola (una dimension explica casi todo).

Los coeficientes de los autovalores son ponderadores. Ver como cada una de las variables ‘participa’ en cada coeficiente principal.

Regla: solo importan los autovalores mayores a uno. Cuidado con las diferencias de escala!

(18)

Lecturas

Johnson y Vichern, Applied Multivariate Statistical Analysis. Hardle y Simar, Applied Multivariate Statistical Analysis. Everitt, An R and Splus companiont to Multivariate Analysis Ferro Luzzi, Fluckiger, Weber (2006) A Cluster Analysis of Multidimensional Poverty in Switzerland.

Referencias

Documento similar

La cantidad de agua presente en la Tierra es más que suficiente para el abastecimiento de toda la humanidad sin embargo este recurso cuenta con unas características que lo hacen

Contiene todos los componentes que podrían reutilizarse desde cualquier punto de la aplicación, en nuestro caso esta el componente de la modal desde donde se

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

Componente princi_pa,: CAE.CITA Componentes secundario: CUARZO Y en menor rroporci6n-..

Para esta proyecto se han desarrollado todos los subsistemas de la arquitectura mediante componente Java Beans y se ha intentado dar a cada uno de los componentes una

Cabe señalar también que el relato testimonial presenta una forma de constitución de la subjetividad y de la identidad, como ha señalado Ricoeur en cuanto al relato 8 ,

De forma más concreta se podría definir un extintor como un aparato autónomo, diseñado como un cilindro, que puede ser desplazado por una sola persona y que usando un mecanismo

Mejora de los sistemas de estimación de densidades de poblaciones de fauna silvestre, refuerzo de la vigilancia pasiva en fauna silvestre, medidas de gestión sanitaria de la