Modelos de aprendizaje no supervisado m´as utilizados

2.2. Aprendizaje No Supervisado

2.2.1. Modelos de aprendizaje no supervisado m´as utilizados

Dentro de las técnicas de aprendizaje automático no supervisado se destacan los méto- dos declustering(agrupamiento) y de análisis de componentes principales (PCA por sus siglas en inglés).

K-means:

El algoritmo k-means es una de las t´ecnicas de agrupamiento m´as simples. Dado un conjunto de m datos de entradax~i pertenecientes al espacio de features F con

i= 1, .., mel algoritmo consiste en:

1. Elijo aleatoriamentekcentrosc_{∈ F}.

2. Dada una medida de distancia2 _en_F_{, asigno cada observaci´on al grupo m´as} cercano.

3. Actualizo el valor de los centros como el promedio de las observaciones que pertenecen a cada grupo.

4. Itero entre el paso 2 y 3 hasta que las asignaciones no cambien o se cumpla un criterio de convergencia.

Si no se conoce a priori el n´umero de grupos que mejor se adaptan al problema, es necesario iterar en la cantidad de centros a ajustar.

Mixtura de Gaussianas:

La mixtura de Gaussianas es un algoritmo similar alk-meanspero que busca asignar cada observaci´on a una gaussiana multi-dimensional. Dado un conjunto demdatos de entradax~i ∈ <nconi= 1, .., mel algoritmo consiste en:

1. Elijo aleatoriamente los par´ametros dekGaussianas n-dimensionales (es de- cir, los centros, y las matrices de covarianza).

2. Estimo la probabilidad de que cada observación pertenezca a cada gaussiana y asigno dicha observación a la gaussiana más probable.

2_Si

2.2. Aprendizaje No Supervisado. 59

3. Actualizo los par´ametros de cada gaussiana teniendo en cuenta las observaciones asignadas a la misma.

4. Itero entre el paso 2 y 3 hasta que las asignaciones no var´ıen o se alcance un criterio de convergencia.

Al igual que en el caso del algoritmok-means, si uno no conoce a priori el n´umero de gaussianas, se debe explorar distintos valores de este par´ametro para encontrar el mejor ajuste a nuestros datos de entrada.

Análisis de Componentes Principales (PCA por sus siglas en inglés): El método de análisis de componentes principales es una técnica estad´ıstica que permite reducir la dimensionalidad de una conjunto de datos a través del análisis de las correlaciones entre las diferentes variables. Esta técnica nos permite encontrar la mejor forma de representarnobservacionesx_{∈ <}p_{como combinación lineal de}_q _≤_p_{vectores en}

<p_.

Para estudiar las correlaciones entre las diferentes variables, construimos la matriz de covarianza definida por:

Ci,j = n X k=1 (xi,k −x¯i)(xj,k −x¯j) n (2.18) donde x¯i = Pn_k₌₁ xi,k

n . De la definici´on sigue que la matriz de covarianza es una matriz sim´etrica, que en la diagonal tiene las varianzas de cada variable y afuera de la diagonal tiene las covarianzas entre las diferentes variables.

Estudiando los autovalores de dicha matriz, podemos encontrar las direcciones de mayor correlación. Para encontrar dichos autovalores es necesario determinar las ra´ıces del polinomio caracter´ıstico de grado_≤pdefinido pordet(Ci,j−λ.I). Supo- niendo que tenemospra´ıces reales, podremos encontrarpautovectores que definen una nueva base en la cuál la matriz de covarianza resulta diagonal y cuyos elemen- tos son los autovalores correspondientes a cada autovector. Matemáticamente esto puede expresarse de la siguiente manera:

dondeP = (α1α2. . . αn)yαies el autovector correspondiente al autovalorλipues- to en columna y D es la matriz de covarianza en la base de autovectores que resulta diagonal.

En la figura2.10se puede ver un ejemplo de un análisis de componentes principales bidimensional, en donde se puede observar que la dirección de la primera compo- nente es la de mayor correlación en los datos. Es importante notar que el cambio de base definido por la matrizP corresponde a una rotación.

Figura 2.10: Esquema de un análisis de componentes principales bidimensional. Intuitivamente se puede ver en el ejemplo graficado en la figura2.10que el conjunto de datos puede ser representado solo por la coordenada correspondiente a la com- ponente principal1sin perder mucha información debido a que la mayor parte de la correlación de los datos es justamente la correlación en dicha dirección. Es por esto que una de las aplicaciones más importantes de esta técnica consiste en reducir la dimensionalidad de problemas multi-dimensionales.

En la figura2.11podemos ver un ejemplo en el cual se muestra la reconstrucción de la imagen de una cara como función de las componentes utilizadas para su represen- tación. Puede verse que, mientras menos componentes utilicemos perdemos mayor

2.2. Aprendizaje No Supervisado. 61

información, sin embargo la información que se gana al incorporar componentes de menor correlación (ver las reconstrucciones de las últimas 2 filas de la figura

2.11) no es mucha, por lo que ignorar dichas componentes en la representaci´on de la imagen no conducir´a a grandes errores.

Figura 2.11: Ejemplo de un algoritmo de reconstrucción facial al variar el núme- ro de componentes principales utilizado para la reconstrucción. Figura extra´ıda de http://www.declanoller.com/tag/pca/

Bibliograf´ıa

[1] Leo Breiman. Random forests.Machine Learning, 45(1):5–32, Oct 2001. ISSN 1573- 0565. doi: 10.1023/A:1010933404324. URLhttps://doi.org/10.1023/A: 1010933404324.

[2] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical

Learning. Springer Series in Statistics. Springer New York Inc., New York, NY, USA,

2001.

[3] Thomas M. Mitchell. Machine Learning. McGraw-Hill, Inc., New York, NY, USA, 1 edition, 1997. ISBN 0070428077, 9780070428072.

[4] Kevin P. Murphy. Machine Learning: A Probabilistic Perspective. The MIT Press, 2012. ISBN 0262018020, 9780262018029.

Cap´ıtulo 3

Construcción de un catálogo de c úmulos

en interacci´on a partir de t´ecnicas de

aprendizaje autom´atico.

A manera de introducción, en la primera parte de este cap´ıtulo se presentará un breve resumen de los principales trabajos sobre el estudio de cúmulos de galaxias en proceso de interacción y su importancia en la cosmolog´ıa actual. En la segunda parte de este capitulo, se presentará el trabajo realizado en el marco de este doctorado, con el objetivo de cons- truir un catálogo de cúmulos de galaxias en proceso de interacción a partir de catálogos fotométricos y espectroscópicos de galaxias. Los resultados presentados en este cap´ıtulo fueron publicados en el bolet´ın número57de la asociación Argentina de Astronom´ıa en el año2015 [22] y en la revista Monthly Notices of the Royal Astronomical Societyen el año2016[23].

Este trabajo fue realizado en colaboraci´on con el Dr. Mariano Dominguez, el Dr. Dante Paz y el Dr. Manuel Merch´an.

3.1. Los c ´umulos en interacci´on y su importancia en la

In document Métodos de aprendizaje automático aplicados a problemas cosmológicos (página 88-96)