3.5 An´ alisis de objetos at´ıpicos en SDSS
3.5.1 Identificaci´ on de grupos en la red SOM mediante cruce con
El estudio de espectros e im´agenes, as´ı como de otras propiedades en el cat´alogo de estudio, en este caso SDSS, resulta de gran utilidad a la hora de identificar los grupos formados por la red SOM. Sin embargo, tambi´en es posible recurrir a informaci´on
Miner´ıa de objetos at´ıpicos 94
externa. Tal informaci´on puede consistir en espectros de mejor calidad, espectros en otro rango electromagn´etico, clasificaciones de los objetos, etc. Con el objetivo de identificar los grupos de espectros at´ıpicos en la red SOM, se han seguido varias estrategias. En primer lugar, se han cruzado los espectros BP/RP simulados para Gaia con los grupos de espectros at´ıpicos, ya que el conjunto de simulaciones incluye una amplia variedad de clases espectrales, algunas de las cuales no se contemplan en el cat´alogo SDSS. El cruce se realiza mediante un proceso de minimizaci´on de distancia eucl´ıdea entre el prototipo del grupo de espectros at´ıpicos y los espectros simulados. Dicho proceso es similar a un clasificador por k vecinos m´as cercanos (k-nearest neighbors, KNN), en el lenguaje del aprendizaje m´aquina. La figura 3.24 muestra el resultado de la identificaci´on realizada con el m´etodo del vecino m´as cercano. Teniendo en cuenta que estamos intentado clasificar objetos at´ıpicos, las clasificaciones obtenidas no son fiables y han de interpretarse como informaci´on de referencia. No obstante, podemos analizar la bondad del ajuste entre el objeto a clasificar y su plantilla m´as cercana. La figura
3.24 muestra tambi´en las identificaciones filtradas mediante el m´etodo del corte por percentiles sobre la m´axima distancia. Puede observarse que se oscurecen las mismas zonas cuando se aplican los percentiles, con respecto a lo obtenido en el caso de la matriz U. Esto confirma la separaci´on entre objetos astrof´ısicos y observaciones err´oneas que se hab´ıa obtenido en la secci´on anterior.
La segunda estrategia de cruce con cat´alogos externos implementada en este estudio se basa en el emparejamiento de las posiciones de los astros en el cielo. Para ello, se mide la distancia angular entre las coordenadas (ascensi´on recta, declinaci´on) de dos objetos dados y se establece un radio, dentro del cual se considera que se trata del mismo objeto. En este caso, se han cruzado los objetos con espectros at´ıpicos en SDSS con los objetos del cat´alogo llamado Simbad, con un radio de un segundo de arco. Simbad es un cat´alogo astron´omico general que incluye clasificaciones obtenidas para un gran n´umero de objetos mediante distintos m´etodos, v´ease [69]. De los 10000 objetos con espectros at´ıpicos, se han encontrado m´as de 2000 objetos clasificados en Simbad, con coordenadas dentro del radio de emparejamiento. En las 2000 etiquetas recuperadas se encuentran las clases: AGN, Seyfert1, Seyfert2, Bl-Lac, galaxy, QSO, fuentes de radio (en general), white dwarf, brown dwarf, y low-mass. Por simplicidad, las clases AGN, Seyfert1, Seyfert2 y Bl-Lac se han agrupado bajo la etiqueta AGN, que representa cualquier tipo de objeto extragal´actico activo que no sea un qu´asar. El resumen de tipos de etiquetas entre las recuperadas de Simbad se muestra en la tabla 3.8, mientras que la figura 3.25 muestra la distribuci´on de las etiquetas en el mapa SOM. Como puede observarse, las distintas clases de objetos caen en zonas significativamente separadas del mapa. Cabe destacar que tanto las enanas blancas, como los qu´asares y las enanas marrones ocupan las posiciones similares a las que ocupan en la identificaci´on por medio
Miner´ıa de objetos at´ıpicos 95
(a) Precentil 100 (b) Percentil 80
(c) Percentil 60 (d) Percentil 40
Figura 3.24: Identificaciones obtenidas mediante el cruce con espectros BP/RP simulados para Gaia. Se aplican varios percentiles para filtrar las clasificaciones no
fiables.
de espectros simulados, v´ease la figura 3.24, lo cual incrementa nuestra confianza en el m´etodo. La figura 3.26(a) proporciona una vista m´as compacta de la distribuci´on de etiquetas en el mapa. Dicha figura se ha obtenido de forma similar a la figura
3.11(a), s´olo que en este caso no se ha tenido en cuenta la clase UNKNOWN para obtener la clase m´as frecuente, de forma que un grupo s´olo recibe la clase UNKNOWN si no contiene ning´un objeto etiquetado en Simbad. Adem´as, algunos grupos reciben la etiqueta UNDEFINED, que se asigna cuando en un grupo existe una frecuencia similar entre dos o m´as clases (la clase ganadora debe ser un 10% m´as frecuente que la segunda). Por otro lado, la figura3.26(b)muestra la pureza de los grupos en funci´on de las etiquetas contenidas por los mismos. Se confirma de nuevo la hip´otesis de que la regi´on superior izquierda est´a compuesta por observaciones err´oneas, ya que casi en ning´un grupo de dicha regi´on de encuentran objetos identificados en Simbad.
A trav´es de las etiquetas recuperadas de Simbad, tambi´en es posible confeccionar una matriz de confusi´on, como la mostrada en la tabla3.9. Puede observarse que, a pesar de la incertidumbre inducida por el m´etodo de cruce por emparejamiento de coordenadas y
Miner´ıa de objetos at´ıpicos 96
Tabla 3.8: N´umero de objetos por cada tipo de etiqueta entre las recuperadas de Simbad. La etiqueta UNKNOWN se refiere a objetos para los cuales no se ha encontrado
correspondencia.
Tipo de etiqueta N´umero de objetos
AGN 438 GALAXY 221 QSO 988 RADIO 183 WD* 297 BROWND* 27 LOW-MASS* 73 UNKNOWN 7898
(a) AGN (b) GALAXY (c) QSO
(d) RADIO (e) WD* (f) BROWND*
(g) LOW-MASS* (h) UNKNOWN
Figura 3.25: N´umero de impactos por cada una de las clases entre las etiquetas recuperadas de Simbad.
Miner´ıa de objetos at´ıpicos 97
(a) Clase m´as frecuente (b) Pureza. Un color verde indica un grupo sin etiquetas
Figura 3.26: Identificaci´on de los grupos de la red SOM calculada mediante las etiquetas recuperadas de Simbad.
Tabla 3.9: Matriz de confusi´on obtenida mediante la distribuci´on de etiquetas recuperadas de Simbad sobre la red SOM entrenada con espectros at´ıpicos de SDSS.
AGN Galaxy QSO Radio UNKNOWN WD* brownD* low-mass* UNDEFINED AGN 60,05 1,14 10,5 2,97 0 9,82 0 0,46 15,07 Galaxy 4,52 47,96 18,55 2,26 0 1,36 0 0 25,34 QSO 4,55 1,01 79,05 1,32 0 3,95 0,1 0,2 9,82 Radio 4,37 1,09 7,65 58,47 0 0 0 0 28,42 UNKNOWN 6,75 8,88 17,61 7,42 32,53 7,9 0,22 6,05 12,65 WD* 2,69 0,34 4,71 0 0 85,86 0 0 6,4 brownD* 0 0 0 0 0 0 81,48 0 18,52 low-mass* 0 0 1,37 2,74 0 0 4,11 76,71 15,07
por el proceso de clasificaci´on por el que se obtuvieron las etiquetas, la clasificaci´on no supervisada resulta considerablemente efectiva. Adem´as, de la tabla pueden extraerse las posibilidades de descubrimiento de objetos novedosos entre los que a´un est´an por clasificar, observando la fila de objetos con clase UNKNOWN. Puede observarse que, de los 8000 objetos sin etiqueta en Simbad, 624 son candidatos a convertirse en nuevas enanas blancas, 1674 son candidatos a ser nuevos qu´asares y as´ı sucesivamente.
Todo el an´alisis descrito en esta secci´on se ha repetido con los espectros en su formato original de SDSS. Como conclusi´on, se ha determinado que la calidad de los mapas obtenidos no mejoran con respecto a los que se entrenan con espectros en formato BP/RP. Esto se debe, por un lado, a la robustez de las redes SOM al ruido y, por otro lado, a la baja se˜nal a ruido de los espectros at´ıpicos de SDSS, cuya magnitud se mueve alrededor del valor 19, de forma que la baja resoluci´on del espectro BP/RP se ve compensada con un mejor SNR.
Miner´ıa de objetos at´ıpicos 98
Tabla 3.10: Matriz de confusi´on obtenida mediante el agrupamiento conjunto de espectros at´ıpicos de SDSS.
AGN Galaxy QSO Radio UNKNOWN WD brownD low-mass UNDEFINED AGN 66,1 0 1,69 3,39 22,03 1,69 0 0 5,08 Galaxy 0 0 0 0 66,67 0 0 0 33,33 QSO 7,27 0 54,55 0 27,27 0 0 0 10,91 Radio 0 0 0 46,15 38,46 0 0 0 15,38 UNKNOWN 1,75 0 0,48 0,16 94,13 0,79 0,32 0 2,38 WD 0 0 0 0 77,03 14,86 0 0 8,11 brownD 0 0 0 0 36 0 64 0 0 low-mass 0 0 0 0 84,62 0 15,38 0 0 Num. objetos 59 6 55 13 630 74 25 13 0