Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados
Abstract
para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Como não é possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e mergers. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias {\it mergers}, as melhores predições foram provenientes das abordagens de superamostragem e mudança de corte. Para o caso de galáxias regulares, levar o desbalanceamento em consideração não foi tão importante, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de mergers.
Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas através da inclusão de novas estatísticas resumo com base nas imagens, ou através de banco de dados maiores.
Keywords
Full Text:
PDF (Português (Brasil))References
Conselice, Christopher J.: The relationship between stellar light distributi-
ons of galaxies and their formation histories. In: The Astrophysical Journal
Supplement Series 147 (2003), Nr. 1, S. 1
Efron, B.: The jackknife, the bootstrap and other resampling plans. Bd. 38.
SIAM, 1982
Freeman, PE ; Izbicki, R ; Lee, AB ; Newman, JA ; Conselice, CJ ;
Koekemoer, AM ; Lotz, JM ; Mozena, M: New image statistics for detecting
disturbed galaxy morphologies at high redshift. In: Monthly Notices of the
Royal Astronomical Society 434 (2013), S. 282–295
Friedman, Jerome ; Hastie, Trevor ; Tibshirani, Robert: The elements of
statistical learning. Bd. 1. Springer series in statistics Springer, Berlin, 2001
Gil, Vanessa O. ; Ferrari, Fabricio ; Emmendorfer, Leonardo: Investigação
da aplicação de algoritmos de agrupamento para o problema astrofísico de
classificação de galáxias. In: Revista Brasileira de Computação Aplicada 7
(2015), Nr. 2, S. 52–61
Izbicki, R. ; Stern, R. B.: Learning with many experts: model selection and
sparsity. In: Statistical Analysis and Data Mining 6 (2013), Nr. 6, S. 565–577
James, Gareth ; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert:
An introduction to statistical learning. Springer, 2013
Koekemoer, Anton M. ; Faber, SM ; Ferguson, Henry C. ; Grogin, Nor-
man A. ; Kocevski, Dale D. ; Koo, David C. ; Lai, Kamson ; Lotz, Jen-
nifer M. ; Lucas, Ray A. ; McGrath, Elizabeth J. u. a.: CANDELS: The
Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey – The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. In: The Astrophysical Journal Supplement Series 197 (2011), Nr. 2, S. 36
Kotsiantis, S. ; Kanellopoulos, D. ; Pintelas, P.: Handling imbalan-
ced datasets: A review. In: GESTS International Transactions on Computer
Science and Engineering 30 (2006), Nr. 1, S. 25–36
Lotz, Jennifer M. ; Primack, Joel ; Madau, Piero: A new nonparametric
approach to galaxy morphological classification. In: The Astronomical Journal
(2004), Nr. 1, S. 163
R Core Team: R: A Language and Environment for Statistical Com-
puting. Vienna, Austria: R Foundation for Statistical Computing, 2016.
https://www.R-project.org/
Sun, Y. ; Wong, A. K. C. ; Kamel, M. S.: Classification of imbalanced
data: A review. In: International Journal of Pattern Recognition and Artificial
Intelligence 23 (2009), Nr. 04, S. 687–719
Visa, S. ; Ralescu, A.: Issues in mining imbalanced data sets-a review
paper. In: Proceedings of the sixteen midwest artificial intelligence and cognitive science conference Bd. 2005 sn, 2005, S. 67–73
DOI: https://doi.org/10.5540/tema.2017.018.01.0155
Article Metrics
Metrics powered by PLOS ALM
Refbacks
- There are currently no refbacks.
Trends in Computational and Applied Mathematics
A publication of the Brazilian Society of Applied and Computational Mathematics (SBMAC)
Indexed in: